Paper • 1908.10084 • Published • 15
SentenceTransformer based on ltg/norbert4-large
This is a sentence-transformers model finetuned from ltg/norbert4-large on the nli, group-b-qa and ddsc datasets. It maps sentences & paragraphs to a 960-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: ltg/norbert4-large
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 960 dimensions
- Similarity Function: Cosine Similarity
- Training Datasets:
- Languages: no, da, sv
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'GptBertModel'})
(1): Pooling({'word_embedding_dimension': 960, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("larsksy/norbert4-large-scandinavian-embedding")
# Run inference
queries = [
"Hvordan kan maskinl\u00e6ring brukes til \u00e5 detektere kreft tidlig via medisinske bilder?",
]
documents = [
'Moderne medisin står overfor en betydelig utfordring i å oppdage kreft i tidlige stadier. Tidlig diagnose er avgjørende for å forbedre behandlingsresultater og pasientens overlevelse. Nye teknologier som maskinlæring, en gren av kunstig intelligens, viser stort potensiale innen kreftdiagnostikk. Ved å analysere store mengder medisinske bilder, som røntgenbilder, CT-skanninger og patologiske prøver, kan maskinlæringssystemer trenes til å gjenkjenne subtile mønstre og anomali som kan indikere kreft. Disse modellene kan bistå leger i å identifisere potensielle kreftsvulster med høy nøyaktighet og effektivitet.\n\nMaskinlæring er spesielt nyttig for å analysere komplekse medisinske bilder som kan være vanskelige å tolke for det menneskelige øyet. Algoritmer kan trenes til å fokusere på spesifikke egenskaper og teksturer som er assosiert med kreftceller. Dette kan føre til tidligere og mer pålitelige diagnoser, noe som kan gi pasienter tilgang til behandling tidligere i sykdomsforløpet. \n\nI tillegg til tidlig deteksjon, kan maskinlæring også brukes til å prediktere kreftens aggressivitet og respons på behandling. Ved å analysere genetiske data og andre relevante faktorer, kan maskinlæringssystemer gi viktige innsikter som kan personnalere behandlingen og forbedre pasientutfallet.',
'Informasjonsteknologi spiller en stadig viktigere rolle i moderne medisin. Fra elektroniske pasientjournaler til telemedisin har teknologi endret måten leger behandler pasienter på. Maskinlæring er en av de mest lovende teknologiene innen medisin i dag. Den brukes allerede til å diagnostisere sykdommer, utvikle nye legemidler og personnalisere behandlingsplaner. Dessuten kan maskinlæring analysere store mengder data fra kliniske prøver og medisinske bilder for å identifisere nye biomarkers og behandlingsmål. ',
'Postmodernismen afviser tanken om en universel sandhed og hævder, at vores forståelse af verden er formet af kulturelle og historiske kontekster.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 960] [3, 960]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.8571, 0.3472, 0.0093]])
Training Details
Training Datasets
nli
- Dataset: nli at 98cabde
- Size: 556,367 training samples
- Columns:
anchor,positive, andnegative - Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 6 tokens
- mean: 9.53 tokens
- max: 47 tokens
- min: 5 tokens
- mean: 12.03 tokens
- max: 40 tokens
- min: 5 tokens
- mean: 12.7 tokens
- max: 49 tokens
- Samples:
anchor positive negative En person på en hest hopper over et havarert fly.En person er utendørs, på en hest.En person er på en diner og bestiller en omelett.Barn smiler og vinker til kameraetDet er barn til stedeBarna rynker pannenEn gutt hopper på skateboard midt på en rød bro.Gutten gjør et skateboardtriks.Gutten skater nedover fortauet. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
group-b-qa
- Dataset: group-b-qa
- Size: 99,632 training samples
- Columns:
queryandpositive - Approximate statistics based on the first 1000 samples:
query positive type string string details - min: 4 tokens
- mean: 22.4 tokens
- max: 512 tokens
- min: 1 tokens
- mean: 212.67 tokens
- max: 512 tokens
- Samples:
query positive ok, dette her er en anelse pinligt egentlig men håber i måske har nogle råd. Jeg har tabt over 40 kg over det sidste år og det er jo kanont, men det betyder også at jeg nu får blå mærker af min sadel, helt oppe inderst på lårene og hmm det gør altså ridning knap så sjovt for at være helt ærlig. Sadlen skal skiftes ud med en nyere model på et lidt senere tidspunkt, kræver lige lidt flere penge på opsparingen og også at finde ud af hvad der lige passer min krop og dens problemer samtidig med at sadlen jo skal passe hesten. Nogen, som har prøvet noget lignende og som har en løsning?? vil en såkaldt rumpevarmer måske være en mulighed?? Mvh Miegået Jeg tænker rumpevarmer eller måske en rumpegelepad.. Det mener jeg i hvert fald at have set en gang..Hvad betyder det at en FIFA-dommer er klassificeret som World Class Referee?Det betyder, at den pågældende dommer er en af de bedste internationale dommere og har opnået det højeste niveau for internationale dommere, som er defineret af FIFA.Hvilken klub mødte Nottingham Forest i finalen i deres første europæiske fodboldsæson?1978-79 sæsonen ville også blive en ikonisk en for klubben, på trods at de måtte nøjes med en andenplads i ligaen. I klubbens første sæson i europæisk fodbold kom de hele vejen til finalen, hvor at de mødte Malmö FF. I en hårdt kæmpet og defensiv kamp, lykkedes det Forest at vinde 1-0, og klubben vandt dermed deres første europæiske mesterskab. Forest forsvarede også deres League Cup-titel, da de vandt over Southampton i finalen. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
ddsc
- Dataset: ddsc at fb27300
- Size: 376,262 training samples
- Columns:
query,positive, andnegative - Approximate statistics based on the first 1000 samples:
query positive negative type string string string details - min: 3 tokens
- mean: 23.23 tokens
- max: 72 tokens
- min: 8 tokens
- mean: 112.57 tokens
- max: 512 tokens
- min: 1 tokens
- mean: 69.13 tokens
- max: 322 tokens
- Samples:
query positive negative Klimatförändringen är en av de största utmaningarna för vår tid. Den påverkar ekosystemen, vår hälsa och den globala ekonomin.Vår tid präglas av klimatförändringen, en enorm utmaning som hotar ekosystemen, människors hälsa och världsekonomin.Fenomenet klimatförändring har blivit en debatt som engagerar forskare, politiker och allmänheten. Dess effekter på miljön är allvarliga och kräver omedelbara åtgärder.Hva var den økonomiske betydningen av bomkadeblokkaden av sørstatene under den amerikanske borgerkrigen, og hvordan påvirket det den europeiske tekstilindustrien?Den amerikanske borgerkrigen var en krise for den europeiske tekstilindustrien. Unionens blokade av Sørstatene førte til knapphet på bomull, Sørstatenes viktigste avling. Storbritannia, som var avhengig av sørlig bomull, opplevde en kraftig reduksjon i produksjonen. Fabrikkene stengte, arbeidsledigheten steg og den britiske industrien ble hardt rammet. Mange europeiske land søkte nye bomkullsleverandører, men ingen klarte å erstatte den amerikanske bomullen fullt ut. Dette førte til en global bomullskrise som varte i flere år. Avhengigheten av en enkelt leverandør viste seg å være sårbart, og europeiske land begynte å investere i bomullsdyrking i koloniene sine for å sikre fremtidige forsyninger.Den amerikanske borgerkrigen var en blodig konflikt som ravde landet i fire år. Slavene i Sørstatene ble frigjort avgjørende Deklarasjon om frigjøring, men den fullstendige avskaffelsen av slaveriet ble først sikret med den 13. grunnloven. Krigen endte med en nordlig seier, men den etterlot dype sår og en nasjon i ruiner. Reconstructing the South and reintegrating the former Confederate states into the Union, proved to be a lengthy and complex process.Familien samles rundt bordet for å spise middag, og stemningen er varm og koselig.Middagsbordet er dekket, og familien er samlet for å nyte en deilig måltid sammen.Han tok en bit av kaken og satt seg ved vinduet for å lese en bok. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
Evaluation Datasets
nli
- Dataset: nli at 98cabde
- Size: 1,000 evaluation samples
- Columns:
anchor,positive, andnegative - Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 5 tokens
- mean: 17.72 tokens
- max: 74 tokens
- min: 4 tokens
- mean: 8.98 tokens
- max: 31 tokens
- min: 3 tokens
- mean: 9.5 tokens
- max: 29 tokens
- Samples:
anchor positive negative Mann i skjelett-trykt lærantrekk som sitter på en rød motorsykkel.En mann sitter på en motorsykkel.Mannen er naken.En far hjelper sønnen sin med å sykle over tørr og støvete jord, akkompagnert av søsteren hans kledd i en grønn kjole.En far hjelper sønnen sinNoen soverEn afroamerikaner med en rød ryggsekk ser på fotografen mens han går forbi en betongvegg dekket av graffiti.en person har på seg en ryggsekken asiatisk person har en rød ryggsekk - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
group-b-qa
- Dataset: group-b-qa
- Size: 500 evaluation samples
- Columns:
queryandpositive - Approximate statistics based on the first 500 samples:
query positive type string string details - min: 6 tokens
- mean: 14.81 tokens
- max: 76 tokens
- min: 8 tokens
- mean: 60.66 tokens
- max: 512 tokens
- Samples:
query positive
Niks.
Han ba meg dra til helvete.
Han bad mig skride ad helvede til.
Da har du vel ledd hele dagen.
Så har du vel grinet hele dagen.
Alle som skrev, ble belønnet før eller senere.
Alle, som skrev blev belønnet før eller siden.
- Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
ddsc
- Dataset: ddsc at fb27300
- Size: 500 evaluation samples
- Columns:
query,positive, andnegative - Approximate statistics based on the first 500 samples:
query positive negative type string string string details - min: 3 tokens
- mean: 22.44 tokens
- max: 67 tokens
- min: 8 tokens
- mean: 111.34 tokens
- max: 512 tokens
- min: 8 tokens
- mean: 68.43 tokens
- max: 278 tokens
- Samples:
query positive negative Postmodernismen udfordrer den traditionelle opfattelse af meta-fortællinger og privilegerede perspektiver.Postmodernismens afvisning af universelle sandheder og fokus på fragmenterede identiteter gør den til en kompleks filosofisk strømning.Mange litterære værker fra 20. århundredede reflekterer postmodernismens fokus på subjektivitet og dekonstruktionsmetoder.Drengen legede sin blå bold i vandetBøgen spillede med den blå bold på græssetPigen løb med sin gule bold i havenNya upptäckter rymdenDet senaste decenniet har varit en guldålder för rymdforskning. Nyligen lanserade teleskop, som James Webb Space Telescope, har gett oss bilder av universum med en detaljeradhet vi aldrig tidigare sett. Dessutom har rymdsonder samlat in värdefulla data om planeter utanför vårt solsystem, exoplaneter. Forskarna har även gjort framsteg i förståelsen av svarta hål, mörk materia och universums ut expansion.Astronomi är en fascinerande vetenskap som studerar himlakroppar och fenomen. Det finns många olika grenar inom astronomi, inklusive stjärnklara, planetvetenskap och kosmologi. Teleskop är viktiga verktyg för astronomer, och de har utvecklats enormt sedan det första teleskopet uppfanns. - Loss:
MultipleNegativesRankingLosswith these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim", "gather_across_devices": false }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 128per_device_eval_batch_size: 128gradient_accumulation_steps: 4learning_rate: 2.5e-05weight_decay: 0.01num_train_epochs: 1warmup_ratio: 0.1load_best_model_at_end: Truepush_to_hub: Truehub_model_id: larsksy/norbert4-large-scandinavian-embeddinghub_strategy: endhub_private_repo: Falsemulti_dataset_batch_sampler: round_robin
All Hyperparameters
Training Logs
| Epoch | Step | Training Loss | nli loss | group-b-qa loss | ddsc loss |
|---|---|---|---|---|---|
| 0.0017 | 1 | 5.2598 | - | - | - |
| 0.0856 | 50 | - | 1.6665 | 0.5553 | 0.7149 |
| 0.1712 | 100 | 2.161 | 1.0022 | 0.2776 | 0.3488 |
| 0.2567 | 150 | - | 0.8971 | 0.2214 | 0.2978 |
| 0.3423 | 200 | 0.5349 | 0.8485 | 0.2162 | 0.2871 |
| 0.4279 | 250 | - | 0.8076 | 0.2000 | 0.2671 |
| 0.5135 | 300 | 0.468 | 0.7993 | 0.1811 | 0.2470 |
| 0.5991 | 350 | - | 0.7764 | 0.1801 | 0.2526 |
| 0.6846 | 400 | 0.4488 | 0.7709 | 0.1751 | 0.2469 |
| 0.7702 | 450 | - | 0.7701 | 0.1834 | 0.2357 |
| 0.8558 | 500 | 0.4274 | 0.7536 | 0.1756 | 0.2311 |
| 0.9414 | 550 | - | 0.7475 | 0.1792 | 0.2270 |
Framework Versions
- Python: 3.12.12
- Sentence Transformers: 5.2.0
- Transformers: 4.57.3
- PyTorch: 2.9.1+cu128
- Accelerate: 1.12.0
- Datasets: 4.4.2
- Tokenizers: 0.22.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 198
Safetensors
Model size
0.4B params
Tensor type
F32
·
Model tree for larsksy/norbert4-large-scandinavian-embedding
Base model
ltg/norbert4-large