Paper • 2504.07749 • Published • 1
m51Lab-NorskMistral-119B
En finjustert versjon av Mistral Small 4 (119B MoE) som slår samtlige publiserte modeller på 7 av 8 kjerneoppgaver i NorEval-benchmarken.
Resultater på NorEval
| Oppgave | m51-NorskMistral | NorEval #1 |
|---|---|---|
| Commonsense-resonnering (BM) | 75.7% | 72.2% |
| Commonsense-resonnering (NN) | 63.2% | 52.6% |
| Open-book QA (BM) | 95.7% | 87.4% |
| Open-book QA (NN) | 93.3% | 88.9% |
| Truthfulness (BM) | 77.9% | 74.6% |
| Truthfulness (NN) | 82.5% | 73.7% |
| Norsk kunnskap -- NRK Quiz (BM) | 66.5% | 63.7% |
| Norsk kunnskap -- NRK Quiz (NN) | 65.1% | 71.9% |
| Gjennomsnitt | 76.8% | 73.1% |
Evaluert med loglikelihood scoring, multi-prompt best-of-5 (5 ulike prompt-varianter per oppgave), 16-shot for NorOBQA, 0-shot for alle andre. Full test-sett, ingen subsample.
Modelldetaljer
- Base: Mistral Small 4 119B MoE (128 eksperter, 4 aktive per token)
- Adapter: LoRA r=32, alpha=64
- Treningsdata: 13.375 norske og engelske eksempler (kontaminasjonssjekket mot NorEval)
- Trening: 2 epoker, 3 timer på 7x NVIDIA H100 80GB med FSDP2
- Presisjon: BF16
Bruk
from transformers import Mistral3ForConditionalGeneration, AutoTokenizer
from peft import PeftModel
import torch
base_model = "mistralai/Mistral-Small-4-2503"
adapter = "dervig/m51Lab-NorskMistral-119B"
model = Mistral3ForConditionalGeneration.from_pretrained(
base_model, torch_dtype=torch.bfloat16, device_map="auto"
)
model = PeftModel.from_pretrained(model, adapter)
model = model.merge_and_unload()
tokenizer = AutoTokenizer.from_pretrained(base_model)
GGUF
For bruk med llama.cpp, Ollama, Open WebUI eller LM Studio, se m51Lab-NorskMistral-119B-GGUF.
Hardware-krav
- LoRA (denne repoen): 2x H100 80GB eller tilsvarende (238 GB BF16 base + adapter)
- GGUF Q4_K_M: 1x H100 80GB (tight) eller 96+ GB unified memory (Mac M-series)
Kreditering
- Base-modell: Mistral Small 4 av Mistral AI, Apache 2.0
- NorEval-benchmark: NorEval: A Comprehensive Benchmark for Norwegian Language Models av Language Technology Group, Universitetet i Oslo (ACL 2025)
- Treningsdata:
- NbAiLab / Nasjonalbiblioteket: norwegian-alpaca, torgersen-alpaca, ndla_npk_conversational_nb_to_nn, nynorsk_dpo
- teknium/OpenHermes-2.5
Lisens
Apache 2.0 (samme som base-modellen)
Om m51
Bygget av m51.ai.
- Downloads last month
- 2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
