Norske språkmodeller
Her er en praktisk oversikt over sentrale norske modellspor, med kort
historikk og lenker til kilder.
Kort historikk
-
Norske miljøer har bygget åpne språkmodeller for å styrke norsk
språk i AI og redusere avhengighet av lukkede internasjonale
modeller.
-
Nasjonalbibliotekets AI-lab (NbAiLab) har publisert både datasett og
modeller, inkludert nyere Borealis-forhåndsvisninger.
-
NORA.LLM-familien ble utviklet i samarbeid mellom UiO/LTG,
Nasjonalbiblioteket og partnere, med åpne modeller for bokmål og
nynorsk.
-
NorLLM er et eget spor (NorwAI/NTNU-miljø) og er ikke det samme som
NORA.LLM.
NorMistral-7B-Warm
En norsk 7B-modell som er warm-startet fra Mistral-7B og
kontinuerlig trent videre på norsk data. Modellkortet beskriver
blant annet treningsperiode (desember 2023 til januar 2024),
Apache-2.0-lisens og tilhørighet til NORA.LLM-familien.
Se NorMistral-7B-Warm på Hugging Face
Borealis (NbAiLab)
Borealis er en nyere modellfamilie publisert fra NbAiLab
(Nasjonalbibliotekets AI-lab), med flere instruksjonstunede
forhåndsvisninger i ulike størrelser. Dette viser et aktivt norsk
modellmiljø med jevnlige oppdateringer.
Se NbAiLab og Borealis-samlinger på Hugging Face
NorLLM
NorLLM omtales som et eget norsk forskningsspor (knyttet til
NorwAI/NTNU-miljøet), og skilles tydelig fra NORA.LLM i norsk
fagpresse. Historisk er dette viktig fordi Norge har flere
parallelle initiativer, ikke bare ett.
Lenke:
omtale av forskjellen mellom NorLLM og NORA.LLM
NORA.LLM
NORA.LLM er en samling åpne norske modeller med mål om nasjonal
infrastruktur for språkmodeller. I omtaler trekkes spesielt disse
modellene frem: NorMistral 7B warm, warm-instruct, NorMistral 7B
scratch og NorBLOOM 7B scratch.
Les mer hos AIavisen