LLM-sammenligningsmatrise
Poengene er veiledende, ikke absolutte. Bruk skalaen 1-5 for rask sammenligning, og sorter deretter etter det som betyr mest for produktet ditt i 2026.
📢 Norske modeller nå inkludert
Norske åpne modeller (NB-Llama-3.2, NorMistral-11B, NorwAI) er nå modne nok for sammenligninger. Bruk matrisen til å evaluere dem mot globale alternativer for norsksprågige oppgaver.
| Modell | Totalt | Resonnering | Koding | Kostnadseffektivitet | Latenstid | Kontekstkvalitet | Driftskontroll |
|---|---|---|---|---|---|---|---|
| GPT-4.1 | |||||||
| o3-mini | |||||||
| Claude 3.7 Sonnet | |||||||
| Claude 3.5 Haiku | |||||||
| Gemini 2.0 Pro | |||||||
| Gemini 2.0 Flash | |||||||
| Llama 3.1 70B Instruct | |||||||
| Mixtral 8x22B | |||||||
| Mistral Large | |||||||
| Qwen2.5 72B Instruct | |||||||
| DeepSeek V3 | |||||||
| Phi-3 Medium |
Poengnøkkel: 5 = svært bra, 4 = bra, 3 = middels, 2 = lav.
Slik tolker du matrisen
For kundevendt kvalitet bør du prioritere resonnering + kontekstkvalitet. For intern automatisering i skala bør du prioritere kostnadseffektivitet + latenstid.