LLM-sammenligningsmatrise
Poengene er veiledende, ikke absolutte. Bruk skalaen 1-5 for rask
sammenligning, og sorter deretter etter det som betyr mest for produktet
ditt.
Sorter etter
Totalscore
Resonnering
Koding
Kostnadseffektivitet
Latenstid
Kontekstkvalitet
Driftskontroll
Nullstill
Modell
Totalt
Resonnering
Koding
Kostnadseffektivitet
Latenstid
Kontekstkvalitet
Driftskontroll
GPT-4.1
4.0/5 ★★★★☆
5/5 ★★★★★
5/5 ★★★★★
3/5 ★★★☆☆
3/5 ★★★☆☆
4/5 ★★★★☆
2/5 ★★☆☆☆
o3-mini
3.8/5 ★★★★☆
5/5 ★★★★★
4/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
3/5 ★★★☆☆
2/5 ★★☆☆☆
Claude 3.7 Sonnet
3.8/5 ★★★★☆
5/5 ★★★★★
4/5 ★★★★☆
3/5 ★★★☆☆
3/5 ★★★☆☆
5/5 ★★★★★
2/5 ★★☆☆☆
Claude 3.5 Haiku
3.5/5 ★★★★☆
4/5 ★★★★☆
3/5 ★★★☆☆
4/5 ★★★★☆
5/5 ★★★★★
3/5 ★★★☆☆
2/5 ★★☆☆☆
Gemini 2.0 Pro
3.5/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
3/5 ★★★☆☆
4/5 ★★★★☆
4/5 ★★★★☆
2/5 ★★☆☆☆
Gemini 2.0 Flash
3.3/5 ★★★☆☆
3/5 ★★★☆☆
3/5 ★★★☆☆
4/5 ★★★★☆
5/5 ★★★★★
3/5 ★★★☆☆
2/5 ★★☆☆☆
Llama 3.1 70B Instruct
4.0/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
3/5 ★★★☆☆
5/5 ★★★★★
Mixtral 8x22B
3.8/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
3/5 ★★★☆☆
4/5 ★★★★☆
Mistral Large
3.5/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
3/5 ★★★☆☆
4/5 ★★★★☆
4/5 ★★★★☆
3/5 ★★★☆☆
Qwen2.5 72B Instruct
3.8/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
5/5 ★★★★★
4/5 ★★★★☆
3/5 ★★★☆☆
4/5 ★★★★☆
DeepSeek V3
3.8/5 ★★★★☆
4/5 ★★★★☆
4/5 ★★★★☆
5/5 ★★★★★
4/5 ★★★★☆
3/5 ★★★☆☆
4/5 ★★★★☆
Phi-3 Medium
3.5/5 ★★★★☆
3/5 ★★★☆☆
3/5 ★★★☆☆
5/5 ★★★★★
5/5 ★★★★★
2/5 ★★☆☆☆
4/5 ★★★★☆
Poengnøkkel: 5 = svært bra, 4 = bra, 3 = middels, 2 = lav.
Slik tolker du matrisen
For kundevendt kvalitet bør du prioritere resonnering +
kontekstkvalitet. For intern automatisering i skala bør du prioritere
kostnadseffektivitet + latenstid.