Norsk språkmodeller | LLM på gaming-PC hjemme

📢 Norske modeller lokalt

NorMistral-7B og NorMistral-11B er nå tilgjengelig i GGUF-format og passer godt for lokal drift på gaming-PC med RTX 4070+.

Anbefalt lokal stack (enkel og pålitelig)

Kjøremiljø: Ollama for rask oppstart, eller LM Studio for GUI-arbeidsflyter.
Inferens-backend: llama.cpp / GGUF for enklest kompatibilitet.
Kvantisering: start med Q4_K_M, gå til Q5_K_M hvis VRAM tillater det.
Kontekst: start på 8k, og øk kun ved behov.

GPU-til-modell-anbefalinger

Typisk GPU	VRAM	Beste lokale modellstørrelse	Konkrete modeller å starte med	Forventet opplevelse
RTX 3050 / 3060 Laptop	4-6 GB	3B-7B (Q4)	Llama 3.2 3B Instruct, Phi-3 Mini, Qwen2.5 3B/7B	Bra for chat, oppsummeringer og kodehjelp. Begrenset kvalitet ved lang kontekst.
RTX 3060 12GB / RTX 4060 8GB	8-12 GB	7B-8B (Q4/Q5)	Llama 3.1 8B Instruct, Qwen2.5 7B Instruct, Mistral 7B Instruct	Sterk daglig lokal assistentytelse for tekst og kode.
RTX 4060 Ti 16GB / RTX 4070 12GB	12-16 GB	8B-14B (Q4)	Qwen2.5 14B Instruct (Q4), DeepSeek Coder V2 Instruct, Llama 3.1 8B (Q5)	Merkbar bedre resonnering/koding samtidig som den er responsiv.
RTX 4070 Ti Super / 4080	16 GB	14B-32B (Q4, selective)	Qwen2.5 14B/32B, DeepSeek R1 Distill (32B), Mixtral 8x7B (tyngre)	Høykvalitets lokalt resultat for seriøs koding og analyse.
RTX 5070 / 5070 Ti	12-16 GB (varierer etter modell)	14B-32B (Q4)	Qwen2.5 14B/32B, DeepSeek R1 Distill (32B), Mixtral 8x7B	Et svært godt moderne balansepunkt for gaming og seriøs lokal koding/resonnering.
RTX 5080	16 GB (typisk)	32B-klassen (Q4/Q5)	Qwen2.5 32B Instruct, DeepSeek R1 Distill (32B), DeepSeek Coder V2 Instruct	Svært sterk lokal kvalitet på enkelt-GPU, samtidig som den er gaming-orientert.
RTX 4090	24 GB	32B-klassen (Q4/Q5), enkelte 70B med aggressiv kvantisering	Qwen2.5 32B Instruct, DeepSeek V3, Llama 3.1 70B (kraftig kvantisert)	Beste forbrukeroppsett med én GPU for lokal kvalitet i dag.
RTX 5090	24 GB+ (flaggskipnivå)	32B-klassen komfortabelt, 70B kvantisert mer praktisk	Qwen2.5 32B Instruct, Llama 3.1 70B Instruct, DeepSeek V3	Topp forbrukeralternativ for lokal LLM-gjennomstrømming og kapasitet.

Direktelenker åpner modelsider på Hugging Face der du kan laste ned vekter eller se kompatible kjøremiljøer.

Konkrete rigg-anbefalinger

Balansert standardrigg

GPU: RTX 4070 Super / 4070 Ti Super

RAM: 64 GB DDR5

Lagring: 2 TB NVMe SSD

CPU: Ryzen 7 7800X3D eller Core i7-klassen

Hvorfor: Svært god gaming + sterk lokal LLM-opplevelse i 8B/14B-klassen.

Kraftig lokal LLM-rigg

GPU: RTX 4090 24GB

RAM: 96-128 GB

Lagring: 2-4 TB NVMe SSD

CPU: Ryzen 9 / Core i9-klassen

Hvorfor: Beste enkelt-GPU-løp for lokale 32B-modeller med brukbar hastighet.

Riktig modell til riktig bruk

Chat og generell prose

Bruk instruktsjonstunede ("Instruct") modeller. Start med 7B–14B. Eksempler: Llama 3.1 Instruct, Qwen2.5 Instruct, Mistral Instruct.

Lokalt tips: Disse er stabile, rask generering, og OK kvalitet for daglig bruk.

Koding

Bruk kodespecialiserte modeller hvis du skal skrive eller debugge produksjonscode. Eksempler: DeepSeek Coder V2, Qwen3 Coder Next (32B for alvorlig utvikling), Phi-4 Instruct.

Lokalt tips: Qwen3 Coder Next med RTX 4070+ (Q4) gir produksjonsdyktig kodeassistanse.

Resonnering og komplekse analyser

Bruk større modeller eller resonnerings-fokuserte varianter. Eksempler: DeepSeek R1 Distill (32B), Qwen2.5 32B, Llama 3.1 70B.

Lokalt tips: Krev minst 16 GB VRAM for stabil drift.

Norsk språk

Bruk NorMistral-7B eller NorMistral-11B (GGUF) for norsk chat og dokumentbehandling. Sjekk om globale modeller har norsk finjustering.

Lokalt tips: NorMistral 7B passer RTX 3060 12GB (Q4), NorMistral 11B behøver RTX 4060 Ti+ (Q4).

Rask kjøpsregel

Hvis målet ditt hovedsakelig er gaming med litt lokal LLM-bruk, bør du sikte på minst 12 GB VRAM. Hvis målet er seriøs lokal resonnerings- og kodekvalitet, bør du sikte på 16-24 GB VRAM.