LLM på gaming-PC hjemme

Denne siden gir konkrete anbefalinger for lokale LLM-er per vanlig RTX-GPU. Målet er å hjelpe deg med å kjøre praktiske modeller på forbrukerhardware med forutsigbar ytelse i 2026.

📢 Norske modeller lokalt

NorMistral-7B og NorMistral-11B er nå tilgjengelig i GGUF-format og passer godt for lokal drift på gaming-PC med RTX 4070+.

Anbefalt lokal stack (enkel og pålitelig)

  1. Kjøremiljø: Ollama for rask oppstart, eller LM Studio for GUI-arbeidsflyter.
  2. Inferens-backend: llama.cpp / GGUF for enklest kompatibilitet.
  3. Kvantisering: start med Q4_K_M, gå til Q5_K_M hvis VRAM tillater det.
  4. Kontekst: start på 8k, og øk kun ved behov.

GPU-til-modell-anbefalinger

Typisk GPU VRAM Beste lokale modellstørrelse Konkrete modeller å starte med Forventet opplevelse
RTX 3050 / 3060 Laptop 4-6 GB 3B-7B (Q4) Llama 3.2 3B Instruct, Phi-3 Mini, Qwen2.5 3B/7B Bra for chat, oppsummeringer og kodehjelp. Begrenset kvalitet ved lang kontekst.
RTX 3060 12GB / RTX 4060 8GB 8-12 GB 7B-8B (Q4/Q5) Llama 3.1 8B Instruct, Qwen2.5 7B Instruct, Mistral 7B Instruct Sterk daglig lokal assistentytelse for tekst og kode.
RTX 4060 Ti 16GB / RTX 4070 12GB 12-16 GB 8B-14B (Q4) Qwen2.5 14B Instruct (Q4), DeepSeek Coder V2 Instruct, Llama 3.1 8B (Q5) Merkbar bedre resonnering/koding samtidig som den er responsiv.
RTX 4070 Ti Super / 4080 16 GB 14B-32B (Q4, selective) Qwen2.5 14B/32B, DeepSeek R1 Distill (32B), Mixtral 8x7B (tyngre) Høykvalitets lokalt resultat for seriøs koding og analyse.
RTX 5070 / 5070 Ti 12-16 GB (varierer etter modell) 14B-32B (Q4) Qwen2.5 14B/32B, DeepSeek R1 Distill (32B), Mixtral 8x7B Et svært godt moderne balansepunkt for gaming og seriøs lokal koding/resonnering.
RTX 5080 16 GB (typisk) 32B-klassen (Q4/Q5) Qwen2.5 32B Instruct, DeepSeek R1 Distill (32B), DeepSeek Coder V2 Instruct Svært sterk lokal kvalitet på enkelt-GPU, samtidig som den er gaming-orientert.
RTX 4090 24 GB 32B-klassen (Q4/Q5), enkelte 70B med aggressiv kvantisering Qwen2.5 32B Instruct, DeepSeek V3, Llama 3.1 70B (kraftig kvantisert) Beste forbrukeroppsett med én GPU for lokal kvalitet i dag.
RTX 5090 24 GB+ (flaggskipnivå) 32B-klassen komfortabelt, 70B kvantisert mer praktisk Qwen2.5 32B Instruct, Llama 3.1 70B Instruct, DeepSeek V3 Topp forbrukeralternativ for lokal LLM-gjennomstrømming og kapasitet.

Direktelenker åpner modelsider på Hugging Face der du kan laste ned vekter eller se kompatible kjøremiljøer.

Konkrete rigg-anbefalinger

Balansert standardrigg

GPU: RTX 4070 Super / 4070 Ti Super

RAM: 64 GB DDR5

Lagring: 2 TB NVMe SSD

CPU: Ryzen 7 7800X3D eller Core i7-klassen

Hvorfor: Svært god gaming + sterk lokal LLM-opplevelse i 8B/14B-klassen.

Kraftig lokal LLM-rigg

GPU: RTX 4090 24GB

RAM: 96-128 GB

Lagring: 2-4 TB NVMe SSD

CPU: Ryzen 9 / Core i9-klassen

Hvorfor: Beste enkelt-GPU-løp for lokale 32B-modeller med brukbar hastighet.

Riktig modell til riktig bruk

Chat og generell prose

Bruk instruktsjonstunede ("Instruct") modeller. Start med 7B–14B. Eksempler: Llama 3.1 Instruct, Qwen2.5 Instruct, Mistral Instruct.

Lokalt tips: Disse er stabile, rask generering, og OK kvalitet for daglig bruk.

Koding

Bruk kodespecialiserte modeller hvis du skal skrive eller debugge produksjonscode. Eksempler: DeepSeek Coder V2, Qwen3 Coder Next (32B for alvorlig utvikling), Phi-4 Instruct.

Lokalt tips: Qwen3 Coder Next med RTX 4070+ (Q4) gir produksjonsdyktig kodeassistanse.

Resonnering og komplekse analyser

Bruk større modeller eller resonnerings-fokuserte varianter. Eksempler: DeepSeek R1 Distill (32B), Qwen2.5 32B, Llama 3.1 70B.

Lokalt tips: Krev minst 16 GB VRAM for stabil drift.

Norsk språk

Bruk NorMistral-7B eller NorMistral-11B (GGUF) for norsk chat og dokumentbehandling. Sjekk om globale modeller har norsk finjustering.

Lokalt tips: NorMistral 7B passer RTX 3060 12GB (Q4), NorMistral 11B behøver RTX 4060 Ti+ (Q4).

Rask kjøpsregel

Hvis målet ditt hovedsakelig er gaming med litt lokal LLM-bruk, bør du sikte på minst 12 GB VRAM. Hvis målet er seriøs lokal resonnerings- og kodekvalitet, bør du sikte på 16-24 GB VRAM.