ChatGPT Plus kostet meg 240 kroner i måneden. Hver måned. I tre år. Det er 8,640 kroner bare for å chatte med en AI. Og hver samtale ble sendt til servere i USA, prosessert av OpenAI, og hvem vet hva som skjedde med dataene mine.
Så kjøpte jeg en RTX 4090. For 15,000 kroner fikk jeg noe helt annet: Full kontroll. Null månedsabonnement. Og AI-modeller som kjører lokalt på min egen maskin, uten at ett eneste ord forlater PC-en min.
Dette er guiden jeg skulle ønske fantes da jeg startet. Jeg skal vise deg hvordan du går fra null til å kjøre GPT-4-nivå AI på din egen PC – på under en time.
Hva er Ollama?
Ollama er den enkleste måten å kjøre store AI-modeller (LLM-er) på din egen maskin. Tenk på det som «Docker for AI» – du installerer med én kommando, laster ned en modell med én kommando til, og så kan du chatte direkte i terminalen.
Ingen API-nøkler. Ingen kredittkortkonfigurering. Ingen komplisert oppsett.
Slik ser installasjonen ut på Linux eller macOS:
curl -fsSL https://ollama.com/install.sh | sh
ollama run llama3.2
Det er det. To linjer. På Windows laster du ned installeren fra ollama.com, klikker «next» et par ganger, og så er du i gang.
Det som gjør Ollama så kraftig er kombinasjonen av enkelhet og fleksibilitet. Du kan kjøre alt fra 1-milliard parameter-modeller (som passer på en laptop) til 70-milliard parameter-modeller (som krever 24GB VRAM og litt RAM-offloading). Du kan bytte mellom modeller på sekunder. Og du kan importere hvilken som helst GGUF-modell fra Hugging Face.
Hvorfor lokal AI i 2025?
ChatGPT er utrolig bra. Claude likeså. Men det er noen problemer jeg fikk nok av.
Privacy. Hver samtale du har med ChatGPT sendes til OpenAI sine servere. De sier de ikke bruker dataene dine til trening (lenger), men du har null kontroll. For norske bedrifter som må følge GDPR strengt er dette et problem. 77% av bedrifter nevner compliance som den største barrieren for AI-adopsjon.
Sensur. ChatGPT nekter å svare på visse spørsmål. Claude likeså. Noen ganger er det forståelig (farlige ting), men ofte er det bare frustrerende. Vil du skrive en thriller med kontroversielt innhold? «I can’t help with that.» Vil du utforske alternative politiske perspektiver? «That might be harmful.»
Med lokal AI forsvinner alle disse problemene. Dataene dine forlater aldri PC-en. Ingen månedlige kostnader. Ingen sensur. Full frihet.
Og ja, det krever litt hardware. Men hvis du allerede har en gaming-PC med et anstendig grafikkort, eller vurderer å oppgradere, er dette en investering som betaler seg.
Kom i gang med Ollama (installasjon)
Jeg skal holde dette så enkelt som mulig fordi installasjonen faktisk ER enkel.
På Linux eller macOS:
curl -fsSL https://ollama.com/install.sh | sh
Dette installerer Ollama og starter serveren automatisk. Den kjører i bakgrunnen og lytter på port 11434.
På Windows:
Gå til ollama.com, last ned Windows installer, kjør den. Ferdig. Du kan også gå for installer med user interface om du liker det. Jeg liker det best i terminalen, men folk er forskjellige,
Test at det fungerer:
ollama run llama3.2:1b
Dette laster ned Llama 3.2 1B (ca 1GB fil) og starter en chat. Skriv noe. AI-en svarer. Type /bye for å avslutte.
Gratulerer – du kjører nå en lokal AI-modell på din egen maskin.
La oss prøve noe bedre. Llama 3.2 1B er rask, men ikke spesielt smart. Prøv Gemma 3 i stedet (min favoritt):
ollama run gemma2:9b
Dette laster ned ca 6GB (Q4-quantized versjon). Vent litt mens den laster ned. Når den er klar, chat med den. Merk forskjellen? Gemma 3 9B er MYE bedre enn 1B-modellen. Dette er nivået du vil bruke for faktisk arbeid.
Andre nyttige kommandoer:
ollama list # Vis alle nedlastede modeller
ollama ps # Vis kjørende modeller
ollama rm llama3.2:1b # Slett en modell (frigjør diskplass)
ollama show gemma2:9b # Vis info om en modell
Quantisering forklart enkelt
Du vil se tall som Q4, Q5, Q8 overalt når du leter etter modeller. Hva betyr dette?
Quantisering (kvantisering) er kompresjon for AI-modeller. En modell består av milliarder av tall (weights). I original-form er hver weight lagret som et 16-bit floating-point tall (FP16). Dette tar mye plass og mye VRAM.

Quantisering komprimerer disse tallene til færre bits:
- Q8 = 8 bits per weight (praktisk talt identisk kvalitet som original)
- Q5 = 5 bits per weight (svært bra kvalitet, de fleste merker ikke forskjell)
- Q4 = 4 bits per weight (god kvalitet, «safe default»)
- Q3 = 3 bits per weight (merkbare kvalitetstap)
- Q2 = 2 bits per weight (betydelige kvalitetstap)
Jo lavere tall, jo mer kompresjon, jo mer kvalitetstap.
Suffixes (K, S, M, L) forklart:
Du vil også se ting som Q4_K_M eller Q5_K_S. Dette er «K-quants» – en smartere form for quantisering som fordeler bits ulikt:
- K = «Mixed quantization» – kritiske weights får høyere presisjon, mindre viktige får lavere
- S (Small) = Mest kompresjon, minst kvalitet
- M (Medium) = Balansert (anbefalt!)
- L (Large) = Mest kvalitet, størst fil
Min anbefaling for RTX 4090 (24GB VRAM): Q4_K_M som standard. Dette gir deg beste balanse mellom kvalitet og VRAM-bruk. Hvis du vil ha bedre kvalitet og har VRAM til overs: Q5_K_M. Hvis kvalitet er absolutt kritisk: Q8_0.
Praktisk eksempel: Qwen 32B Q4_K_M bruker 19.8GB VRAM og gir 34 tokens per sekund på min RTX 4090. Qwen 32B Q8_0 ville brukt rundt 36GB VRAM (ikke plass på en enkelt 4090), så Q4 er eneste realistiske alternativ.
Mine favorittmodeller for RTX 4090
Jeg har testet dusinvis av modeller. Her er de jeg faktisk bruker.
1. Gemma 3 9B (min favoritt)
Laget av Google DeepMind. Utmerket på matematikk, koding og reasoning. Bedre norsk språkstøtte enn Llama. Rask (60-90 tokens/sekund på min 4090).
ollama run gemma2:9b
Jeg bruker denne til det meste. Den er liten nok til å være lynrask, men smart nok til å faktisk være nyttig.
2. Qwen 3 14B (når jeg trenger litt mer kraft)
Laget av Alibaba. Fantastisk på multilingual-oppgaver (inkludert norsk). Svært god på instruction-following. 88.4% på HumanEval (bedre enn GPT-4’s 87.1%).
ollama run qwen2.5:14b
Bruker rundt 12GB VRAM med Q4, så massevis av plass igjen på 4090.
3. DeepSeek Coder V2 16B (for koding)
Spesialisert på koding. 338 programmeringsspråk. 81.1% på HumanEval. Mixture-of-Experts arkitektur (MoE) betyr at kun 21B av 236B parametere aktiveres, så den er faktisk ganske rask.
ollama run deepseek-coder-v2:16b
Når jeg koder bruker jeg denne i stedet for GitHub Copilot. Ingen data sendes til Microsoft. Gratis. Bedre.
4. Llama 3.3 8B (generell bruk)
Meta’s siste små modell. Solid på det meste. God baseline.
ollama run llama3.2:8b
Ikke min favoritt (foretrekker Gemma 3), men mange sverger til Llama-familien.
5. Phi-4 14B (effektivitet)
Microsoft’s lille kraftpakke. 14B parametere men presterer som større modeller. Perfekt for edge computing. Bruker rundt 11GB VRAM med Q4.
ollama run phi4:14b

Hva med 70B modeller?
Llama 3.1 70B og DeepSeek R1 70B er mulige på RTX 4090, men krever RAM-offloading (noe av modellen lagres i system-RAM i stedet for VRAM). Dette gjør dem tregere – rundt 8-10 tokens per sekund. Brukbart for viktige oppgaver der du vil ha absolutt beste kvalitet, men ikke for daglig bruk.
Hugging Face og GGUF-modeller
Ollama sin model library har tusenvis av modeller. Men Hugging Face har titusener. Og det beste? Du kan kjøre dem direkte via Ollama uten å laste ned manuelt.
GGUF (GPT-Generated Unified Format) er filformatet som har blitt standarden for lokal AI-inferens. Ollama bruker GGUF. Llama.cpp bruker GGUF. Alt bruker GGUF.
Slik finner du modeller på Hugging Face:
- Gå til huggingface.co/models
- Filtrer på «GGUF» (45,000+ modeller)
- Filtrer på «uncensored» hvis du vil ha usensurerte modeller (3,416 modeller)
- Se etter kjente creatorer: bartowski, MaziyarPanahi, TheBloke (legendary, men retired)
Når du finner en modell, kjør den direkte:
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF
Ollama laster ned og kjører automatisk. Vil du ha en spesifikk quantization?
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q4_K_M
Dette åpner døren til tusener av spesialiserte modeller. Roleplay-modeller. Creative writing-modeller. Domain-spesifikke modeller. Alt finnes på Hugging Face.
CLI vs Web UI
Jeg elsker terminalen. Når jeg vil teste en modell, gjør jeg dette:
ollama run gemma2:9b
Sekunder senere chatter jeg. Ingen GUI. Ingen klikkeri. Bare ren hastighet.
Men jeg forstår at ikke alle liker terminalen. Og for team-bruk (der flere skal bruke samme AI-server) trenger du et webgrensesnitt.
Open WebUI er løsningen.
Det er et open-source web-interface som kobler seg til Ollama. Du får:
- Chat history (lagre og gjenbesøke samtaler)
- Prompt storage (lagre favoritt-prompts)
- Document uploads (RAG – Retrieval-Augmented Generation)
- Model switching (bytt mellom modeller i dropdown)
- Multi-user support (flere brukere med egne kontoer)
- RBAC (Role-Based Access Control – admin kan kontrollere hvem som kan laste ned modeller)
Installasjon med Docker:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Gå til http://localhost:3000, opprett en konto (lokal, ingen cloud), velg modell fra dropdown, start chatting.
Alt lagres lokalt. Ingen data sendes noe sted. Perfekt for lokal AI-bruk i bedrifter der GDPR er viktig.
Jeg bruker CLI for quick tests. Open WebUI når jeg vil ha lengre samtaler med history. Ellers så går de inn i forskjellige ai workflows og gjør jobber de duger til. De er jo tross alt gratis.
Usensurerte modeller og kreativ frihet
La meg være tydelig: Usensurerte modeller betyr ikke «anarchy» eller «ingen etikk». Det betyr frihet fra corporate retningslinjer som ofte er overdrevent forsiktige.
ChatGPT vil nekte å:
- Skrive thriller-scener med vold (selv om det er fiksjonsskriving)
- Diskutere kontroversielle politiske temaer (selv om du bare vil forstå perspektivet)
- Hjelpe med sensitive research-temaer (self-censorship)
- Generere visse typer kreativt innhold (fordi det MÅ være safe-for-work)
Usensurerte modeller svarer på det du spør om. De stoler på at DU er voksen nok til å bruke dem ansvarlig.
Mine favoritt-usensurerte modeller:
Dolphin-serien (Eric Hartford)
Legendary i uncensored-communityen. Dolphin 2.9.1 Llama 3 70B er best, men Dolphin Mixtral 8x7B er mer tilgjengelig på 24GB VRAM.
ollama run dolphin-llama3
Lexi-Uncensored (Llama 3.1 8B)
Mindre, raskere, fortsatt svært god:
ollama run hf.co/Orenguteng/Llama-3.1-8B-Lexi-Uncensored-V2-GGUF
Når jeg skriver kreativt innhold bruker jeg usensurerte modeller fordi jeg ikke vil at en AI skal bestemme hva som er «passende» kunst. Jeg er voksen. Jeg tar mine egne valg.
GDPR og privacy-fordeler
Norge håndhever GDPR strengt via Datatilsynet. 77% av bedrifter sier compliance er største barriere for AI-adopsjon.
Med cloud AI (ChatGPT, Claude, Gemini):
- Data sendes til USA (Schrems II-problemer)
- Third-party processorer (sub-processorer du ikke kjenner)
- Retention policies uklare (hvor lenge lagres samtaler?)
- Training data concerns (brukes min data til trening?)
- 72-timers varslingsplikt ved databrudd (hva hvis OpenAI blir hacket?)
Med lokal AI:
- Data forlater aldri PC-en din
- Ingen DPA (Data Processing Agreement) nødvendig
- Ingen third-party risk assessment
- Ingen cross-border data transfer
- DPIA forenklet (ingen ekstern prosessering)
- Full audit trail lokalt
For advokat-kontor betyr dette attorney-client privilege opprettholdes. For helsesektoren betyr det pasientdata aldri eksponeres. For finans betyr det insider trading-prevention.
Open WebUI sier det best: «All your data, including login details, is locally stored on your device. Open WebUI ensures strict confidentiality and no external requests for enhanced privacy and security.»
Full GDPR-compliance uten kompleksitet. Det er derfor jeg kjører lokal AI.
Konklusjon
På under én time kan du gå fra null til å kjøre GPT-4-nivå AI på din egen PC. Installer Ollama. Last ned Gemma 3. Chat.
Privacy? Dataene dine forlater aldri PC-en. Full GDPR-compliance uten byråkrati.
Sensur? Ingen. Du velger selv hvilke modeller du vil bruke.
Jeg har fire PC-er hjemme som fungerer som AI-servere. En RTX 4090 som hovedmaskin. Ollama kjører på alle. Gemma 3, Qwen 3, DeepSeek Coder. Jeg chatter med dem direkte i terminalen. Når jeg vil ha GUI bruker jeg Open WebUI.
Dette er fremtiden for AI. Lokal. Privat. Kontrollert av deg.