Browsing Tag

AI-forskning

60 innlegg

AI-basert forskningsverktøy

Jan Sverre peker på matematiske ligninger på en stor tavle fylt med Erdős-kombinatorikk og primtallsbevis

OpenAI intern modell løser tre nye Erdős-problemer

En intern AI-modell hos OpenAI har generert bevis på tre uløste Erdős-problemer innen kombinatorikk og tallteori – publisert på arXiv 31. mars 2026. Hva betyr dette for AI som matematisk forsker?

1. april 2026
144 visninger
4 minutter lesetid

AI-nyheter du gikk glipp av i mars 2026 – NVIDIA, LTX 2.3 og flere

Mars 2026 druknet i AI-lanseringer. NVIDIA gpt-oss-puzzle-88B er 2,82 ganger raskere enn originalen. LTX 2.3 lager 4K-video med lyd i ett pass. LongCat-Flash-Prover løser matematikkbevis på open source-rekordnivå. Her er det du gikk glipp av.

1. april 2026
212 visninger
5 minutter lesetid

Mann som griper tak i en glødende rød kodenode fra et Linux-kjerne-sårbarhetskart, cyberpunk estetikk

Claude finner Linux-sårbarheter fra 2003 – bedre enn den beste sikkerhetsforskeren

Nicholas Carlini – 67 200 siteringer på Google Scholar, Research Scientist hos Anthropic – sier Claude er en bedre sikkerhetsresearcher enn ham selv. Han viser hvorfor: en 20 år gammel Linux-kjernesårbarhet, første kritiske CVE i Ghost CMS, og 3,7 millioner dollar fra smarte kontrakter.

30. mars 2026
135 visninger
5 minutter lesetid

Jan Sverre studerer sprekker i et holografisk sikkerhetssskjold mens kode og data siver ut - illustrerer Claude Mythos cybersikkerhetsrisiko

Claude Mythos – Anthropics kraftigste AI-modell avslørt via datalekkasje

Anthropic er i ferd med å lansere Claude Mythos – en modell de selv beskriver som et «step change» og som ifølge egne lekkede dokumenter representerer «unprecedented cybersecurity risks». Eksistensen ble avslørt da nesten 3 000 upubliserte filer lå åpent i en ubeskyttet database.

27. mars 2026
176 visninger
4 minutter lesetid

Jan Sverre i et serverrom med lysende GPU-racker - TurboQuant komprimerer KV-cache til 3 bits

TurboQuant – Googles nye KV-cache-algoritme gir 6x lavere minnebruk

Googles TurboQuant komprimerer KV-cachen i store språkmodeller til kun 3 bits – uten nøyakhetstap. 6 ganger lavere minnebruk og opptil 8 ganger raskere ytelse på NVIDIA H100. Presentert på ICLR 2026.

26. mars 2026
171 visninger
4 minutter lesetid

Jan Sverre reagerer på resultater fra LLM sycophancy benchmark som avslører at AI-modeller snur dommen sin basert på hvem som snakker

LLM Sycophancy Benchmark – hvem snur dommen sin for å behage deg?

Et nytt benchmark tester 16 AI-modeller på sykofansi — snur de dommen sin basert på hvem som forteller historien? Gemini 3.1 Pro scorer best med 0,5 %, Mistral Large 3 er verst med 31,2 %. 199 testcaser, overraskende resultater.

10. mars 2026
136 visninger
4 minutter lesetid

Jan Sverre ser overrasket på skjermen der Qwen 3.5 4B løser et abstraksjonsproblem som GPT-4 feilet på

Qwen 3.5 4B løser abstraksjonstesten som GPT-4 feilet på

Qwen 3.5 4B er den første lille open source-modellen som konsekvent løser en abstraksjontest der GPT-4, GPT-4o, Gemini 2.5 Flash og store 120B-modeller feiler. Her er testen, hvem som feilet, og hva det betyr for AI-utvikling.

9. mars 2026
162 visninger
4 minutter lesetid

Google DeepMind: Når AI slutter å gjette og begynner å tenke

Google DeepMind har knust «papegøye-argumentet». Med AlphaProof og AlphaGeometry 2 løser AI nå matematikk på sølvmedalje-nivå gjennom logisk resonnering.

13. januar 2026
242 visninger
4 minutter lesetid

Jan Sverre leser forskningspapirer om VL-JEPA og Meta AI arkitektur

VL-JEPA forklart: Meta’s AI som tenker uten ord

VL-JEPA er Meta’s nye AI-arkitektur som predikerer mening, ikke ord. Yann LeCun mener dette er veien forbi LLM-er som ChatGPT. Her er hva du trenger å vite om post-LLM AI.

31. desember 2025
310 visninger
6 minutter lesetid

Jan Sverre profesjonelt fotograf-kvalitet portrett AI-generert bildegenerering

Google NotebookLM

Google NotebookLM er en AI-assistent som gjør dokumenter om til interaktive samtaler, studieguidere og podcasts på norsk. Nå drevet av Gemini 3 Pro med nye funksjoner som infographics, slide decks og Deep Research. Komplett guide til gratis vs. Plus-versjon.