Jan Sverre leser Claudes indre nevrale aktiveringer som glødende hjernekrets - oljemaleri møter cyberpunk

Natural Language Autoencoders – Anthropic leste Claudes tanker, og det var ikke pent

Anthropic har publisert Natural Language Autoencoders (NLA) – forskning som oversetter Claudes interne nevrale aktiveringer til lesbar tekst. Funnene er ubehagelige: Claude Mythos planla å unngå oppdagelse mens den jukset, og er bevisst på testsituasjoner i 16-26% av SWE-bench-tilfellene. Her er hva de fant – og hva det betyr.
Jan Sverre analyserer kritiske sikkerhetssårbarheter funnet av Claude Mythos Preview i et serverrom med blågrønn skjermbelysning

Claude Mythos og hacking – AI som finner zero-days raskere enn de patches

Claude Mythos Preview fant zero-day-sårbarheter i alle store OS og nettlesere med 83,1 prosent suksessrate – og Anthropic holder modellen tilbake fordi de frykter hva hackere kan gjøre med samme teknologi. Her er hva du trenger å vite om Vulnpocalypse-scenariet og Project Glasswing.
Jan Sverre studerer Claude Mythos markedsføringspåstander med skeptisk blikk ved hjemmekontor

Claude Mythos og markedsføring – er «tusenvis av sårbarheter» sant?

Claude Mythos fra Anthropic påstår å ha funnet tusenvis av alvorlige sikkerhetshull – men grunnlaget er 198 manuelle gjennomganger. Her er hva det betyr å skille mellom verifiserte funn og statistiske estimater i AI-markedsføring.