Kultur

Biblioteket som lærer KI å tenke norsk

Norge betaler 45 millioner årlig for å trene KI på avisarkiver. Resultatet er språkmodeller som forstår norsk bedre enn ChatGPT.

Erik Lunde 4 min lesing 8 kilder
Stabel med gamle aviser bundet sammen med hyssing
Foto: Maria Tyutina

Norges hemmelige KI-våpen: 150 år med avisarkiv

45 millioner kroner i året. Det er prisen staten betaler for å mate kunstig intelligens med alt norske aviser har publisert.

I desember 2025 signerte Nasjonalbiblioteket og Kopinor en avtale som gjør Norge til det første landet i verden med en formell betalingsordning for bruk av avisinnhold i KI-trening. Mens USA og EU lar rettssaker avgjøre hvem som eier ordene maskinene lærer av, valgte Norge forhandlingsbordet. Resultatet er en modell resten av verden nå følger med på.

Fra støvete hyller til superdatamaskiner

Nasjonalbiblioteket har digitalisert nesten alt som noensinne er publisert på norsk. Bøker, tidsskrifter, aviser. Samlingen strekker seg over 150 år med norsk publisering, og det er nettopp denne bredden som gjør den verdifull for KI-utvikling.

Gjennom Mímir-prosjektet, et samarbeid mellom Nasjonalbiblioteket, NTNU og Universitetet i Oslo, har forskerne trent rundt 20 ulike språkmodeller. Konklusjonen er entydig: modeller som trenes på rettighetsbelagt norsk innhold presterer bedre enn de som bare bruker fritt tilgjengelig materiale fra internett.

Forskjellen handler ikke bare om grammatikk. Modellene forstår kontekst, kulturelle referanser og nyanser i norsk språk på en måte som internasjonale modeller som ChatGPT ikke gjør. Som nasjonalbibliotekar Aslak Sira Myhre har uttalt: «Dette prosjektet er unikt i verdenssammenheng.»

Modellene som allerede leverer

NB Whisper, Nasjonalbibliotekets tale-til-tekst-modell, forstår norske dialekter bedre enn OpenAIs egen modell. Den finnes i tre varianter: en som gjengir tale tilnærmet ordrett, en som oppsummerer mening for møtereferater og teksting, og en som transkriberer hvert ord for politiavhør og språkforskere.

Politiet har kalt teknologien et «enormt effektiviseringspotensial» for avhørsarbeidet. NRK og Universitetet i Oslo har bygget egne tjenester på toppen av modellen.

Og NorMistral-11B, en generativ språkmodell trent på bibliotekets samlinger, ble evaluert av Språkrådet våren 2025. Resultatet: 1,3 feil per 100 ord på bokmål. Samme nivå som Microsoft Copilot, og bedre enn ChatGPT (1,5 feil). For nynorsk scoret alle modellene dårligere, men norskutviklede modeller hadde fortsatt et forsprang.

Hvorfor dette er en kultursak

Når ChatGPT skriver norsk, gjør den det som en turist med parlør. Grammatikken er stort sett riktig, men den kulturelle dybden mangler. Den vet ikke hvorfor «dugnad» betyr mer enn gratisarbeid, eller hvordan «janteloven» fungerer som sosial regulering snarere enn undertrykkelse.

Nasjonalbibliotekets tilnærming er radikalt annerledes. Ved å trene på 150 år med norsk avishistorie, får modellene tilgang til hele den kulturelle samtalen: debattene om unionsoppløsningen, krigsårenes sensurerte presse, oljeeventyrets begynnelse, og den digitale omveltningen. Ordene er ikke bare språkdata. De er kulturell hukommelse.

I en tid der bokbransjen opplever sitt eget paradoks mellom rekordsalg og lesekrise, representerer Nasjonalbibliotekets KI-satsing noe sjeldent: en kulturpolitisk investering som også er teknologisk ambisiøs.

Forretningsmodellen verden mangler

Utenfor Norge er forholdet mellom mediehus og KI-selskaper et juridisk minefeld. The New York Times saksøker OpenAI. Europeiske utgivere krever kompensasjon. Store deler av internett er blitt et opphavsrettslig slagfelt.

Den norske modellen tilbyr et alternativ: staten betaler, rettighetshaverne kompenseres gjennom Kopinor, og de ferdige modellene blir fritt tilgjengelige for hele samfunnet. Privat næringsliv, offentlig sektor, forskningsmiljøer. Alle kan bygge videre på det.

Kulturminister Lubna Jaffery kalte det en avtale som «aukar regjeringa tempoet i satsinga på språkmodellar». Bak byråkratspråket ligger en reell ambisjon: å gjøre norsk til et språk som KI-systemer faktisk behersker, ikke bare tolererer.

Det store bildet

Norge bruker 45 millioner i året på dette. Til sammenligning koster én enkelt treningsrunde for en stor internasjonal modell som GPT-4 flere hundre millioner dollar. Den norske strategien handler ikke om å konkurrere med OpenAI eller Google. Den handler om å sikre at norsk språk og kultur ikke blir en ettertanke i den globale KI-revolusjonen.

Tidlig i 2026 lanseres de første modellene trent under den nye avtalen. Nasjonalbiblioteket har allerede 17 generative modeller i porteføljen. Med tilgang til oppdatert avisinnhold, ikke bare historisk arkivmateriale, blir neste generasjon vesentlig bedre.

I en verden der norske KI-startups kjemper om oppmerksomhet, bygger Nasjonalbiblioteket noe mer grunnleggende: infrastrukturen som gjør at KI kan tenke på norsk.

Kilder

kunstig intelligensnasjonalbiblioteketmediebransjensprakmodellerkulturpolitikk

Relaterte artikler