Today’s large language models are phenomenal at pattern recognition. But they don’t truly understand causality. They don’t really know why A leads to B. They just predict the next token based on statistical correlations.
Sir Demis Hassabis , 2026 (1)
Som samfunnsinformatiker med fokus på Human‑Centric Security har jeg plassert meg i kretsen av nasjonale og internasjonale forskere som er kritiske til hvordan begrepet «KI» brukes i offentligheten. Og jeg har i andre innlegg påpekt at ChatGPT og lignende samtaleroboter ikke er intelligente og dermed heller ikke klare eksempler på KI.
«Så hva er kunstig intelligens? Først og fremst er det et gammelt fagfelt med et misvisende navn. Som helhet har fagfeltet vært en skuffelse, fordi ordet «intelligens» antyder et løfte disse løsningene aldri har vært i nærheten av å innfri. Samtidig er ideer derfra blitt brukt til å lage IT-løsninger i flere tiår.»
– Bjørn Stærk, 2023 (2)
I tittelen på dette innlegget har jeg likevel valgt å benytte forkortelsen «KI» siden dette begrepet stadig brukes i media og i akademia, selv om det åpenbart kun er samtaleroboter – store språkmodeller i forbindelse med samtalegrensesnitt – det egentlig skrives om.
I desember 2025 la Malthe-Sørenssen-utvalget frem en første betenkning, der et av rådene er å bruke «KI» til sensurarbeid. For meg er det totalt uaktuelt å følge en slik oppfordring, og begrunnelsene for det er følgende:
Teknisk
«Språkmodeller er lagd for å skrive gode setninger, ikke for å undersøke virkeligheten»
– Førsteamanuensis Inga Strümke, 2025 (3)
Som mine ulike feltobservasjoner fra praktiske tester av et utvalg samtaleroboter gjennomført i perioden 2022–2025 viser, er disse verktøyene ikke i stand til å levere gode besvarelser på eksamensoppgaver utformet i tråd med høyeste nivå i Blooms taksonomi.
Jeg har i løpet av 2025 også foretatt tester av hvorvidt samtaleroboter kan foreta vurdering av studentbesvarelser. Tekster strippet for alle henvisninger til studentidentifikasjoner ble lastet opp, sammen med omfattende sensorveiledninger og den kvalitative beskrivelsen av karaktersystemet for universitets- og høgskolesektoren.
Til tross for omfattende «promting» ble resultatet like ubrukelig som forventet. Statistiske beregninger designet for å finne mønstre er uegnet til å vurdere studenters evne til analyse, syntese og evaluering knyttet til helt spesifikt fagstoff og til egen yrkesvirkelighet, evne til å reflektere over egen læring og evne til å finne gode (og etterprøvbare) fagkilder for å bygge opp under egne faglige refleksjoner. De statistiske beregningene hadde selvsagt heller ingen mulighet til å vurdere en students faglige progresjon fra første utkast levert til veiledning til endelig innlevering av en fullstendig fagtekst kombinert med praktisk verktøybruk (utforming av dataspill, digitale læringsrom i et LMS, osv.).
Som teknolog med kunnskap om hvordan slike system rent faktisk fungerer, var det negative resultatet ikke særlig overraskende.
Det juridiske
«Men de overser forvaltningsrettens dypere kommunikative rasjonale: Hvor mye av sensors vurdering kan bli erstattet av KI før man kommer på kant med forvaltningens evne til å kommunisere?»
– Førsteamanuensis Tarjei Ellingsen Røsvoll, 2025 (4)
Det begynner å bli mange år siden jeg, som student ved Offentlig rett i Bergen, hadde gleden av å oppleve professor Arvid Frihagen sine ytterst inspirerende forelesninger i forvaltningsrett. Og det er også lenge siden jeg underviste informatikkstudenter i de deler av forvaltningsretten som hadde direkte relevans for de som senere skulle ut i jobber som IT-sjef eller systemansvarlig.
Men når jeg leste Malthe-Sørenssen-utvalget sine tanker om å overlate sensuren til et digitalt system, var det første som slo meg at dette kunne umulig være i tråd med norsk rett.
I forvaltningsretten har vi noe som heter «forvaltningens menneskelige ansikt», og slik jeg ser det er bruken av samtaleroboter til sensur et klart brudd på studentenes soleklare rett til at all vurdering av deres arbeid er utført av en fagperson som så kan forankre og begrunne karaktersettingen i eget faglige skjønn, slik det har kommet til uttrykk i forelesninger, veiledninger og i sensorveiledninger og klart forankret i den generelle, kvalitative beskrivelsen for karakterene A-F i karakterskalaen fastlagt for universitets- og høgskolesystemet.
Det etiske
«AI systems can often operate as «black boxes» in which the decision-making process is opaque. This lack of transparency can undermine trust and make it difficult for educators and students to understand how assessments are determined.»
– Moumita Bhose, 2024 (5)
Når jeg i alle mine fagemner krever at studentene skal løfte fram egne tanker basert på egne erfaringer og faglige refleksjoner, følger det med en etisk forpliktelse: Studentene må kunne forvente at deres arbeider vurderes av meg som fagperson, slik jeg peker på over. Å sette bort karaktersettingen til statistiske beregninger vil kunne svekke tilliten til meg som veileder og fagperson, redusere mitt klare ansvar for seriøs og faglig individuell vurdering, og undergrave hele læringsprosessen.
Konklusjon
Å bruke såkalt «KI» til sensurarbeid kan føre til feilvurdering av komplekse besvarelser, brudd på forvaltningsloven og en alvorlig svekkelse av student-veileder-relasjonen. For meg er dette derfor helt uaktuelt.
Leseliste
- Skal teknologien få overta vurderingsarbeidet?
- Recommendation on the Ethics of Artificial Intelligence
- Trustworthy artificial intelligence (AI) in education
- Algorithmic Fairness in Automatic Short Answer Scoring
- Will AI revolutionise marking?
- The digital red pen: Efficiency, ethics, and AI-assisted grading
- Automation and Assessment: Exploring Ethical Issues of Automated Grading Systems from a Relational Ethics Approach
- The Dangers of using AI to Grade
- Don’t use GenAI to grade student work
- AI-Assisted Grading: A Magic Wand or a Pandora’s Box?
- The Problem with AI Grading
- Why AI should not be used in education?
- Mitt mareritt er jo at vi bruker KI til å sensurere oppgaver der studentene har brukt KI
