Kan «KI» avsløre «KI-tekster»?

Ideen om at dataprogram kunne skrive gode eksamensbesvarelser, ble raskt fulgt opp av tilsvarende fantasier om at samme system kunne avsløre tekster generert av samtaleroboter. I det følgende har jeg tatt ut beskrivelsen av mine tester på dette fra Kap 7.

GPT-2 Output Detector Demo

Jeg testet først GPT-2 Output Detector Demo på teksten om Sivilforsvaret, og fulgte da en oppskrift fra en lærer på en av de mange åpne lærergruppene på Facebook. Denne oppskriften besto i å først oversette elevens tekst via Google Translate til engelsk, og deretter lime den en engelske versjonen inn i GPT-2.

Rasjonale for dette skulle være at siden ChatGPT var bygget opp rundt engelsk, måtte man oversette norske tekster for at sjekke-program som GPT-2 skulle kunne avgjøre om teksten var ChatGPT-generert eller ikke.

Selv om dette var ytterst tvilsom logikk, så fulgte jeg denne oppskriften, og la først inn teksten i engelsk form (oversatt via Google Translate). Deretter gjorde jeg et nytt forsøk og la inn Chat GPT sin norske tekstversjon.

Den engelske teksten ble flagget som «uekte tekst» (altså skrevet av et AI-system), mens den norske teksten ble flagget som «ekte» (altså skrevet av et menneske).

Dermed fikk jeg et godt eksempel på at GPT-2 ikke er mye å stole på.

GPTZero

Deretter testet jeg samme tekst (engelsk og norsk) i GPTZero og fikk akkurat samme resultat; den engelske teksten ble flagget som KI-generert tekst, mens den norske ble flagget som menneske-generert.

Skal slike systemer ha noen som helst funksjon, så må de reagere korrekt på den originale norske teksten. En tekst endret via oversettersystemet Google Translate er jo ikke lengre den originale teksten en student eller en elev leverte.

ChatGPT

Men hva om vi spør ChatGPT selv? Jeg testet dette med teksten om Sivilforsvaret som denne samtaleroboten kom frem med i en av mine tester, og ChatGPT svarte prompte:

Ja, jeg skrev det. Dette er en beskrivelse av hva sivilforsvaret i Norge er og hva deres rolle og oppgaver er. Jeg har beskrevet hvordan organisasjonen består av frivillige mennesker som ønsker å bidra til å hjelpe andre i nød og ulykker, og at de har mange ulike avdelinger som hver har sine egne spesielle oppgaver og ansvarsområder. Jeg har også pekt på at sivilforsvaret er kanskje mest kjent for sine store innsatser ved ulykker og kriser, men deres bidrag er viktig i mange andre sammenhenger også, som å organisere store arrangementer og øke bevisstheten om sikkerhet og beredskap i befolkningen.

Her treffer jo ChatGPT spikeren på hodet, men hva om den får en annen tekst?

Med fare for å bli beskyldt for at hele denne bloggboken er skrevet av ChatGPT la jeg inn følgende tekst tatt fra noe av det jeg har skrevet i denne bloggboken:

Har du skrevet dette: Jeg har testet ut ChatGPT innenfor eget fagfelt, med blant annet oppgaver fra IKT og Lærings-studiene, og systemet svarer på (stort sett) utmerket norsk. Men ingen av svarene ville – dersom en student presenterte disse på en eksamen – gi særlig høy karakter. Systemet gjør en god jobb med å lynraskt samle informasjon og produserer helt greie og korrekte svar på nivå 1 i Blooms taksonomi, men gir ingen dybdesvar (i alle fall ikke i mine forsøk) på høyere nivå og er selvsagt totalt avhengig av at de kilder systemet benytter inneholder korrekt informasjon. ChatGPT gir heller ingen kildehenvisninger for sine svar, så selv om dette er en artig og interessant «samtalebasert søkemotor» er en nødt til å foreta egne søk i for eksempel Google for å sikre at informasjon faktisk er valid.

Ja, dette er noe jeg skrev. Det beskriver at jeg har testet ut ChatGPT (modellen som gjør min interaksjon med deg mulig) innenfor eget fagfelt og finner at systemet gir gode og korrekte svar på nivå 1 i Blooms taksonomi, som er relatert til å gjenkjenne eller gjengi kjent informasjon, men ikke på høyere nivåer som krever analyse og anvendelse av informasjonen. Jeg understreker også at ChatGPT ikke gir kildehenvisninger for sine svar, så det er viktig å bekrefte informasjonen gjennom andre kilder.

Og her ser vi nok en gang at såkalt «KI» ikke er pålitelig når de brukes til noe annet enn det er laget for; «Språkmodeller er lagd for å skrive gode setninger, ikke for å undersøke virkeligheten» (Inga Strümke, NRK, 2025).

Konklusjon

Disse korte testene viser at systemene «sjonglerer» med tekstbasert informasjon og vipper i ene eller andre retning alt etter hva systemet «gjenkjenner» basert på statistiske beregninger.

Etter som både ulike samtaleroboter og verktøy for å oppdage robottekst videreutvikles, kan det godt hende at vi vil kunne se en høyere prosent av korrekte identifikasjoner av robottekster enn det jeg så i 2023. Men siden disse verktøyene ikke er intelligente, og kun baserer seg på statistisk sannsynlighet, vil riktigheten av resultatene kunne være høyst usikre – noe rapporter fra USA klart viser:

  1. Student Falsely Accused By AI Detectors (2025)
  2. She lost her scholarship over an AI allegation (2025)
  3. AI writing detection in the classic report view (2025)

Å bruke slike verktøy for å sjekke om en tekst virkelig er skrevet av en student er ikke bare bortkastet, men er også et potensielt brudd på studentenes rettsvern.

Leseliste

  1. Why AI detectors think the US Constitution was written by AI
  2. The Challenge of AI Checkers
  3. AI Detectors Don’t Work. Here’s What to Do Instead
  4. RAID: AShared Benchmark for Robust Evaluation of Machine-Generated Text Detectors
  5. My Original Writing is Failing an AI Text Check
  6. There Is No Way to Detect AI Content (Here’s the Proof)
  7. 4 Examples That Show You Cannot Trust ZeroGPT and Other AI Detection Tools
  8. OpenAI legger ned verktøy for å avsløre AI-tekst: – Unøyaktig!
  9. There’s a Problem With That App That Detects GPT-Written Text: It’s Not Very Accurate
  10. How reliable are AI detectors for academic text and should you use AI for writing?

< Tilbake til samlesiden for testene