Kap. 7 Hva gjør vi nu, lille du?

For as long as there has been high-stakes assessment in education, there has been cheating. ChatGPT may make it a little easier for students to cheat, and a little harder for us to catch them if they do, but it doesn’t fundamentally change the integrity dynamics in higher education. The best ways of thwarting cheating have never been focused on policing and enforcement; they have been about integrity training, creating a healthy campus culture and reducing incentives to cheat
Professor Danny Oppenheimer, 2023 (1)

«We should be focused on how to change teaching and learning so that LLMs and all of the other technological distractions that have dominated youth attention are simply irrelevant.»
– Professor Amy J. Ko, 2023 (2)

«Banning ChatGPT is like prohibiting students from using Wikipedia or spell-checkers. Even if it were the “right” thing to do in principle, it is impossible in practice.»
– Professor Angela Duckworth og professor Lyle Ungar, 2023 (3)

«Rather than banning students from using labor-saving and time-saving AI writing tools, we should teach students to use them ethically and productively.»
– Professor John Villasenor, 2023 (4)

Forbud er et håpløst utgangspunkt

Det vi, etter min mening, absolutt ikke skal gjøre er å forby bruk av ChatGPT.

Vi skal heller ikke utvikle omfattende og byråkratiske retningslinjer for bruk av samtaleroboter av type ChatGPT, der mangelen på tillit til studenter og forelesere er det underliggende motivet.

Selv om det finnes studenter som lar seg friste til snarveier, er det min påstand at flertallet er etisk bevisst nok til å håndtere disse systemene på en grei måte.
Og dessuten er nok de fleste studenter heller ikke dummere enn at de raskt ser de store svakhetene ved ChatGPT og lignende verktøy.

Dermed skal vi heller ikke sette opp retningslinjer av typen «Hjemmeeksamen som eneste tellende vurdering/eksamen må unngås så langt det lar seg gjøre». Slike formuleringer viser ikke bare manglende forståelse for akademisk frihet og den enkelte fagansvarliges rett til å foreta faglige vurderinger av hva som er hensiktsmessig vurderingsform, men det viser også en total mangel på forståelse for, og kunnskap om, ulike måter å konstruere eksamensoppgaver på. Det viser også, etter min mening, manglende kunnskap om informasjonsteknologi og hva en samtalerobot rent faktisk kan «produsere».

Det finnes ingen Quick-Fix

Like lite som vi skal forby bruken av samtaleroboter, skal vi desperat lete etter Quick Fix-løsninger på nettet som kan avsløre GhatGPT-generert tekst. Det finnes nettbaserte system som skal kunne gjenkjenne tekster skrevet av KI, blant annet GPT-2 Output Detector Demo, men det er ingen garanti for denne type system avslører tekster skrevet av ChatGPT.

Jeg testet nevnte system på teksten om Sivilforsvaret, og fulgte da en oppskrift fra en lærer på en av de mange åpne lærergruppene på Facebook. Denne oppskriften besto i å først oversette elevens tekst via Google Translate til engelsk, og deretter lime den en engelske versjonen inn i GPT-2.

Rasjonale for dette skulle være at siden ChatGPT var bygget opp rundt engelsk, måtte man oversette norske tekster for at sjekke-program som GPT-2 skulle kunne avgjøre om teksten var ChatGPT-generert eller ikke.

Selv om dette var ytterst tvilsom logikk, så fulgte jeg denne oppskriften, og la først inn teksten i engelsk form (oversatt via Google Translate). Deretter gjorde jeg et nytt forsøk og la inn Chat GPT sin norske tekstversjon.

Den engelske teksten ble flagget som «uekte tekst» (altså skrevet av et AI-system), mens den norske teksten ble flagget som «ekte» (altså skrevet av et menneske).

Dermed fikk jeg et godt eksempel på at GPT-2 ikke er mye å stole på.

Jeg testet samme tekst (engelsk og norsk) i GPTZero og fikk akkurat samme resultat; den engelske teksten ble flagget som KI-generert tekst, mens den norske ble flagget som menneske-generert.

Skal slike systemer ha noen som helst funksjon, så må de reagere korrekt på den originale norske teksten. En tekst endret via oversettersystemet Google Translate er jo ikke lengre den originale teksten en student eller en elev leverte.

Men hva om vi spør ChatGPT selv? Jeg testet dette med teksten om Sivilforsvaret som denne samtaleroboten kom frem med i en av mine tester, og ChatGPT svarte prompte:

Ja, jeg skrev det. Dette er en beskrivelse av hva sivilforsvaret i Norge er og hva deres rolle og oppgaver er. Jeg har beskrevet hvordan organisasjonen består av frivillige mennesker som ønsker å bidra til å hjelpe andre i nød og ulykker, og at de har mange ulike avdelinger som hver har sine egne spesielle oppgaver og ansvarsområder. Jeg har også pekt på at sivilforsvaret er kanskje mest kjent for sine store innsatser ved ulykker og kriser, men deres bidrag er viktig i mange andre sammenhenger også, som å organisere store arrangementer og øke bevisstheten om sikkerhet og beredskap i befolkningen.

Her treffer jo ChatGPT spikeren på hodet, men hva om den får en annen tekst?

Med fare for å bli beskyldt for at hele denne bloggboken er skrevet av ChatGPT la jeg inn følgende tekst tatt fra noe av det jeg har skrevet i denne bloggboken:

Har du skrevet dette: Jeg har testet ut ChatGPT innenfor eget fagfelt, med blant annet oppgaver fra IKT og Lærings-studiene, og systemet svarer på (stort sett) utmerket norsk. Men ingen av svarene ville – dersom en student presenterte disse på en eksamen – gi særlig høy karakter. Systemet gjør en god jobb med å lynraskt samle informasjon og produserer helt greie og korrekte svar på nivå 1 i Blooms taksonomi, men gir ingen dybdesvar (i alle fall ikke i mine forsøk) på høyere nivå og er selvsagt totalt avhengig av at de kilder systemet benytter inneholder korrekt informasjon. ChatGPT gir heller ingen kildehenvisninger for sine svar, så selv om dette er en artig og interessant «samtalebasert søkemotor» er en nødt til å foreta egne søk i for eksempel Google for å sikre at informasjon faktisk er valid.

Ja, dette er noe jeg skrev. Det beskriver at jeg har testet ut ChatGPT (modellen som gjør min interaksjon med deg mulig) innenfor eget fagfelt og finner at systemet gir gode og korrekte svar på nivå 1 i Blooms taksonomi, som er relatert til å gjenkjenne eller gjengi kjent informasjon, men ikke på høyere nivåer som krever analyse og anvendelse av informasjonen. Jeg understreker også at ChatGPT ikke gir kildehenvisninger for sine svar, så det er viktig å bekrefte informasjonen gjennom andre kilder.

Javel ja. For de som stadig tror at ChatGPT (og lignende samtaleroboter) er et genialt verktøy som kan tenke selv, er dette nok et eksempel på at systemet sjonglerer med tekstbasert informasjon og vipper i ene eller andre retning alt etter hva systemet «gjenkjenner» basert på statistiske beregninger. Å bruke slike verktøy for å sjekke om en tekst virkelig er skrevet av en elev eller en student er ikke bare bortkastet, men er også et potensielt brudd på eleven og studentens rettsvern.

Test det, bruk det, forstå det

«Å avvise KI som et legitimt hjelpemiddel kan sammenlignes med å nekte bruk av ordbøker i språkstudier. Verden utvikler seg, og det gjør også måten vi lærer og jobber på.»
– Professor Atle G. Guttormsen, 2024 (5)

I 2025 er så og si samtlige mennesker i dette landet storkonsumenter av digitale medier, og der mange av verktøyene som benyttes er både til nytte og underholdning. Det er imidlertid ikke gitt at dette utstrakte konsumet av digitale medier gir seg utslag i særlig stor forståelse for hva digital teknologi i bunn og grunn rent faktisk er, noe som nok forretningslivet og media vet å utnytte via fantasihistorier om «kunstig intelligens». Men da er det opp til utdanningsinstitusjonene å hjelpe til med å utvikle kunnskap og forståelse om muligheter og begrensninger av denne type digitale verktøy, og det gjør vi ikke ved å utelukkende se på dem som «fuskeverktøy» eller – enda verre – ignorere dem totalt. Det er heller ikke til særlig hjelp at vi ukritisk omtaler denne type verktøy som «KI», selv om det er fristende å følge mediafantasiene og på den måten fremstå som moderne og fremtidsrettet.

ChatGPT og lignende samtaleroboter føyer seg, slik jeg ser det, inn i rekken av verktøy som kreative personer vil kunne finne nytte av i en skriveprosess, uten at det dermed fører til akademisk kollaps. Og de samme personer vil nok raskt oppdage at verktøyet har store svakheter og at bruken derfor etter hvert vil være av begrenset og mer fokusert art.

Inkludering av samtaleroboter i fagemner

«Studenter bør bli vant til å bruke kunstig intelligens for å forberede seg på yrkeslivet.»
– Simone Grassini, PhD, 2023 (6)

«Recent reports suggest that consumers are starting to lose interest: The new AI-powered Bing search hasn’t made a dent in Google’s market share, ChatGPT is losing users for the first time, and the bots are still prone to basic errors that make them impossible to trust.»
– Sara Morrison, 2024 (7)

«The research and consulting firm Gartner predicts that the majority of companies that built their own LLMs will abandon them by 2028.»
– David Berreby, 2024 (8)

«But a lot of of theories about how ChatGPT would be used in practice have fizzled out. Remember how ChatGPT was gonna take over web search and wipe out Google? Two years later Google’s search share hasn’t diminished all that much. High school kids are still using ChatGPT to write term papers, but a lot of Fortune 500 companies are somewhat underwhelmed by the real world results they are getting.»
– Professor Gary Marcus, 2024 (9)

«Today, there is this omnipresent and pervasive perception of AI is a panacea, where in reality AI is much more sporadic and uneven in terms of its use. We know that while GenAI excels in certain areas (such as content generation, information retrieval, programming tasks), it also really struggles at other tasks (misinformation, hallucinations, quantitative reasoning). I think what these results show is a dichotomy between what AI can be in a theoretical, idealistic sense vs. what AI is currently in the more practical, tangible sense.»
– Andrew Yukawa, 2024 (10)

«Selv om vi skulle lykkes med utviklingen av avanserte KI-løsninger, er det høyst uklart om de vil få en utstrakt bruk.»
– Knut Jørgen Vie, Postdoc, 2024 (11)

En ting er å teste samtaleroboter selv, eventuelt oppmuntre studentene til å teste verktøyene som del av sitt arbeide. Men bør en også inkludere tematikken i de ulike fagområder?

Som en følge av mediefantasiene knyttet til KI er det begynt å komme ulike utspill om at det nå er viktig å lære studenter om kunstig intelligens. Begrunnelsen er ofte at KI-kompetanse er avgjørende i næringslivet. Hva som ligger i begrepene «KI» og «KI-kompetanse» og på hvilken måte dette er avgjørende for næringslivet er ofte nokså diffust, og utspillene er sjelden eller aldri forankret i konkret forsking.

Og igjen må vi tilbake til spørsmålet; Er store språkmodeller, og dermed samtaleroboter, virkelig eksempler på KI?

«As someone working in statistics and peripherally machine learning it has been endlessly tiresome to hear LLMs be marketed as «AI» to an unsuspecting audiance. LLMs are no closer to AI than Alexa was this time last year.
While the capabilities of Large Language Models are impressive, calling them «AI» remains contentious.»
– kylebenzle, 2024 (13)

«People who are good at talking tend to talk a lot. Because they talk so much, they sound really good and really cool when they are talking, but 99% of them don’t have tens of thousands of hours of experience building technical systems to understand the absolute mind-boggling complexity certain systems have. I do. And I’m here to explain why all this talk of “we’re close to AGI” is just a pile of garbage.»
– Chris Frewin, 2024 (14)

«The recent hype for Gen AI (Generative AI), especially LLM (Large Language Model), has become extremely high. More and more organizations have already jumped or are planning to jump into this controversial zone.»
– Christopher Tao, 2024 (15)

«Why are LLMs a dead end? In short, memorization does not equal intelligence.»
– Professor Josh Brake, 2024 (16)

Funder litt på sitatene over og la oss så se på noen ulike fag- og forskningsområder som omfattes av samlebegrepet «KI»:

Maskinlæring og dyp læring: Maskinlæringsalgoritmer, særlig såkalt dyp læring, benyttes innen ulike områder som bilde- og talegjenkjenning, naturlig språkbehandling og autonome systemer.
Naturlig språkbehandling: Fokuserer på å gjøre det mulig for datamaskiner å forstå, behandle og generere menneskelig språk.
Datamaskinsyn: Her sees det på hvordan gjøre det mulig for maskiner å tolke og forstå visuell informasjon fra verden.
Forsterkende læring: Dette området ser på hvordan man kan få algoritmer til å ta sekvenser av beslutninger i dynamiske miljøer for å oppnå spesifikke mål.
Etikk i KI: Etter hvert som KI-systemer blir mer integrert i samfunnet, er det avgjørende å sikre etisk bruk og forhindre skjevhet i KI-beslutninger. Forskning på dette området fokuserer på å utvikle rammeverk for ansvarlig KI-utvikling og adressere spørsmål knyttet til rettferdighet, åpenhet og ansvarlighet.
KI i helsevesenet: Helsevesenet drar nytte av KI-applikasjoner som sykdomsdiagnose, legemiddeloppdagelse og personlige behandlingsplaner. Forskere arbeider med å forbedre KI’s nøyaktighet og pålitelighet i medisinske omgivelser samtidig som de sikrer pasientens personvern og datasikkerhet.
KI i biler og våpensystemer: Fokuset her er på programmeringen av autonome kjøretøy, roboter og autonome våpensystemer.
KI i underholdning: KI brukes til å generere kunst, musikk og annet kreativt innhold. Pågående forskning tar sikte på å skape KI-systemer som kan samarbeide med menneskelige skapere, og forbedre den kreative prosessen i stedet for å erstatte den.
KI-maskinvare og infrastruktur: Etterspørselen etter KI-beregning har ført til utvikling av spesialiserte maskinvarearkitekturer. Forskere arbeider med å optimalisere KI-algoritmer for disse maskinvareplattformene for å oppnå raskere og mer energieffektiv behandling.
Forklarbar KI: Etter hvert som KI-systemer blir mer komplekse, øker behovet for å forstå deres beslutningsprosesser. Forskning på forklarbar KI fokuserer på å gjøre KI-systemer mer gjennomsiktige og tolkbare, slik at brukere kan forstå begrunnelsen bak beslutningene deres.

Etter å ha sett på disse 10 eksemplene kan det være greit å hente frem igjen et sitat fra R.H. Lossin og J. Resnikoff benyttet i denne bloggboken og minne om følgende (utheving – tekst i fet skrift – satt av meg):

«Strictly speaking, AI is not a technology at all. Facial-recognition software, translation and speech recognition programs, scheduling algorithms, and predictive models might all have different machine learning tools running in the background, but it is patently absurd to refer to them as a singular technology. We do not call everything containing copper wires «wiring».»

Ideen om at «KI» (som oftest i uspesifisert form) er noe som i alvorlig grad vil påvirke den enkelte, f.eks. som at KI vil gjøre programmere og en rekke andre jobbtyper, unødvendige, er gjerne argument benyttet for at «KI» må inn i både skole, høyere utdanning, helseforetak osv. Det er jo en interessant idé, men hva er den egentlige virkeligheten nasjonalt og internasjonalt når det gjelder tanken om at samtaleroboter vil endre nærings- og samfunnsliv?

Og her kan det passe å stoppe opp nok en gang. For til tross for at media, politikere og andre stadig snakker om «KI», så er det eneste vi – som enkeltbrukere – per nå har fått direkte tilgang til ulike samtaleroboter. Ja da, det er imponerende hvor godt kombinasjonen av store språkmodeller og store mengder data – lagt inn fra bøker, artikler osv. av en rekke innleide hjelpere (klart brudd på opphavsretten) og hentet inn fra Internett via automatiserte søk (i de fleste tilfeller antakelig også et klart brudd på opphavsretten, samt store mengder uverifiserte påstander, falske nyheter osv.) – fungerer. Og ja de er nyttige, til sitt bruk.

Men dette digitale verktøykonseptet er kun ett konsept, ett sett med verktøy. Og som vi ser av ulike artikler er interessen i næringslivet for akkurat dette verktøyet fallende. Og «KI» i betydningen mer spesialiserte systemer (benyttet i yrkeslivet/til forskning ol.) eller deler av ulike systemer som vi alle benytter (men uten å ha «kontroll» med selve «KI»-delen) har i årtier vært en del av vår teknologiske hverdag.

Så hvis samtaleroboter, basert på store språkmodeller, er på vei ut av det urealistiske og uvitenskapelige og over i det helt teknologisk normale, hva skal vi da egentlig lære våre studenter (og elever i lavere skoleslag) om når vi peker på «KI»? Skal dette være større kursrekker av typen «Elements of AI»? Eller mindre kurs av typen «Introduction to AI»? Eller rene verktøykurs a la «hvordan bruke ChatGPT»? Og skal disse kursene være helt frakoblet de studieprogram studentene er en del av, eller skal det lages ulike kurs som er en integrert del av f.eks. et emne i en økonomibachelor?

Det hadde utvilsomt vært ønskelig med både et høyere presisjonsnivå og større kunnskap om virkeligheten, når politikere og andre snakker om «KI-kurs», men vi kan vel dessverre regne med at kursingen det henvises til utelukkende handler om samtaleroboter og hvordan disse spesifikke verktøyene kan brukes rent generelt. Dermed blir fokuset på en ytterst liten del av det store forskningsfeltet KI.

Selv er jeg skeptisk til å utvikle egne kurs utelukkende med fokus på et spesifikt verktøy, og løfte opp denne verktøytypen som «KI». Skal man få til økt forståelse for, og kunnskap om, KI bør en heller søke å inkludere tematikken – selve begrepet KI og dette at en datamaskin ikke kan tenke – i eksisterende fagemner/ kurs. Videre kan det være nyttig å løfte frem konkret og reell bruk av f.eks. store språkmodeller innen økonomi eller helsefag, slik at studentene skjønner forskjellen på special purpose og general purpose systemer. Språkmodeller er også et godt eksempel på viktigheten av at man først identifiserer konkrete problem som skal løses, og deretter velger verktøyet.

Som et resultat av mine tester har jeg inkludert deler av tematikken i tre fagemner. Og da er det først og fremst problemstillinger knyttet til det etiske, juridiske, sikkerhetsmessig, helsemessige og det kognitive som er av interesse.

IKT1013, sikkerhetsmessige aspekter ved samtaleroboter og lignende «KI-verktøy», knyttet til digital egenberedskap.
IKT1016, introduksjon til samtaleroboter og forskjellen på mediehistorier og evidensbaserte fakta, samt fokus på etiske, juridiske, sikkerhetsmessige, helsemessige og læringsmessige utfordringer med dette verktøyet. (AK1)
ORG5005, sikkerhetsmessige aspekter ved samtaleroboter og lignende «KI-verktøy», knyttet til digital egenberedskap.

Samtalerobotene kan gi oss som forelesere en glimrende anledning til å la våre studenter utforske nok et (tilsynelatende) «nytt» verktøy, og samtidig sørge for at fokuset deres er på faglige arbeid knyttet til utfordrende oppgaver. Og siden utvikling av denne type program har potensiale – både gjennom hvordan de er programmert og gjennom hvordan folk flest bruker dem – til å påvirke oss som borgere og dermed hele samfunnet, er det også viktig å knytte disse «verktøyene» til etiske, juridiske, helsemessige, sikkerhetsmessige og læringsmessige vurderinger.

I tillegg gir dette oss en god anledning til å trene våre studenter i forskjellen på medieskapte fantasier, tro og håp knyttet til mulige teoretiske fremtidsutsikter og evidensbasert fakta. Som foreleser er det min jobb å utdanne borgere, ikke brukere (konsumenter), og siden mine studenter er profesjonelle undervisere og beredskapspersonell er det viktig at jeg i mine fagemner (der det passer) skaper mulighet for refleksjoner knyttet til deres egen bruk av såkalt «KI».

Microsoft Copilot oppsummerer sitatene fra dette kapittelet

I neste kapittel skal vi se nærmere på noen sikkerhetsmessige, juridiske, etiske, helsemessige og læringsmessige sider ved samtaleroboter. Men først et knippe med interessante artikler.

Forbud er et håpløst utgangspunkt

Det finnes ingen Quick-Fix

Test det, bruk det, forstå det

Inkludering av samtaleroboter i fagemner

Leseliste

Generelt

Fantasien om at «KI» kan oppdage «KI-tekst»

Ulike synspunkter på KI, og KI-bruk i utdanning