Kap. 7 Hva gjør vi nu, lille du?

«For as long as there has been high-stakes assessment in education, there has been cheating. ChatGPT may make it a little easier for students to cheat, and a little harder for us to catch them if they do, but it doesn’t fundamentally change the integrity dynamics in higher education. The best ways of thwarting cheating have never been focused on policing and enforcement; they have been about integrity training, creating a healthy campus culture and reducing incentives to cheat
– Professor Danny Oppenheimer, 2023 (1)

«We should be focused on how to change teaching and learning so that LLMs and all of the other technological distractions that have dominated youth attention are simply irrelevant.»
– Professor Amy J. Ko, 2023 (2)

«Banning ChatGPT is like prohibiting students from using Wikipedia or spell-checkers. Even if it were the “right” thing to do in principle, it is impossible in practice.»
– Professor Angela Duckworth og professor Lyle Ungar, 2023 (3)

«Rather than banning students from using labor-saving and time-saving AI writing tools, we should teach students to use them ethically and productively
– Professor John Villasenor, 2023 (4)

Forbud er et håpløst utgangspunkt

Det vi, etter min mening, absolutt ikke skal gjøre er å forby bruk av ChatGPT.

Vi skal heller ikke utvikle omfattende og byråkratiske retningslinjer for bruk av samtaleroboter av type ChatGPT, der mangelen på tillit til studenter og forelesere er det underliggende motivet.

Selv om det finnes studenter som lar seg friste til snarveier, er det min påstand at flertallet er etisk bevisst nok til å håndtere disse systemene på en grei måte.
Faktisk virker tallene for de som er tatt for bruk av samtalerobot, sett opp mot det totale antallet studenter, ikke urovekkende høye. Riktignok kan det være mørketall her, men vi har ingen empiri som tilsier at dette er et uoverstigelig problem. Og dessuten er nok de fleste studenter heller ikke dummere enn at de raskt ser de store svakhetene ved ChatGPT og lignende verktøy.

De aller fleste forelesere har også tilstrekkelig ekspertise til å rigge både undervisning og vurderingssituasjoner uavhengig av studentenes tilgang på ulike samtaleroboter. Det store flertallet av forelesere er tross alt ikke «hentet inn fra gaten» men har både lang utdanning i, og mange års erfaring med, det/ de fagemner de underviser i.

Dermed skal vi heller ikke sette opp retningslinjer av typen «Hjemmeeksamen som eneste tellende vurdering/eksamen må unngås så langt det lar seg gjøre». Slike formuleringer viser ikke bare manglende forståelse for akademisk frihet og den enkelte fagansvarliges rett til å foreta faglige vurderinger av hva som er hensiktsmessig vurderingsform, men det viser også en total mangel på forståelse for, og kunnskap om, ulike måter å konstruere eksamensoppgaver på. Det viser også, etter min mening, manglende kunnskap om informasjonsteknologi og hva en samtalerobot rent faktisk kan «produsere».

Det finnes ingen Quick-Fix

Like lite som vi skal forby bruken av samtaleroboter, skal vi desperat lete etter Quick Fix-løsninger på nettet som kan avsløre GhatGPT-generert tekst. Det finnes nettbaserte system som skal kunne gjenkjenne tekster skrevet av KI, blant annet GPT-2 Output Detector Demo, men det er ingen garanti for denne type system avslører tekster skrevet av ChatGPT.

Jeg testet nevnte system på teksten om Sivilforsvaret, og fulgte da en oppskrift fra en lærer på en av de mange åpne lærergruppene på Facebook. Denne oppskriften besto i å først oversette elevens tekst via Google Translate til engelsk, og deretter lime den en engelske versjonen inn i GPT-2.

Rasjonale for dette skulle være at siden ChatGPT var bygget opp rundt engelsk, måtte man oversette norske tekster for at sjekke-program som GPT-2 skulle kunne avgjøre om teksten var ChatGPT-generert eller ikke.

Selv om dette var ytterst tvilsom logikk, så fulgte jeg denne oppskriften, og la først inn teksten i engelsk form (oversatt via Google Translate). Deretter gjorde jeg et nytt forsøk og la inn Chat GPT sin norske tekstversjon.

Den engelske teksten ble flagget som «uekte tekst» (altså skrevet av et AI-system), mens den norske teksten ble flagget som «ekte» (altså skrevet av et menneske).

Dermed fikk jeg et godt eksempel på at GPT-2 ikke er mye å stole på.

Jeg testet samme tekst (engelsk og norsk) i GPTZero og fikk akkurat samme resultat; den engelske teksten ble flagget som KI-generert tekst, mens den norske ble flagget som menneske-generert.

Skal slike systemer ha noen som helst funksjon, så må de reagere korrekt på den originale norske teksten. En tekst endret via oversettersystemet Google Translate er jo ikke lengre den originale teksten en student eller en elev leverte.

Men hva om vi spør ChatGPT selv? Jeg testet dette med teksten om Sivilforsvaret. ChatGPT svarte prompte:

Ja, jeg skrev det. Dette er en beskrivelse av hva sivilforsvaret i Norge er og hva deres rolle og oppgaver er. Jeg har beskrevet hvordan organisasjonen består av frivillige mennesker som ønsker å bidra til å hjelpe andre i nød og ulykker, og at de har mange ulike avdelinger som hver har sine egne spesielle oppgaver og ansvarsområder. Jeg har også pekt på at sivilforsvaret er kanskje mest kjent for sine store innsatser ved ulykker og kriser, men deres bidrag er viktig i mange andre sammenhenger også, som å organisere store arrangementer og øke bevisstheten om sikkerhet og beredskap i befolkningen.

Her treffer jo ChatGPT spikeren på hodet, men hva om den får en annen tekst?

Med fare for å bli beskyldt for at hele denne bloggboken er skrevet av ChatGPT la jeg inn følgende tekst tatt fra noe av det jeg har skrevet i dette innlegget:

Har du skrevet dette: Jeg har testet ut ChatGPT innenfor eget fagfelt, med blant annet oppgaver fra IKT og Lærings-studiene, og systemet svarer på (stort sett) utmerket norsk. Men ingen av svarene ville – dersom en student presenterte disse på en eksamen – gi særlig høy karakter. Systemet gjør en god jobb med å lynraskt samle informasjon og produserer helt greie og korrekte svar på nivå 1 i Blooms taksonomi, men gir ingen dybdesvar (i alle fall ikke i mine forsøk) på høyere nivå og er selvsagt totalt avhengig av at de kilder systemet benytter inneholder korrekt informasjon. ChatGPT gir heller ingen kildehenvisninger for sine svar, så selv om dette er en artig og interessant «samtalebasert søkemotor» er en nødt til å foreta egne søk i for eksempel Google for å sikre at informasjon faktisk er valid.

Ja, dette er noe jeg skrev. Det beskriver at jeg har testet ut ChatGPT (modellen som gjør min interaksjon med deg mulig) innenfor eget fagfelt og finner at systemet gir gode og korrekte svar på nivå 1 i Blooms taksonomi, som er relatert til å gjenkjenne eller gjengi kjent informasjon, men ikke på høyere nivåer som krever analyse og anvendelse av informasjonen. Jeg understreker også at ChatGPT ikke gir kildehenvisninger for sine svar, så det er viktig å bekrefte informasjonen gjennom andre kilder.

Javel ja. For de som stadig tror at ChatGPT (og lignende samtaleroboter) er et genialt verktøy som kan tenke selv, er dette nok et eksempel på at systemet sjonglerer med tekstbasert informasjon og vipper i ene eller andre retning alt etter hva systemet «gjenkjenner» basert på statistiske beregninger. Å bruke slike verktøy for å sjekke om en tekst virkelig er skrevet av en elev eller en student er ikke bare bortkastet, men er også et potensielt brudd på eleven og studentens rettsvern.

Test det, bruk det, forstå det

«Å avvise KI som et legitimt hjelpemiddel kan sammenlignes med å nekte bruk av ordbøker i språkstudier. Verden utvikler seg, og det gjør også måten vi lærer og jobber på
– Professor Atle G. Guttormsen, 2024 (5)

I 2025 er så og si samtlige mennesker i dette landet storkonsumenter av digitale medier, og der mange av verktøyene som benyttes er både til nytte og underholdning. Det er imidlertid ikke gitt at dette utstrakte konsumet av digitale medier gir seg utslag i særlig stor forståelse for hva digital teknologi i bunn og grunn rent faktisk er, noe som nok forretningslivet og media vet å utnytte via fantasihistorier om «kunstig intelligens». Men da er det opp til utdanningsinstitusjonene å hjelpe til med å utvikle kunnskap og forståelse om muligheter og begrensninger av denne type digitale verktøy, og det gjør vi ikke ved å utelukkende se på dem som «fuskeverktøy» eller – enda verre – ignorere dem totalt. Det er heller ikke til særlig hjelp at vi ukritisk omtaler denne type verktøy som «KI», selv om det er fristende å følge mediafantasiene og på den måten fremstå som moderne og fremtidsrettet.

ChatGPT og lignende samtaleroboter føyer seg, slik jeg ser det, inn i rekken av verktøy som kreative personer vil kunne finne nytte av i en skriveprosess, uten at det dermed fører til akademisk kollaps. Og de samme personer vil nok raskt oppdage at verktøyet har store svakheter og at bruken derfor etter hvert vil være av begrenset og mer fokusert art.

Inkludering av samtaleroboter i fagemner

«Studenter bør bli vant til å bruke kunstig intelligens for å forberede seg på yrkeslivet.»
– Simone Grassini, PhD, 2023 (6)

«Recent reports suggest that consumers are starting to lose interest: The new AI-powered Bing search hasn’t made a dent in Google’s market share, ChatGPT is losing users for the first time, and the bots are still prone to basic errors that make them impossible to trust
– Sara Morrison, 2024 (7)

«The research and consulting firm Gartner predicts that the majority of companies that built their own LLMs will abandon them by 2028
– David Berreby, 2024 (8)

«But a lot of of theories about how ChatGPT would be used in practice have fizzled out. Remember how ChatGPT was gonna take over web search and wipe out Google? Two years later Google’s search share hasn’t diminished all that much. High school kids are still using ChatGPT to write term papers, but a lot of Fortune 500 companies are somewhat underwhelmed by the real world results they are getting
– Professor Gary Marcus, 2024 (9)

«Today, there is this omnipresent and pervasive perception of AI is a panacea, where in reality AI is much more sporadic and uneven in terms of its use. We know that while GenAI excels in certain areas (such as content generation, information retrieval, programming tasks), it also really struggles at other tasks (misinformation, hallucinations, quantitative reasoning). I think what these results show is a dichotomy between what AI can be in a theoretical, idealistic sense vs. what AI is currently in the more practical, tangible sense
– Andrew Yukawa, 2024 (10)

«Selv om vi skulle lykkes med utviklingen av avanserte KI-løsninger, er det høyst uklart om de vil få en utstrakt bruk
– Knut Jørgen Vie, Postdoc, 2024 (11)

En ting er å teste samtaleroboter selv, eventuelt oppmuntre studentene til å teste verktøyene som del av sitt arbeide. Men bør en også inkludere tematikken i de ulike fagområder?

Som en følge av mediefantasiene knyttet til KI er det begynt å komme ulike utspill om at det nå er viktig å lære studenter om kunstig intelligens. Begrunnelsen er ofte at KI-kompetanse er avgjørende i næringslivet. Hva som ligger i begrepene «KI» og «KI-kompetanse» og på hvilken måte dette er avgjørende for næringslivet er ofte nokså diffust, og utspillene er sjelden eller aldri forankret i konkret forsking.

Og igjen må vi tilbake til spørsmålet; Er store språkmodeller, og dermed samtaleroboter, virkelig eksempler på KI?

«As someone working in statistics and peripherally machine learning it has been endlessly tiresome to hear LLMs be marketed as «AI» to an unsuspecting audiance. LLMs are no closer to AI than Alexa was this time last year.
While the capabilities of Large Language Models are impressive, calling them «AI» remains contentious

– kylebenzle, 2024 (13)

«People who are good at talking tend to talk a lot. Because they talk so much, they sound really good and really cool when they are talking, but 99% of them don’t have tens of thousands of hours of experience building technical systems to understand the absolute mind-boggling complexity certain systems have. I do. And I’m here to explain why all this talk of “we’re close to AGI” is just a pile of garbage.»
– Chris Frewin, 2024 (14)

«The recent hype for Gen AI (Generative AI), especially LLM (Large Language Model), has become extremely high. More and more organizations have already jumped or are planning to jump into this controversial zone
– Christopher Tao, 2024 (15)

«Why are LLMs a dead end? In short, memorization does not equal intelligence.»
– Professor Josh Brake, 2024 (16)

Funder litt på sitatene over og la oss så se på noen ulike fag- og forskningsområder som omfattes av samlebegrepet «KI»:

  1. Maskinlæring og dyp læring: Maskinlæringsalgoritmer, særlig såkalt dyp læring, benyttes innen ulike områder som bilde- og talegjenkjenning, naturlig språkbehandling og autonome systemer.
  2. Naturlig språkbehandling: Fokuserer på å gjøre det mulig for datamaskiner å forstå, behandle og generere menneskelig språk.
  3. Datamaskinsyn: Her sees det på hvordan gjøre det mulig for maskiner å tolke og forstå visuell informasjon fra verden.
  4. Forsterkende læring: Dette området ser på hvordan man kan få algoritmer til å ta sekvenser av beslutninger i dynamiske miljøer for å oppnå spesifikke mål.
  5. Etikk i KI: Etter hvert som KI-systemer blir mer integrert i samfunnet, er det avgjørende å sikre etisk bruk og forhindre skjevhet i KI-beslutninger. Forskning på dette området fokuserer på å utvikle rammeverk for ansvarlig KI-utvikling og adressere spørsmål knyttet til rettferdighet, åpenhet og ansvarlighet.
  6. KI i helsevesenet: Helsevesenet drar nytte av KI-applikasjoner som sykdomsdiagnose, legemiddeloppdagelse og personlige behandlingsplaner. Forskere arbeider med å forbedre KI’s nøyaktighet og pålitelighet i medisinske omgivelser samtidig som de sikrer pasientens personvern og datasikkerhet.
  7. KI i biler og våpensystemer: Fokuset her er på programmeringen av autonome kjøretøy, roboter og autonome våpensystemer.
  8. KI i underholdning: KI brukes til å generere kunst, musikk og annet kreativt innhold. Pågående forskning tar sikte på å skape KI-systemer som kan samarbeide med menneskelige skapere, og forbedre den kreative prosessen i stedet for å erstatte den.
  9. KI-maskinvare og infrastruktur: Etterspørselen etter KI-beregning har ført til utvikling av spesialiserte maskinvarearkitekturer. Forskere arbeider med å optimalisere KI-algoritmer for disse maskinvareplattformene for å oppnå raskere og mer energieffektiv behandling.
  10. Forklarbar KI: Etter hvert som KI-systemer blir mer komplekse, øker behovet for å forstå deres beslutningsprosesser. Forskning på forklarbar KI fokuserer på å gjøre KI-systemer mer gjennomsiktige og tolkbare, slik at brukere kan forstå begrunnelsen bak beslutningene deres.

Etter å ha sett på disse 10 eksemplene kan det være greit å hente frem igjen et sitat fra R.H. Lossin og J. Resnikoff benyttet i denne bloggboken og minne om følgende (utheving – tekst i fet skrift – satt av meg):

«Strictly speaking, AI is not a technology at all. Facial-recognition software, translation and speech recognition programs, scheduling algorithms, and predictive models might all have different machine learning tools running in the background, but it is patently absurd to refer to them as a singular technology. We do not call everything containing copper wires «wiring».»

Så hva skal vi da egentlig lære våre studenter (og elever i lavere skoleslag) om? Skal dette være større kursrekker av typen «Elements of AI»? Eller mindre kurs av typen «Introduction to AI»? Eller rene verktøykurs? Og skal disse kursene være helt frakoblet de studieprogram studentene er en del av, eller skal det lages ulike kurs som er en integrert del av f.eks. et emne i en økonomibachelor?

Det hadde utvilsomt vært ønskelig med et høyere presisjonsnivå når politikere og andre snakker om «KI-kurs», men vi kan vel desverre regne med at kursingen det henvises til utelukkende handler om samtaleroboter og hvordan disse spesifikke verktøyene kan brukes rent generelt.

Selv er jeg skeptisk til å utvikle egne kurs utelukkende med fokus på et spesifikt verktøy, og løfte opp denne verktøytypen som «KI». Skal man få til økt forståelse for, og kunnskap om, KI bør en heller søke å inkludere tematikken i eksisterende fagemner/ kurs slik at studentene får se konkret og reell bruk av f.eks. store språkmodeller innen økonomi eller helsefag.

Selv har jeg som et resultat av mine første tester, inkludert tematikken i tre fagemner. Og da er det først og fremst problemstillinger knyttet til det etiske, juridiske, sikkerhetsmessig og det kognitive som er av interesse.

  1. IKT1013, sikkerhetsmessige aspekter ved samtaleroboter og lignende «KI-verktøy».
  2. IKT1016, introduksjon til samtaleroboter, og fokus på etiske, juridiske og læringsmessige utfordringer (AK1)
  3. ORG5005, sikkerhetsmessige aspekter ved samtaleroboter og lignende «KI-verktøy».

Jeg gir ingen opplæring i konkret bruk av samtaleroboter. Disse verktøyene er tross alt utviklet for at de skal kunne benyttes av alle på en enkel måte.

Samtalerobotene kan gi oss som forelesere en glimrende anledning til å la våre studenter utforske nok et (tilsynelatende) «nytt» verktøy, og samtidig sørge for at fokuset deres er på faglige arbeid knyttet til utfordrende oppgaver. Og siden utvikling av denne type program har potensiale til å påvirke oss som borgere og dermed hele samfunnet, er det også viktig å knytte disse verktøyene til etiske, juridiske, sikkerhetsmessige og læringsmessige vurderinger.

Kan utforskning av ChatGPT og lignende samtaleroboter, eventuelt inkludering av disse verktøyene i ulike fagemner, føre til refleksjoner rundt kunstig intelligens (som teknologisk forskning enda ikke har klart å frembringe) så er jo det bare bra.

Det som er mindre bra, er at samtaleroboter som all annen teknologi, trekker med seg en rekke problemstillinger som har lett for å drukne i all mediestøyen.

Leseliste

  1. Refser akademia for angst­preget KI-tilnærming. — Går baklengs inn i fremtiden
  2. KI i Randabergskolen
  3. Hvordan ChatGPT kan bidra i lærerutdanningens matematikkundervisning
  4. Spørsmål om KI som faglige spørsmål
  5. Lider akademia av teknofobi?
  6. Artificial Intelligence—The Revolution Hasn’t Happened Yet
  7. The future of generative AI is niche, not generalized
  8. 4 Examples That Show You Cannot Trust ZeroGPT and Other AI Detection Tools
  9. OpenAI legger ned verktøy for å avsløre AI-tekst: – Unøyaktig!
  10. There’s a Problem With That App That Detects GPT-Written Text: It’s Not Very Accurate

<Forrige kapittel Neste kapittel>