Kap. 4 Rasende utvikling – fra dum til dummere?

«KI-genererte tekstsvar og falske bilder kan se veldig imponerende ut. Men det skal ikke mye gransking til for å avdekke at modellene som ligger bak, ikke forstår noen ting. De er tross alt bare «stokastiske papegøyer» (tilfeldige papegøyer), som gjentar varianter av ting de alt har hørt
– Sølve Eidnes, Katrine Seel og Signe Riemer-Sørensen, 2023 (1)

At ChatGPT gjorde det relativt dårlig i mine forsøk beskrevet i de forrige kapitler, betyr ikke at det ikke kan komme ut med greie svar på nivå 1 i andre sammenhenger, og slike automatisk genererte fremstillinger kan jo være en god første start (en slags «trigger») for en elev eller en student før denne tar fatt på en oppgave. Men kan ChatGPT (og lignende systemer) klare mer ordinære eksamener, f.eks. på masternivå?

ChatGPT klarer en mastereksamen, Bing Chat dikter opp en bok som ikke eksisterer og Jenni bommer på et enkelt juridisk spørsmål

I løpet av 2023 kom det flere nyhetssaker om at ChatGPT klarte en MBA-eksamen og eksamener innen jus og økonomi, men kun på nivå med C.

I noen andre forsøk klarte ChatGPT å svare til en A og en B. Men var dette virkelig eksempler på at ChatGPT og lignende språkmodeller rent faktisk klarte (og vil klare) å oppnå en mastergrad? På ingen måte! Og professor Melanie Mitchell forklarer hvorfor i «Did ChatGPT Really Pass Graduate-Level Exams?» (2 deler).

Jo mer utforsket og behandlet et emne er internasjonalt, jo bedre vil nok svarene fra ChatGPT være på nivå 1, så lenge tematikken ikke berører komplekse spørsmål om litteratur eller tematikk som programmererne i OpenAI mener er kontroversielt. Og nisjepregete tema som for eksempel lødig litteratur i Norge på 70-tallet genererer  i mine forsøk upresise eller helt feile svar. Men siden svarene, inklusive forsøk på å korrigere sine feil, fremkommer på en høflig måte og med en sjarmerende lurendreier-vri på brukernes egne formuleringer, blir det hele ytterst fornøyelig.

Jeg synes de ulike språkmodellene vi ble presentert for gjennom hele 2023 er interessant og informasjon om systemets styrker og svakheter bør absolutt være en del av vår undervisning. Og vi bør være krystallklare på at våre studenter må kildegranske informasjonen de får og ikke stole noe mer på ChatGPT enn de gjør på de enkleste Google-søk, særlig fordi ChatGPT og lignende system kan sette sammen forfattere og fagressurser helt vilkårlig, ut fra sine statistiske beregninger og ikke ut fra reelle kilder.

Det blir dermed viktig å påpeke for studentene at forfalskede kildehenvisninger og litteraturlister (altså at det henvises til forfattere og fagressurser som ikke eksisterer, eller ikke tar opp tematikken beskrevet i studentens besvarelse) er å regne som fusk uansett om selve bruken av ChatGPT eller andre språkmodeller er tillatt.

Et godt eksempel på hvordan en språkmodell kan dikte opp en fagkilde, er dette fra Bing Chat. Jeg hadde i utgangspunktet spurt den finne info om meg selv. Mye var korrekt, men noe var rent oppspinn. Så lurte jeg på om jeg hadde skrevet noen bøker? Og ja da det hadde jeg, korrekt nok. Men når jeg lurte på om jeg hadde skrevet noe om samfunnsinformasjonssikkerhet, da ble Bing Chat særdeles kreativ og diktet opp følgende:

Samfunnsinformasjonssikkerhet er en bok som handler om hvordan man kan beskytte seg mot digitale trusler som nettmobbing, identitetstyveri, hacking og overvåking. Boken er skrevet av Per Arne Godejord og Beata Joanna Godejord, som begge er førsteamanuenser ved Nord universitet. Boken er basert på forskning og erfaringer fra prosjektet “Fighting child pornography: Exploring didactics and student engagement in social informatics”, som ble publisert i Journal of the American Society for Information Science and Technology (denne artikkelen eksisterer og jeg skrev den, men det er det eneste som stemmer i denne fornøyelige beskrivelsen).

Boken har følgende innhold:

  • Kapittel 1: Innledning. Her presenteres bokens tema, målgruppe, struktur og begrepsapparat.
  • Kapittel 2: Informasjonssikkerhet som samfunnsutfordring. Her diskuteres ulike aspekter ved informasjonssikkerhet, som teknologi, mennesker, organisasjoner, lover og etikk.
  • Kapittel 3: Digitale trusler og risikoer. Her beskrives noen av de vanligste og mest alvorlige digitale truslene som kan ramme individer og samfunn, som nettmobbing, identitetstyveri, hacking, overvåking, falske nyheter og cyberkrigføring.
  • Kapittel 4: Samfunnsinformasjonssikkerhet som fagfelt. Her forklares hva samfunnsinformasjonssikkerhet er, hvordan det skiller seg fra tradisjonell informasjonssikkerhet, og hvilke teorier og metoder som brukes innen fagfeltet.
  • Kapittel 5: Samfunnsinformasjonssikkerhet i praksis. Her presenteres noen eksempler på hvordan samfunnsinformasjonssikkerhet kan anvendes i ulike sammenhenger, som utdanning, arbeidsliv, helsevesen, politi og rettsvesen, og sivilsamfunn.
  • Kapittel 6: Avslutning. Her oppsummeres bokens hovedpoenger, pekes på noen utfordringer og muligheter for fremtiden, og gis noen råd og tips til leserne om hvordan de kan forbedre sin egen og andres samfunnsinformasjonssikkerhet.
        
    Boken er tilgjengelig på Adlibris og Allvit, og har fått gode anmeldelser fra både fagfolk og publikum. En anmelder skriver: “Boken er en viktig og aktuell bidrag til å øke bevisstheten og kunnskapen om informasjonssikkerhet i det digitale samfunnet. Den er lett å lese, engasjerende og informativ, og gir en god balanse mellom teori og praksis. Den anbefales på det varmeste til alle som er interessert i eller berørt av temaet.”

Eksempelet over viser at selv i desember 2023 er ikke den kunstige intelligensen mer intelligent enn at den klipper og limer fra ulike nettbaserte kilder som ikke nødvendigvis har noe med hverandre å gjøre, og setter sammen en «historie» som ikke har noen rot i virkeligheten. Alt basert på rene statistiske beregninger – nuller og ettall – og absolutt ingen «intelligent» analyse av tilgjengelig info. I dette tilfellet diktet den sågar opp en anmeldelse på den ikke-eksisterende boken Beata og jeg skulle ha skrevet.

Et annet KI-system er Jenni, og VG kunne 23. juni 2023 melde at en student hadde benyttet dette systemet for å skrive en hovedoppgave (VG definerer ikke hva de mener med «hovedoppgave»), og jeg testet Jenni med oppgaven om KOPINOR og hvorvidt avtalen omfatter samleverk. Dette systemet virker å «forstå» Norsk, men svarer på engelsk. Som for ChatGPT blir svaret helt feil:

The KOPINOR agreement is a collective licensing agreement in Norway that governs the use of copyrighted materials, particularly in the context of educational institutions. Under this agreement, it is permitted to create a samleverk, which refers to a compilation or collection of different works, including text, images.

ChatGPT, Jenni og Bing Chat (som forøvrig nå er en del av Microsoft CoPilot), slik de er nå, burde ikke representere et uoverkommelig problem for oss undervisere.

Mer testing – Desember 2023

Egentlig burde jeg testet de ulike språkmodellene med et fast sett med oppgaver jevnlig gjennom hele 2023, og notert meg resultatene og eventuell utvikling. For eksempel ser jeg allerede at noen av språkmodellene nå klarer spørsmålet om «forlagsmessig fremstilling» og KOPINOR-avtalen bedre, enn da jeg startet testingen i desember 2022 og januar 2023. Dette er en utvikling i tråd med det Hans Christian Farsethås ved UiO beskriver sin artikkel av juni/august 2023.

Men dels ble det ikke tid til en slik grundig uttesting, og dels er nok ikke blogg det rette format for å presentere slik tester i detalj, der både oppgavetekster og svar er gjengitt.

Men 6. desember i 2023 tok jeg for meg fem språkmodeller og testet dem på første arbeidskrav i ORG5005- Digital beredskap. Dette arbeidskravet, som alle arbeidskrav både ved IKT og læring 1 og 2, samt ved ORG5005, er knyttet til krav om faglig analyse og refleksjon, forankret i relevant faglitteratur, og basert på studentenes egne yrkeserfaringer. Arbeidskravene har sine fokus på det høyeste nivået i Blooms taksomoni, og har kun i liten grad spørsmål som krever ren gjengivelse (Nivå 1).

Dette er oppgaveformer som språkmodellene i liten grad klarte å håndtere i mine første tester, men har ett år med utvikling ført til at systemene klarer dette bedre nå?

Resultatet ble som forventet og er presentert i neste kapittel.

Leseliste

  1. Four lessons from ChatGPT: Challenges and opportunities for educators
  2. ChatGPT4 failed my pragmatics exam
<Forrige kapittelNeste kapittel>