Eksamen med kunstig intelligens

Av Kaspar Bredahl, 23. november 2023

ChatGTP ble lansert med et brak i slutten av 2022, og siden har det vært en omfattende debatt om hvordan det påvirker utdanningen. Ikke minst risikoen for juks på eksamen.

Generativ kunstig intelligens (KI) og storskala språkmodeller som ChatGPT kan skape så overbevisende besvarelser, at de kan bestå eksamener uten det krever noen særlig menneskelig læring. Alt studentene trenger å gjøre, er å gi en passende prompt. Selv om dette i seg selv kan kreve visse ferdigheter, kan studenten sitte igjen med en forståelse av fagstoffet som ellers ikke ville gjort det mulig å ha bestått eksamen.

Selv om de fleste studenter ønsker å lære på en akademisk hederlig måte, kan det være fristende å få ChatGPT til å gjøre jobben hvis den kan gjøre det like bra eller bedre. ChatGPT utfordrer derfor eksamensdesignet vårt. Så la oss se på hvordan vi kan møte denne utfordringen.

Jason M. Lodge og hans australske kolleger har identifisert seks ulike tilnærminger for å håndtere KIs innvirkning på akademiske oppgaver og eksamener. La oss begynne med å se på dem og deretter diskutere Nord universitets tilnærming opp mot dem.

Ignorere (ignore)

Her håper vi at KI er en døgnflue og at problemet går over av seg selv. Her er det bare å gjøre et søk på KI og juks og innse at dette sannsynligvis ikke er en bærekraftig tilnærming. Problemet er her, og det kommer sannsynligvis til å bli verre snarere enn bedre. Især hvis utgangspunktet er, hvordan eksamener er utformet i dag.

Forby (ban)

De første forbudene mot KI-verktøy som ChatGPT mislyktes fordi studentene raskt fant løsninger. Det er også svært vanskelig å oppdage alt juks. Hvis studenten bruker KI på en enkel og ureflektert måte, er det lett å oppdage, men en avansert bruk kan for eksempel være å få ChatGPT til å skrive som deg selv, gi den nok kontekst og kritisk sjekke sitater selv. Selv om deteksjonsverktøyer som Turnitin hævder å kunne oppdage 97% av tekst skrevet med ChatGPT, så er dette en tvilsom påstand. OpenAI har selv kjørt tests hvor der er mange falske positiv, for eksempel vil en tekst skrevet av Shakespeare slå ut som en ChatGPT-tekst (OpenAI FAQ). Khalil og Er (2023) testet 50 essays generert med ChatGPT. Deteksjonsprogramvaren indikerte bare for 10 av dem at over 20 % var generert med generisk KI. Dessuten kan studenter «bare» bruke verktøyer tilgjengelig på nettet som for eksempel ZeroGPT og selv sjekke om teksten slår ut og så rette et par småting i den.

Overvåke (invigilate)

Eksamensovervåkning (tilsyn) begrenser bruken av kunstig intelligens, men er ikke en universalløsning. Denne løsningen kan være relevant på samme måte som vi bruker skoleeksamener i dag. Det kan være tilfeller der vi sjekker studentenesevne til å løse oppgaver som består av faktabaserte svar som ville vært enkle å løse med generativ KI. Gjennom et studieprogram kan det være fornuftig å identifisere kritiske eksamener hvor bruken av eksamensovervåkning kan være spesielt verdifull. Ved å anvende eksamensovervåkning selektivt på disse nøkkelprøvene, sikrer vi ikke bare en korrekt og rettferdig evaluering av studentenes kunnskaper, men vi opprettholder også integriteten til eksamenen og verdien av de kvalifikasjonene den representerer.

Omfavne (embrace)

Dette spenner fra å tillate eller til og med kreve at studentene bruker KI til for eksempel å vurdere kvaliteten på et KI-generert svar. Målet her er at studentene skal tenke kritisk om generativ KI, men også at de skal kunne bruke den aktivt og produktivt. Vi kan for eksempel oppmuntre studentene til å vurdere etikken bak og mulige problemer som kan oppstå. Denne tilnærmingen stemmer bedre overens med hvordan generativ KI endrer måten vi jobber på. Det skjer allerede i full fart, og spørsmålet er om vi i det hele tatt unngå generativ KI i fremtiden? Microsoft har for eksempel lansert co-pilot, der generativ KI hele tiden tilbyr seg å hjelpe deg i deres produksjonsverktøyer. Nye ferdigheter som “prompt engineering” er allerede etterspurt på arbeidsmarkedet, så ved å omfavne bruken av kunstig intelligens i eksamener fremmer vi denne kompetansen hos studentene. Om vi vil det eller ikke blir hverdagens teknologibruk mer og mer infiltrert av KI.

Det er imidlertid også bekymringer knyttet til etikk, rettferdighet og likestilling. Denne tilnærmingen krever at studentene får sikker tilgang til avansert KI-teknologi og støtte til å utvikle sine KI-ferdigheter.

Designe rundt (Design around)

Et annet alternativ er å ta hensyn til begrensningene ved generativ KI. Vi utformer altså oppgavene våre slik at de ikke kan løses med KI, fordi kvaliteten på svaret blir for dårlig. Problemet med denne tilnærmingen er at den både er risikabel og fort kan bli utdatert etter hvert som generativ KI utvikler seg og blir mer sofistikert. Hvis du bare følger utviklingen fra GPT-3.5 til GPT-4 (og nå turbo), vil du legge merke til en betydelig kvalitetsforbedring. Noen av oppgavene som 3.5 hadde problemer med, løser 4.0 ganske bra. Så selv om vi fortsatt kan utvikle eksamensoppgaver som ChatGPT vil ha vanskeligere for å løse tilfredsstillende, er dette neppe en bærekraftig tilnærming. Et forslag har for eksempel vært å bruke bilder i eksamensoppgaven, da ChatGPT var dårlig til det. Med lanseringen av GPT-4v (v=visual) gelder det ikke lengere. Nå kan den også analysere bilder. Samtidig må man avveie sådanne ideer opp mot andre uhensiktsmessigheter. Et bilde er for eksempel vanskelig tilgjengelig for en blind student, så ut fra et universell design synspunkt bør der følge en bildeforklaring med.

Tenke nytt (rethink)

Denne tilnærmingen starter med det mer grunnleggende spørsmålet om hvorfor vi i det hele tatt vurderer studentene. Hva er målet med vurderingen? Hvis vurderingen føles som et ork som ikke oppmuntrer til kreativitet eller reell læring, eller hvis tidspresset er svært høyt, øker motivasjonen for å bruke snarveier som ChatGPT. En annen viktig faktor er hvordan vurderingen passer inn i læringsprosessen, der vurderingene bare blir øyeblikksbilder av denne prosessen i form av produksjonsoppgaver som delvis er frakoblet læringsprosessen, så vurder om vurderingsmetoden kan tenkes på nytt. Kanskje skal vi slet og rett nedtone den summative vurdering og gjøre hele vurderingsprosessen mer formativ. Dette var allerede en god idé, men fremveksten av generativ KI har gjort det enda mer presserende. Jason M. Lodge anbefaler å gjøre dette på mellomlang til lang sikt (helst så snart som mulig, men det kan kreve grundigere kvalitetsarbeid med selve oppgavedesignet, noe som kan være tidkrevende). Jason mener at informasjonsteknologien gir nye muligheter til å sette søkelys på vurdering, slik at læring blir en kontinuerlig utviklingsprosess snarere enn en prestasjon. Hvis du vil lese mer om dette, anbefales Jasons artikkel fra 2018: “A Futures Perspective on Information Technology and Assessment“.

Jason M. Lodge oppsummerer de seks tilnærmingene i en tabell der han også vurderer bærekraften i tilnærmingene på kort, mellomlang og lang sikt. Resultatet er at det bare er tilnærmingene “omfavne” og “tenke nytt” som anses som reelle alternativer på lang sikt, og at disse kan suppleres med “overvåke” i spesifikke tilfeller der det gir mening.

KI i eksamen ved Nord universitet

La oss nå vende blikket mot Nord universitets gjeldende eksamenspolitikk slik den er beskrevet i “Retningslinjer for eksamenskandidater ved Nord universitet”. Der står den sparsomme formuleringen om KI i siste punkt 29:

” Å generere besvarelse ved hjelp av ChatGPT eller lignende kunstig intelligens og levere den helt eller delvis som egen besvarelse er å regne som fusk dersom ikke annet er opplyst for den enkelte eksamen.”
Retningslinjer for eksamenskandidater ved Nord universitet

Ut fra “ignorere”-tilnærmingen er Nord for øyeblikket i et semi-forbud. Forbudet er ikke strengere enn at du som lærer kan åpne opp for at det er tillatt å bruke KI. Samtidig er det viktig å understreke at du på grunn av GDPR ikke kan kreve at studentene bruker KI. Akkurat nå kan du altså velge mellom å forby eller delvis omfavne KI og eventuelt revurdere hele vurderingsdesignet for å gjøre det til en kontinuerlig læringsprosess. Du kan velge å se spredningen av generativ KI som en mulighet til å jobbe mer dyptgående og systematisk med hvordan studentene dine blir vurdert (det kan selvsagt hende at du allerede har en svært robust praksis som ikke utfordres av KI). Dette er ikke nødvendigvis et enkelt område å navigere i. Når alt kommer til alt, er det begrenset hvor mange eksamensoppgaver vi kan lage der studentene må analysere en tekst produsert av kunstig intelligens. Samtidig er det ganske problematisk å forby KI og betrakte det som fusk bare fordi de smarteste studentene kan lage oppgaver der det ikke kan oppdages. I dag finnes det til og med nettselskaper som tilbyr en slik tjeneste, men det er jo ikke så stor forskjell fra studenter som tidligere har betalt andre for å gjøre en oppgave for dem.

Et alternativ kan være å gjøre eksamen muntlig, slik at effekten av å bruke generativ KI blir mye mindre. Studenten må tross alt forstå materialet selv. En kombinasjon av muntlig og skriftlig eksamen er også et alternativ, der studentens innsikt i sin egen tekst kan testes mer. Men den beste løsningen på lang sikt er nok å tenke på hvordan vi kan utforme vurderingsformer som ikke er sårbare for bruk av kunstig intelligens. Det vil si oppgaver som krever en høy grad av akademiske ferdigheter som kritisk tenkning, samarbeid, dømmekraft, beslutningstaking, inkludert etisk beslutningstaking, refleksjon over prosessen og fagspesifikk innsikt. En tilnærming er å øke graden av autentisitet. Hvis studentene må løse virkelige problemer og gjennomføre intervjuer osv., kan KI bare hjelpe deg så langt. Men det er også viktig å tenke på variasjon i vurderingsformene i emnene og studieprogrammene, og hvis man åpner opp for bruk av generativ KI i oppgaver, bør man sette kriterier som at studentene skal dokumentere hva som er frembrakt av KI og eventuelt vise hvordan de bruker KI med en kritisk tilnærming.

KIs innvirkning på vurdering

Hvis du er interessert i ytterligere refleksjoner rundt KIs innvirkning på vurdering i høyere utdanning, anbefaler vi diskusjonsnotatet: “Assessment reform for the age of artificial intelligence” publisert av TEQSA, kvalitetssikringsorganisasjonen for høyere utdanning i Australia. Jason M. Lodge er en av medforfatterne av notatet. Dessverre er ikke alle forslagene helt gjennomførbare ved Nord universitet for øyeblikket, ettersom vi ikke har en GDPR-godkjent KI-tjeneste for studenter (kun for ansatte i form av Bing Chat).

Avslutningsvis følger her de to veiledende prinsippene om betydningen av KI for vurdering fra notatet og hvordan de utkrystalliserer seg i seks forslag til, hvordan vurdering (både formativ og summativ) bør tenkes i en verden preget av generativ KI. Disse kan i seg selv få deg til å tenke på hvordan fremtidens vurdering bør se ut.

De to prinsippene:

1. Vurdering og læringserfaringer gjør studentene i stand til å delta etisk og aktivt i et samfunn gjennomsyret av kunstig intelligens.

KI representerer en katalysator for endring som ikke ligner noe annet tidligere. Den påvirker ikke bare hvordan studentenes læring kan vurderes, men også hva som er verdt å vurdere, og dermed hva og hvordan studentene lærer. Dette inkluderer nødvendigvis evnen til å bruke KI-verktøy, samt en bredere forståelse av etikken, begrensningene, skjevhetene og konsekvensene av KI.

2. For å kunne gjøre pålitelige vurderinger av studenters læring i en tid med kunstig intelligens kreves det flere, inkluderende og kontekstualiserte tilnærminger til vurdering.

Det finnes ikke én enkelt vurderingstype som kan gjøre rede for all ønskelig og uønsket bruk av KI blant studentene. Bruk av flere ulike typer vurderinger, når de er triangulerte, gir større troverdighet og åpner for en mer inkluderende praksis.

Forslag:

Vurdering bør legge vekt på hensiktsmessig og autentisk bruk av KI. Dette betyr at studentene skal lære å bruke KI-verktøy på en ansvarlig og etisk måte som er relevant for faget og yrket deres.
Vurderingen bør legge vekt på en programmatisk/systemisk tilnærming som er i tråd med fagets og kvalifikasjonens verdier. Dette betyr at vurderingen bør utformes på tvers av et helt studieprogram, i stedet for på individuelle oppgave- eller enhetsnivåer, og bør gjenspeile læringsutbyttet og verdiene i faget og kvalifikasjonen
Vurderingen skal legge vekt på læringsprosessen. Det betyr at vurderingen skal vise hvordan studentene tenker, tar beslutninger og reflekterer over egen læring, og ikke bare det endelige resultatet av læringen. Vurderingen skal også gi tilbakemelding på kritisk og kreativ bruk av KI i læringsprosessen.
Vurderingen bør legge vekt på å gi studentene mulighet til å samarbeide med hverandre og KI på en hensiktsmessig måte. Det betyr at vurderingen bør oppmuntre til og støtte samarbeid mellom studenter og med KI-verktøy, og at den bør beskrive akseptable og etiske måter å gjøre dette på. Vurderingen bør også kreve at studentene forklarer og reflekterer over samarbeidet med KI og andre mennesker.
Vurderingen bør legge vekt på sikkerhet i form av eksamensovervåking på meningsfylte tidspunkter i løpet av studiet, slik at man kan ta beslutninger om progresjon og fullføring. Dette betyr at vurderingen bør identifisere og sikre de viktigste vurderingsøyeblikkene som er viktige for å bedømme studentenes prestasjoner og beredskap for uteksaminering, i stedet for å prøve å sikre alle vurderingsoppgaver mot bruk av KI.
Vurderingen bør legge vekt på behovet for løpende evaluering og reforhandling med interessentene. Dette betyr at vurderingen bør være lydhør overfor de raske og uforutsigbare endringene i KI-teknologien og deres konsekvenser for læring og undervisning. Vurderingen bør også involvere konsultasjon og samarbeid med ulike interessenter, inkludert studenter, lærere, yrkesorganisasjoner og teknologileverandører.

Hvordan kan du åpne din eksamen opp for bruk av KI?

Hvis du i ditt eksamensdesign vil åpne opp for at studentene kan bruke KI bør du sette opp kriterier for hvilken bruk som er tillatt og om der er ytterligere implikasjoner hvis studenten aktivt velger å bruke KI. Jeg vil foreslå at du ber studenten om å reflektere over eget bruk og hva bruken av generativ KI har betydet for oppgaven og dens innhold. Her er et forslag til en tekst henvendt til studentene dine innholdende noe mulige kriterier:

Generativ KI er et verktøy som hjelper til med å generere tekster raskt, noe som forenkler prosessen med å søke etter, finne, og oppsummere informasjon og ideer relatert til emnet du studerer, og forbedrer skriveferdighetene dine. Men det må aldri bli en automatpilot der du ikke utvikler din profesjonalitet og evne til kritisk tenkning.

1. Du må undersøke og vurdere informasjonen som genereres av generativ KI, da den kan produsere irrelevant eller unøyaktig informasjon. Det er viktig å sjekke kilden til informasjonen og sitere den på riktig måte. Tekster som utelukkende er generert av generativ KI, og som du kopierer og sender inn som din endelige tekst, regnes som plagiat.

2. Du må eksplisitt oppgi at du har fått hjelp av generativ KI til å lage oppgaven din, inkludert seksjoner eller deler som inneholder ideer/problemstillinger identifisert via KI, eller oppgaver som er utført, for eksempel redigering og parafrasering. Hvis du bruker tekst direkte generert fra ChatGPT eller annen generativ KI basert på en prompt, skal dette siteres og refereres til på samme måte som i vanlige akademiske arbeider (les hvordan du siterer i APA-7 stil her).

3. Når du sender inn din eksamensoppgave, skal du inkludere en refleksjonsdel inne i oppgaven om bruken av generativ KI. Denne refleksjonen kan plasseres under seksjonen “Metode” eller som et uavhengig avsnitt. Her skal du beskrive hvordan KI har blitt brukt, samt reflektere over dets betydning og innvirkning på arbeidet ditt.

4. Innholdet i oppgavene skal i hovedsak være produsert av mennesker, ikke KI-generert. Hvis du er i tvil om oppgavens originalitet, kan du benytte programvareverktøy for deteksjon av KI-innhold til å verifisere arbeidet ditt.

5. Alle tekster som mistenkes for plagiat eller som i stor grad er generert av kunstig intelligens, som indikert av deteksjonsprogramvare vil bli nøye kontrollert. En vurdering av slike tilfeller vil bli foretatt for å iverksette de mest hensiktsmessige tiltakene, med tanke på kursets kontekst og den spesifikke oppgaven.