Overordnede spørsmål for testingen
Testene er i hovedsak utført ut fra følgende overordnede spørsmål:
- Kan ChatGPT (og lignende verktøy) produsere gode akademiske svar på omfattende arbeidskrav der fokus er på øvre nivå i Blooms taksonomi, innen mitt undervisningsfelt?
- Kan ChatGPT (og lignende verktøy) produsere gode faktabaserte stiler over et gitt tema?
Valg foretatt, og rasjonale for valgene
Jeg valgte å teste de ulike samtalerobotene på spesifikke arbeidskrav innenfor mine spesifikke fagområder som ligger i grenselandet mellom humaniora og samfunnsvitenskap, og der vurderingsformen er mappeevaluering.
Begrunnelsen for å først og fremst fokusere på den form for eksamensoppgaver (arbeidskrav) benyttet i studieprogrammet IKT og læring 1 og 2, samt fagemnet ORG5005, og ikke samtidig teste oppgaver fra andre fagfelt, var følgende;
- Påstandene i media om at samtaleroboter nå kunne skrive gode universitetsbesvarelser uansett fagområde. Om dette medførte riktighet ville det bety ikke bare en utrolig endring av hva store språkmodeller normalt kan utføre, men også at arbeidskravene og vurderingsform i mine fagemner måtte radikalt endres. Man kan kanskje innvende at det ganske tidlig ble klart at språkmodeller «pakket inn» i en samtalerobot kun er utviklet for å skrive gode setninger, ikke for å levere fakta og at problemstillingen derfor er lite relevant. Imidlertid er det fortsatt slik som førsteamanuensis Inga Strümke påpeker i intervju med NRK i mai 2025 at dette er noe folk flest ikke har fått med seg. Og denne mangelen på forståelse er også i høyeste grad gjeldende i de akademiske elfenbenstårn. Jeg mener derfor at problemstillingen står seg enn så lenge.
Ved å begrense utvalget til oppgaver i mine fagemner og der vurderingsformen er mappeevaluering, forsøkte jeg å sikre en tett kobling mellom de testede arbeidskravene og den normale vurderingssituasjonen ved veiledning og sensur i mine fagemner.
Et slikt valg begrenser selvsagt generaliserbarheten av resultatene til andre fagområder og oppgavetyper/ vurderingsformer.
Jeg mener imidlertid at den internasjonale forskningen jeg viser til i denne bloggboken støtter mine funn om at samtaleroboter ikke klarer å presentere gode besvarelser på arbeidskrav/ eksamensoppgaver basert på høyere nivå i Blooms Taksonomi, og at mine funn da kan generaliseres til vurderingsformer der hovedfokus er på læringsprosessen og ikke kun på det endelige produktet, innen humaniora og samfunnsvitenskap.

I det overordnede spørsmålet knyttet til mine arbeidskrav benyttes formuleringen «gode akademiske svar». Dette er en lite presis og absolutt subjektiv formulering.
Etter min mening bør en akademisk tekst framstå ryddig og sammenhengende, og med en grunnleggende disposisjon i form av en tydelig innledning, hoveddel, avslutning og kildeliste. Akkurat dette er jo en nokså selvfølgelig del av en god besvarelse, og noe som en samtalerobot kan være et nyttig verktøy til å oppnå.
Videre bør en besvarelse vise studentens evne til å drøfte ulike problemstillinger i lys av både ulike teorier og egen yrkespraksis.
I retningslinjene for mappevurdering ved IKT og læring 1 og 2, samt for fagemnet ORG5005, er dette beskrevet for studentene i kapittelet «Kvalitetskriterier» (felles for både IKT og Læring og ORG5005). Her understrekes at i besvarelsene er det viktig å vise evne til drøfting og at det å drøfte betyr at studenten belyser et tema fra ulike sider gjennom:
- Ulike teorier knyttet til et spørsmål
- Ulike tolkninger av samme teorier
- Egen erfaring
«Egen erfaring» er sentralt i mine fagemner og alle arbeidskrav er knyttet til det å kombinere teori med egen praksis som underviser eller beredskapsleder/ ansatt.
I tillegg skal alle besvarelser i IKT og læring og i ORG5005 avsluttes med et refleksjonsnotat, der studenten foretar en grundig gjennomgang av egen læringsprosess med arbeidskravet. Dette er beskrevet for studentene i retningslinjene for mappevurdering, kapittelet «Refleksjonsnotat – Utkast til veiledning». (I ORG5005 er kravene til egenrefleksjon noe mer utdypet enn for IKT og læringsstudiene, men er i det vesentligste de samme).
Videre knyttes formuleringen «gode» til de kvalitative beskrivelsene gitt av karakterene A, B og C, i karakterbeskrivelsen for samfunnsvitenskapelige fag/ sosiologi.
Avslutningsvis kan det også påpekes at mine fagområder tilhører EVU-segmentet og følgelig er mine studenter i hovedsak erfarne undervisere/ instruktører og beredskapspersonell. Kravene man kan stille til denne studentgruppen vil nødvendigvis være noe annerledes enn de man kan stille til førsteårsstudenter.
Andre fagområder vil ha andre definisjoner på/ krav til «gode besvarelser», og andre studenttyper, noe som kan minske overføringsverdien til fag og eksamensoppgaver utenfor mitt fagområde og studentgruppe.

Når det gjelder spørsmålet om hvorvidt samtaleroboter kan skrive gode faktabaserte stiler, ble særnorske tema valgt basert på egne interesser. Igjen var det påstandene om at samtaleroboter kunne skrive om absolutt alt som var utslagsgivende for temavalgene. I tillegg ble det etter hvert også interessant å sjekke ut andre påstander, så som at ChatGPT raskt og greit løste motorproblemer (båtproblemet), kunne løse gåter osv.

I alle tilfeller der det fantes både en gratis- og en betalingsversjon, var det gratisversjonen som ble testet. Dette valget ble foretatt ut fra en antakelse av at de fleste studenter vil benytte gratisversjoner av de ulike samtalerobotene, særlig når de har full tilgang til utdanningsinstitusjonenes egne samtaleroboter (egenutviklede eller institusjonsavtaler med f.eks. Copilot). En slik antakelse kan imidlertid være feil, og den er ikke fundert i konkrete forskningsresultat.
GPT UiO og Sikt KI-Chat er organisasjonsversjoner, og Microsoft CoPilot (Bing Chat) ble testet både i ordinær versjon og i organisasjonsversjonen tilgjengelig for ansatte og studenter ved Nord universitet.
At de fleste samtalerobotene ble testet i gratisversjoner kan være en svakhet, da betalingsversjonene kan ha ytterligere funksjoner som styrker verktøyenes evne til å produsere relevante tekster. Og i noen tilfeller var det eksterne «preview-sider» som ble benyttet, noe som kan medføre en ytterligere svakhet.
Men ved gjennomgang av både populærvitenskapelige og vitenskapelige ressurser fant jeg lite som tyder på at betalingsversjonene av de ulike samtalerobotene har større evne til å finne korrekt informasjon, forstår input og output i større grad, eller har mindre grad av hallusinasjoner enn gratisversjonene når det gjelder å produsere besvarelser på arbeidskrav/ eksamensoppgaver basert på høyere nivå i Blooms Taksonomi.

Et av flere interessante momenter ved fremveksten av samtaleroboter er at det fra enkelte hold blir understreket viktigheten av å stille de riktige spørsmålene på den rette måten, eller som det kalles, «Prompt engineering» . Tanken er at det har ingen hensikt å stille samtalerobotene enkle spørsmål som f.eks. Googles søkemotor løser like greit, men at spørsmålene må skreddersys.
Jeg har i mine tester ikke drevet utstrakt «prompt engineering» ut fra en antakelse om at mange brukere, spesielt studenter uten dyp fagkunnskap, sannsynligvis vil bruke samtaleroboter uten omfattende prompt engineering. Dette blir dermed en realistisk tilnærming for å vurdere hvordan verktøyene fungerer i praksis.
Mitt rasjonale for at testingen av ulike arbeidskrav utført uten utstrakt bruk av «prompt engineering» er en realistisk tilnærming, er at effektiv bruk av en samtalerobot for å generere svar på universitetsoppgaver som krever analyse, syntese og evaluering vil være utfordrende for studenter som i utgangspunktet vil ha lave fagkunnskaper ved oppstart av arbeidskrav i mine emner. Slik jeg ser det, basert på egen undervisningserfaring, kan dette begrunnes blant annet med at:
- Forståelse av komplekse konsepter: Høyere nivåer av Blooms taksonomi krever en dyp forståelse av fagstoffet (og ikke minst at man først leser pensum, før man begynner på besvarelsen). Studenter med lavere fagkunnskaper vil erfaringsmessig ha vanskeligheter med å formulere spørsmål som kan lede til dyptgående og relevante svar.
- Kritisk tenkning: Arbeidskrav (eksamensoppgaver) som krever analyse og evaluering forutsetter evnen til kritisk tenkning. Dette innebærer å kunne vurdere informasjon, identifisere sammenhenger og trekke konklusjoner, noe som kan være utfordrende for studenter uten et solid faglig grunnlag.
Dermed kan det, etter min mening, antas at studenter som i utgangspunktet har begrensede fagkunnskaper ved oppstart av et fagemne, vil ha problemer med å foreta effektiv promting.
Videre har det liten hensikt at man som fagperson tester samtaleroboter med utstrakt promting, når målet er å se hvorvidt en student – som nødvendigvis mangler forelesers dybdekunnskap – muligens kan klare å få gode svar fra en samtalerobot på arbeidskrav basert på høyere nivå i Blooms Taksonomi.
Samme rasjonale gjelder for de enkle testene knyttet opp mot emner spesifikt for norske forhold (Norsk 70-talls litteratur, Sivilforsvaret, etc.), samt en enkel «gåte-test», test på verktøyenes evne til å finne konkret og korrekt informasjon knyttet til etternavn og et forsøk på gjenskape et konkret resultat beskrevet i Digi.no. Særlig når det gjelder «båtproblemet» (Digi.no) er det vanskelig å tenke seg at grundig promting er aktuelt når man ikke er motorkyndig. Var man det ville man jo ikke trenge en samtalerobot, men ganske enkelt sjekke basert på egen erfaring og kunnskap.
Så kan en jo stille spørsmålet; hva med de studenter som har et godt grep om fagområdet fra før? Disse vil jo kunne bedrive effektiv promting, og dermed få en samtalerobot til å formulere gode svar? Og det er utvilsomt riktig. Men samtaleroboter har ikke evnen til å foreta reelle vurderinger, syntese eller analyse. Så en faglig dyktig student kan utnytte «sekretær-funksjonen» til en samtalerobot, men vil samtidig vite at verktøyet ikke kan brukes til å produsere en helhetlig besvarelse i fagområder der det ikke uten videre finnes fasitsvar, og der eksamensoppgavene krever noe mer enn rene gjengivelser.
I noen tilfeller har jeg reformulert oppgavetekster knyttet til mine fagområder for å se om resultatene ble bedre, men dette virket i mine forsøk å ikke ha noen som helst betydning for resultatet.
Men manglende promting er muligens nok en svakhet ved mine tester, da grundig promting kan påvirke relevansen og nøyaktigheten til svar som samtaleroboter gir.
Jeg har imidlertid så langt ikke funnet belegg for at promting øker samtaleroboters evne til å løse eksamensoppgaver knyttet til høyere nivå i Blooms Taksonomi i tilgjengelig vitenskapelig litteratur.


<Til Prolog * Til testoversikten * Til Epilog>
