Kap 9 Det handler om undervisning og oppgavedesign

«Skriveoppgavene bør formuleres på en måte som lar elevene vise bred kompetanse, også kalt rike oppgaver. De bør åpne for faglig refleksjon, utforsking og kreativitet og samtidig formuleres slik at de ikke bare kan genereres av en språkmodell.»
– NTNU Skrivesenteret, 2024 (1)

«Occasionally it might perhaps write seminar papers that at a superficial glance will look serious, but that’s fine, that’s not what worries me. It will only force the instructors to find better ways to assess students’ knowledge and understanding.»
– Professor Roni Katzir, 2023 (2)

«… metacognitive assignments hold students responsible and accountable for their learning.»
– Postdoktor Amanda Leary, et.al., 2023/24 (3)

«Although students should still complete essay assignments, research into academic integrity policy in response to generative AI suggests students should be required to submit drafts of their work for review and feedback. Apart from helping to detect plagiarism, this kind of “formative assessment” practice is positive for guiding student learning.»
– Professor Louis Volante, Professor Christopher DeLuca,Professor Don A. Klinger, 2023 (4)

«This underscore the importance of constructing university assignments to focus on higher order skills such as critical thinking and genuine individual reflection, qualities that language models currently lack. While these models help in simple content generation on the lowest level, they cannot replace students’ intellectual engagement and analytical reasoning. Despite the hype surrounding the various language models, these systems do nothing more than performing statistical generated sentences lacking the analytical depth, critical thinking skills, and genuine reflection necessary to manage university assignments of the type described in this paper.»
– Førstelektor Per A. Godejord, 2024 (5)

«The study’s analysis of my AI students’ performance in generating responses to exam questions based on Bloom’s taxonomy revealed that while they excelled at providing correct answers for questions at lower cognitive levels, they struggled with higher-weighted and complex questions requiring higher cognitive abilities.»
– Reginald Gerald Govender, PhD., 2024 (6)

Det er vår undervisning som vil være nøkkelen til studentenes læring, evne til kritisk tenkning, kildekritikk, faglig refleksjon og ikke minst engasjement for fagemnet. I tillegg vil vår evne til å konstruere arbeidskrav (eksamensoppgaver) knyttet til høyeste nivå i Blooms taksonomi og ta i bruk passende vurderingsformer være ytterligere sikkerhet mot rene samtalerobot-produserte besvarelser.

I juni 2024 ble det publisert en artikkel av Peter Scarfe, Kelly Watcham, Alasdair Clarke og Etienne Roesch som beskriver et forsøk der et sett med fiktive studenter leverte til eksamen i psykologi (Bachelor-emne) ved et britisk universitet. Forskerne lot ChatGPT4 generere alle svarene og forsøket viste at sensorene ikke oppdaget at besvarelsene var generert av en samtalerobot og ga samtlige besvarelser gode karakterer.

Forsøket ble presentert i et stort oppslag i Khrono med overskriften «Kunstig intelligens slo studenter på eksamen». Khrono går ikke inn i en diskusjon om selve forskningsartikkelen og innholdet i oppslaget blir derfor mer tabloid enn faglig interessant.

Det som er av interesse er beskrivelsene i forskningsartikkelen av eksamensoppgavene for denne spesifikke hjemmeeksamen. Disse var av følgende type (og jeg siterer direkte fra artikkelen slik den fremstår i PLOS):

Short Answer Questions (SAQs), where submission consisted for four answers from a choice of six questions, each with a 200-word limit.
Essay Based Questions, where submission consisted of a single 1500-word essay (students submitted one answer out of a choice of either three or four (dependent on the module))

Videre er det interessant å merke seg følgende:

For both types of exam students were encouraged to, where possible, include in-text citations, but a reference section at the end of the answer is not required.

Stikkordene her er «encouraged» og «not required«.

Leser en videre i artikkelen ser en at forskerne måtte jobbe en del med ChatGPT4 for å få ut svar av brukbar lengde på essay-delen, og en del annen «tuning» ser også ut til å ha vært nødvendig.

Det er absolutt ingen grunn til å tvile på at samtaleroboter kan generere overbevisende tekst. Særlig dersom brukeren har god nok kunnskap om et emne til å jobbe frem en tekst som dekker (noenlunde) kravene i såpass enkle eksamensoppgaver som den beskrevet i den britiske artikkelen.

Men ut fra det lille som fremkommer om eksamensoppgavene er det grunn til å stille følgende spørsmål:

Hvilket/ hvilke nivå av Blooms Taksonomi dekkes av disse oppgavene?
Hvorfor var det frivillig å bruke kildehenvisninger i tekst?
Hvorfor var det ikke et krav at essayene skulle ha med litteraturliste?

Poengene til forskerne i denne studiene er gode. Tekst generert av samtaleroboter er ikke enkle å oppdage, og det det er absolutt på tide å se på vurderingsformene i høyere utdanning.

MEN, og det er et stort «men». Vi har allerede mye forskning på hva som er gode undervisnings- og vurderingsformer. Vi vet at studentaktiv undervisning, med veiledning av besvarelser og mappeevaluering gir gode resultat både når det gjelder å oppdage plagiat og å løfte opp studenter til sitt høyeste potensiale.

Videre vet vi at når eksamen er utført hjemme og med alle hjelpemidler, blir det desto viktigere å kreve både at at alle studentens faglige refleksjoner er godt forankret i relevant faglitteratur med både kildehenvisninger i tekst og at litteraturliste er inkludert til slutt i besvarelsen.

Og vi vet at «Short Answer Questions» i liten grad er hensiktsmessig når alle hjelpemidler er tillatt.

Etter min mening understreker artikkelen til Peter Scarfe, Kelly Watcham, Alasdair Clarke og Etienne Roesch følgende:

Fokus på studentaktiv undervisning, gode og utfordrende oppgaver, veiledning og metalæring er løsningen på strømmen av mer eller mindre vellykkete samtaleroboter.

Metakognisjon er, slik jeg ser det, en essensiell del av studentaktiv undervisning og noe jeg har søkt å oppnå i all min undervisning siden jeg gikk over fra ordinære forelesninger til praktisk-teoretiske arbeidskrav og individuell veiledning i 2002. En av mine studenter ved ORG5005 sa det slik i sitt refleksjonsnotat til et av arbeidskravene:

«Under offisersutdannelsen på sjøkrigsskolen hadde vi om metalæring, altså det å lære om å lære. Jeg husker jeg syntes det var vanskelig å helt forstå. Etter som årene har gått (XX år siden jeg gikk ut av skolen) har jeg etter hvert forstått viktigheten av nettopp dette. I mitt daglige yrke som yrkesoffiser og leder for XXXX er denne evnen noe vi faktisk verdsetter høyt. Og ikke minst de som har evnen til å dele sine refleksjoner med andre, slik at andre kan ta læring fra deres læring. Slik bygger man gode team med synergi. Arbeidet med dette arbeidskravet har uten tvil bidratt til egen læring og gitt et solid læringsutbytte.»
– Student ORG5005

Ingen samtaleroboter har noen som helst mulighet til å presentere metakognitive betraktninger, noe mine forsøk beskrevet i tidligere kapitler viser. De har heller ingen evne til å kombinere faglig teori med praktiske gjøremål, og kan aldri presentere ny kunnskap knyttet til kjente tema.

Men det kan en student, gitt at denne får muligheten til å selv jobbe med klare arbeidskrav knyttet til egen virkelighet.

Ingen grunn til å avvikle «hjemmeeksamen»

«Vi må bygge opp en forståelse hos studentene og et tankeapparat som oppmuntrer dem til å bruke det de har lært. Det blir viktig å lage eksamensoppgaver som både motiverer og krever at studentene viser hva de har lært.»
– Rasmus Grønbæk Jensen, 2023 (7)

«I stedet for at faglærere bruker mye tid på å finne ut av hvordan vi kan avsløre studenter for juks, er det viktigere at man retter mer fokus på å tilpasse våre lærings- og vurderingsformer slik at studentene får færre insentiver til å jukse. I tillegg må studentene bli opptrent til kritisk refleksjon ved bruk av KI.»
– Erling Coates, PhD, 2024 (8)

«Generative AI doesn’t really apply to my field of the humanities and social sciences yet as what it generates is mostly bollocks. It gets some of the years right but attributes them to different authors, titles, and sums them up completely wrong. I only used it once with a friend as an experiment. I am satisfied with my uni just saying don’t use it, as I know it is crap for my field at the moment.»
– Anonym britisk universitetsstudent, 2024 (9)

«That’s the thing about ChatGPT — it can generate content, but it doesn’t necessarily generate correct content» (…) «It’s simply an answer generator. It’s trying to look like it knows the answer, and to someone who doesn’t understand the material, it probably does look like a correct answer.»
– Kenneth Hanson, PhD, 2024 (10)

«Our results suggest that students attempt to use GPT-4 as a «crutch» during practice problem sessions, and when successful, perform worse on their own. Thus, to maintain long-term productivity, we must be cautious when deploying generative AI to ensure humans continue to learn critical skills.»
– Hamsa Bastani, et. al., 2024 (11)

«De svake studentene klarer ikke integrere det som lages av ChatGPT. Det blir veldig åpenbart om det er brukt eller ikke.»
– Professor Anders Mørch, 2024 (12)

For egen del ser jeg ingen grunn til å verken endre vurderingsform, arbeidskrav eller forby studentene å bruke ChatGPT og lignende systemer som hjelpemiddel underveis i arbeidsprosessen (innenfor regelverket til Nord U). Studenter med gode akademiske evner vil kunne nyttiggjøre seg samtalerobotene på en god måte, mens svakt presterende studenter vil ha liten nytte av disse for arbeidskrav som krever at de både viser evne til faglig refleksjon knyttet til helt spesifikt fagstoff og (i noen tilfeller) case, evne til å knytte dette til egen yrkesvirkelighet, evne til å reflektere over egen læring og evne til å finne gode (og etterprøvbare) fagkilder, i tillegg til det som presenteres for dem i Canvas, som støtte for sine refleksjoner.

Arbeidskrav/ eksamensoppgaver knyttet til høyeste nivå i Blooms taksonomi, krav om tilhørende refleksjonsnotat utført nøyaktig iht. spesifikke retningslinjer, innsending av besvarelser til individuell veiledning og sensorveiledninger som gir klare føringer for hva som konkret skal bedømmes og hva som skal til for at besvarelser kan vurderes til C, B eller A, vil gjøre bruken av samtaleroboter lite hensiktsmessig.

Mine tanker er i tråd med det som beskrives i Universitetet i Oslo sin «Hvordan bruke KI som underviser». Av særlig interesse her er det som står under «Vurderingsaktiviteter» .

«Vår anbefaling er derfor å fokusere på å utvikle vurderingsformer der hovedfokus er på prosessen med å lære, i motsetning til kun å fokusere på det endelige produktet«.

Sitatet over fra UiO’s råd om KI-bruk er etter min mening hjørnestenen i vårt arbeid som undervisere, og bør være velkjent for alle som har drevet med studentaktiv undervisning. Slik jeg ser det understreker dette sitatet, og det som ellers står i veilederen, det som er mitt hovedpoeng i denne bloggboken; System basert på matematiske modeller klarer ikke å besvare oppgaver basert på Blooms Taksonomis høyeste nivå. Og her pekes det også på mappevurdering som nettopp en eksamensform som nøytraliserer eventuell bruk av ChatGPT og lignende system.

Så langt, basert på egne erfaringer fra IKT og læringsstudiene og det som er gjengitt i media fra andre institusjoners studieprogram/ fagemner tilknyttet humaniora og samfunnsvitenskap, tyder alt på at besvarelser på godt formulerte oppgaver der samtalerobot muligens er benyttet er ytterst faglig svake. Særlig tydelig er de faglige svakhetene i refleksjonsnotat skrevet av samtaleroboter. Denne formen for tekster er klare unntak fra «regelen» om at det er vanskelig å se om en tekst er skrevet av ChatGPT (og lignende verktøy) eller ikke. I disse tekstene fremkommer ofte ord og uttrykk som er mer naturlig i engelsk enn i norsk, og «refleksjonene» er som regel fullstendig frikoblet de krav vi stiller til et refleksjonsnotat i de studier/ fagemner jeg er involvert i.

Som professor Volante m.fl. peker på i sitatet innledningsvis er det at studentene må levere besvarelser til veiledning, et viktig element i det å kunne forebygge fusk. Det ser vi klart i de to studieprogrammene IKT og læring 1 og 2, der utstrakt bruk av samtalerobot blir fanget opp under den individuelle veiledningen, noe som gir de få studentene dette gjelder anledning til å korrigere sine endelige besvarelser.

En annen ting vi ser i IKT og læringsstudiene er at ureglementert bruk av samtalroboter er knyttet til faglig svake studenter, og der besvarelsene var faglige svake i nesten alle ledd selv etter veiledning. Dette understreker etter min mening at samtaleroboter er en dårlig støtte for faglig svake studenter, der bruken ytterligere understreker studentens manglende fagkunnskap og evne til akademisk skriving.

Det kan imidlertid ikke utelukkes at videre utvikling av samtaleroboter i enkelte tilfeller, også for faglig svake studenter, vil kunne gi besvarelser på nivå med C, noe som gjør at vi særlig ved IKT og læringsstudiene fremover må skjerpe både den akademiske og den praktiske vanskelighetsgrad. Arbeidskrav som krever evne til vurdering, syntese og analyse, kombinert med praktiske oppgaver knyttet til faglig bruk av digitale medier, vil i liten grad kunne løses av en samtalerobot.

Og så må vi kanskje i større grad få studentene til å reflektere over følgende:

Betyr det å skrive «akademisk» at man

Bruker mange ord og gjentagelser, og lange og høyttravende setninger ?

eller at man
Viser evne til med egne ord og formuleringer å kombinere faglige kilder med egne faglige erfaringer?

Konklusjon

«If my teaching practices create an atmosphere in which students resort to cheating rather than rely on their own hard work and discovery, I’m doing something wrong.»
– Jessica Lahey, 2013 (13)

«Det mange ikke synes å forstå er at kritisk refleksjon kommer av eierskap — opplevd eierskap. Da må fokus være på læring. På å arbeide for en åpen, sosialt inkluderende og læringsfremmende kultur. De som roper på mer kontroll og gjeninnføring av gamle dagers eksamen, synes ikke å ta inn over seg hva det har å si for hva og hvordan studenter lærer.»
– Professor Arild Raaheim, 2024 (14)

«Innretningen med at studentene selv må søke relevant informasjon, og tenke selv gjør at jeg har vært nødt til å bruke, hva jeg vil anse som mye tid på emnet. Dette har vært krevende i en jobbhverdag som har vært mer krevende enn normalt dette halvåret, men samtidig har det gitt eierskap til pensumstoffet. Og det gir en grundigere læring enn når man som student sitter og mottar informasjon.»
– Student ORG5005, 2023 (15)

«Det er ingen som lykkes i videregående skole eller i høyere utdanning uten å faktisk jobbe med pensum.»
– Professor Eyvind Elstad, 2024 (16)

«The study concludes that there are areas where students may have an advantage over AI in tasks requiring understanding, evaluation, and creative thinking.»
– Hashim Habiballa, et.al., 2025 (17)

«The study highlights ChatGPT-4’s proficiency in standardized tests but indicates limitations in clinical reasoning and practical skills. This performance discrepancy suggests that the effectiveness of artificial intelligence (AI) varies based on course content.»
– Ambadasu Bharatha, et.al., 2024 (18)

«GPT-4 demonstrated a remarkable success rate when confronted with psychosomatic medicine multiple-choice exam questions, aligning with previous findings. When evaluated through Bloom’s taxonomy, our data revealed that GPT-4 occasionally ignored specific facts (remember), provided illogical reasoning (understand), or failed to apply concepts to a new situation (apply).»
– Anne Herrmann-Werner, et.al., 2024 (19)

Debatten rundt hvorvidt samtaleroboter nå er det endelige dødsstøtet for alle typer eksamen utenom penn og papir, har sitt utgangspunkt i en gammel diskusjon om eksamensform og studenters antatte tilbøyelighet til å fuske. Og de to hovedgruppene (litt forenklet) i denne diskusjonen er de som mener den tradisjonelle eksamen er det eneste saliggjørende og de som er uenig i dette.

Det er ingen ting som tyder på at de to hovedgrupperingene noensinne vil møtes i enighet og selv hører jeg til de som mener at vurderingsform må være forankret i studentens læring og ikke i administrativ trang til kontroll.

Min erfaring etter over 20 år med undervisning basert på studentaktivitet og med mappeevaluering som vurderingsform, er at flertallet av studentene, og særlig ved EVU-studier, er nøye på å levere egenutviklede produkter.

Og en vurderingsform som tar utgangspunkt i arbeidskrav utviklet i tråd med høyere nivå i Blooms Taksonomi, understøttet av individuell veiledning, og en fortsatt arbeidsprosess med oppgavene frem mot endelig innlevering, motvirker i stor grad eventuelle tilbøyeligheter (av moralsk eller pragmatisk grunn) til å fuske.

Og hvorfor det? Fordi dette er en vurderingsform som involverer studentene i egen læring og øker mestringsfølelsen deres, noe som igjen demper et ensidig fokus på karakter i fagemnet.

Uansett; det bør utelukkende være opp til oss forelesere, i kraft av vår ekspertise – både utdanningsmessig og erfaringsmessig – å avgjøre hvilken undervisnings- og vurderingsform som er relevant for våre fagemner.

Microsoft Copilot oppsummerer sitatene fra dette kapittelet

Og så, etter 9 kapitler og en masse ord, er tiden kommet til en første oppsummering i det neste kapittelet. Men først, som alltid, en liste med interessant lesestoff.

Ingen grunn til å avvikle «hjemmeeksamen»

Konklusjon

leseliste