Kap 8 Det handler om undervisning og oppgavedesign

«Occasionally it might perhaps write seminar papers that at a superficial glance will look serious, but that’s fine, that’s not what worries me. It will only force the instructors to find better ways to assess students’ knowledge and understanding.»
– Professor Roni Katzir, 2023 (1)

«… metacognitive assignments hold students responsible and accountable for their learning
– Postdoktor Amanda Leary, et.al., 2023/24 (2)

«Although students should still complete essay assignments, research into academic integrity policy in response to generative AI suggests students should be required to submit drafts of their work for review and feedback. Apart from helping to detect plagiarism, this kind of “formative assessment” practice is positive for guiding student learning.»
– Professor Louis Volante, Professor Christopher DeLuca,Professor Don A. Klinger, 2023 (3)

«This underscore the importance of constructing university assignments to focus on higher order skills such as critical thinking and genuine individual reflection, qualities that language models currently lack. While these models help in simple content generation on the lowest level, they cannot replace students’ intellectual engagement and analytical reasoning. Despite the hype surrounding the various language models, these systems do nothing more than performing statistical generated sentences lacking the analytical depth, critical thinking skills, and genuine reflection necessary to manage university assignments of the type described in this paper.»
– Førstelektor Per A. Godejord, 2024 (4)

«The study’s analysis of my AI students’ performance in generating responses to exam questions based on Bloom’s taxonomy revealed that while they excelled at providing correct answers for questions at lower cognitive levels, they struggled with higher-weighted and complex questions requiring higher cognitive abilities.»
– Reginald Gerald Govender, PhD., 2024 (5)

Det er vår undervisning som vil være nøkkelen til studentenes læring, evne til kritisk tenkning, kildekritikk, faglig refleksjon og ikke minst engasjement for fagemnet. I tillegg vil vår evne til å konstruere arbeidskrav (eksamensoppgaver) knyttet til høyeste nivå i Blooms taksonomi og ta i bruk passende vurderingsformer være ytterligere sikkerhet mot rene samtalerobot-produserte besvarelser.

I juni 2024 ble det publisert en artikkel av Peter Scarfe, Kelly Watcham, Alasdair Clarke og Etienne Roesch som beskriver et forsøk der et sett med fiktive studenter leverte til eksamen i psykologi (Bachelor-emne) ved et britisk universitet. Forskerne lot ChatGPT4 generere alle svarene og forsøket viste at sensorene ikke oppdaget at besvarelsene var generert av en samtalerobot og ga samtlige besvarelser gode karakterer.

Forsøket ble presentert i et stort oppslag i Khrono med overskriften «Kunstig intelligens slo studenter på eksamen». Khrono går ikke inn i en diskusjon om selve forskningsartikkelen og innholdet i oppslaget blir derfor mer tabloid enn faglig interessant.

Det som er av interesse er beskrivelsene i forskningsartikkelen av eksamensoppgavene for denne spesifikke hjemmeeksamen. Disse var av følgende type (og jeg siterer direkte fra artikkelen slik den fremstår i PLOS):

  1. Short Answer Questions (SAQs), where submission consisted for four answers from a choice of six questions, each with a 200-word limit.
  2. Essay Based Questions, where submission consisted of a single 1500-word essay (students submitted one answer out of a choice of either three or four (dependent on the module))

Videre er det interessant å merke seg følgende:

For both types of exam students were encouraged to, where possible, include in-text citations, but a reference section at the end of the answer is not required.

Stikkordene her er «encouraged» og «not required«.

Leser en videre i artikkelen ser en at forskerne måtte jobbe en del med ChatGPT4 for å få ut svar av brukbar lengde på essay-delen, og en del annen «tuning» ser også ut til å ha vært nødvendig.

Det er absolutt ingen grunn til å tvile på at samtaleroboter kan generere overbevisende tekst. Særlig dersom brukeren har god nok kunnskap om et emne til å jobbe frem en tekst som dekker det oppgaven ber om.

Men ut fra det lille som fremkommer om eksamensoppgavene er det grunn til å stille følgende spørsmål:

  1. Hvilket/ hvilke nivå av Blooms Taksonomi dekkes av disse oppgavene?
  2. Hvorfor var det frivillig å bruke kildehenvisninger i tekst?
  3. Hvorfor var det ikke et krav at essayene skulle ha med litteraturliste?

Poengene til forskerne i denne studiene er gode. Tekst generert av samtaleroboter er ikke enkle å oppdage, og det det er absolutt på tide å se på vurderingsformene i høyere utdanning.

MEN, og det er et stort «men». Vi har allerede mye forskning på hva som er gode undervisnings- og vurderingsformer. Vi vet at studentaktiv undervisning, med veiledning av besvarelser og mappeevaluering gir gode resultat både når det gjelder å oppdage plagiat og å løfte opp studenter til sitt høyeste potensiale.

Videre vet vi at når eksamen er utført hjemme og med alle hjelpemidler, blir det desto viktigere å kreve både at at alle studentens faglige refleksjoner er godt forankret i relevant faglitteratur med både kildehenvisninger i tekst og at litteraturliste er inkludert til slutt i besvarelsen.

Og vi vet at «Short Answer Questions» i liten grad er hensiktsmessig når alle hjelpemidler er tillatt.

Etter min mening understreker artikkelen til Peter Scarfe, Kelly Watcham, Alasdair Clarke og Etienne Roesch følgende:

Fokus på studentaktiv undervisning, gode og utfordrende oppgaver, veiledning og metalæring er løsningen på strømmen av mer eller mindre vellykkete samtaleroboter.

Metakognisjon er, slik jeg ser det, en essensiell del av studentaktiv undervisning og noe jeg har søkt å oppnå i all min undervisning siden jeg gikk over fra ordinære forelesninger til praktisk-teoretiske arbeidskrav og individuell veiledning i 2002. En av mine studenter ved ORG5005 sa det slik i sitt refleksjonsnotat til et av arbeidskravene:

«Under offisersutdannelsen på sjøkrigsskolen hadde vi om metalæring, altså det å lære om å lære. Jeg husker jeg syntes det var vanskelig å helt forstå. Etter som årene har gått (XX år siden jeg gikk ut av skolen) har jeg etter hvert forstått viktigheten av nettopp dette. I mitt daglige yrke som yrkesoffiser og leder for XXXX er denne evnen noe vi faktisk verdsetter høyt. Og ikke minst de som har evnen til å dele sine refleksjoner med andre, slik at andre kan ta læring fra deres læring. Slik bygger man gode team med synergi. Arbeidet med dette arbeidskravet har uten tvil bidratt til egen læring og gitt et solid læringsutbytte.»
– Student ORG5005

Ingen samtaleroboter har noen som helst mulighet til å presentere metakognitive betraktninger, noe mine forsøk beskrevet i tidligere kapitler viser. De har heller ingen evne til å kombinere faglig teori med praktiske gjøremål, og kan aldri presentere ny kunnskap knyttet til kjente tema.

Men det kan en student, gitt at denne får muligheten til å selv jobbe med klare arbeidskrav knyttet til egen virkelighet. Og da spiller det faktisk ingen rolle om studenten benytter ChatGPT eller lignende verktøy som del av sitt arbeid.

Ingen grunn til å avvikle «hjemmeeksamen»

For egen del ser jeg ingen grunn til å verken endre vurderingsform, arbeidskrav eller forby studentene å bruke ChatGPT og lignende systemer som hjelpemiddel. Studenter med gode akademiske evner vil kunne nyttiggjøre seg samtalerobotene på en god måte, mens svakt presterende studenter vil ha liten nytte av disse for arbeidskrav som krever at de både viser evne til faglig refleksjon knyttet til helt spesifikt fagstoff og (i noen tilfeller) case, evne til å knytte dette til egen yrkesvirkelighet, evne til å reflektere over egen læring og evne til å finne gode (og etterprøvbare) fagkilder, i tillegg til det som presenteres for dem i Canvas, som støtte for sine refleksjoner.

Det er denne type krav vi stiller til studentene ved EVU-programmene IKT og læring 1 og 2, og samme krav stiller jeg til mine masterstudenter ved ORG5005. Oppgaver basert på slike krav klarer ChatGPT og tilsvarende verktøy svært dårlig, slik mine tester viser.

Det kan godt hende at vi i tiden fremover vil oppleve tilfeller av studenter med lav etisk forståelse av de forventninger som stilles ved et universitet, og som vil fristes til å bruke samtaleroboter til hele eller store deler av en teoretisk besvarelse uten å opplyse om det. Det kan sågar hende at slike studenter klarer å oppnå C på samlet resultat.

Men om så skulle skje; det ville ikke være noe nytt i fagemner der det ikke finnes klare svar og der vurderingen baseres på interne og eksterne sensorers faglige skjønn. Så samtaleroboter vil bare være nok et verktøy for den faglige svake og uredelige student, og ikke en magisk kraft som plutselig kullkaster alle vurderingsformer utenom den klassiske fysiske eksamen med «penn og papir».

Arbeidskrav/ eksamensoppgaver knyttet til høyeste nivå i Blooms taksonomi, krav om tilhørende refleksjonsnotat utført nøyaktig iht. spesifikke retningslinjer, innsending av besvarelser til individuell veiledning og sensorveiledninger som gir klare føringer for hva som konkret skal bedømmes og hva som skal til for at besvarelser kan vurderes til C, B eller A, vil gjøre bruken av samtaleroboter lite hensiktsmessig.

Mine tanker er i tråd med det som beskrives i Universitetet i Oslo sin «Hvordan bruke KI som underviser». Av særlig interesse her er det som står under «Vurderingsaktiviteter» .

«Vår anbefaling er derfor å fokusere på å utvikle vurderingsformer der hovedfokus er på prosessen med å lære, i motsetning til kun å fokusere på det endelige produktet«.

Sitatet over fra UiO’s råd om KI-bruk er etter min mening hjørnestenen i vårt arbeid som undervisere, og bør være velkjent for alle som har drevet med studentaktiv undervisning. Slik jeg ser det understreker dette sitatet, og det som ellers står i veilederen, det som er mitt hovedpoeng i denne bloggboken; System basert på matematiske modeller klarer ikke å besvare oppgaver basert på Blooms Taksonomis høyeste nivå. Og her pekes det også på mappevurdering som nettopp en eksamensform som nøytraliserer eventuell bruk av ChatGPT og lignende system.

Blooms taksonomi med KI

Modellen under, utviklet av Claus Scheuer-Larsen og Per Størup Lauridsen som et utgangspunkt for en diskusjon om hvordan KI kan bidra inn i fagemner, er så glimrende at jeg gjengir den her uten videre kommentarer. Denne versjonen av Blooms taksonomi bør skrives ut og henges opp på veggen av alle mine kollegaer som nå tror at det er umulig å lage oppgaver som ikke umiddelbart løses av ChatGPT og lignende språkmodeller.

leseliste

  1. Google Scholar-oversikt over vitenskapelige artikler om ChatGPT og utdanning
  2. HVL-studenters bruk og oppfatninger av KI-chatboter i utdanning
  3. Teaching in the Age of AI
  4. Hva er egentlig problemet med KI og vurdering?
  5. Et år med ChatGPT i akademia: Slik svarer ekspertene nå
  6. Chat GPT egner seg dårlig til eksamenssensuren
<Forrige kapittelNeste kapittel>