Samtaleroboter i akademia – KI-verktøy eller kun statistiske tekstgeneratorer?

Dette innlegget er basert på arbeidet jeg har gjort knyttet til samtaleroboters evne til å besvare arbeidskrav (eksamensoppgaver) i mine fagemner. En omarbeidet versjon er tidligere publisert på forskersonen.no

In a world in transition, students and teachers both need to teach themselves one essential skill – learning how to learn.
Carl Sagan

Samtaleroboter som ChatGPT fremstår som språklig imponerende, men avsløres som faglig svake når de møter akademiske krav. De genererer overfladiske svar og falske kilder, og mangler evne til kritisk tenkning og forståelse. I høyere utdanning bør de omtales som digitale verktøy – ikke intelligente hjelpere.

Innledning

«Neural networks today are realized in software, rather than in electrical circuits, and to be clear, neural net researchers don’t try to actually model the brain, but the software structures they use — very large networks of very simple computational devices — were inspired by the neural structures we see in brains and nervous systems»
– Professor Michael Wooldridge (1)

«Differences about the future of AI are often partly rooted in differing interpretations of evidence about the present. For example, we strongly disagree with the characterization of generative AI adoption as rapid»
– Professor Arvind Narayanan and Senior Fellow Sayash Kapoor (2)

«Min hypotese er at de som tar avgjørelsen om hvorvidt man vil kalle noe for kunstig intelligens eller ikke, ofte ser på begrepsbruken som en fordel. Man framstår kanskje som mer moderne og fremtidsrettet. Eller man får flere klikk på artikkelen man skriver»
– Nora Gjøen-Gjøsæter (3)

«Jeg liker ikke å kalle det «kunstig intelligens»
– Roger Olafsen (4)

«Så hva er kunstig intelligens? Først og fremst er det et gammelt fagfelt med et misvisende navn. Som helhet har fagfeltet vært en skuffelse, fordi ordet «intelligens» antyder et løfte disse løsningene aldri har vært i nærheten av å innfri. Samtidig er ideer derfra blitt brukt til å lage IT-løsninger i flere tiår.»
– Bjørn Stærk (5)

Siden lanseringen av ChatGPT i november 2022 har debatten om kunstig intelligens (KI) i utdanning og samfunn eksplodert. Samtaleroboter som ChatGPT ol. har blitt løftet frem som teknologiske mirakler – verktøy som angivelig kan revolusjonere utdanning, forskning og arbeidsliv. Mediene har vært fulle av både dommedagsprofetier og euforiske visjoner. Men bak overskriftene og den teknologiske euforien skjuler det seg en virkelighet som er langt mer nyansert, og langt mindre intelligent.

Men hva skjer når vi faktisk setter de ulike verktøyene på prøve, i møte med reelle akademiske krav og praksisnære oppgaver? Dette innlegget bygger på egne systematiske tester av ChatGPT og 13 andre lignende samtaleroboter, gjennomført over to år, og jeg vil hevde at disse verktøyene ikke representerer et paradigmeskifte i høyere utdanning, men kun en ny variant av gamle verktøy med bedre markedsføring.

Språklig briljans – faglig svakhet

«While general-purpose LLMs are great starting points, they typically lack deep domain expertise to help within specific areas. In many ways, this is similar to the case with human expertise: A person cannot become an expert in a particular field unless they have formal education, training, and in-depth experience.»
– Tony Beltramelli (6)

ChatGPT og de ulike samtalerobotene imponerer ved første øyekast. Det skriver flytende, høflig og grammatisk korrekt. Men når systemene blir bedt om å besvare arbeidskrav utformet i tråd med høyere nivå i Blooms taksonomi fra fagemner knyttet til samfunnsinformatikk-feltet, der det ikke finnes klare svar eller evige sannheter, faller de gjennom. De klarer ikke å analysere, vurdere eller reflektere, kjernekompetanser i høyere utdanning. I stedet produserer de overfladiske svar som ofte bare reformulerer oppgaveteksten. Det som fremstår som innsikt, er i realiteten statistisk sannsynlige ordkombinasjoner.

Hallusinasjoner og falske kilder

Et gjennomgående problem er såkalte «hallusinasjoner», disse verktøyenes tendens til å dikte opp fakta, forfattere og litteratur. I flere av mine tester genererte de ulike samtalerobotene akademiske referanser som ikke eksisterer, men som så troverdige ut. Dette er ikke bare en teknisk svakhet, men en alvorlig utfordring for akademisk integritet. Når studenter bruker slike verktøy ukritisk, risikerer de å levere besvarelser som er både faglig svake, faktisk feil og helt uten den tankevirksomhet det er meningen at universitetsstudier skal oppøve.

En dårlig støtte for svake studenter

Basert på resultatene av mine tester vil bruk av samtaleroboter i fagemner der det finnes få eller ingen klare fasitsvar, i liten grad hjelpe faglig svake studenter. Tvert imot vil de antakelig forsterke svakhetene. Studenter uten grunnleggende fagforståelse klarer ikke å stille gode spørsmål (prompting), og ender opp med generiske svar uten dybde. Samtidig kan faglig sterke studenter bruke verktøyene som en slags «digital sekretær» til å strukturere tekst, oppsummere kilder eller generere utkast. Men dette krever høy grad av kritisk vurdering og etterarbeid, og studenten slipper ikke unna å selv måtte formulere sine faglige refleksjoner forankret i egen yrkespraksis og i relevant faglitteratur.

Og besvarelsene fra de faglige svake studentene, den gruppen som med størst sannsynlighet lar seg friste til å ta snarveier, er slett ikke vanskelig å oppdage, noe også andre forskere har pekt på (Molnes, 2024)

Ikke kunstig intelligens – bare avansert statistikk

«The bots ingest staggering amounts of text and conversations to detect patterns. Their programming predicts how to respond naturally by matching and remixing these learned patterns. But ultimately, it takes human guidance to steer these statistical models in an thoughtful direction.»
– Andy Tillo (7)

Til tross for at media og andre stadig henviser til ChatGPT og lignende samtaleroboter som kunstig intelligens (KI) er disse verktøyene absolutt ikke intelligente. De forstår ikke spørsmål, resonnerer ikke, og har ingen bevissthet. De er basert på avanserte språkmodeller som gjetter neste ord basert på sannsynlighet.

Stipendiat David Samuel ved Universitetet i Oslo sin språkteknologigruppe var ganske klar i et intervju i Universitas i 2022 på at ChatGPT ikke på noen måte var intelligent (Gundersen, 2022) og Ian Venner ved Hurricane peker på at de store språkmodellene først og fremst har indeksert internett. Ved å behandle alle dataene de har tilgang til der, samt de data som ulike aktører har lagt inn i systemene, har de skapt koblinger mellom datasett basert på faste regelsett. Dette betyr at lignende informasjon grupperes sammen, vektes og kobles til andre lignende områder, noe som gir et stort nettverk av sammenkoblet data. Dette, hevder Venner, er ikke kunstig intelligens, men datamining (Venner, 2024). Og sist, men ikke minst, KI er ikke en teknologi eller ett verktøy, men et upresist «sekkebegrep» som omfatter en rekke ulike systemer/ verktøy basert på ulike teknologier hvis intelligens er ytterst diskutabel. Professor Jan Ketil Arnulf ved BI foreslår at vi bør droppe begrepet «Kunstig intelligens» og heller bruke begrepet «kunstige aktører» (Arnulf, 2024), noe jeg for min del er enig i.

Å ukritisk kalle de ulike samtalerobotene for KI er misvisende og det tilslører det faktum at disse verktøyene verken er spesielt revolusjonerende, eller spesielt nye og utelukkende er programmert for å skrive gode setninger basert på statistisk analyse av de bokstavsammensetninger en bruker legger inn.

Hva betyr dette for høyere utdanning?

Det er etter min mening ingen grunn til panikk. Samtaleroboter truer ikke utdanningen ved våre høyskoler og universiteter så lenge vi utformer eksamensoppgaver og arbeidskrav i tråd med høyere nivå i Blooms taksonomi. Oppgaver som krever refleksjon og kritisk tenkning, faglig forankring og personlig erfaring, lar seg ikke løse av samtaleroboter. Tvert imot gir dette oss en gyllen mulighet til å styrke undervisningskvaliteten ved å fokusere på oppgavedesign, veiledning og vurderingsformer som fremmer dyp læring.

Avslutning – Fra hype til realisme

«There tend to be three AI camps. 1) AI is the greatest thing since sliced bread and will transform the world. 2) AI is the spawn of the Devil and will destroy civilization as we know it. And 3) «Write an A-Level paper on the themes in Shakespeare’s Romeo and Juliet.»
I propose a fourth: AI is now as good as it’s going to get, and that’s neither as good nor as bad as its fans and haters think, and you’re still not going to get an A on your report. You see, now that people have been using AI for everything and anything, they’re beginning to realize that its results, while fast and sometimes useful, tend to be mediocre.»
– Steven J. Vaughan-Nichols (8)

Samtaleroboter er nyttige verktøy innenfor begrensede områder, men ikke mer enn det. De kan brukes til oversettelser, oppsummeringer og idéutkast. Men de kan ikke tenke, forstå eller lære. Det er derfor på tide å legge bort både frykten og euforien, og møte teknologien med nøkternhet og faglig dømmekraft.

For i en tid der det rene tøv kan genereres på kommando, blir evnen til kritisk tenkning viktigere enn noen gang.

Kilder

Arnulf, J. K. (2024). Bør vi snakke om kunstige «aktører» i stedet for «intelligens»? BI Business Review. Hentet fra https://www.bi.no/forskning/business-review/articles/2024/09/bor-vi-snakke-om-kunstige-aktorer-i-stedet-for-intelligens/
Gundersen, G. M. (2022). Forsker avmystifiserer «ChatGPT»: – Den er ikke intelligent på noen måte. Universitas. Hentet fra https://www.universitas.no/ai-chatgpt-david-samuel/den-er-ikke-intelligent-pa-noen-mate/366594
Molnes, G. (2024). Professor: – De flinke studentene blir bedre med KI. Utdanningsnytt. Hentet fra https://www.utdanningsnytt.no/ai-juks-kunstig-intelligens/professor-de-flinke-studentene-blir-bedre-med-ki/390405
Sagan, C. (1996). The demon-haunted world: Science as a candle in the dark. The Random House Publishing Group.
Venner, I. (2024). How AI has been hijacked, the AGI fallacy and leveraging Vertical AI. Hurricane Commerce. Hentet fra https://hurricanecommerce.com/how-ai-has-been-hijacked-the-agi-fallacy-and-leveraging-vertical-ai/

Leseliste

Spesifikt

Bharatha, A., et al. (2024). Comparing the performance of ChatGPT-4 and medical students on MCQs at varied levels of Bloom’s Taxonomy. Advances in Medical Education and Practice. Retrieved from https://www.tandfonline.com/doi/pdf/10.2147/AMEP.S457408
Crowther GJ, Sankar U, Knight LS, Myers DL, Patton KT, Jenkins LD, Knight TA. (2023). Chatbot responses suggest that hypothetical biology questions are harder than realistic ones. J Microbiol Biol Educ. 24:e00153-23. Retrieved from:
https://journals.asm.org/doi/full/10.1128/jmbe.00153-23
Elsayed, S. (2023). Towards mitigating ChatGPT’s negative impact on education: Optimizing question design through Bloom’s taxonomy. arXiv. Retrieved from https://arxiv.org/pdf/2304.08176
Govender, R. G. (2024). My AI students: Evaluating the proficiency of three AI chatbots in completeness and accuracy. Contemporary Educational Technology. Retrieved from https://www.cedtech.net/article/my-ai-students-evaluating-the-proficiency-of-three-ai-chatbots-in-completeness-and-accuracy-14564
Habiballa, H., et al. (2025). Artificial intelligence (ChatGPT) and Bloom’s Taxonomy in theoretical computer science education. Applied Sciences, 15(2). Retrieved from https://www.mdpi.com/2076-3417/15/2/581
Herrmann-Werner, A., et al. (2024). Assessing ChatGPT’s mastery of Bloom’s Taxonomy using psychosomatic medicine exam questions: Mixed-methods study. Journal of Medical Internet Research. Retrieved from https://www.jmir.org/2024/1/e52113/
Leary, A., et al. (2023/2024). Strategies for effective teaching in the age of AI. University of Notre Dame Resource Library. Retrieved from https://learning.nd.edu/resource-library/strategies-for-effective-teaching-in-the-age-of-ai/
Lodge, J. M. (2023). ChatGPT consistently fails (most parts of) the assessment tasks I assign my students. Here’s why. LinkedIn Pulse. Retrieved from https://www.linkedin.com/pulse/chatgpt-consistently-fails-most-parts-assessment-tasks-jason-m-lodge
Mirzadeh, I., et al. (2024). GSM-Symbolic: Understanding the limitations of mathematical reasoning in large language models. Hugging Face Papers. Retrieved from https://huggingface.co/papers/2410.05229
Mitchell, M. (2023). Can large language models reason? AI Guide. Retrieved from https://aiguide.substack.com/p/can-large-language-models-reason
Newton, P., & Xiromeriti, M. (2024). ChatGPT performance on multiple choice question examinations in higher education: A pragmatic scoping review. Assessment & Evaluation in Higher Education, 49(6), 781–798. https://doi.org/10.1080/02602938.2023.2299059
Spencer, J. (2023). The FACTS cycle for prompt engineering. Spencer Education. Retrieved from https://spencereducation.com/facts-cycle/
Susnjak, T. (2022). ChatGPT: The end of online exam integrity? ResearchGate. Retrieved from https://www.researchgate.net/publication/366423865_ChatGPT_The_End_of_Online_Exam_Integrity
Volante, L., DeLuca, C., & Klinger, D. A. (2023). ChatGPT challenge: 5 ways to change how students are graded. Queen’s Gazette. Retrieved from https://www.queensu.ca/gazette/stories/chatgpt-challenge-5-ways-change-how-students-are-graded

Generelt

Forfatter: pagodejord

Førstelektor i IKT ved Handelshøyskolen Nord, utdannet i IKT/ IKT-sikkerhet (Biometriske sikkerhetssystem og betalingsformidling) samt Jus med spesialisering i Politirett og Arbeidsrett, tidligere lokalpolitiker for Høyre, tjenestepliktig stabsbefal i Sivilforsvaret (pensjonert) med lederansvar for TAKEVAL ved NTSFD, tidligere IT-sjef med sikkerhetsansvar, over 30 års erfaring med bevisstgjøringsarbeid innen IKT-sikkerhet og over 20 års erfaring med digital distribuering av undervisning og studentaktiv undervisning. Vis alle innlegg av pagodejord