Den farlige drømmen om KI

«Once men turned their thinking over to machines in the hope that this would set them free. But that only permitted other men with machines to enslave them»
– Frank Herbert, Dune, 1965

«Så hva er kunstig intelligens? Først og fremst er det et gammelt fagfelt med et misvisende navn. Som helhet har fagfeltet vært en skuffelse, fordi ordet «intelligens» antyder et løfte disse løsningene aldri har vært i nærheten av å innfri. Samtidig er ideer derfra blitt brukt til å lage IT-løsninger i flere tiår»
– Bjørn Stærk (1)

Innledning

«No, Bloomberg News, ChatGPT did not get an MBA. No, NBC News, ChatGPT did not even pass an exam.»
– Professor Melanie Mitchell (2)

I løpet av de siste årene har samtaleroboter som ChatGPT, Copilot, Gemini ol. blitt løftet frem som teknologiske mirakler og verktøy som angivelig kan revolusjonere utdanning, forskning og arbeidsliv. Men bak medieoverskriftene og de euforiske uttalelsene fra politikere og næringslivsaktører skjuler det seg en virkelighet som er langt mer nyansert, til dels ytterst kjedelig og absolutt uten noen form for intelligens.

Som informasjonsviter med et særlig blikk for informasjonsteknologiens pedagogiske og samfunnsmessige implikasjoner siden 90-tallet, har jeg over to år testet 14 ulike samtaleroboter på eksamensoppgaver knyttet til fagfeltet Samfunnsinformatikk.

Samtlige oppgaver krevde analyse, syntese og evaluering og var utformet for å måle studentenes evne til faglig refleksjon knyttet til helt spesifikt fagstoff, evne til å knytte dette til egen yrkesvirkelighet, evne til å reflektere over egen læring og evne til å finne gode (og etterprøvbare) fagkilder for å bygge opp under egne faglige refleksjoner.

Resultatene var entydig negative og gjorde det krystallklart at disse verktøyene verken er intelligente eller kreative. Og de er absolutt ikke faktainnhentere. De er avanserte statistiske tekstgeneratorer klart bundet av algoritmer og mønstergjenkjenning, ikke forståelse.

Både mine tester, og internasjonal forskning på hvordan samtaleroboter behandler eksamensoppgaver knyttet til høyere nivå i Blooms taksonomi, viser at mediehistoriene om at dette var verktøy som lett kunne skrive gode universitetsbesvarelser uansett fagemne ikke stemmer. Og amerikanske forskere har for lengst vist at påstandene om at ChatGPT, og lignende verktøy, klarte bachelor og mastereksamener ikke holdt vann.

Til tross for at ingen av de vidløftige påstandene knyttet til samtaleroboter er innfridd, lever mytene om KI videre. Nå er det samtalerobotene som plutselig er blitt inngangsporten til drømmen om tenkende maskiner.

Manglende vitenskapelig kompetanse

«The current idea that chatbots are «AI» and claims that computers can now truly think is a reflection of the imbalance between rapid technological progress and the widespread lack of scientific literacy. In the past, people fervently believed in demons and UFOs. Today, it’s AI»
– Per A. Godejord

Utsagnet mitt over bygger på en observasjon Carl Sagan gjorde på slutten av 1990-tallet; at det var et kritisk behov for utbredt vitenskapelig kompetanse i en verden som i stadig større grad formes av vitenskap og teknologi. I dag er denne teknologiske påvirkningen, i det minste i den velstående delen av verden, enda mer fremtredende.

Sagan advarte om at et samfunn som er sterkt avhengig av teknologi, men mangler forståelse for den, er iboende ustabilt og utsatt for manipulasjon. Han mente at manglende vitenskapelig forståelse gjør folk sårbare for pseudovitenskap og feilinformasjon, noe som hemmer evnen til å ta informerte beslutninger.

Etter min mening er denne bekymringen like relevant i dag, om ikke mer. Dette så vi særlig i mediehysteriet rundt fremveksten av samtaleroboter av typen ChatGPT.

Det virker for meg som behovet for det Carl Sagan kalte et «baloney detection kit» er enda større nå enn det var på 90-tallet. Og da særlig knyttet til de ulike påstandene om at ChatGPT og lignende verktøy kan svare ekspertmessig på alle typer universitetsoppgaver, og at samtalerobotenes utvikling betyr at vi nå har intelligente datamaskiner.

Denne type påstander er ikke bare vitenskapelig uholdbare, de kan være farlig.

Mytene om KI er en samfunnsrisiko

«KI er et blestord uten håndfast betydning»
– Bjørn Stærk (3)

«The talk about existential risk from AGI is a magician’s distraction from what’s going on right in front of us – not a mechanical uprising, but a silent campaign to devalue the political and cultural currency of humane thought.»
– Professor Shannon Vallor (4)

Det mest alvorlige i de siste årenes mediefantasier knyttet til samtaleroboter er ikke teknologien i seg selv, men hvordan vi forstår og bruker den. Når både media, politikere og utdanningsinstitusjoner ukritisk videreformidler ideen om at samtaleroboter er intelligente og at vi som del av dette nå plutselig har utviklet intelligente maskiner, bidrar vi til en teknologisk analfabetisme som kan få alvorlige konsekvenser.

Så og si samtlige mennesker i dette landet er storkonsumenter av digitale medier. Men det er ikke gitt at dette utstrakte konsumet gir seg utslag i særlig stor forståelse, verken blant eldre eller unge, for hva digital teknologi i bunn og grunn rent faktisk er.

Og i en tid preget av omfattende digital sårbarhet, økende hybrid krigføring og informasjonskrig, er det avgjørende at befolkningen har en realistisk og kunnskapsbasert forståelse av hvordan informasjonsteknologi faktisk fungerer. En slik forståelse vil være det sikreste botemiddel mot digitale trusler fra både kriminelle og fiendtlige nasjoners etterretning.

Særlige våre ikke-teknologiutdannede politikere trenger å forstå at KI ikke er ett verktøy, men et kontroversielt sekkebegrep som omfatter en hel rekke ulike IT-systemer.

Samtalerobotene som media og våre politikere er så begeistret for, er utelukkende utviklet for å skrive gode setninger, og har absolutt ingen anelse om vår eksistens. En datamaskin kan verken føle eller tenke, og resultatet av våre spørsmål er verken intelligens eller resonnering, og slett ikke forståelse. Det ChatGPT og lignende verktøy leverer, er lynhurtig autofullføring av tekst. Og disse verktøyene er, på samme måte som sosiale medier, konstruert for å være avhengighetsskapende.

Ingen av de ulike systemene/ verktøyene som er utviklet som del av forskningsfeltet KI, vil i seg selv nødvendigvis være nyttig i alle deler av det offentlige og det private, med mindre en klar strategi for IT-bruk i den enkelte virksomhet er på plass. Og bare fordi media og deler av næringslivet, med våre politikere som lydige etterplaprere, nå kaller ethvert IT-system for «KI», betyr ikke at vi per nå rent faktisk har utviklet digitale system som er i nærheten av intelligens.

I dagens kompliserte verden trenger vi ikke flere myter om såkalt «KI». Vi trenger digital dannelse, teknologikritikk og et utdanningssystem som setter individet, menneskelig innsikt og refleksjon i sentrum og ikke maskinens evne til å etterligne slike egenskaper. Og vi trenger at folk flest slutter å overlate egen dømmekraft til datamaskiner. Utstrakt bruk av lettvinte løsninger a la ChatGPT gjør oss dummere, og dermed til et lettere bytte for fiendtlige aktører.

Kanskje er det derfor på høy tid å hente frem, og tenke litt over, Carl Sagan sine ord fra boken «The Demon-Haunted World: Science as a Candle in the Dark»:

«We have designed our civilization based on science and technology and at the same time arranged things so that almost no one understands anything at all about science and technology. This is a clear prescription for disaster.»

Leseliste

  1. There’s no such thing as Artificial Intelligence
  2. Artificially voiced intelligences: voice and the myth of AI
  3. Artificial Intelligence: A Clarification of Misconceptions, Myths and Desired Status
  4. A Comprehensive Review of AI Myths and Misconceptions
  5. ChatGPT and other language AIs are nothing without humans – a sociologist explains how countless hidden people make the magic
  6. ChatGPT is not “true AI.” A computer scientist explains why
  7. Can computers think? No, they cant actually do anything
  8. Why Our Machines Will Never Be as Smart as We Are
  9. Why a computer will never be truly conscious
  10. The Myth of Artificial Intelligence: Why Computers Can’t Think the Way We Do
  11. Will computers overtake humans in intellectual ability?

Samtaleroboter i akademia – KI-verktøy eller kun statistiske tekstgeneratorer?

[Dette innlegget er basert på arbeidet jeg har gjort knyttet til samtaleroboters evne til å besvare arbeidskrav (eksamensoppgaver) i mine fagemner. En omarbeidet versjon er publisert på forskersonen.no]

«Neural networks today are realized in software, rather than in electrical circuits, and to be clear, neural net researchers don’t try to actually model the brain, but the software structures they use — very large networks of very simple computational devices — were inspired by the neural structures we see in brains and nervous systems»
– Professor Michael Wooldridge (1)

«Differences about the future of AI are often partly rooted in differing interpretations of evidence about the present. For example, we strongly disagree with the characterization of generative AI adoption as rapid»
– Professor Arvind Narayanan and Senior Fellow Sayash Kapoor (2)

«Min hypotese er at de som tar avgjørelsen om hvorvidt man vil kalle noe for kunstig intelligens eller ikke, ofte ser på begrepsbruken som en fordel. Man framstår kanskje som mer moderne og fremtidsrettet. Eller man får flere klikk på artikkelen man skriver»
– Nora Gjøen-Gjøsæter (3)

«Jeg liker ikke å kalle det «kunstig intelligens»
– Roger Olafsen (4)

«Så hva er kunstig intelligens? Først og fremst er det et gammelt fagfelt med et misvisende navn. Som helhet har fagfeltet vært en skuffelse, fordi ordet «intelligens» antyder et løfte disse løsningene aldri har vært i nærheten av å innfri. Samtidig er ideer derfra blitt brukt til å lage IT-løsninger i flere tiår.»
– Bjørn Stærk (5)

Innledning

Siden lanseringen av ChatGPT i november 2022 har debatten om kunstig intelligens (KI) i utdanning og samfunn eksplodert. Samtaleroboter som ChatGPT ol. har blitt løftet frem som teknologiske mirakler – verktøy som angivelig kan revolusjonere utdanning, forskning og arbeidsliv. Mediene har vært fulle av både dommedagsprofetier og euforiske visjoner. Men bak overskriftene og den teknologiske euforien skjuler det seg en virkelighet som er langt mer nyansert, og langt mindre intelligent.

Men hva skjer når vi faktisk setter de ulike verktøyene på prøve, i møte med reelle akademiske krav og praksisnære oppgaver? Dette innlegget bygger på egne systematiske tester av ChatGPT og 13 andre lignende samtaleroboter, gjennomført over to år, og jeg vil hevde at disse verktøyene ikke representerer et paradigmeskifte i høyere utdanning, men kun en ny variant av gamle verktøy med bedre markedsføring.

Språklig briljans – faglig svakhet

ChatGPT og de ulike samtalerobotene imponerer ved første øyekast. Det skriver flytende, høflig og grammatisk korrekt. Men når systemene blir bedt om å besvare arbeidskrav utformet i tråd med høyere nivå i Blooms taksonomi fra fagemner knyttet til samfunnsinformatikk-feltet, der det ikke finnes klare svar eller evige sannheter, faller de gjennom. De klarer ikke å analysere, vurdere eller reflektere, kjernekompetanser i høyere utdanning. I stedet produserer de overfladiske svar som ofte bare reformulerer oppgaveteksten. Det som fremstår som innsikt, er i realiteten statistisk sannsynlige ordkombinasjoner.

Hallusinasjoner og falske kilder

Et gjennomgående problem er såkalte «hallusinasjoner», disse verktøyenes tendens til å dikte opp fakta, forfattere og litteratur. I flere av mine tester genererte de ulike samtalerobotene akademiske referanser som ikke eksisterer, men som så troverdige ut. Dette er ikke bare en teknisk svakhet, men en alvorlig utfordring for akademisk integritet. Når studenter bruker slike verktøy ukritisk, risikerer de å levere besvarelser som er både faglig svake, faktisk feil og helt uten den tankevirksomhet det er meningen at universitetsstudier skal oppøve.

En dårlig støtte for svake studenter

Basert på resultatene av mine tester vil bruk av samtaleroboter i fagemner der det finnes få eller ingen klare fasitsvar, i liten grad hjelpe faglig svake studenter. Tvert imot vil de antakelig forsterke svakhetene. Studenter uten grunnleggende fagforståelse klarer ikke å stille gode spørsmål (prompting), og ender opp med generiske svar uten dybde. Samtidig kan faglig sterke studenter bruke verktøyene som en slags «digital sekretær» til å strukturere tekst, oppsummere kilder eller generere utkast. Men dette krever høy grad av kritisk vurdering og etterarbeid, og studenten slipper ikke unna å selv måtte formulere sine faglige refleksjoner forankret i egen yrkespraksis og i relevant faglitteratur.

Og besvarelsene fra de faglige svake studentene, den gruppen som med størst sannsynlighet lar seg friste til å ta snarveier, er slett ikke vanskelig å oppdage, noe også andre forskere har pekt på (Molnes, 2024)

Ikke kunstig intelligens – bare avansert statistikk

Til tross for at media og andre stadig henviser til ChatGPT og lignende samtaleroboter som kunstig intelligens (KI) er disse verktøyene absolutt ikke intelligente. De forstår ikke spørsmål, resonnerer ikke, og har ingen bevissthet. De er basert på avanserte språkmodeller som gjetter neste ord basert på sannsynlighet.

Stipendiat David Samuel ved Universitetet i Oslo sin språkteknologigruppe var ganske klar i et intervju i Universitas i 2022 på at ChatGPT ikke på noen måte var intelligent (Gundersen, 2022) og Ian Venner ved Hurricane peker på at de store språkmodellene først og fremst har indeksert internett. Ved å behandle alle dataene de har tilgang til der, samt de data som ulike aktører har lagt inn i systemene, har de skapt koblinger mellom datasett basert på faste regelsett. Dette betyr at lignende informasjon grupperes sammen, vektes og kobles til andre lignende områder, noe som gir et stort nettverk av sammenkoblet data. Dette, hevder Venner, er ikke kunstig intelligens, men datamining (Venner, 2024). Og sist, men ikke minst, KI er ikke en teknologi eller ett verktøy, men et upresist «sekkebegrep» som omfatter en rekke ulike systemer/ verktøy basert på ulike teknologier hvis intelligens er ytterst diskutabel. Professor Jan Ketil Arnulf ved BI foreslår at vi bør droppe begrepet «Kunstig intelligens» og heller bruke begrepet «kunstige aktører» (Arnulf, 2024), noe jeg for min del er enig i.

Å ukritisk kalle de ulike samtalerobotene for KI er misvisende og det tilslører det faktum at disse verktøyene verken er spesielt revolusjonerende, eller spesielt nye og utelukkende er programmert for å skrive gode setninger basert på statistisk analyse av de bokstavsammensetninger en bruker legger inn.

Hva betyr dette for høyere utdanning?

Det er etter min mening ingen grunn til panikk. Samtaleroboter truer ikke utdanningen ved våre høyskoler og universiteter så lenge vi utformer eksamensoppgaver og arbeidskrav i tråd med høyere nivå i Blooms taksonomi. Oppgaver som krever refleksjon, faglig forankring og personlig erfaring, lar seg ikke løse av samtaleroboter. Tvert imot gir dette oss en gyllen mulighet til å styrke undervisningskvaliteten ved å fokusere på oppgavedesign, veiledning og vurderingsformer som fremmer dyp læring.

Avslutning – Fra hype til realisme

Samtaleroboter er nyttige verktøy innenfor begrensede områder, men ikke mer enn det. De kan brukes til oversettelser, oppsummeringer og idéutkast. Men de kan ikke tenke, forstå eller lære. Det er derfor på tide å legge bort både frykten og euforien, og møte teknologien med nøkternhet og faglig dømmekraft.

For i en tid der det rene tøv kan genereres på kommando, blir evnen til kritisk tenkning viktigere enn noen gang.

Leseliste

  1. Could AI slow science?
  2. Why Understanding AI Doesn’t Necessarily Lead People to Embrace It
  3. AI and Threats to Academic Integrity: What to Do
  4. Is AI Really a Threat to Higher Education?
  5. There’s no simple solution to universities’ AI worries
  6. Instead of punishing students for using AI, colleges and universities must provide clear, consistent guidelines and rules
  7. Why AI isn’t the threat we think it is

Kilder

  1. Arnulf, J. K. (2024). Bør vi snakke om kunstige «aktører» i stedet for «intelligens»? BI Business Review. Hentet fra https://www.bi.no/forskning/business-review/articles/2024/09/bor-vi-snakke-om-kunstige-aktorer-i-stedet-for-intelligens/
  2. Gundersen, G. M. (2022). Forsker avmystifiserer «ChatGPT»: – Den er ikke intelligent på noen måte. Universitas. Hentet fra https://www.universitas.no/ai-chatgpt-david-samuel/den-er-ikke-intelligent-pa-noen-mate/366594
  3. Molnes, G. (2024). Professor: – De flinke studentene blir bedre med KI. Utdanningsnytt. Hentet fra https://www.utdanningsnytt.no/ai-juks-kunstig-intelligens/professor-de-flinke-studentene-blir-bedre-med-ki/390405
  4. Venner, I. (2024). How AI has been hijacked, the AGI fallacy and leveraging Vertical AI. Hurricane Commerce. Hentet fra https://hurricanecommerce.com/how-ai-has-been-hijacked-the-agi-fallacy-and-leveraging-vertical-ai/

ChatGPT – et taleført eksempel på kunstig intelligens, eller…?

En bloggbok av Per Arne Godejord

Nok et KI-bilde
Noen etiskejuridiskesikkerhetsmessig og kognitive problemstillinger knyttet til samtaleroboter, og hvorfor disse verktøyene ikke er eksempler på KI

Videre til boken

Neste side ikon

Unmasking the Limits of Chatbots: A Two-Year Study on the Inadequacy of AI Tools in solving Higher-Order Thinking Assignments

Per Arne Godejord
Nord University Business School
Norway

Abstract

This paper critically evaluates the capabilities of fourteen popular chatbots evaluated over a two-year period (December 2022 to January 2025) to address higher-order academic assignments within the field of Social Informatics, specifically focusing on assignments that require complex cognitive skills in alignment with Bloom’s taxonomy.

The chatbots examined include ChatGPT, GPT UiO, Sikt KI-Chat, GPT-3 Playground, Chatsonic, Bing Chat (Copilot), Jenni, Claude, llama70b-v2-chat, Perplexity.ai, Gemini Pro, and others, using primarily their free versions. The tools were tasked with producing fact-based essays, academic responses to course assignments in various sub-fields (e.g., computer security, law, game creation, and work in virtual teams), and addressing complex academic inquiries.

Results indicated that none of the chatbots were capable of reliably producing high-quality academic outputs beyond simple fact repetition. A substantial number of responses involved fabricated information, including non-existent sources.

These findings challenge media claims that chatbots like ChatGPT can effectively meet the demands of higher education assessments and thereby making portfolio assessment in online courses impossible as examination method.

Furthermore, this paper strongly suggests that concerns about chatbots undermining academic integrity in Norwegian bachelor and master’s theses within the fields of Social Sciences and the Humanities are unfounded. In conclusion, current AI tools are far from being true artificial intelligence, and they fall short in delivering the level of academic rigor required by advanced education within the Social Sciences and the Humanities.

REFERENCES

(not complete)

  1. Bharatha, A., et al. (2024). Comparing the performance of ChatGPT-4 and medical students on MCQs at varied levels of Bloom’s Taxonomy. Advances in Medical Education and Practice. Retrieved from https://www.tandfonline.com/doi/pdf/10.2147/AMEP.S457408
  2. Crowther GJ, Sankar U, Knight LS, Myers DL, Patton KT, Jenkins LD, Knight TA. (2023). Chatbot responses suggest that hypothetical biology questions are harder than realistic ones. J Microbiol Biol Educ. 24:e00153-23. Retrieved from:
    https://journals.asm.org/doi/full/10.1128/jmbe.00153-23
  3. Elsayed, S. (2023). Towards mitigating ChatGPT’s negative impact on education: Optimizing question design through Bloom’s taxonomy. arXiv. Retrieved from https://arxiv.org/pdf/2304.08176
  4. Govender, R. G. (2024). My AI students: Evaluating the proficiency of three AI chatbots in completeness and accuracy. Contemporary Educational Technology. Retrieved from https://www.cedtech.net/article/my-ai-students-evaluating-the-proficiency-of-three-ai-chatbots-in-completeness-and-accuracy-14564
  5. Habiballa, H., et al. (2025). Artificial intelligence (ChatGPT) and Bloom’s Taxonomy in theoretical computer science education. Applied Sciences, 15(2). Retrieved from https://www.mdpi.com/2076-3417/15/2/581
  6. Herrmann-Werner, A., et al. (2024). Assessing ChatGPT’s mastery of Bloom’s Taxonomy using psychosomatic medicine exam questions: Mixed-methods study. Journal of Medical Internet Research. Retrieved from https://www.jmir.org/2024/1/e52113/
  7. Leary, A., et al. (2023/2024). Strategies for effective teaching in the age of AI. University of Notre Dame Resource Library. Retrieved from https://learning.nd.edu/resource-library/strategies-for-effective-teaching-in-the-age-of-ai/
  8. Lodge, J. M. (2023). ChatGPT consistently fails (most parts of) the assessment tasks I assign my students. Here’s why. LinkedIn Pulse. Retrieved from https://www.linkedin.com/pulse/chatgpt-consistently-fails-most-parts-assessment-tasks-jason-m-lodge
  9. Mirzadeh, I., et al. (2024). GSM-Symbolic: Understanding the limitations of mathematical reasoning in large language models. Hugging Face Papers. Retrieved from https://huggingface.co/papers/2410.05229
  10. Mitchell, M. (2023). Can large language models reason? AI Guide. Retrieved from https://aiguide.substack.com/p/can-large-language-models-reason
  11. Newton, P., & Xiromeriti, M. (2024). ChatGPT performance on multiple choice question examinations in higher education: A pragmatic scoping review. Assessment & Evaluation in Higher Education, 49(6), 781–798. https://doi.org/10.1080/02602938.2023.2299059
  12. Spencer, J. (2023). The FACTS cycle for prompt engineering. Spencer Education. Retrieved from https://spencereducation.com/facts-cycle/
  13. Susnjak, T. (2022). ChatGPT: The end of online exam integrity? ResearchGate. Retrieved from https://www.researchgate.net/publication/366423865_ChatGPT_The_End_of_Online_Exam_Integrity
  14. Volante, L., DeLuca, C., & Klinger, D. A. (2023). ChatGPT challenge: 5 ways to change how students are graded. Queen’s Gazette. Retrieved from https://www.queensu.ca/gazette/stories/chatgpt-challenge-5-ways-change-how-students-are-graded

This excerpt from an upcoming journal paper is derived from two years of testing involving 14 chatbots. It also incorporates insights from my blog book, “ChatGPT – A Talkative Example of Artificial Intelligence, or…?”.

The comprehensive findings and analyses will be fully detailed in the complete paper, scheduled for publication in 2025/2026.