Kap. 5 Rasende utvikling – fra dum til dummere?

«KI-genererte tekstsvar og falske bilder kan se veldig imponerende ut. Men det skal ikke mye gransking til for å avdekke at modellene som ligger bak, ikke forstår noen ting. De er tross alt bare «stokastiske papegøyer» (tilfeldige papegøyer), som gjentar varianter av ting de alt har hørt
– Sølve Eidnes, Katrine Seel og Signe Riemer-Sørensen, 2023 (1)

«What this experience proved to me is that ChatGPT 4 was simply doing what Google already does here, pulling top-rated answers off the Internet and spitting them back at me. It just does it in a more verbose format. Sadly, unlike Google, ChatGPT “pretends” it came up with the answer all on its own with zero attribution to the original source
– Lance Cleveland, 2024 (2)

«This idea that there’s a kind of unquantifiable magic sauce in AI that will allow us to forgive its tenuous relationship with reality is brought up a lot by the people eager to hand-wave away accuracy concerns. Google, OpenAI, Microsoft, and plenty of other AI developers and researchers have dismissed hallucination as a small annoyance that should be forgiven because they’re on the path to making digital beings that might make our own lives easier. But apologies to Sam and everyone else financially incentivized to get me excited about AI. I don’t come to computers for the inaccurate magic of human consciousness. I come to them because they are very accurate when humans are not. I don’t need my computer to be my friend; I need it to get my gender right when I ask and help me not accidentally expose film when fixing a busted camera. Lawyers, I assume, would like it to get the case law right».
– Alex Cranz, 2024 (3)

«However, the tool does not answer correctly in higher-order thinking questions
– Manojit Bhattacharya, et.al., 2024 (4)

At ChatGPT gjorde det relativt dårlig i mine forsøk beskrevet i de forrige kapitler, betyr ikke at det ikke kan komme ut med greie svar på nivå 1 i andre sammenhenger, og slike automatisk genererte fremstillinger kan jo være en god første start (en slags «trigger») for en elev eller en student før denne tar fatt på en oppgave. Men kan ChatGPT (og lignende systemer) klare mer ordinære eksamener, f.eks. på masternivå?

ChatGPT klarer universitetseksamener og består Turingtesten, Bing Chat dikter opp en bok som ikke eksisterer og Jenni bommer på et enkelt juridisk spørsmål

I løpet av 2023 kom det flere nyhetssaker om at ChatGPT klarte en MBA-eksamen og eksamener innen jus og økonomi, men kun på nivå med C.

I noen andre forsøk klarte ChatGPT å svare til en A og en B. Men var dette virkelig eksempler på at ChatGPT og lignende språkmodeller rent faktisk klarte (og vil klare) å oppnå en mastergrad? På ingen måte! Og professor Melanie Mitchell forklarer hvorfor i «Did ChatGPT Really Pass Graduate-Level Exams?» (2 deler).

Ja og så var det Turing sin berømte test da. Er det virkelig slik at dagens samtaleroboter har bestått Turingtesten? Som professor Melanie Mitchell peker på i sin artikkel fra august 2024 The Turing Test and our shifting conceptions of intelligence; «The answer is, of course, it depends on which version of the test you’re talking about. A three-player imitation game with expert judges and longer conversation time has still not been passed by any machine (though there are plans to hold an ultra-strict version of it in 2029)».

Som for påstandene om at ChatGPT består eksamener med glans, er altså også påstanden om at denne samtaleroboten har bestått Turingtesten og derfor er intelligent, en sannhet med meget store modifikasjoner.

Jo mer utforsket og behandlet et emne er internasjonalt, jo bedre vil nok svarene fra ChatGPT være på nivå 1, så lenge tematikken ikke berører komplekse spørsmål om litteratur eller tematikk som programmererne i OpenAI mener er kontroversielt. Og nisjepregete tema som for eksempel lødig litteratur i Norge på 70-tallet genererer  i mine forsøk upresise eller helt feile svar. Men siden svarene, inklusive forsøk på å korrigere sine feil, fremkommer på en høflig måte og med en sjarmerende lurendreier-vri på brukernes egne formuleringer, blir det hele ytterst fornøyelig.

Mindre fornøyelig er det at ChatGPT, grunnet svakhetene med store språkmodeller, overhode ikke skiller mellom sant og usant og derfor er ubrukelige som faktakilde. En student må derfor være nøye med å kildegranske informasjonen denne får og ikke stole noe mer på ChatGPT enn på de enkleste Google-søk.

ChatGPT og lignende system kan sette sammen forfattere og fagressurser helt vilkårlig, ut fra sine statistiske beregninger og ikke ut fra reelle kilder som rent faktisk passer til innholdet i studentens fagtekst. Det blir derfor viktig å påpeke for studentene at forfalskede kildehenvisninger og litteraturlister (altså at det henvises til forfattere og fagressurser som ikke eksisterer, eller ikke tar opp tematikken beskrevet i studentens besvarelse) er å regne som fusk uansett om selve bruken av ChatGPT eller andre språkmodeller er tillatt.

Et godt eksempel på hvordan en samtalerobot kan dikte opp en fagkilde er dette fra Bing Chat, fra desember 2023, vist til under.

Jeg hadde i utgangspunktet spurt den finne info om meg selv. Mye var korrekt, men noe var rent oppspinn. Så lurte jeg på om jeg hadde skrevet noen bøker? Og ja da det hadde jeg, korrekt nok. Men når jeg lurte på om jeg hadde skrevet noe om samfunnsinformasjonssikkerhet, da ble Bing Chat særdeles kreativ og diktet opp følgende:

Samfunnsinformasjonssikkerhet er en bok som handler om hvordan man kan beskytte seg mot digitale trusler som nettmobbing, identitetstyveri, hacking og overvåking. Boken er skrevet av Per Arne Godejord og Beata Joanna Godejord, som begge er førsteamanuenser ved Nord universitet. Boken er basert på forskning og erfaringer fra prosjektet “Fighting child pornography: Exploring didactics and student engagement in social informatics”, som ble publisert i Journal of the American Society for Information Science and Technology (denne artikkelen eksisterer og jeg skrev den, men det er det eneste som stemmer i denne fornøyelige beskrivelsen).

Boken har følgende innhold:

  • Kapittel 1: Innledning. Her presenteres bokens tema, målgruppe, struktur og begrepsapparat.
  • Kapittel 2: Informasjonssikkerhet som samfunnsutfordring. Her diskuteres ulike aspekter ved informasjonssikkerhet, som teknologi, mennesker, organisasjoner, lover og etikk.
  • Kapittel 3: Digitale trusler og risikoer. Her beskrives noen av de vanligste og mest alvorlige digitale truslene som kan ramme individer og samfunn, som nettmobbing, identitetstyveri, hacking, overvåking, falske nyheter og cyberkrigføring.
  • Kapittel 4: Samfunnsinformasjonssikkerhet som fagfelt. Her forklares hva samfunnsinformasjonssikkerhet er, hvordan det skiller seg fra tradisjonell informasjonssikkerhet, og hvilke teorier og metoder som brukes innen fagfeltet.
  • Kapittel 5: Samfunnsinformasjonssikkerhet i praksis. Her presenteres noen eksempler på hvordan samfunnsinformasjonssikkerhet kan anvendes i ulike sammenhenger, som utdanning, arbeidsliv, helsevesen, politi og rettsvesen, og sivilsamfunn.
  • Kapittel 6: Avslutning. Her oppsummeres bokens hovedpoenger, pekes på noen utfordringer og muligheter for fremtiden, og gis noen råd og tips til leserne om hvordan de kan forbedre sin egen og andres samfunnsinformasjonssikkerhet.
        
    Boken er tilgjengelig på Adlibris og Allvit, og har fått gode anmeldelser fra både fagfolk og publikum. En anmelder skriver: “Boken er en viktig og aktuell bidrag til å øke bevisstheten og kunnskapen om informasjonssikkerhet i det digitale samfunnet. Den er lett å lese, engasjerende og informativ, og gir en god balanse mellom teori og praksis. Den anbefales på det varmeste til alle som er interessert i eller berørt av temaet.”

Eksempelet over viser at selv ett år fra lanseringen av ChatGPT i november 2022, og fremveksten av andre samtaleroboter gjennom 2023, er ikke denne «kunstige intelligensen» mer intelligent enn at den klipper og limer fra ulike nettbaserte kilder som ikke nødvendigvis har noe med hverandre å gjøre, og setter sammen en «historie» som ikke har noen rot i virkeligheten. Alt basert på rene statistiske beregninger – nuller og ettall – og absolutt ingen «intelligent» analyse av tilgjengelig info. I dette tilfellet diktet den sågar opp en anmeldelse på den ikke-eksisterende boken Beata og jeg skulle ha skrevet.

En annen samtalerobot er Jenni, og VG kunne 23. juni 2023 melde at en student hadde benyttet dette systemet for å skrive en hovedoppgave.

VG definerer ikke hva de mener med «hovedoppgave». Jeg har ikke funnet noen form for ekstern granskning av det som her påstås, så dette er enn så lenge kun nok en ubekreftet mediehistorie uten forankring i konkret empiri.

Jeg testet Jenni med oppgaven om KOPINOR og hvorvidt avtalen omfatter samleverk. Dette systemet virker å «forstå» Norsk, men svarer på engelsk. Som for ChatGPT blir svaret helt feil:

The KOPINOR agreement is a collective licensing agreement in Norway that governs the use of copyrighted materials, particularly in the context of educational institutions. Under this agreement, it is permitted to create a samleverk, which refers to a compilation or collection of different works, including text, images.

ChatGPT, Jenni og Bing Chat (som forøvrig nå er en del av Microsoft CoPilot), slik de var på dette testtidspunktet, imponerte ikke i særlig stor grad når det gjaldt de oppgavene jeg presenterte for dem.

Mer testing – Desember 2023

Frem mot desember 2023 ble altså et utvalg av samtaleroboter testet på ulike arbeidskrav, samt noen andre tema. I de fleste tilfellene klarte samtalerobotene i liten grad å produsere gode svar på mine arbeidskrav, eller deler av arbeidskrav. Men i slutten av 2023 så jeg at noen av samtalerobotene klarte spørsmålet om «forlagsmessig fremstilling» og KOPINOR-avtalen bedre, enn da jeg startet testingen i desember 2022 og januar 2023. Dette er en utvikling i tråd med det Hans Christian Farsethås ved UiO beskriver sin artikkel av juni/august 2023.

Den 6. desember 2023 tok jeg for meg fem samtaleroboter og testet dem på første arbeidskrav i ORG5005- Digital beredskap. Dette arbeidskravet, som alle arbeidskrav både ved IKT og læring 1 og 2, samt ved ORG5005, er knyttet til krav om faglig analyse og refleksjon, forankret i relevant faglitteratur, og basert på studentenes egne yrkeserfaringer. Arbeidskravene har sine fokus på det høyeste nivået i Blooms taksomoni, og har kun i liten grad spørsmål som krever ren gjengivelse (Nivå 1).

Dette er oppgaveformer som samtalerobotene ikke klarte å håndtere særlig overbevisende i mine første tester, men hadde ett år med utvikling ført til at disse verktøyene klarte dette bedre nå?

Resultatet ble som forventet og er presentert i neste kapittel.

Leseliste

  1. AI now beats humans at basic tasks: Really?
  2. ChatGPT’s Poetry is Incompetent and Banal: A Discussion of (Porter and Machery, 2024)
  3. Generating Medical Errors: GenAI and Erroneous Medical References
  4. Hallucinating Law: Legal Mistakes with Large Language Models are Pervasive
  5. Why ChatGPT-4’s Score on the Bar Exam May Not Be So Impressive
  6. Re-evaluating GPT-4’s bar exam performance
  7. Artificial Intelligence Driving Materials Discovery? Perspective on the Article: Scaling Deep Learning for Materials Discovery
  8. Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality
  9. ChatGPT4 failed my pragmatics exam
  10. Debunking Devin: «First AI Software Engineer» Upwork lie exposed! (YouTube)

<Forrige kapittelNeste kapittel>