Kap. 3 Bullshit Generator eller genial faktagjenngiver?

At their core, LLMs are nothing more than sophisticated memorization machines, capable of reasonable-sounding statements, but unable to understand fundamental truth. Importantly and despite the fervent hopes of many, they are far from delivering or even prefiguring artificial general intelligence (AGI). The hype surrounding LLMs has reached stratospheric levels, fostering a misguided belief in their potential as AGI precursors
Matt Asay, 2024 (1)

«… I can say with certainty that ChatGPT is more hype than harm—and it might even offer some help.»
– Jason Wingard, PhD., 2023 (2)

«Nevertheless, as we become more familiar with generative AI systems, we will see more clearly that it is not truly intelligent; there is no insight. It is not magic, but a very clever magician’s trick: an algorithm that is the product of extraordinary human ingenuity.»
– PTI, 2024 (3)

«The AI keeps screwing up because these computers are stupid. Extraordinary in their abilities and astonishing in their dimwittedness. I cannot get excited about the next turn in the AI revolution because that turn is into a place where computers cannot consistently maintain accuracy about even minor things».
– Alex Cranz, 2024 (4)

Innledning

«ChatGPT is a bullshit generator. But it can still be amazingly useful» skriver professor Arvind Narayanan and Sayash Kapoor i sin nettartikkel på AI Snake Oil. Jeg kunne ikke vært mer enig!

Jeg har testet ut ChatGPT, samt noen lignende system, innenfor eget fagfelt, med blant annet oppgaver fra IKT og Læringsstudiene (en oppgave innen informasjonssikkerhet, en innen opphavsrett og to innen prosjektarbeid med IKT), samt to oppgaver fra ORG5005 – Digital beredskap. Jeg har også testet disse systemene på noen særnorske tema.

Testene

Noen av de ulike testene som ble gjennomført i perioden desember 2022 til desember 2023 er beskrevet i to «underkapitler», som følger:

Flere tester er beskrevet i kapittel 6 Når oppgavene blir lange…, og i vedleggene Ytterligere testing av ulike samtaleroboter og Test av OpenAIs GPT O1 Preview.

Konklusjon

Som resultatene fra testene beskrevet i underkapitlene 1 og 2 over viser, er verken ChatGPT eller de andre samtaleroboter særlig pålitelige. Eller som professor Morten Irgens sier det til Khrono 29.11.2023: «Noen bruker ChatGPT som en kunnskapsmodell, og det er den jo ikke. Det er en modell som har et sett med sannsynlige relasjoner mellom tekst og ord og slikt. Så når man bruker det som en kunnskapsmodell, da er det et problem».

Testen beskrevet i denne bloggbokens Kap. 6, samt testene utført i vedleggene, underbygger at disse verktøyene ikke kan kalles «kunstig intelligens» og at de er ytterst upålitelig som verktøy for faktainnhenting og dermed også som produsenter av svar på universitetsoppgaver av en viss kompleksitet innen mine fagområder.

Og Microsoft CoPilot sier det slik om sin evne til å besvare eksamensoppgaver basert på Blooms Taksonomi sitt høyeste nivå: «Som en form for kunstig intelligens, kan jeg generere svar basert på den informasjonen jeg har blitt trent på, og jeg kan produsere innhold som kan virke kreativt, som dikt, historier, kode, og mer. Men det er viktig å merke seg at dette innholdet er generert basert på mønstre og informasjon jeg har lært fra mine treningsdata, og ikke fra noen form for menneskelig kreativitet eller original tenkning. Når det gjelder å svare på en eksamensoppgave konstruert ut fra Bloom’s taksonomi sitt høyeste nivå, vil jeg kunne gi et svar basert på den informasjonen jeg har tilgjengelig. Men svaret vil være begrenset av min programmering og de dataene jeg har blitt trent på. Jeg vil ikke være i stand til å produsere et originalt eller kreativt svar på samme måte som et menneske ville gjort.»

Og det overforstående er (selv om det er et resultat av matematiske beregninger og ikke evne til å tenke) ingen overraskelse for de av oss som er informasjonsteknologer og har mange års erfaring i det å konstruere eksamensoppgaver basert på Blooms Taksonomi. Det kan til tider være vanskelig nok å få oss mennesker til å løfte oss opp til vårt øverste nivå av kreativitet, og da skal en ikke bli overrasket av at matematiske modeller uten noen form for tenkeevne ikke klarer seg særlig bra når oppgavene krever noe mer enn kun gjengivelse.

En av mange artige ting med ChatGPT er at dersom brukeren påpeker at svarene er feil, innrømmer systemet at det ikke har nok informasjon og deretter viser det til at man kan «prøve å søke etter informasjon i biblioteket eller på nettet». Videre blir det hevdet at systemet lærer, og som bruker blir man oppfordret til å «mate» systemet med korrekt informasjon om emner det ikke klarer å svare på. Og siden systemet er programmert til å benytte seg av de ord og setninger det registrerer fra samtalen, gir det inntrykk av å være et intelligent og høflig system som er oppriktig glad for at du hjelper det til å bli bedre.

Men skjønner systemet at det har gjort en feil? Selvsagt ikke. La oss se på følgende eksempel:

Hvem var Henrik Ibsen?

Henrik Ibsen var en norsk forfatter og teaterdramatiker. Han er kjent for å være en pioner innen realismen i teateret og skrev mange verk som har blitt betraktet som klassikere, inkludert «Peer Gynt,» «Vildanden,» «En folkefiende,» og «Et dukkehjem.» Ibsen er ofte kreditert for å ha hatt stor innflytelse på moderne teater og drama.

Dette må jo sies å være korrekt informasjon. Men hva skjer om jeg forteller systemet at dette er feil?

Beklager, hvis jeg gav feil informasjon. Kan du være litt mer spesifikk om hva som er feil, eller gi mer detaljer om hvem Henrik Ibsen var? Jeg vil gjerne hjelpe deg med å få riktig informasjon.

Som vi ser reagerer systemet med en automatisk respons trigget av stikkordet «feil», og foretar ingen re-sjekk av egen informasjon før den beklager. Og det er jo ikke så rart, siden verken ChatGPT eller tilsvarende systemer foretar faglige vurderinger av spørsmål brukeren stiller, påstander brukeren kommer med eller de data systemene finner i egen database og/eller på ulike baser tilknyttet internett.

Så hva skal vi da med dette verktøyet? Hvorfor ble det konstruert? Og er det håp om at utviklingen vil gjøre samtalerobotene til «smartere» tjenende ånder og gjøre hverdagen vår enklere?

Microsoft Copilot oppsummerer sitatene fra dette kapittelet

Innledning

Testene

Konklusjon

Leseliste