«A mind powerful enough to breach space and time, past and future, who can help us into a better future. We think he is very close now. Some believe he is here»
– Reverend Mother Mohiam, Dune (the movie), 2021
«Computer programs have plenty of speed and memory but their abilities
correspond to the intellectual mechanisms that program designers understand
well enough to put in programs. Some abilities that children normally don’t
develop till they are teenagers may be in, and some abilities possessed by
two year olds are still out.»
– Professor John McCarthy, 2007 (1)
«ChatGPT is being heralded as a breakthrough technology, but chatbots are in fact a stale idea. Our attachment to the fantasy of a sentient AI is what makes this a big news story, while the user experience is glossed over and the hype train keeps rolling.»
– Skyler Schain, 2023 (2)
«Så lenge KI ikkje tenkjer logisk, er den ikkje eigentleg intelligent»
– Professor Trung Tuyen Truong, 2024 (3)
«A core problem with using LLMs and expecting these to answer questions truthfully is that this is not possible, due to how language models work. What these act on is the likelihood of certain words and phrases occurring in sequence, but there is no ‘truth’ or ‘falsehood’ embedded in their parameter weights. This often leads to jarring situations with chatbots such as ChatGPT where it can appear that the system is lying, changing its mind and generally playing it fast and loose with factual statements. The way that this is generally dealt with by LLM companies such as OpenAI is by acting on a negative response by the human user to the query by essentially running the same query through the LLM again, with a few alterations to hopefully get a response that the inquisitive user will find more pleasing. It could hereby be argued that in order to know what ‘true’ and ‘false’ is some level of intelligence is required, which is something that LLMs by design are completely incapable of.»
– Maya Posch, 2024 (4)
«There has been a ton of experimentation, but relatively few well-documented success stories, and some fairly negative stories like a recent one at Business Insider on GPT-powered CoPilot, headlined “Microsoft is betting big on AI. Company insiders have serious doubts”, quoting a source there as saying “I really feel like I’m living in a group delusion here at Microsoft … [the company touts that] AI is going to revolutionize everything … but the support isn’t there for AI to do 75% of what Microsoft claims it’ll do.»
– Professor Gary Marcus, 2024 (5)
Utgangspunktet for denne «bloggboken» var et enkelt blogginnlegg fra 5. januar 2023 med tittelen «ChatGPT – et taleført eksempel på kunstig intelligens». Innlegget var basert på en første uttesting av ChatGPT i desember 2022 og januar 2023.
Etter hvert som jeg testet ulike samtaleroboter gjennom hele året 2023, og deretter ytterligere tester utført i perioden januar til september 2024, ble innlegget større og større, og det ble nødvendig å dele det opp i ulike kapitler for enklere leseopplevelse. Tittelen ble også noe endret, for å understreke at man ikke uten videre kan kalle ChatGPT for KI.
Fokuset her er i hovedsak på ChatGPT, men jeg viser også til noen andre tilsvarende samtaleroboter.
Hva omhandler bloggboken?
Hoveddelen av bloggboken gir en oversikt over hva ChatGPT og lignende samtaleroboter er for noe, og peker på noen sikkerhetsmessige, etiske, juridiske og læringsmessige problemstillinger knyttet til disse verktøyene. Videre beskriver den et sett med tester utført i perioden desember 2022 til desember 2023 av følgende verktøy:
Fra januar 2024 til september 2024 ble følgende samtaleroboter testet:
I tillegg fortsatte testingen av Bing Chat (nå kalt Microsoft Copilot) gjennom hele testperioden.
Samtalerobotene – to hovedkategorier
Disse 13 samtalerobotene kan deles inn i to hovedkategorier: de som er basert på samme underliggende teknologi (GPT-modeller fra OpenAI) og de som er utviklet av andre selskaper med ulike teknologier.
Basert på GPT-teknologi fra OpenAI
- ChatGPT – Utviklet av OpenAI, ordinær gratisversjon med GPT 3.5 og GPT-4.
- GPT UiO – Basert på ChatGPT 3.5 turbo.
- Sikt KI-Chat – Basert på ChatGPT 4.
- GPT-3 Playground – En plattform for å eksperimentere med GPT-3 fra OpenAI.
- Chatsonic – Bruker GPT-3.5 eller GPT-4, samt Claude og Gemini .
- Bing Chat (Copilot) – Bruker GPT-4 fra OpenAI.
- Jenni – Bruker blant annet GPT-teknologi.
- ChatGPT 4 omni – En variant av ChatGPT, bruker GPT-4.
- OpenAIs GPT o1 Preview – En forhåndsvisning av en ny modell fra OpenAI.
Andre teknologier
- Claude – Utviklet av Anthropic, bruker en annen språkmodell.
- llama70b-v2-chat – Utviklet av Meta, bruker LLaMA-modellen.
- Perplexity.ai – Bruker en kombinasjon av ulike teknologier for å gi svar.
- Gemini Pro – Utviklet av Google DeepMind, bruker Gemini-modellen.
Overordnede spørsmål for testingen
Samtlige verktøy ble i hovedsak testet ut fra følgende overordnede spørsmål:
- Kan ChatGPT (og lignende verktøy) produsere gode akademiske svar på omfattende arbeidskrav der fokus er på øvre nivå i Blooms taksonomi, innen mitt undervisningsfelt?
- Kan ChatGPT (og lignende verktøy) produsere gode faktabaserte stiler over et gitt tema?
I tillegg har jeg kort testet følgende verktøy for sjekk om en tekst er skrevet av et menneske eller av ChatGPT og tilsvarende system:
- GPT-2 Output Detector Demo
- GPTZero
- ChatGPT (gratisversjon)
Videre er det gjort noen enkle tester knyttet opp mot emner spesifikt for norske forhold (Norsk 70-talls litteratur, Sivilforsvaret, etc.), samt en enkel «gåte-test», test på verktøyenes evne til å finne konkret og korrekt informasjon knyttet til etternavn og et forsøk på gjenskape et konkret resultat beskrevet i Digi.no.
Testene har noen svakheter og disse er indikert under, men er gjennomgått i epilogen.
Bokens organisering og bakgrunn
Boken består av tre bestanddeler:
- Sitater i hovedsak fra ulike forskere og teknologer som fremfører et annet budskap enn det de fleste studenter antakelig tidligere har møtt i media.
- Min tekst, med innbyggede lenker til eksterne kilder.
- Leselister tilknyttet hvert kapittel.
Det som fremkommer i denne bloggboken er ikke absolutte sannheter, men mine faglige tolkninger basert på seks utgangspunkt:
- Et sett av tester utført i hovedsak på oppgaver spesifikke for min undervisning. I tillegg er det gjort noen enkle tester knyttet opp mot emner spesifikt for norske forhold (Norsk 70-talls litteratur, Sivilforsvaret, etc.), samt en enkel «gåte-test», test på verktøyenes evne til å finne konkret og korrekt informasjon knyttet til etternavn og et forsøk på gjenskape et konkret resultat beskrevet i Digi.no.
- I alle tilfeller der det fantes både en gratis- og en betalingsversjon, var det gratisversjonen som ble testet, og verktøyene ble testet uten forsøk på grundig «promting».
- Mine krav til akademiske fagtekster levert i mine emner og min holdning til hvilke krav vi kan stille til en EVU-students evne til å kombinere relevant fagstoff med egen yrkeserfaring, samt evne til refleksjon over egen læring.
- Min hovedfagsutdannelse i informasjonsvitenskap
- Over 30 års erfaring med faglig og underholdningsmessig bruk av informasjonsteknologi – både som IT-sjef, gamer, underviser og undervisningsforsker.
- Gjennomgang av vitenskapelige og populærvitenskapelige kilder som omhandler ChatGPT og lignende samtaleroboter.
Denne «boken» er ikke et strengt vitenskapelig verk, men en personlig gjennomgang av mine tanker knyttet til samtaleroboter, og de fokus jeg synes er interessant i denne sammenhengen.
Kunstig intelligens – Et begrep til besvær
«… unravelling the vagueness around AI is important in a broad sense, as there is also something quite dangerous about the futuristic mystique of the term AI when it blinds us to the banal and oppressive realities of certain technologies.»
– AI Myths (Project), u.å. (6)
«So let’s not continue down this path by referring to these problem-solving, pattern-recognizing machines “artificial intelligence.” We’re just building tools like we’ve always done, and acting as agents in the exciting process of cognitive evolution.»
– Josh Worth, 2016 (7)
«If it’s a thing that takes an input (image, text, game state, etc.) and makes a prediction (age, sentiment, next move, etc.), then it’s a model.
If it’s a piece of software that uses a model’s predictions to take actions, then it’s likely a bot. For example, a system that uses a text model to create new text might be a chat bot,… .»
– Travis Addair, 2018 (7)
Som leseren raskt vil oppdage er jeg lite begeistret for merkelappen «Kunstig Intelligens», og særlig i forbindelse med samtaleroboter. Dette begrepet er nå så utvannet og upresist at det har, slik jeg ser det, mistet sin betydning.
Sett med mine øyne kan vi snakke om KI når vitenskapen oppnår å utvikle maskiner med en intelligens som lar dem forstå, lære og utføre intellektuelle oppgaver omtrent som mennesker, og som emulerer den menneskelige tanke og atferd og dermed kan løse alle slags komplekse problemer. Inntil så skjer mener jeg at professor Jan Ketil Arnulf sitt forslag om å heller benytte begrepet «kunstige aktører», er mest fornuftig.
Selv om begrepet «kunstig intelligens» og dets historiske bakgrunn er interessant for en samfunnsinformatiker, er det et uheldig begrep når det benyttes i forbindelse med døde ting som datamaskiner og dataprogram. Bruken skaper fort urealistiske forventninger blant ikke-teknologer om hva et datasystem kan utføre, med derpå følgende skuffelse når resultatene ikke er i nærheten av de påstander kommersielle aktører kommer med.
Og når skuffelsen blir stor nok kommer «KI vinteren», dvs. en lengre periode med redusert finansiering av og interesse for kunstig intelligens. Vi har hatt mange slike vintre i historien om menneskenes higen etter å skape datateknologi om til vårt bilde.
Men å forske på, og utvikle, smarte IT-systemer vil alltid være nyttig og vil kreve både statlig og privat finansiering. Og da er det bedre at de som skal stå for finansieringen får et realistisk og kunnskapsbasert bilde av hva informasjonsteknologi kan, og ikke kan, utføre. Og i en usikker tid der hybrid krigføring mot Norge og andre demokratier øker, er det også viktig at vanlige brukere av IKT har en realistisk og kunnskapsbasert forståelse av teknologien de benytter.
Å påstå at ChatGPT og lignende samtaleroboter ikke er eksempler på KI er strengt tatt å slå inn åpne dører innen det informasjonsteknologiske miljøet jeg tilhører, men det er nyttig å ha en klar og tydelig fagvinkling når man skal presentere denne delen av det digitale for studenter (og andre) som ikke selv er informasjonsteknologer og som først og fremst har media som bakgrunn for sine oppfatninger. Helt siden jeg gikk fra klassiske forelesninger til studentaktiv undervisning i 2002, har jeg brukt egne klare standpunkt som utgangspunkt for min presentasjon av fagstoffet (gjerne i opposisjon til det som er regnet som «vanlig») for å trigge refleksjoner hos den enkelte student.
Håpet er at denne bloggboken gir grunnlag for kunnskapsbasert refleksjon, og så får det være opp til hver enkelt om i hvilken «gruppe» man plasserer seg i; De som mener ChatGPT og lignende verktøy er KI og de som mener at KI per nå strengt tatt ikke finnes.
Stjørdal, 27.12.2024
Per Arne Godejord, Cand.Polit
Førstelektor Informatikk
Handelshøyskolen Nord