Samleside for alle testene

«Artificial intelligence has more in common with ants than humans
– Professor Neil Lawrence, 2024 (1)


Most of these arguments are pointless, they are irrelevant. Of course, the nature of the intelligence that we’re seeing in AI is extremely different from our own. It’s absurd that people are talking about this intelligence as if it’s anything to do with us.…»
– Professor Neil Lawrence, om trenden med å sammenligne KI med menneskelig intelligens, 2024 (2)

«The truth of the matter is that we don’t yet fully know how it is that humans think, and we are only at the crudest edges of breaking through on the nature of the brain, mind, and thinking (…). Ergo, using the word “thinking” to describe AI is an insidious practice that anthropomorphizes AI and sneakily convinces people that we have AI today that is essentially sentient (because it “thinks”)
– Lance B. Eliot, PhD, 2024 (3)

«Until there is considerable external scientific scrutiny (so far there has been none), we won’t really know exactly what the o3 advance is or how important it is
– Professor Gary Marcus, 2024 (4)

Illustrasjon: Et eksempel på en samtalerobot utviklet for å undersøke muligheten for en modells evne til resonering. Jeg fant ingen tegn på en slik evne, og alle spørsmål utenom «Hvor mange O er det i Godejord» eller «How many r i strawberry», samt logiske gåter og matematiske spørsmål, resulterte i lattervekkende sludder.

På denne siden finner du oversikt over alle hovedtestene utført i perioden desember 2022 til september 2024. Testene 1, 2 og 3 er del av selve bloggboken, mens testene 4 og 5 er vedlegg til denne.

  1. Test av hele eller deler av arbeidskrav fra IKT og læring og ORG5005 (Desember 2022 til desember 2023)
  2. Test av tematikk tilknyttet noen særnorske fenomen (Desember 2022 til desember 2023)
  3. Når oppgavene blir lange… Test av AK1 i ORG5005 (6. Desember 2023)
  4. Testing av ulike samtaleroboter i 2024 (Januar til september 2024)
  5. Test av OpenAIs GPT o1 Preview (17. September 2024)

Samtalerobotene som ble testet

Jeg testet 13 samtaleroboter, og disse kan deles inn i to hovedkategorier: de som er basert på samme underliggende teknologi (GPT-modeller fra OpenAI) og de som er utviklet av andre selskaper med ulike teknologier.

Basert på GPT-teknologi fra OpenAI

  1. ChatGPT – Utviklet av OpenAI, ordinær gratisversjon med GPT 3.5 og GPT-4.
  2. GPT UiO – Basert på ChatGPT 3.5 turbo.
  3. Sikt KI-Chat – Basert på ChatGPT 4.
  4. GPT-3 Playground – En plattform for å eksperimentere med GPT-3 fra OpenAI.
  5. Chatsonic – Bruker GPT-3.5 eller GPT-4, samt Claude og Gemini .
  6. Bing Chat (Copilot) – Bruker GPT-4 fra OpenAI.
  7. Jenni – Bruker blant annet GPT-teknologi.
  8. ChatGPT 4 omni – En variant av ChatGPT, bruker GPT-4.
  9. OpenAIs GPT o1 Preview – En forhåndsvisning av en ny modell fra OpenAI.

Andre teknologier

  1. Claude – Utviklet av Anthropic, bruker en annen språkmodell.
  2. llama70b-v2-chat – Utviklet av Meta, bruker LLaMA-modellen.
  3. Perplexity.ai – Bruker en kombinasjon av ulike teknologier for å gi svar.
  4. Gemini Pro – Utviklet av Google DeepMind, bruker Gemini-modellen.
NB Samtaleroboten QwQ-32B-preview ble tilgjengelig etter at mitt arbeid med ulike samtaleroboter var sluttført, og er derfor ikke lagt inn i denne oversikten over samtaleroboter. Testen utført her er tilgjengelig via billedteksten i illustrasjonen over, og da mer som en understrekning av samtalerobotenes manglende evne til å foreta noen form for resonering. NB

Viktige forutsetninger

  1. Studentene ved IKT og læringsstudiene og ORG5005 er profesjonelle yrkesutøvere som, selv om tematikk og vinkling er nytt for de fleste, er forventet å kunne kombinere egen yrkeserfaring med relevant faglitteratur i besvarelsen av de ulike arbeidskrav. De er også forventet å kunne reflektere godt over egen læringsprosess.
  2. Studentgruppen forventes å være i stand til å bedømme noe ut fra ulike kriterier, kunne trekke egne slutninger og utlede abstrakte relasjoner, kunne se sammenhenger, å kunne bruke kunnskap og forståelse i konkrete situasjoner. Arbeidskravene gitt dem er derfor konstruert for å kunne vise studentenes evner til å respondere i tråd med de høyere nivå i Blooms Taksonomi.
  3. Testene er utført ut fra en antakelse om at selv om studentene er profesjonelle undervisere/ instruktører/ kursholdere eller beredskapsledere er de uten dyp fagkunnskap om tematikken som tas opp i IKT og læringsstudiene og ORG5005, og derfor mest sannsynlig vil bruke samtaleroboter uten omfattende prompt engineering.
  4. Testene som ikke er knyttet til konkrete arbeidskrav, er utført ut fra antakelsen om at mange brukere ikke har særskilt kunnskap knyttet til det de spør en samtalerobot om, og derfor sannsynligvis vil bruke samtaleroboter uten omfattende prompt engineering.

Svakheter ved min utførelse av testene er indikert i prologen og pekt på mer grundig i epilogen.

<Tilbake til start