Samleside for alle testene – Didaktiske betraktninger

However, early evaluations indicate that ChatGPT’s deep research mode does not yet live up to the hype. While it does produce polished reports, testers have found serious flaws. According to journalists who tried it, the AI often misses important details, struggles with very recent information, and sometimes invents facts even while sounding confident
ByteBridge, 2025 (1)

**Illustrasjon**: Et eksempel på en samtalerobot utviklet for å undersøke muligheten for en modells evne til resonering.

På denne siden finner du oversikt over alle hovedtestene utført i perioden desember 2022 til september 2024, samt tester utført i desember 2024, samt tester utført gjennom 2025. Testene 1, 2 og 3 er del av selve bloggboken, mens testene 4 og 5 er vedlegg til denne. Testene om «KI» kan oppdage «KI-tekster» er hentet fra bloggbokens Kap. 7.

Test av hele eller deler av arbeidskrav fra IKT og læring og ORG5005 (Desember 2022 til desember 2023)
Test av tematikk tilknyttet noen særnorske fenomen (Desember 2022 til desember 2023)
Når oppgavene blir lange… Test av AK1 i ORG5005 (6. Desember 2023)
Testing av ulike samtaleroboter i 2024 og 2025 (Januar til september 2024, og en test i desember 2024 og januar 2025)
Test av OpenAIs GPT o1 Preview (17. September 2024)
Tester av om «KI» kan oppdage «KI-tekster» (2023)
Tester av ulike samtaleroboter og noen nye versjoner av ChatGPT (2025)

Samtalerobotene som ble testet i hovedtestene

I hovedtestene (testoversikt 1 til 6) så jeg på 14 samtaleroboter, og disse kan deles inn i to hovedkategorier: de som er basert på samme underliggende teknologi (GPT-modeller fra OpenAI) og de som er utviklet av andre selskaper med ulike teknologier.

Basert på GPT-teknologi fra OpenAI

ChatGPT – Utviklet av OpenAI, ordinær gratisversjon med GPT 3.5 og GPT-4.
GPT UiO – Basert på ChatGPT 3.5 turbo.
Sikt KI-Chat – Basert på ChatGPT 4.
GPT-3 Playground – En plattform for å eksperimentere med GPT-3 fra OpenAI.
Chatsonic – Bruker GPT-3.5 eller GPT-4, samt Claude og Gemini .
Bing Chat (Copilot) – Bruker GPT-4 fra OpenAI.
Jenni – Bruker blant annet GPT-teknologi.
ChatGPT 4 omni – En variant av ChatGPT, bruker GPT-4.
OpenAIs GPT o1 Preview – En forhåndsvisning av en ny modell fra OpenAI.

Andre teknologier

Claude – Utviklet av Anthropic, bruker en annen språkmodell.
llama70b-v2-chat – Utviklet av Meta, bruker LLaMA-modellen.
Perplexity.ai – Bruker en kombinasjon av ulike teknologier for å gi svar.
Gemini Pro – Utviklet av Google DeepMind, bruker Gemini-modellen.
QwQ-32B-preview – Eksperimentell forskningsmodell utviklet av Qwen Team. Har sin egen arkitektur/ modell

Viktige forutsetninger

Studentene ved IKT og læringsstudiene og ORG5005 er profesjonelle yrkesutøvere som, selv om tematikk og vinkling er nytt for de fleste, er forventet å kunne kombinere egen yrkeserfaring med relevant faglitteratur i besvarelsen av de ulike arbeidskrav. De er også forventet å kunne reflektere godt over egen læringsprosess.
Studentgruppen forventes å være i stand til å bedømme noe ut fra ulike kriterier, kunne trekke egne slutninger og utlede abstrakte relasjoner, kunne se sammenhenger, og kunne bruke kunnskap og forståelse i konkrete situasjoner. Arbeidskravene gitt dem er derfor konstruert for å kunne vise studentenes evner til å respondere i tråd med de høyere nivå i Blooms Taksonomi.
Testene er utført ut fra en antakelse om at selv om studentene er profesjonelle undervisere/ instruktører/ kursholdere eller beredskapsledere er de uten dyp fagkunnskap om tematikken som tas opp i IKT og læringsstudiene og ORG5005, og derfor mest sannsynlig vil bruke samtaleroboter uten omfattende prompt engineering.
Testene som ikke er knyttet til konkrete arbeidskrav, er utført ut fra antakelsen om at mange brukere ikke har særskilt kunnskap knyttet til det de spør en samtalerobot om, og derfor sannsynligvis vil bruke samtaleroboter uten omfattende prompt engineering.

Svakhetene ved min utførelse av testene, samt mitt rasjonale for mine valg, er gjennomgått på en egen side.

Samtalerobotene som ble testet i hovedtestene

Viktige forutsetninger

Leseliste