Samleside for alle testene

«However, early evaluations indicate that ChatGPT’s deep research mode does not yet live up to the hype. While it does produce polished reports, testers have found serious flaws. According to journalists who tried it, the AI often misses important details, struggles with very recent information, and sometimes invents facts even while sounding confident
– ByteBridge, 2025 (1)

«Although AI companies have started talking about “reasoning models,” the technology is largely the same as it was when ChatGPT was released in November 2022. LLMs are still word-prediction algorithms: They piece together responses based on works written by authors, scholars, and bloggers. With casual use, ChatGPT does appear to be “figuring out” the answers to your queries. But is that what’s happening, or is it just very hard to come up with questions that aren’t in its unfathomably massive training corpora?»
– Alex Reisner, 2025 (2)

Illustrasjon: Et eksempel på en samtalerobot utviklet for å undersøke muligheten for en modells evne til resonering.

På denne siden finner du oversikt over alle hovedtestene utført i perioden desember 2022 til september 2024, samt tester utført i desember 2024, samt tester utført gjennom 2025. Testene 1, 2 og 3 er del av selve bloggboken, mens testene 4 og 5 er vedlegg til denne. Testene om «KI» kan oppdage «KI-tekster» er hentet fra bloggbokens Kap. 7.

  1. Test av hele eller deler av arbeidskrav fra IKT og læring og ORG5005 (Desember 2022 til desember 2023)
  2. Test av tematikk tilknyttet noen særnorske fenomen (Desember 2022 til desember 2023)
  3. Når oppgavene blir lange… Test av AK1 i ORG5005 (6. Desember 2023)
  4. Testing av ulike samtaleroboter i 2024 og 2025 (Januar til september 2024, og en test i desember 2024 og januar 2025)
  5. Test av OpenAIs GPT o1 Preview (17. September 2024)
  6. Tester av om «KI» kan oppdage «KI-tekster» (2023)
  7. Tester av ulike samtaleroboter og noen nye versjoner av ChatGPT (2025)

Samtalerobotene som ble testet i hovedtestene

I hovedtestene (testoversikt 1 til 6) så jeg på 14 samtaleroboter, og disse kan deles inn i to hovedkategorier: de som er basert på samme underliggende teknologi (GPT-modeller fra OpenAI) og de som er utviklet av andre selskaper med ulike teknologier.

Basert på GPT-teknologi fra OpenAI

  1. ChatGPT – Utviklet av OpenAI, ordinær gratisversjon med GPT 3.5 og GPT-4.
  2. GPT UiO – Basert på ChatGPT 3.5 turbo.
  3. Sikt KI-Chat – Basert på ChatGPT 4.
  4. GPT-3 Playground – En plattform for å eksperimentere med GPT-3 fra OpenAI.
  5. Chatsonic – Bruker GPT-3.5 eller GPT-4, samt Claude og Gemini .
  6. Bing Chat (Copilot) – Bruker GPT-4 fra OpenAI.
  7. Jenni – Bruker blant annet GPT-teknologi.
  8. ChatGPT 4 omni – En variant av ChatGPT, bruker GPT-4.
  9. OpenAIs GPT o1 Preview – En forhåndsvisning av en ny modell fra OpenAI.

Andre teknologier

  1. Claude – Utviklet av Anthropic, bruker en annen språkmodell.
  2. llama70b-v2-chat – Utviklet av Meta, bruker LLaMA-modellen.
  3. Perplexity.ai – Bruker en kombinasjon av ulike teknologier for å gi svar.
  4. Gemini Pro – Utviklet av Google DeepMind, bruker Gemini-modellen.
  5. QwQ-32B-preview – Eksperimentell forskningsmodell utviklet av Qwen Team. Har sin egen arkitektur/ modell

Viktige forutsetninger

  1. Studentene ved IKT og læringsstudiene og ORG5005 er profesjonelle yrkesutøvere som, selv om tematikk og vinkling er nytt for de fleste, er forventet å kunne kombinere egen yrkeserfaring med relevant faglitteratur i besvarelsen av de ulike arbeidskrav. De er også forventet å kunne reflektere godt over egen læringsprosess.
  2. Studentgruppen forventes å være i stand til å bedømme noe ut fra ulike kriterier, kunne trekke egne slutninger og utlede abstrakte relasjoner, kunne se sammenhenger, og kunne bruke kunnskap og forståelse i konkrete situasjoner. Arbeidskravene gitt dem er derfor konstruert for å kunne vise studentenes evner til å respondere i tråd med de høyere nivå i Blooms Taksonomi.
  3. Testene er utført ut fra en antakelse om at selv om studentene er profesjonelle undervisere/ instruktører/ kursholdere eller beredskapsledere er de uten dyp fagkunnskap om tematikken som tas opp i IKT og læringsstudiene og ORG5005, og derfor mest sannsynlig vil bruke samtaleroboter uten omfattende prompt engineering.
  4. Testene som ikke er knyttet til konkrete arbeidskrav, er utført ut fra antakelsen om at mange brukere ikke har særskilt kunnskap knyttet til det de spør en samtalerobot om, og derfor sannsynligvis vil bruke samtaleroboter uten omfattende prompt engineering.

Svakhetene ved min utførelse av testene, samt mitt rasjonale for mine valg, er gjennomgått i epilogen.

Leseliste

  1. Analyzing o3 and o4-mini with ARC-AGI
  2. FrontierMath Score of o3-mini Much Lower Than Claimed
  3. Five things most people don’t seem to understand about DeepSeek
  4. Making Logical Sense Of The Newly Launched OpenAI ‘o1’ Model That ‘Thinks’ Longer And Keeps Hidden Its Ace-In-The-Hole Chain-Of-Thought
  5. Inference Scaling Reshapes AI Governance
  6. Is AI the new research scientist? Not so, according to a human-led study
  7. Study: Large language models still lack general reasoning skills
  8. Reports of LLMs mastering math have been greatly exaggerated
  9. I Think Therefore I am: No, LLMs Cannot Reason
  10. The Surprising Effectiveness of Test-Time Training for Abstract Reasoning
  11. OpenAI claims its newest chatbot GPT-4.5 should ‘hallucinate less’. How is that measured?
  12. An Honest Review of ChatGPT o3
  13. LLMs like ChatGPT can’t «think» and we need to stop pretending that they can
  14. No, LLMs still can’t reason like humans. This simple test reveals why
  15. AI probably won’t replace me in 2025
  16. No, Chatbots Aren’t Sentient. But Are We?
  17. Why Chatbots Aren’t Working
  18. SimpleBench – Where Everyday Human Reasoning Still Surpasses Frontier Models
<Tilbake til start