Testing av ulike samtaleroboter i 2024

«Of course, LLMs don’t always get the right answer. They’ve been caught making the intuitive error on trick questions, flubbing basic arithmetic, and hallucinating facts from whole statistical cloth. While LLMs have gotten better, the base fact is that they are merely systems optimized to manipulate language so that the response to a given prompt is satisfying to the user, even if it’s not always correct».
– Ryan Donovan, 2023 (1)

«If there’s one thing that separates AIs from humans it’s that we have almost boundless and unpredictable creativity. AI’s creativity is solely based on what we feed it and while we might be surprised by the results, I think we’re more capable of surprising programmers and the AI with our prompts».
– Lance Ulanoff, 2024 (3)

«… It can’t consistently figure out the simplest tasks, and yet, it’s being foisted upon us with the expectation that we celebrate the incredible mediocrity of the services these AIs provide. While I can certainly marvel at the technological innovations happening, I would like my computers not to sacrifice accuracy just so I have a digital avatar to talk to. That is not a fair exchange — it’s only an interesting one».
– Alex Cranz, 2024 (4)

Både internasjonale og nasjonale medier har løftet OpenAI sin ChatGPT opp i skyene siden november 2022, og da neppe som et utslag av ulike journalisters tekniske kunnskaper. Her må en nok helst gi OpenAI kreditt for glitrende markedsføring. Men ChatGPT er ikke den eneste samtaleroboten, der statistiske modeller i bunn sørger for fremhenting av både fakta og det reneste tøv.

I det følgende vil jeg dels vise til tester av andre verktøy, og dels fortsette med tester av ChatGPT (gratisversjon) og Copilot (tidligere Bing Chat). I disse testene vil jeg ha stort sett ha samme fokus som for testene utført i perioden desember 2022 til desember 2023. Men uttesting av andre spørsmål/ temaområder vil også bli utført.

Disse testene vil bli gjennomført i løpet av 2024, med oppstart i januar 2024 og avsluttes i juli 2024.

Nye system

  1. Claude
  2. llama70b-v2-chat
  3. Perplexity.ai
  4. Gemini Pro

ChatGPT og Copilot (BingChat)

  1. Copilot
  2. ChatGPT 4o (Open AI versjon 4 omni)
  3. Test av ChatGPT4 omni og Microsoft Copilot (Bing Chat) på båtproblem
  4. Test av ChatGPT4 omni og Copilot på en gåte

Konklusjon

Etter gjennomførte tester, der de fleste er beskrevet over, i perioden januar 2024 til 14. juli 2024 er det klart at store språkmodeller gjør det store språkmodeller alltid har gjort. I alle tilfeller der spørsmålene var enkle og rettet mot materiale som enten fantes i verktøyenes base eller på Internett, treffer de statistiske beregningene greit nok. Og i noen tilfeller som forsøket med en selvlaget gåte går verktøyene fra feil svar i første test til rett svar ved en senere test.

I alle tilfeller der spørsmålene kommer i form av oppgaver laget i tråd med høyere nivå i Blooms taksonomi eller spørsmål knyttet til rene norske fenomen, leverer de statistiske beregningene i tråd med det faktum at en språkmodell ikke er konstruert for å produsere faglig korrekte svar.

Og når jeg utfører et forsøk basert på en artikkel i Digi.no (båtproblemet) klarer verktøyene ikke å komme frem med et konsist og korrekt svar.

Å bruke samtaleroboter til noe mer avansert enn å lage oppsummering av en tekst, stavesjekk og oversetting, eller kanskje et enkelt utkast (skisse) til en artikkel om en har fullstendig skrivesperre, er å kaste bort tiden.

«Eller, jeg kan jo bruke ChatGPT til å foreslå ting å gjøre og steder å se, selvfølgelig. Om jeg da ikke heller går rett til kilden av ChatGPTs stjålne kunnskap; alle artiklene, tjenester som TripAdvisor, Google Maps, denslags.
(…)
Også kommer jeg sikkert til å spørre ChatGPT om hva ett eller annet dansk begrep betyr for noe rart. Om jeg da ikke heller husker at Google Translate har en helt utmerket app, som sikkert ble kalt AI i tidligere tider, den og
– Ole Petter Baugerød Stokke, 2024, (5)

<Tilbake til InnledningTilbake til Epilog>