Testing av ulike samtaleroboter i 2024 og 2025

«Of course, LLMs don’t always get the right answer. They’ve been caught making the intuitive error on trick questions, flubbing basic arithmetic, and hallucinating facts from whole statistical cloth. While LLMs have gotten better, the base fact is that they are merely systems optimized to manipulate language so that the response to a given prompt is satisfying to the user, even if it’s not always correct».
– Ryan Donovan, 2023 (1)

«If there’s one thing that separates AIs from humans it’s that we have almost boundless and unpredictable creativity. AI’s creativity is solely based on what we feed it and while we might be surprised by the results, I think we’re more capable of surprising programmers and the AI with our prompts».
– Lance Ulanoff, 2024 (2)

«… It can’t consistently figure out the simplest tasks, and yet, it’s being foisted upon us with the expectation that we celebrate the incredible mediocrity of the services these AIs provide. While I can certainly marvel at the technological innovations happening, I would like my computers not to sacrifice accuracy just so I have a digital avatar to talk to. That is not a fair exchange — it’s only an interesting one».
– Alex Cranz, 2024 (3)

Både internasjonale og nasjonale medier har løftet OpenAI sin ChatGPT opp i skyene siden november 2022, og da neppe som et utslag av ulike journalisters tekniske kunnskaper. Her må en nok helst gi OpenAI kreditt for glitrende markedsføring. Men ChatGPT er ikke den eneste samtaleroboten, der statistiske modeller i bunn sørger for fremhenting av både fakta og det reneste tøv.

I det følgende vil jeg dels vise til tester av andre verktøy, og dels fortsette med tester av ChatGPT (gratisversjon) og Copilot (tidligere Bing Chat). I disse testene vil jeg ha stort sett ha samme fokus som for testene utført i perioden desember 2022 til desember 2023. Men uttesting av andre spørsmål/ temaområder vil også bli utført.

Disse testene ble i hovedsak gjennomført i løpet av 2024, med oppstart i januar 2024 og avslutning i juli 2024. En test knyttet til «båtproblemet» ble utført i september 2024. I desember 2024 og januar 2025 ble det foretatt ytterligere tester.

Nye system

ChatGPT, Copilot (BingChat) og QwQ-32B

Copilot
ChatGPT 4o (Open AI versjon 4 omni)
Test av ChatGPT4 omni og Microsoft Copilot (Bing Chat) på båtproblem
Test av ChatGPT4 omni og Copilot på en gåte
Copilot, Chat GPT-4 o mini og QwQ-32B-preview prøver seg på «Purpurhjertene» (Januar 2025)

Konklusjon

«Recently, the world seems to be enthralled by a series of “launches” or introductions to tools built on large language models (LLMs). LLMs are types of machine learning focused on handling text in ways that appear meaningful. These “ stochastic parrots,” as Timnit Gebru and Margaret Mitchell (both formerly of Google) called them, carry inherent problems. LLMs, as the term “stochastic parrots” suggests, do not operate with understanding; they simply generate probabilistic modeling of language. The better the model, the more realistic or convincing its output seems.»
– Chris Miciek, 2023 (4)

Etter gjennomførte tester, der de fleste er beskrevet over, i perioden januar 2024 til januar 2025, er det klart at store språkmodeller gjør det store språkmodeller alltid har gjort. I alle tilfeller der spørsmålene var enkle og rettet mot materiale som enten fantes i verktøyenes «base» eller på Internett, treffer de statistiske beregningene greit nok. Og i noen tilfeller som forsøket med en selvlaget gåte går verktøyene fra feil svar i første test til rett svar ved en senere test.

I alle tilfeller der spørsmålene kommer i form av oppgaver laget i tråd med høyere nivå i Blooms taksonomi eller spørsmål knyttet til rene norske fenomen, leverer de statistiske beregningene i tråd med det faktum at en språkmodell ikke er konstruert for å produsere faglig korrekte svar.

Og når jeg utfører et forsøk basert på en artikkel i Digi.no (båtproblemet) klarer verktøyene ikke å komme frem med det umiddelbare, konsise og korrekte svaret som ble gjengitt i Digi.no. Nærmest nå er Bing Chat som i september 2024 har «svaret» som sitt første sjekkpunkt og med lenkehenvisninger blant annet til min testside.

Noen enkle tester foretatt i desember 2024 og januar 2025 viser at utviklingen av ulike samtaleroboter stadig er langt unna noen form for intelligens, og at store språkmodeller fortsatt ikke foretar reelle vurderinger av hva en bruker spør om eller vurderer informasjon som på ulike måter er tilgjengelig for verktøyene. Fokuset virker stadig å være på statistiske sammensetninger av bokstaver som kan gi inntrykk av at verktøyet henvender seg seg direkte til en bruker.

Å bruke samtaleroboter til noe mer avansert enn som «digital sekretær» knyttet til enkel tekstanalyse, oversettinger og strukturforslag, er å kaste bort tiden.

«Eller, jeg kan jo bruke ChatGPT til å foreslå ting å gjøre og steder å se, selvfølgelig. Om jeg da ikke heller går rett til kilden av ChatGPTs stjålne kunnskap; alle artiklene, tjenester som TripAdvisor, Google Maps, denslags.
(…)
Også kommer jeg sikkert til å spørre ChatGPT om hva ett eller annet dansk begrep betyr for noe rart. Om jeg da ikke heller husker at Google Translate har en helt utmerket app, som sikkert ble kalt AI i tidligere tider, den og.»
– Ole Petter Baugerød Stokke, 2024, (5)