{"id":2859,"date":"2024-01-04T12:00:50","date_gmt":"2024-01-04T11:00:50","guid":{"rendered":"https:\/\/site.nord.no\/didaktiskebetraktninger\/?page_id=2859"},"modified":"2025-02-11T12:26:01","modified_gmt":"2025-02-11T11:26:01","slug":"testing-av-ulike-sprakmodeller","status":"publish","type":"page","link":"https:\/\/site.nord.no\/didaktiskebetraktninger\/testing-av-ulike-sprakmodeller\/","title":{"rendered":"Testing av ulike samtaleroboter i 2024 og 2025"},"content":{"rendered":"\n<p>&laquo;<em>Of course, LLMs don\u2019t always get the right answer. They\u2019ve been caught making the intuitive error on trick questions, flubbing basic arithmetic, and hallucinating facts from whole statistical cloth. While LLMs have gotten better, the base fact is that they are merely systems optimized to manipulate language so that the response to a given prompt is satisfying to the user, even if it\u2019s not always correct<\/em>\u00bb.<br>&#8211; Ryan Donovan, 2023 (<a href=\"https:\/\/stackoverflow.blog\/2023\/07\/03\/do-large-language-models-know-what-they-are-talking-about\/\" data-type=\"link\" data-id=\"https:\/\/stackoverflow.blog\/2023\/07\/03\/do-large-language-models-know-what-they-are-talking-about\/\" target=\"_blank\" rel=\"noreferrer noopener\">1<\/a>)<\/p>\n\n\n\n<p>&laquo;<em>If there&#8217;s one thing that separates AIs from humans it&#8217;s that we have almost boundless and unpredictable creativity. AI&#8217;s creativity is solely based on what we feed it and while we might be surprised by the results, I think we&#8217;re more capable of surprising programmers and the AI with our prompts<\/em>\u00bb.<br>&#8211; Lance Ulanoff, 2024 (<a href=\"https:\/\/www.techradar.com\/computing\/artificial-intelligence\/gemini-bias-fiasco-reminds-us-that-ai-is-no-smarter-than-we-make-it\" data-type=\"link\" data-id=\"https:\/\/www.techradar.com\/computing\/artificial-intelligence\/gemini-bias-fiasco-reminds-us-that-ai-is-no-smarter-than-we-make-it\" target=\"_blank\" rel=\"noreferrer noopener\">2<\/a>)<\/p>\n\n\n\n<p>&laquo;<em>&#8230; It can\u2019t consistently figure out the simplest tasks, and yet, it\u2019s being foisted upon us with the expectation that we celebrate the incredible mediocrity of the services these AIs provide. While I can certainly marvel at the technological innovations happening, I would like my computers not to sacrifice accuracy just so I have a digital avatar to talk to. That is not a fair exchange \u2014 it\u2019s only an interesting one<\/em>\u00bb.<br>&#8211; Alex Cranz, 2024 (<a href=\"https:\/\/www.theverge.com\/2024\/5\/15\/24154808\/ai-chatgpt-google-gemini-microsoft-copilot-hallucination-wrong\" data-type=\"link\" data-id=\"https:\/\/www.theverge.com\/2024\/5\/15\/24154808\/ai-chatgpt-google-gemini-microsoft-copilot-hallucination-wrong\" target=\"_blank\" rel=\"noreferrer noopener\">3<\/a>)<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1152\" height=\"360\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2023\/12\/linjer.jpg\" alt=\"\" class=\"wp-image-2799\" style=\"width:194px;height:auto\" \/><\/figure>\n<\/div>\n\n\n<p>B\u00e5de internasjonale og nasjonale medier har l\u00f8ftet OpenAI sin ChatGPT opp i skyene siden november 2022, og da neppe som et utslag av ulike journalisters tekniske kunnskaper. Her m\u00e5 en nok helst gi OpenAI kreditt for glitrende markedsf\u00f8ring. Men ChatGPT er ikke den eneste samtaleroboten, der statistiske modeller i bunn s\u00f8rger for fremhenting av b\u00e5de fakta og det reneste t\u00f8v.<\/p>\n\n\n\n<p>I det f\u00f8lgende vil jeg dels vise til tester av andre verkt\u00f8y, og dels fortsette med tester av ChatGPT (gratisversjon) og Copilot (tidligere Bing Chat). I disse testene vil jeg ha stort sett ha samme fokus som for testene utf\u00f8rt i perioden desember 2022 til desember 2023. Men uttesting av andre sp\u00f8rsm\u00e5l\/ temaomr\u00e5der vil ogs\u00e5 bli utf\u00f8rt.<\/p>\n\n\n\n<p>Disse testene ble i hovedsak gjennomf\u00f8rt i l\u00f8pet av 2024, med oppstart i januar 2024 og avslutning i juli 2024. En test knyttet til &laquo;b\u00e5tproblemet\u00bb ble utf\u00f8rt i september 2024. I desember 2024 og januar 2025 ble det foretatt ytterligere tester.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Nye system<\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/claude\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/claude\/\" target=\"_blank\" rel=\"noreferrer noopener\">Claude<\/a><\/strong><\/li>\n\n\n\n<li><strong><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/llama70b-v2-chat\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/llama70b-v2-chat\/\" target=\"_blank\" rel=\"noreferrer noopener\">llama70b-v2-chat<\/a><\/strong><\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/perplexity-ai\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/perplexity-ai\/\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>Perplexity.ai<\/strong><\/a><\/li>\n\n\n\n<li><strong><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/gemini-pro\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/gemini-pro\/\" target=\"_blank\" rel=\"noreferrer noopener\">Gemini Pro<\/a><\/strong><\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/qwq-32b-preview-resonerer\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/qwq-32b-preview-resonerer\/\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>QwQ-32B-preview<\/strong><\/a> (<em>Desember 2024<\/em>)<\/li>\n<\/ol>\n\n\n\n<h3 class=\"wp-block-heading\">ChatGPT, Copilot (BingChat) og QwQ-32B<\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/copilot-revisited\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/copilot-revisited\/\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>Copilot<\/strong><\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/chatgpt-gratisversjon-4\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/chatgpt-gratisversjon-4\/\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>ChatGPT 4o<\/strong><\/a> (Open AI versjon 4 omni)<\/li>\n\n\n\n<li><strong><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/test-av-batproblem\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/test-av-batproblem\/\" target=\"_blank\" rel=\"noreferrer noopener\">Test av ChatGPT4 omni og Microsoft Copilot (Bing Chat) p\u00e5 b\u00e5tproblem<\/a><\/strong><\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/chatgpt-og-copilot-gjetter-en-gate\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/chatgpt-og-copilot-gjetter-en-gate\/\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>Test av ChatGPT4 omni og Copilot p\u00e5 en g\u00e5te<\/strong><\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/copilot-og-chat-gpt-4-o-mini-prover-seg-pa-purpurhjertene\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/copilot-og-chat-gpt-4-o-mini-prover-seg-pa-purpurhjertene\/\" target=\"_blank\" rel=\"noreferrer noopener\"><strong>Copilot, Chat GPT-4 o mini&nbsp; og QwQ-32B-preview pr\u00f8ver seg p\u00e5 &laquo;Purpurhjertene&raquo;<\/strong><\/a> (<em>Januar 2025<\/em>)<\/li>\n<\/ol>\n\n\n\n<p><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Konklusjon<\/h2>\n\n\n\n<p>&laquo;<em>Recently, the world seems to be enthralled by a series of \u201claunches\u201d or introductions to tools built on large language models (LLMs). LLMs are types of machine learning focused on handling text in ways that appear meaningful. These \u201c stochastic parrots,\u201d as Timnit Gebru and Margaret Mitchell (both formerly of Google) called them, carry inherent problems. LLMs, as the term \u201cstochastic parrots\u201d suggests, do not operate with understanding; they simply generate probabilistic modeling of language. The better the model, the more realistic or convincing its output seems<\/em>.\u00bb <br>&#8211; Chris Miciek, 2023 (<a href=\"https:\/\/www.naceweb.org\/career-development\/trends-and-predictions\/llms-chatgpt-and-a-really-bad-idea\" data-type=\"link\" data-id=\"https:\/\/www.naceweb.org\/career-development\/trends-and-predictions\/llms-chatgpt-and-a-really-bad-idea\" target=\"_blank\" rel=\"noreferrer noopener\">4<\/a>)<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1152\" height=\"360\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2023\/12\/linjer.jpg\" alt=\"\" class=\"wp-image-2799\" style=\"width:194px;height:auto\" \/><\/figure>\n<\/div>\n\n\n<p>Etter gjennomf\u00f8rte tester, der de fleste er beskrevet over, i perioden januar 2024 til januar 2025, er det klart at store spr\u00e5kmodeller gj\u00f8r det store spr\u00e5kmodeller alltid har gjort. I alle tilfeller der sp\u00f8rsm\u00e5lene var enkle og rettet mot materiale som enten fantes i verkt\u00f8yenes &laquo;base&raquo; eller p\u00e5 Internett, treffer de statistiske beregningene greit nok. Og i noen tilfeller som fors\u00f8ket med en selvlaget g\u00e5te g\u00e5r verkt\u00f8yene fra feil svar i f\u00f8rste test til rett svar ved en senere test.<\/p>\n\n\n\n<p>I alle tilfeller der sp\u00f8rsm\u00e5lene kommer i form av oppgaver laget i tr\u00e5d med h\u00f8yere niv\u00e5 i Blooms taksonomi eller sp\u00f8rsm\u00e5l knyttet til rene norske fenomen, leverer de statistiske beregningene i tr\u00e5d med det faktum at en spr\u00e5kmodell ikke er konstruert for \u00e5 produsere faglig korrekte svar. <\/p>\n\n\n\n<p>Og n\u00e5r jeg utf\u00f8rer et fors\u00f8k basert p\u00e5 en artikkel i Digi.no (<a href=\"https:\/\/www.digi.no\/artikler\/debatt-kunstig-intelligens-fire-konkrete-erfaringer\/540564\" data-type=\"link\" data-id=\"https:\/\/www.digi.no\/artikler\/debatt-kunstig-intelligens-fire-konkrete-erfaringer\/540564\" target=\"_blank\" rel=\"noreferrer noopener\">b\u00e5tproblemet<\/a>) klarer verkt\u00f8yene <em>ikke<\/em> \u00e5 komme frem med det umiddelbare, konsise og korrekte svaret som ble gjengitt i Digi.no. N\u00e6rmest n\u00e5 er Bing Chat som i september 2024 har &laquo;svaret\u00bb som sitt f\u00f8rste sjekkpunkt og med lenkehenvisninger blant annet til min testside.<\/p>\n\n\n\n<p>Noen enkle tester foretatt i desember 2024 og januar 2025 viser at utviklingen av ulike samtaleroboter stadig er langt unna noen form for intelligens, og at store spr\u00e5kmodeller fortsatt ikke foretar reelle vurderinger av hva en bruker sp\u00f8r om eller vurderer informasjon som p\u00e5 ulike m\u00e5ter er tilgjengelig for verkt\u00f8yene. Fokuset virker stadig \u00e5 v\u00e6re p\u00e5 statistiske sammensetninger av bokstaver som kan gi inntrykk av at verkt\u00f8yet henvender seg seg direkte til en bruker.<\/p>\n\n\n\n<p>\u00c5 bruke samtaleroboter til noe mer avansert enn som &laquo;digital sekret\u00e6r\u00bb knyttet til enkel tekstanalyse, oversettinger og strukturforslag, er \u00e5 kaste bort tiden.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1152\" height=\"360\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2023\/12\/linjer.jpg\" alt=\"\" class=\"wp-image-2799\" style=\"width:194px;height:auto\" \/><\/figure>\n<\/div>\n\n\n<p>&laquo;<em>Eller, jeg kan jo bruke ChatGPT til \u00e5 foresl\u00e5 ting \u00e5 gj\u00f8re og steder \u00e5 se, selvf\u00f8lgelig. Om jeg da ikke heller g\u00e5r rett til kilden av ChatGPTs stj\u00e5lne kunnskap; alle artiklene, tjenester som TripAdvisor, Google Maps, denslags<\/em>.<br>(&#8230;)<br><em>Ogs\u00e5 kommer jeg sikkert til \u00e5 sp\u00f8rre ChatGPT om hva ett eller annet dansk begrep betyr for noe rart. Om jeg da ikke heller husker at Google Translate har en helt utmerket app, som sikkert ble kalt AI i tidligere tider, den og<\/em>.\u00bb<br>&#8211; Ole Petter Bauger\u00f8d Stokke, 2024, (<a href=\"https:\/\/www.kode24.no\/artikkel\/takk-for-na-chatgpt-dette-gidder-jeg-ikke-mer\/81637656\" data-type=\"link\" data-id=\"https:\/\/www.kode24.no\/artikkel\/takk-for-na-chatgpt-dette-gidder-jeg-ikke-mer\/81637656\" target=\"_blank\" rel=\"noreferrer noopener\">5<\/a>)<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1152\" height=\"360\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2023\/12\/linjer.jpg\" alt=\"\" class=\"wp-image-2799\" style=\"width:194px;height:auto\" \/><\/figure>\n<\/div>\n\n\n<figure class=\"wp-block-table aligncenter\"><table><tbody><tr><td><strong>&lt;<a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/innledning\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/innledning\/\" target=\"_blank\" rel=\"noreferrer noopener\">Tilbake til start<\/a><\/strong><\/td><td><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/2023\/01\/05\/chat-gpt-en-mer-talefor-slektning-av-eliza\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/2023\/01\/05\/chat-gpt-en-mer-talefor-slektning-av-eliza\/\" target=\"_blank\" rel=\"noreferrer noopener\"><img decoding=\"async\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2024\/01\/image.png\" alt=\"\"><\/a><\/td><td><strong><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/samleside-for-alle-testene\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/samleside-for-alle-testene\/\" target=\"_blank\" rel=\"noreferrer noopener\">Til \u00f8vrige tester<\/a><\/strong>&nbsp;&gt;<\/td><\/tr><\/tbody><\/table><\/figure>\n","protected":false},"excerpt":{"rendered":"<p>&laquo;Of course, LLMs don\u2019t always get the right answer. They\u2019ve been caught making the intuitive error on trick questions, flubbing basic arithmetic, and hallucinating facts from whole statistical cloth. While LLMs have gotten better, the base fact is that they are merely systems optimized to manipulate language so that the response to a given prompt &hellip; <a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/testing-av-ulike-sprakmodeller\/\" class=\"more-link\">Fortsett \u00e5 lese<span class=\"screen-reader-text\"> \u00abTesting av ulike samtaleroboter i 2024 og 2025\u00bb<\/span><\/a><\/p>\n","protected":false},"author":11,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"coauthors":[2],"class_list":["post-2859","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/pages\/2859","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/users\/11"}],"replies":[{"embeddable":true,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/comments?post=2859"}],"version-history":[{"count":48,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/pages\/2859\/revisions"}],"predecessor-version":[{"id":5786,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/pages\/2859\/revisions\/5786"}],"wp:attachment":[{"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/media?parent=2859"}],"wp:term":[{"taxonomy":"author","embeddable":true,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/coauthors?post=2859"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}