{"id":4694,"date":"2024-09-17T15:58:40","date_gmt":"2024-09-17T13:58:40","guid":{"rendered":"https:\/\/site.nord.no\/didaktiskebetraktninger\/?page_id=4694"},"modified":"2026-01-28T11:42:50","modified_gmt":"2026-01-28T10:42:50","slug":"samleside-for-alle-testene","status":"publish","type":"page","link":"https:\/\/site.nord.no\/didaktiskebetraktninger\/samleside-for-alle-testene\/","title":{"rendered":"Samleside for alle testene"},"content":{"rendered":"\n<figure class=\"wp-block-pullquote\"><blockquote><p><em>However, early evaluations indicate that ChatGPT\u2019s deep research mode does not yet live up to the hype. While it does produce polished reports, testers have found serious flaws. According to journalists who tried it, the AI often misses important details, struggles with very recent information, and sometimes invents facts even while sounding confident<\/em><\/p><cite>ByteBridge, 2025 (<a href=\"https:\/\/bytebridge.medium.com\/deep-research-capabilities-comparing-chatgpt-perplexity-grok-and-kompas-ai-012d643fef5a\" data-type=\"link\" data-id=\"https:\/\/bytebridge.medium.com\/deep-research-capabilities-comparing-chatgpt-perplexity-grok-and-kompas-ai-012d643fef5a\" target=\"_blank\" rel=\"noreferrer noopener\">1<\/a>)<\/cite><\/blockquote><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1456\" height=\"539\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2024\/12\/AI_eksempel.jpg\" alt=\"\" class=\"wp-image-5423\" \/><figcaption class=\"wp-element-caption\"><strong>Illustrasjon<\/strong>: Et eksempel p\u00e5 en samtalerobot utviklet for \u00e5 unders\u00f8ke muligheten for en modells evne til resonering. <\/figcaption><\/figure>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"310\" height=\"56\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2023\/01\/linje.jpg\" alt=\"\" class=\"wp-image-4931\" style=\"width:122px;height:auto\" \/><\/figure>\n<\/div>\n\n\n<h3 class=\"wp-block-heading\">Innledning<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">P\u00e5 denne siden finner du oversikt over alle hovedtestene utf\u00f8rt i perioden desember 2022 til september 2024, samt tester utf\u00f8rt i desember 2024, og tester utf\u00f8rt gjennom 2025. Testene 1, 2 og 3 er del av selve bloggboken, mens testene 4, 5 og 6 er vedlegg til denne. Testene om &laquo;KI&raquo; kan oppdage &laquo;KI-tekster&raquo; er hentet fra bloggbokens Kap. 7.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Det jeg her, og i de f\u00f8lgende sidene, presenterer er et sett med <em>feltobservasjoner <\/em>fra praktiske tester av samtaleroboter gjennomf\u00f8rt i tiln\u00e6rmet undervisningssituasjoner i perioden 2022\u20132025. M\u00e5let har v\u00e6rt \u00e5 unders\u00f8ke hvordan samtaleroboter fungerer i autentiske l\u00e6rings\u2011 og vurderingskontekster, s\u00e6rlig med tanke p\u00e5 studenters faglige kunnskaper ved oppstart i mine fagemner. Testene er gjennomf\u00f8rt med et pragmatisk, didaktisk utgangspunkt: Valg av modeller, versjoner og &laquo;prompt\u2011strategier&raquo; er styrt av realistiske rammer basert p\u00e5 over 20 \u00e5rs erfaring med undervisning heller enn av laboratorie\u2011optimalisering. Derfor m\u00e5 funnene leses som empiriske feltobservasjoner, ikke som fullstendig kontrollerte benchmarking\u2011studier.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p class=\"wp-block-paragraph\">&laquo;The myth of prompting sustains a reassuring story in which thought is treated as originary and the machine as a secondary extension.<em>\u00bb<\/em><br>&#8211; Owen Matson, Ph.D., 2025 (<a href=\"https:\/\/www.linkedin.com\/posts\/drjohnowenmatson_the-myth-of-prompting-the-prompt-as-humanist-activity-7406566108339605504-OfHn\" data-type=\"link\" data-id=\"https:\/\/www.linkedin.com\/posts\/drjohnowenmatson_the-myth-of-prompting-the-prompt-as-humanist-activity-7406566108339605504-OfHn\" target=\"_blank\" rel=\"noreferrer noopener\">2<\/a>)<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n<\/blockquote>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Det er to hovedutgangspunkt for det \u00e5 teste samtaleroboter<\/strong>:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Teste for \u00e5 se hvor nyttig en samtalerobot kan v\u00e6re<\/strong>. M\u00e5let er \u00e5 f\u00e5 frem best mulig\/ mest korrekt svar ved godt formulert promting basert p\u00e5 egen fagekspertise.<\/li>\n\n\n\n<li><strong>Teste for \u00e5 f\u00e5 frem svakhetene<\/strong>. M\u00e5let her er \u00e5 se hvilke svar som fremkommer n\u00e5r brukeren <em>ikke<\/em> innehar tilstrekkelig fagkompetanse til \u00e5 utf\u00f8re godt formulert promting, og der det ikke n\u00f8dvendigvis finnes klare svar p\u00e5 en oppgave.<\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Det er punkt nr. 2<\/strong> som er utgangspunktet for de tester jeg har utf\u00f8rt, og som er beskrevet her. For meg som fagansvarlig er det uinteressant om en fagekspert f\u00e5r frem gode svar fra en samtalerobot. Det som er interessant er om en vanlig student uten fagekspertise klarer \u00e5 f\u00e5 frem fullstendige besvarelser p\u00e5 et arbeidskrav \/ eksamensoppgave.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Evnen til \u00e5 formulere presise og m\u00e5lrettede foresp\u00f8rsler \u2013 enten det gjelder s\u00f8k i en s\u00f8kemotor eller prompting av samtaleroboter \u2013 henger tett sammen med brukerens forkunnskaper. Dette samsvarer med erfaringer mange av oss gjorde da s\u00f8kemotorene f\u00f8rst ble tatt i bruk i undervisning og akademisk arbeid; studenter med solid faglig forst\u00e5else klarte \u00e5 gjennomf\u00f8re spissede s\u00f8k, mens de med svakere forkunnskaper ofte strevde med b\u00e5de begrepsbruk og vurdering av relevans. Det samme ser vi n\u00e5 i m\u00f8te med samtaleroboter: De som allerede har et begrepsapparat og en viss tematisk innsikt, klarer lettere \u00e5 stille presise sp\u00f8rsm\u00e5l, vurdere kvaliteten p\u00e5 svarene og be om utdypning p\u00e5 en konstruktiv m\u00e5te.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Samtalerobotene som ble testet i hovedtestene<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">I hovedtestene s\u00e5 jeg p\u00e5 14 samtaleroboter, og disse kan deles inn i&nbsp;<em>to hovedkategorier<\/em>: de som er basert p\u00e5 samme underliggende teknologi (GPT-modeller fra OpenAI) og de som er utviklet av andre selskaper med ulike teknologier.<br><br><strong>Basert p\u00e5 GPT-teknologi fra OpenAI<\/strong><\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>ChatGPT<\/strong>&nbsp;\u2013 Utviklet av OpenAI, ordin\u00e6r gratisversjon med GPT 3.5 og GPT-4.<\/li>\n\n\n\n<li><strong>GPT UiO<\/strong>&nbsp;\u2013 Basert p\u00e5 ChatGPT 3.5 turbo.<\/li>\n\n\n\n<li><strong>Sikt KI-Chat<\/strong>&nbsp;\u2013 Basert p\u00e5 ChatGPT 4.<\/li>\n\n\n\n<li><strong>GPT-3 Playground<\/strong>&nbsp;\u2013 En plattform for \u00e5 eksperimentere med GPT-3 fra OpenAI.<\/li>\n\n\n\n<li><strong>Chatsonic<\/strong>&nbsp;\u2013 Bruker GPT-3.5 eller GPT-4, samt Claude og Gemini .<\/li>\n\n\n\n<li><strong>Bing Chat (Copilot)<\/strong>&nbsp;\u2013 Bruker GPT-4 fra OpenAI.<\/li>\n\n\n\n<li><strong>Jenni<\/strong>&nbsp;\u2013 Bruker blant annet GPT-teknologi.<\/li>\n\n\n\n<li><strong>ChatGPT 4 omni<\/strong>&nbsp;\u2013 En variant av ChatGPT, bruker GPT-4.<\/li>\n\n\n\n<li><strong>OpenAIs GPT o1 Preview<\/strong>&nbsp;\u2013 En forh\u00e5ndsvisning av en ny modell fra OpenAI.<\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Andre teknologier<\/strong><\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Claude<\/strong>&nbsp;\u2013 Utviklet av Anthropic, bruker en annen spr\u00e5kmodell.<\/li>\n\n\n\n<li><strong>llama70b-v2-chat<\/strong>&nbsp;\u2013 Utviklet av Meta, bruker LLaMA-modellen.<\/li>\n\n\n\n<li><strong>Perplexity.ai<\/strong>&nbsp;\u2013 Bruker en kombinasjon av ulike teknologier for \u00e5 gi svar.<\/li>\n\n\n\n<li><strong>Gemini Pro<\/strong>&nbsp;\u2013 Utviklet av Google DeepMind, bruker Gemini-modellen.<\/li>\n\n\n\n<li><strong>QwQ-32B-preview<\/strong> &#8211; Eksperimentell forskningsmodell utviklet av Qwen Team. Har sin egen arkitektur\/ modell<\/li>\n<\/ol>\n\n\n\n<h3 class=\"wp-block-heading\"><strong>Viktige forutsetninger<\/strong><\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Studentene ved IKT og l\u00e6ringsstudiene og ORG5005<\/strong> er profesjonelle yrkesut\u00f8vere som, selv om tematikk og vinkling er nytt for de fleste, er forventet \u00e5 kunne kombinere egen yrkeserfaring med relevant faglitteratur i besvarelsen av de ulike arbeidskrav. De er ogs\u00e5 forventet \u00e5 kunne reflektere godt over egen l\u00e6ringsprosess.<\/li>\n\n\n\n<li><strong>Studentgruppen<\/strong> forventes \u00e5 v\u00e6re i stand til \u00e5 bed\u00f8mme noe ut fra ulike kriterier, kunne trekke egne slutninger og utlede abstrakte relasjoner, kunne se sammenhenger, og kunne bruke kunnskap og forst\u00e5else i konkrete situasjoner. Arbeidskravene gitt dem er derfor konstruert for \u00e5 kunne vise studentenes evner til \u00e5 respondere i tr\u00e5d med de h\u00f8yere niv\u00e5 i Blooms Taksonomi.<\/li>\n\n\n\n<li><strong>Testene er utf\u00f8rt<\/strong> ut fra en antakelse om at selv om studentene<em> <\/em>er profesjonelle undervisere\/ instrukt\u00f8rer\/ kursholdere eller beredskapsledere er de uten dyp fagkunnskap om tematikken som tas opp i IKT og l\u00e6ringsstudiene og ORG5005, og derfor mest sannsynlig vil bruke samtaleroboter uten omfattende prompt engineering. <\/li>\n\n\n\n<li><strong>Testene som ikke er knyttet til konkrete arbeidskrav<\/strong>, er utf\u00f8rt ut fra antakelsen om at mange brukere ikke har s\u00e6rskilt kunnskap knyttet til det de sp\u00f8r en samtalerobot om, og derfor sannsynligvis vil bruke samtaleroboter uten omfattende prompt engineering. <\/li>\n<\/ol>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Svakhetene ved min utf\u00f8relse av testene, samt mitt rasjonale for mine valg, er gjennomg\u00e5tt <a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/overordnede-sporsmal-valg-foretatt-og-rasjonale-for-mine-valg\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/overordnede-sporsmal-valg-foretatt-og-rasjonale-for-mine-valg\/\" target=\"_blank\" rel=\"noreferrer noopener\">p\u00e5 en egen side<\/a>.<\/strong><\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Testene<\/h3>\n\n\n\n<ol class=\"wp-block-list\">\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/hele-eller-deler-av-arbeidskrav-fra-ikt-og-laering-og-org5005\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/hele-eller-deler-av-arbeidskrav-fra-ikt-og-laering-og-org5005\/\" target=\"_blank\" rel=\"noreferrer noopener\">Test av hele eller deler av arbeidskrav fra IKT og l\u00e6ring og ORG5005<\/a> (<em>Desember 2022 til desember 2023<\/em>)<\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/test-av-tematikk-tilknyttet-saernorske-fenomen\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/test-av-tematikk-tilknyttet-saernorske-fenomen\/\" target=\"_blank\" rel=\"noreferrer noopener\">Test av tematikk tilknyttet noen s\u00e6rnorske fenomen<\/a> (<em>Desember 2022 til desember 2023<\/em>)<\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/mageplask\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/mageplask\/\" target=\"_blank\" rel=\"noreferrer noopener\">N\u00e5r oppgavene blir lange\u2026<\/a> Test av AK1 i ORG5005 (<em>6. Desember 2023<\/em>)<\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/testing-av-ulike-sprakmodeller\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/testing-av-ulike-sprakmodeller\/\" target=\"_blank\" rel=\"noreferrer noopener\">Testing av ulike samtaleroboter i 2024 og 2025<\/a> (<em>Januar til september 2024, og en test i desember 2024 og januar 2025<\/em>)<\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/openai-sin-o1\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/openai-sin-o1\/\" target=\"_blank\" rel=\"noreferrer noopener\">Test av OpenAIs GPT o1 Preview<\/a> (<em>17. September 2024<\/em>)<\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/tester-av-andre-samtaleroboter\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/tester-av-andre-samtaleroboter\/\" target=\"_blank\" rel=\"noreferrer noopener\">Tester av ulike samtaleroboter og noen nye versjoner av ChatGPT<\/a> (2025)<\/li>\n\n\n\n<li><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/kan-ki-avslore-ki-tekster\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/kan-ki-avslore-ki-tekster\/\" target=\"_blank\" rel=\"noreferrer noopener\">Tester av om &laquo;KI&raquo; kan oppdage &laquo;KI-tekster&raquo;<\/a> (2023)<\/li>\n<\/ol>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1152\" height=\"360\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2023\/12\/linjer.jpg\" alt=\"\" class=\"wp-image-2799\" style=\"width:194px;height:auto\" \/><\/figure>\n<\/div>\n\n\n<h4 class=\"wp-block-heading\">Leseliste <\/h4>\n\n\n\n<ol class=\"wp-block-list\">\n<li><a href=\"https:\/\/arcprize.org\/blog\/analyzing-o3-with-arc-agi\" data-type=\"link\" data-id=\"https:\/\/arcprize.org\/blog\/analyzing-o3-with-arc-agi\" target=\"_blank\" rel=\"noreferrer noopener\">Analyzing o3 and o4-mini with ARC-AGI<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.lesswrong.com\/posts\/z8zPL2hBqTmx7Kf6J\/frontiermath-score-of-o3-mini-much-lower-than-claimed?utm_source=substack&amp;utm_medium=email\" data-type=\"link\" data-id=\"https:\/\/www.lesswrong.com\/posts\/z8zPL2hBqTmx7Kf6J\/frontiermath-score-of-o3-mini-much-lower-than-claimed?utm_source=substack&amp;utm_medium=email\" target=\"_blank\" rel=\"noreferrer noopener\">FrontierMath Score of o3-mini Much Lower Than Claimed<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/garymarcus.substack.com\/p\/five-things-most-people-dont-seem?utm_source=post-email-title&amp;publication_id=888615&amp;post_id=155919736&amp;utm_campaign=email-post-title&amp;isFreemail=true&amp;r=3mhzuc&amp;triedRedirect=true&amp;utm_medium=email\" data-type=\"link\" data-id=\"https:\/\/garymarcus.substack.com\/p\/five-things-most-people-dont-seem?utm_source=post-email-title&amp;publication_id=888615&amp;post_id=155919736&amp;utm_campaign=email-post-title&amp;isFreemail=true&amp;r=3mhzuc&amp;triedRedirect=true&amp;utm_medium=email\" target=\"_blank\" rel=\"noreferrer noopener\">Five things most people don&#8217;t seem to understand about DeepSeek<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.forbes.com\/sites\/lanceeliot\/2024\/09\/13\/making-logical-sense-of-the-newly-launched-openai-o1-model-that-thinks-longer-and-keeps-hidden-its-ace-in-the-hole-chain-of-thought\/\" data-type=\"link\" data-id=\"https:\/\/www.forbes.com\/sites\/lanceeliot\/2024\/09\/13\/making-logical-sense-of-the-newly-launched-openai-o1-model-that-thinks-longer-and-keeps-hidden-its-ace-in-the-hole-chain-of-thought\/\" target=\"_blank\" rel=\"noreferrer noopener\">Making Logical Sense Of The Newly Launched OpenAI \u2018o1\u2019 Model That \u2018Thinks\u2019 Longer And Keeps Hidden Its Ace-In-The-Hole Chain-Of-Thought<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.tobyord.com\/writing\/inference-scaling-reshapes-ai-governance\" data-type=\"link\" data-id=\"https:\/\/www.tobyord.com\/writing\/inference-scaling-reshapes-ai-governance\" target=\"_blank\" rel=\"noreferrer noopener\">Inference Scaling Reshapes AI Governance<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.sciencedaily.com\/releases\/2025\/03\/250327141550.htm\" data-type=\"link\" data-id=\"https:\/\/www.sciencedaily.com\/releases\/2025\/03\/250327141550.htm\" target=\"_blank\" rel=\"noreferrer noopener\">Is AI the new research scientist? Not so, according to a human-led study<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.santafe.edu\/news-center\/news\/study-large-language-models-still-lack-general-reasoning-skills\" data-type=\"link\" data-id=\"https:\/\/www.santafe.edu\/news-center\/news\/study-large-language-models-still-lack-general-reasoning-skills\" target=\"_blank\" rel=\"noreferrer noopener\">Study: Large language models still lack general reasoning skills<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/garymarcus.substack.com\/p\/reports-of-llms-mastering-math-have?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe7a6113d-9759-4713-b7a6-d750ff7d115b_1874x1302.png&amp;open=false\" data-type=\"link\" data-id=\"https:\/\/garymarcus.substack.com\/p\/reports-of-llms-mastering-math-have?img=https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe7a6113d-9759-4713-b7a6-d750ff7d115b_1874x1302.png&amp;open=false\" target=\"_blank\" rel=\"noreferrer noopener\">Reports of LLMs mastering math have been greatly exaggerated<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/matthewdwhite.medium.com\/i-think-therefore-i-am-no-llms-cannot-reason-a89e9b00754f\" data-type=\"link\" data-id=\"https:\/\/matthewdwhite.medium.com\/i-think-therefore-i-am-no-llms-cannot-reason-a89e9b00754f\" target=\"_blank\" rel=\"noreferrer noopener\">I Think Therefore I am: No, LLMs Cannot Reason<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/arxiv.org\/html\/2411.07279v1?utm_source=substack&amp;utm_medium=email\" data-type=\"link\" data-id=\"https:\/\/arxiv.org\/html\/2411.07279v1?utm_source=substack&amp;utm_medium=email\" target=\"_blank\" rel=\"noreferrer noopener\">The Surprising Effectiveness of Test-Time Training for Abstract Reasoning<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.abc.net.au\/news\/science\/2025-03-20\/openai-generative-ai-hallucinations-chatbot-gpt45-test\/105041122\" data-type=\"link\" data-id=\"https:\/\/www.abc.net.au\/news\/science\/2025-03-20\/openai-generative-ai-hallucinations-chatbot-gpt45-test\/105041122\" target=\"_blank\" rel=\"noreferrer noopener\">OpenAI claims its newest chatbot GPT-4.5 should &#8216;hallucinate less&#8217;. How is that measured?<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/getcyber.me\/posts\/an-honest-review-of-chatgpt-o3\/\" data-type=\"link\" data-id=\"https:\/\/getcyber.me\/posts\/an-honest-review-of-chatgpt-o3\/\" target=\"_blank\" rel=\"noreferrer noopener\">An Honest Review of ChatGPT o3<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.freethink.com\/robots-ai\/simple-bench\" data-type=\"link\" data-id=\"https:\/\/www.freethink.com\/robots-ai\/simple-bench\" target=\"_blank\" rel=\"noreferrer noopener\">No, LLMs still can\u2019t reason like humans. This simple test reveals why<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/www.robinlinacre.com\/llms_in_2025\/\" data-type=\"link\" data-id=\"https:\/\/www.robinlinacre.com\/llms_in_2025\/\" target=\"_blank\" rel=\"noreferrer noopener\">AI probably won&#8217;t replace me in 2025<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/medium.com\/the-generator\/no-chatbots-arent-sentient-but-are-we-8090b317f5a9\" data-type=\"link\" data-id=\"https:\/\/medium.com\/the-generator\/no-chatbots-arent-sentient-but-are-we-8090b317f5a9\" target=\"_blank\" rel=\"noreferrer noopener\">No, Chatbots Aren\u2019t Sentient. But Are We?<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/plusai.com\/blog\/why-chatbots-arent-working\" data-type=\"link\" data-id=\"https:\/\/plusai.com\/blog\/why-chatbots-arent-working\" target=\"_blank\" rel=\"noreferrer noopener\">Why Chatbots Aren\u2019t Working<\/a><\/li>\n\n\n\n<li><a href=\"https:\/\/simple-bench.com\/\" data-type=\"link\" data-id=\"https:\/\/simple-bench.com\/\" target=\"_blank\" rel=\"noreferrer noopener\">SimpleBench &#8211; Where Everyday Human Reasoning Still Surpasses Frontier Models<\/a><\/li>\n<\/ol>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1152\" height=\"360\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2023\/12\/linjer.jpg\" alt=\"\" class=\"wp-image-2799\" style=\"width:194px;height:auto\" \/><\/figure>\n<\/div>\n\n\n<figure class=\"wp-block-table aligncenter\"><table><tbody><tr><td><strong>&lt;<a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/chatgpt-et-talefort-eksempel-pa-kunstig-intelligens-eller\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/2023\/01\/05\/chat-gpt-en-mer-talefor-slektning-av-eliza\/\" target=\"_blank\" rel=\"noreferrer noopener\">Tilbake til start<\/a><\/strong><\/td><td><a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/chatgpt-et-talefort-eksempel-pa-kunstig-intelligens-eller\/\" data-type=\"link\" data-id=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/2023\/01\/05\/chat-gpt-en-mer-talefor-slektning-av-eliza\/\" target=\"_blank\" rel=\"noreferrer noopener\"><img decoding=\"async\" src=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-content\/uploads\/sites\/6\/2024\/01\/image.png\" alt=\"\"><\/a><\/td><td><\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n","protected":false},"excerpt":{"rendered":"<p>However, early evaluations indicate that ChatGPT\u2019s deep research mode does not yet live up to the hype. While it does produce polished reports, testers have found serious flaws. According to journalists who tried it, the AI often misses important details, struggles with very recent information, and sometimes invents facts even while sounding confident ByteBridge, 2025 &hellip; <a href=\"https:\/\/site.nord.no\/didaktiskebetraktninger\/samleside-for-alle-testene\/\" class=\"more-link\">Fortsett \u00e5 lese<span class=\"screen-reader-text\"> \u00abSamleside for alle testene\u00bb<\/span><\/a><\/p>\n","protected":false},"author":11,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"coauthors":[2],"class_list":["post-4694","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/pages\/4694","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/users\/11"}],"replies":[{"embeddable":true,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/comments?post=4694"}],"version-history":[{"count":83,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/pages\/4694\/revisions"}],"predecessor-version":[{"id":7547,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/pages\/4694\/revisions\/7547"}],"wp:attachment":[{"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/media?parent=4694"}],"wp:term":[{"taxonomy":"author","embeddable":true,"href":"https:\/\/site.nord.no\/didaktiskebetraktninger\/wp-json\/wp\/v2\/coauthors?post=4694"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}