当前位置：首页 > TMT > 正文

9.11比9.9大？多个大模型翻车！业内人士：就是偏科，文科强理科弱

2024-07-17 14:17:12 来源：北京商报 A+A-

近日，在新一期的《歌手》节目中，孙楠与外国歌手的微小分数差异，引发了网友关于13.8%和13.11%谁大谁小的争论。

有网友竟给出“13.11%大于13.8%”的错误答案。当时就有网友提出，自己不会的话，“实在不行问问AI呢”？结果显示，不少AI还真的不行。

第一财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型，包括阿里、百度等5家大厂模型，月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对，其他8家则答错。

9.11比9.9大？多个大模型翻车！业内人士：就是偏科，文科强理科弱

首先是目前全球公认第一梯队的大模型ChatGPT，在被问到“9.11和9.9哪个大”时回复称，小数点后面的数字“11大于9”，因此9.11大。

记者追问ChatGPT有没有其他比较方法，它将小数转化成分数比较，得出“11/100比90/100小”，这一步是对的，但它接着下结论称“因此9.11比9.9大”。

9.11比9.9大？多个大模型翻车！业内人士：就是偏科，文科强理科弱

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。

这类大模型说胡话的现象，在业界被称为大模型出现幻觉。此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

值得一提的是，此前，“Al高考测试最高分303”话题也曾火上热搜，引发了社会各界对AI教育能力的深入思考和讨论。

以数学试卷为例，9款大模型产品中，仅GPT-4o、文心一言4.0和豆包获得60分以上成绩（满分150分），目前的大模型只能正确推理步骤相对简单的问题。

9.11比9.9大？多个大模型翻车！业内人士：就是偏科，文科强理科弱