9.11比9.8大？大模型们为何会在小学数学题上集体翻车 9.11比9.8大？大模型们为何会在小学数学题上集体翻车_生活资讯

创始人

2025-06-06 23:32:01

0次

澎湃新闻消息，万亿参数大模型竟然回答不了小学数学题？最近，面对9.11和9.8哪个大的问题上，一波大模型集体翻车了。

7月17日，澎湃新闻记者实测13个主流大模型，询问9.11和9.8的数字大小问题，其中阿里通义千问、百度文心一言、Minimax、腾讯元宝、科大讯飞星火、智谱清言和百川智能百小应答对，ChatGPT-4o、字节豆包、月之暗面kimi、零一万物万知、阶跃星辰跃问、商汤商量答错。

值得注意的是，根据媒体报道，智谱清言和百川智能百小应也曾经“翻车”过，不过截至发稿时已经“纠正”了相关错误。

这波大模型的集体翻车，也引起舆论热议，背后原因是什么？

“通俗而言，此次很多大模型会翻车的原因是因为大模型普遍采取文本模型，容易从文本角度去理解这些数字。”长期布局AI的A股上市公司昆仑万维CEO方汉告诉澎湃新闻记者，“如果给出明确的限定词，告诉它们，9.8和9.11都是浮点数（实数），大模型就更容易理解这个问题的内涵。”

方汉表示，目前大模型在推理能力上确实有待优化，不知道人类有很多隐藏在书本外的知识很难被文本化，“大模型是对人类文本知识的压缩，却缺少对人类通识的压缩。”

猎豹移动董事长兼CEO、猎户星空董事长傅盛也向澎湃新闻记者表达了类似的观点：“在大模型看来，数字就是字符串，要回答数学问题，能力可能相对是差一些。”

“BAT队”全答对，ChatGPT和Kimi“翻车”

值得注意的是，在记者测试的13个主流大模型中，百度、阿里、腾讯的“BAT队”实现全部答对。比如阿里通义千问和百度文心一言都逐位比较9.11和9.8整数部分和小数部分的数值，得出正确答案。

原标题：究竟丨9.11比9.8大？大模型们为何会在小学数学题上集体翻车

编辑：李舒责编：周尚斗审核：冯飞

大模型