9.11比9.8大?大模型们为何会在小学数学题上集体翻车 9.11比9.8大?大模型们为何会在小学数学题上集体翻车
创始人
2025-06-06 23:32:01
0

澎湃新闻消息,万亿参数大模型竟然回答不了小学数学题?最近,面对9.11和9.8哪个大的问题上,一波大模型集体翻车了。

7月17日,澎湃新闻记者实测13个主流大模型,询问9.11和9.8的数字大小问题,其中阿里通义千问、百度文心一言、Minimax、腾讯元宝、科大讯飞星火、智谱清言和百川智能百小应答对,ChatGPT-4o、字节豆包、月之暗面kimi、零一万物万知、阶跃星辰跃问、商汤商量答错。

值得注意的是,根据媒体报道,智谱清言和百川智能百小应也曾经“翻车”过,不过截至发稿时已经“纠正”了相关错误。

这波大模型的集体翻车,也引起舆论热议,背后原因是什么?

“通俗而言,此次很多大模型会翻车的原因是因为大模型普遍采取文本模型,容易从文本角度去理解这些数字。”长期布局AI的A股上市公司昆仑万维CEO方汉告诉澎湃新闻记者,“如果给出明确的限定词,告诉它们,9.8和9.11都是浮点数(实数),大模型就更容易理解这个问题的内涵。”

方汉表示,目前大模型在推理能力上确实有待优化,不知道人类有很多隐藏在书本外的知识很难被文本化,“大模型是对人类文本知识的压缩,却缺少对人类通识的压缩。”

猎豹移动董事长兼CEO、猎户星空董事长傅盛也向澎湃新闻记者表达了类似的观点:“在大模型看来,数字就是字符串,要回答数学问题,能力可能相对是差一些。”

“BAT队”全答对,ChatGPT和Kimi“翻车”

值得注意的是,在记者测试的13个主流大模型中,百度、阿里、腾讯的“BAT队”实现全部答对。比如阿里通义千问和百度文心一言都逐位比较9.11和9.8整数部分和小数部分的数值,得出正确答案。

原标题:究竟丨9.11比9.8大?大模型们为何会在小学数学题上集体翻车

编辑:李舒    责编:周尚斗     审核:冯飞

相关内容

热门资讯

可以一次性拔掉4颗智齿吗?医生... 医生,长痛不如短痛,我可以一次性拔除四颗智齿吗?"对于很多长了智齿的朋友来说,可能会时不时地冒出这个...
图说丨夏秋花粉过敏几多愁?恰似... 编辑:封雪 责编:李奇 ...
所有人都在讨论的“DeepSe... 当地时间1月27日,纳斯达克股指出现3%下跌,原因是中国人工智能公司DeepSeek模型引发美国投资...
2025年9月7日比特币(BT... 截至2025年9月7日数据显示,比特币报价110400,近期走势呈现技术面转弱特征。从形态来看,比特...
2025年9月3日比特币(BT... 比特币现报111000附近。从当前盘面来看,多空力量较为胶着,趋势尚未完全明朗。技术指标显示,短期动...
比特币“疯涨”!特朗普再添一把... 一路“疯涨”过后,5月21日,比特币重回70000美元,当日最高价格达到71650美元。在这样的背景...
用水稻造“人血”?!武汉禾元生... 近期,血液制品行业迎来重磅消息! 全球首创“稻米造血”2025年即将在光谷量产,有望把这一“救命药”...
im Token钱包:Coin... 这是一款广受欢迎的数字钱包,在全球超 200 个国家和地区收获了超两千万用户的信赖。它致力于为用户打...
江南新材IPO定价10.54元... 日前,江西江南新材料科技股份有限公司(以下简称为“江南新材”)披露了发行公告,确定主板上市发行价10...
24岁女舞蹈老师骑电动车直行,... 大风新闻消息,3月8日,24岁的她头戴亮蓝色头盔,骑电动车去舞蹈班代课。可她的学生再也见不到她了。网...