9.11比9.8大?大模型们为何会在小学数学题上集体翻车 9.11比9.8大?大模型们为何会在小学数学题上集体翻车
创始人
2025-06-06 23:32:01
0

澎湃新闻消息,万亿参数大模型竟然回答不了小学数学题?最近,面对9.11和9.8哪个大的问题上,一波大模型集体翻车了。

7月17日,澎湃新闻记者实测13个主流大模型,询问9.11和9.8的数字大小问题,其中阿里通义千问、百度文心一言、Minimax、腾讯元宝、科大讯飞星火、智谱清言和百川智能百小应答对,ChatGPT-4o、字节豆包、月之暗面kimi、零一万物万知、阶跃星辰跃问、商汤商量答错。

值得注意的是,根据媒体报道,智谱清言和百川智能百小应也曾经“翻车”过,不过截至发稿时已经“纠正”了相关错误。

这波大模型的集体翻车,也引起舆论热议,背后原因是什么?

“通俗而言,此次很多大模型会翻车的原因是因为大模型普遍采取文本模型,容易从文本角度去理解这些数字。”长期布局AI的A股上市公司昆仑万维CEO方汉告诉澎湃新闻记者,“如果给出明确的限定词,告诉它们,9.8和9.11都是浮点数(实数),大模型就更容易理解这个问题的内涵。”

方汉表示,目前大模型在推理能力上确实有待优化,不知道人类有很多隐藏在书本外的知识很难被文本化,“大模型是对人类文本知识的压缩,却缺少对人类通识的压缩。”

猎豹移动董事长兼CEO、猎户星空董事长傅盛也向澎湃新闻记者表达了类似的观点:“在大模型看来,数字就是字符串,要回答数学问题,能力可能相对是差一些。”

“BAT队”全答对,ChatGPT和Kimi“翻车”

值得注意的是,在记者测试的13个主流大模型中,百度、阿里、腾讯的“BAT队”实现全部答对。比如阿里通义千问和百度文心一言都逐位比较9.11和9.8整数部分和小数部分的数值,得出正确答案。

原标题:究竟丨9.11比9.8大?大模型们为何会在小学数学题上集体翻车

编辑:李舒    责编:周尚斗     审核:冯飞

相关内容

热门资讯

出伏立秋后反被热晕?网友辣评:... 三伏天这个大魔王终于要挥手告别了,是不是觉得身上的汗珠子都少蹦跶了几下?没错,末伏结束了!也就意味着...
巫溪小伙迎娶高颜值斐济新娘,婚... 近日,以"巫溪文峰小伙迎娶斐济高颜值新娘"为内容的视频受到网友关注。8月27日,发布视频的婚礼化妆师...
江南新材IPO定价10.54元... 日前,江西江南新材料科技股份有限公司(以下简称为“江南新材”)披露了发行公告,确定主板上市发行价10...
原创 马... 据报道,在2025年这个看似平常却又暗流涌动的年份,美国政坛与情报界掀起了层层波澜,而这一切,都与特...
二孩夫妻又生四胞胎,孩子父亲:... 8月23日,已有二孩的产妇李女士在深圳成功诞下四胞胎,从原本温馨的四口之家,瞬间扩容为热闹非凡的八口...
西方企业被“打”疼了:中国不会... 【文/观察者网 张菁娟】英国《金融时报》26日报道,中国对关键半导体材料的出口管制正在冲击供应链,并...
可以一次性拔掉4颗智齿吗?医生... 医生,长痛不如短痛,我可以一次性拔除四颗智齿吗?"对于很多长了智齿的朋友来说,可能会时不时地冒出这个...
四川宜宾竟看到了“美人鱼”,传... 在四川宜宾的这片清澈水域,有人眼见美人鱼现身,究竟是传说中的神秘生物,还是一场虚构的幻影?让我们一起...
俄军开始轮番轰炸!大规模袭击乌... 据CCTV国际时讯微博,乌克兰总理什梅加尔称,8月26日,乌克兰15个地区遭俄军大规模袭击。什梅加尔...
太原的春——蒙山 太原的春——... 太原的春——蒙山。原标题:太原的春——蒙山编辑:武剑责编:胡苏 肖玲审核:袁享林 ...