澎湃新闻消息,万亿参数大模型竟然回答不了小学数学题?最近,面对9.11和9.8哪个大的问题上,一波大模型集体翻车了。
7月17日,澎湃新闻记者实测13个主流大模型,询问9.11和9.8的数字大小问题,其中阿里通义千问、百度文心一言、Minimax、腾讯元宝、科大讯飞星火、智谱清言和百川智能百小应答对,ChatGPT-4o、字节豆包、月之暗面kimi、零一万物万知、阶跃星辰跃问、商汤商量答错。
值得注意的是,根据媒体报道,智谱清言和百川智能百小应也曾经“翻车”过,不过截至发稿时已经“纠正”了相关错误。
这波大模型的集体翻车,也引起舆论热议,背后原因是什么?
“通俗而言,此次很多大模型会翻车的原因是因为大模型普遍采取文本模型,容易从文本角度去理解这些数字。”长期布局AI的A股上市公司昆仑万维CEO方汉告诉澎湃新闻记者,“如果给出明确的限定词,告诉它们,9.8和9.11都是浮点数(实数),大模型就更容易理解这个问题的内涵。”
方汉表示,目前大模型在推理能力上确实有待优化,不知道人类有很多隐藏在书本外的知识很难被文本化,“大模型是对人类文本知识的压缩,却缺少对人类通识的压缩。”
猎豹移动董事长兼CEO、猎户星空董事长傅盛也向澎湃新闻记者表达了类似的观点:“在大模型看来,数字就是字符串,要回答数学问题,能力可能相对是差一些。”
“BAT队”全答对,ChatGPT和Kimi“翻车”
值得注意的是,在记者测试的13个主流大模型中,百度、阿里、腾讯的“BAT队”实现全部答对。比如阿里通义千问和百度文心一言都逐位比较9.11和9.8整数部分和小数部分的数值,得出正确答案。
原标题:究竟丨9.11比9.8大?大模型们为何会在小学数学题上集体翻车
编辑:李舒 责编:周尚斗 审核:冯飞
上一篇:两江新区印发行动方案 加快打造产业创新高地 两江新区最新建设项目 两江新区最新规划方案
下一篇:欧尔班提醒欧盟:如特朗普当选,乌克兰战争财政负担将转移到欧盟身上 欧尔班呼吁美停止军援乌乌方回应 欧尔班警告北约选择战争将是自杀