AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场 AI新时代 ai新时代作品
创始人
2025-06-20 10:52:34
0

财联社消息,北京时间周五凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。

OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推理任务而言,新模型代表着人工智能能力的崭新水平,因此值得将计数重置为1,给它一个有别于“GPT-4”系列的全新名号。

推理大模型的特点,就是AI会在回答之前花更多时间进行思考,就像人类思考解决问题的过程一样。以往的大模型,背后的逻辑是通过学习大量数据集中的模式,来预测单词生成的序列,严格来说并不是真正理解提问。

(明显能感知到的“思考”过程,来源:OpenAI)

认知将跃升至“理科博士生水准”

OpenAI曾解释过,2023年发布的GPT-4类似于高中生的智能水平,而GPT-5则是完成AI从“高中生跃升至博士”的成长。这个o1模型就是其中关键的一步。

相较于GPT-4o等现有的大模型,OpenAI o1能够解决更加困难的推理问题,同时改善过往模型中存在的机制性缺陷。

举例而言,这个新模型能够数清楚strawberry里到底有几个“r”。

同时AI在解答编程问题时也会更有条理,在着手写代码前,把整个回答的流程全部思考完一遍,再动手输出代码。

例如在预设条件的写诗任务(例如第二句的最后一个单词需要以i收尾)中,“拿起笔就写”的GPT-4o的确给出了回答,但往往只会满足了一部分条件,同时不会自我纠正。这意味着AI必须在第一次生成时就能碰上正确的答案,否则就一定会出错。但在o1模型中,AI会不断试错并打磨答案,从而显著提高生成结果的准确率和质量。

有趣的是,点开AI思考的过程,还会出现AI表示“我在思考这个事情这么做行不行”、“啊时间不够了得尽快给出答案”等。OpenAI确认,这里展示的并不是原始的思维链,而是“模型生成的摘要”,公司也坦率承认这里有保持“竞争优势”的因素。

OpenAI的研究负责人Jerry Tworek透露,o1模型背后的训练与之前的产品有着根本性的区别。之前的GPT模型旨在模仿其训练数据中的模式,而o1的训练旨在让其独立解决问题。在强化学习的过程中,使用奖励和惩罚机制来“教育”AI使用“思维链”来处理问题,就像人类习得拆解、分析问题的方式一样。

根据测试,o1模型在国际数学奥林匹克的资格考试中,能够拿到83%的分数,而GPT-4o只能正确解决13%的问题。而在编程能力比赛Codeforces中,o1模型拿到89%百分位的成绩,而GPT-4o只有11%。

(图上显示,o1模型预览版的能力会比正式版低一截)

OpenAI表示,根据测试,在下一个更新的版本中,AI在物理、化学和生物学的挑战性基准测试中,表现能够与博士生水平类似。

该讲讲缺点和局限性了

不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个新模型也有局限性。

首先,OpenAI o1模型(至少目前)还不是多模态大模型,同时在回答事实性问题时也不如其他模型。所以在图像互动、常识问答、互联网搜索方面,GPT-4o依然是更胜一筹的选择。当然,OpenAI明确表示未来会给这个模型增加联网、文件和图像上传等功能。

另一个问题则是贵,而且是非常贵。o1-预览模型的定价是每百万个输入tokens 15美元,每百万个输出tokens 则要60美元,分别是GPT-4o的3倍和4倍。一百万tokens大致相当于75万个英文单词。

除了OpenAI o1-预览版外,OpenAI也同步推出了o1-mini模型。后者是一个更快、更便宜的模型,定价也会便宜80%,适用于需要推理但不需要广泛世界知识的场景。

而且从OpenAI“抠抠索索”的举动来看,这个推理模型恐怕非常消耗算力。公司宣布,从9月12日起,ChatGPT订阅用户可以访问这两个新模型,但目前o1-preview每周消息数量限制为30条,o1-mini则为50条。

企业版ChatGPT和教育用户可以从下周开始访问这两个模型。API使用等级达到5级的开发者可以立即开始使用这两个模型,每分钟的速率限制为20次。OpenAI未来准备向免费用户提供o1-mini模型,但目前还没有时间表。

原标题:AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场

编辑:高鑫    责编:廖异     审核:冯飞

相关内容

热门资讯

出伏立秋后反被热晕?网友辣评:... 三伏天这个大魔王终于要挥手告别了,是不是觉得身上的汗珠子都少蹦跶了几下?没错,末伏结束了!也就意味着...
江南新材IPO定价10.54元... 日前,江西江南新材料科技股份有限公司(以下简称为“江南新材”)披露了发行公告,确定主板上市发行价10...
可以一次性拔掉4颗智齿吗?医生... 医生,长痛不如短痛,我可以一次性拔除四颗智齿吗?"对于很多长了智齿的朋友来说,可能会时不时地冒出这个...
im Token钱包:Coin... 这是一款广受欢迎的数字钱包,在全球超 200 个国家和地区收获了超两千万用户的信赖。它致力于为用户打...
比特币“疯涨”!特朗普再添一把... 一路“疯涨”过后,5月21日,比特币重回70000美元,当日最高价格达到71650美元。在这样的背景...
巫溪小伙迎娶高颜值斐济新娘,婚... 近日,以"巫溪文峰小伙迎娶斐济高颜值新娘"为内容的视频受到网友关注。8月27日,发布视频的婚礼化妆师...
所有人都在讨论的“DeepSe... 当地时间1月27日,纳斯达克股指出现3%下跌,原因是中国人工智能公司DeepSeek模型引发美国投资...
赵露思关闭微博账号!工作室:突... 九派新闻消息,12月27日,#赵露思坐轮椅#一度登上微博热搜第一,相关话题引发热议。27日下午,赵露...
原创 清... 林烨,一个清华毕业的天才,却选择加入美国国籍,投身导弹研发,甚至把导弹对准了曾经的祖国中国。这个选择...
24岁女舞蹈老师骑电动车直行,... 大风新闻消息,3月8日,24岁的她头戴亮蓝色头盔,骑电动车去舞蹈班代课。可她的学生再也见不到她了。网...