OpenAI发布新模型OpenAI o1--主打推理能力强大

OpenAI于9月13日推出了能解决复杂推理的新版聊天机器人ChatGPT——OpenAI o1。o1模型最大的特点就是推理能力大幅提升,专门应对需要逻辑推理的数学与科学任务。比如说医疗研究人员可以借助o1大模型注释细胞测序数据,物理学家可以使用它生成量子光学所需的复杂数学公式,软件开发者也可以利用o1大模型构建多步骤工作流程。与早期的模型相比,它回答问题时会三思而后答。在回答问题前会花更多时间思考题目,不着急回答问题,一本正经的胡说八道,并在给出最终答案前自行识别错误;不会只给你一个答案,还会给你展示思考的过程。从9月12日开始,ChatGPT Plus和ChatGPT Teams的用户即可体验新模型OpenAI o1。

image.png

强悍的推理能力

根据OpenAI官方报告,OpenAI o1在一些需要深度思考和推理的测试中取得的成就体现在下面这张图中:image.png

第一幅图 AIME 2024,一个高水平的数学竞赛,GPT4o准确率为13.4%,而这次的o1预览版是56.7%,还未发布的o1正式版是83.3%。

第二幅图 代码竞赛,GPT4o准确率为11.0%,o1预览版为62%,o1正式版为89%。

第三幅图 最牛逼的博士级科学问题 (GPQA Diamond),GPT4o是56.1,人类专家水平是69.7,o1达到了令人惊讶的78%

有人用姜萍参加比赛的一个奥数题,测试了一下o1大模型的推理能力,题目看着有些烧脑,据说曾经击败所有的大模型。

image.png

o1思考了71秒之后,给出了缜密的分析和结论,答案全对。什么叫AI推理能力进入了新纪元,这就是活生生的例子。

image.png

image.png

为什么这么强?

o1模型推理能力显著增强,基石是两大技术Self-play RL(自我对弈强化学习)和Chain of Thought思维链。o1大模型通过自我对弈强化学习(Self-play RL)技术,显著提升了其在复杂任务处理上的表现。o1大模型采用思维链(Chain of Thought, CoT)技术,强化了推理过程。

自我对弈强化学习

在自我对弈中,智能体同时扮演游戏的双方,即“自己对自己比赛”。通过与自身对抗,它可以学习到更高层次的策略,而无需依赖外部智能体或提前设计的规则。这种方式的一个典型应用例子是 Google DeepMind 的 AlphaGo 和 AlphaZero 项目,它们通过自我对弈学习到了超越人类棋手的策略。 强化学习是智能体通过与环境互动来获得奖励并改进其决策的过程。主要步骤为:

  • 初始化策略:智能体从一个初始策略开始,这个策略可能是随机的或简单的。

  • 对弈与更新:智能体开始与自己对抗,并根据强化学习算法(例如 Q-learning、政策梯度等)更新策略。在每一局游戏后,它分析自己的行为,确定哪些策略有效,哪些无效。

  • 逐渐优化:随着对弈的进行,智能体逐渐改进自己的策略,识别出更有利的决策,从而变得越来越强大。

在自我对弈中,智能体通过与自己对抗来探索状态和动作的组合,最终学习最优策略。这种方法让模型在没有外部指导的情况下,通过不断尝试和错误来学习策略和优化决策。o1大模型的这种自我博弈强化学习,使其在处理需要策略和决策的任务时,能够展现出更高的智能和适应性。研发团队观察到,随着训练时间(强化学习的增加)和思考时间(测试时的计算)的延长,o1大模型的表现逐渐提升。

思维链

它通过让模型在回答复杂问题时,逐步解释每一步的推理过程,而不是直接给出答案。这种技术的应用,使得o1大模型在处理逻辑推断、数学问题解决或编程等结构化任务时,能够展现出更接近人类的推理能力。主要工作原理是:

  • 分步推理:AI 模型在回答问题时,会首先输出思维链条的每个推理步骤。通过分解复杂问题,模型能够更好地理解每个环节的逻辑。

  • 有监督学习:为了训练 AI 模型进行思路链推理,研究人员提供了经过标注的推理步骤作为训练数据。模型通过学习这些步骤,逐渐掌握如何对类似问题进行分步推理。

  • 逐步解题:通过这种方法,AI 模型可以避免“跳跃式”推理带来的错误,尤其是在需要多个逻辑步骤的问题上,比如数学、物理、或逻辑推理题。

与人类在回答难题之前会长时间思考类似,o1大模型在尝试解决问题时会使用思维链。o1大模型会识别和纠正错误,并将棘手的步骤分解为更简单的步骤。还会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。o1模型有一个选项是展开思维链,打开思维链后,用户会看到一段非常长的o1模型和自己的思维对话,解释为什么给出这样的答案。也就是说原来GPT-4o模型只会给你一个答案,现在o1模型还会给你展示思考的过程。

未来的应用场景

o1的推出标志着AI将在多个专业领域展现出更强的应用潜力,涵盖科学研究、软件编程、教育等领域。 在科研方面,o1能够协助研究人员进行数据分析和模型构建,例如,医疗保健研究人员可借助o1注释细胞测序数据,物理学家则可利用其生成复杂的量子光学数学公式。 在软件开发领域,o1可以构建和执行多步骤工作流程,帮助程序员进行代码生成、调试和优化。 在教育领域,o1为学生提供解答复杂逻辑、计算和编程问题的支持。 此外,笔者认为AI在工业自动化领域应用潜力巨大,包括智能机器人、自动化生产线、智能物流、质量控制、设备维护等,可以让工业生产制造逐步实现从自动化到数字化、智能化的蜕变升级。还有在解决一些目前尚未被攻克的科学难题方面,应用前景广阔。



分享一个国内免费使用GPT4.0的AI智能问答工具:智答专家。支持AI文本、作图、语音、Sora视频。无需魔法,亲测有效,点击访问

标签:OpenAI o1
来源:智答专家
发布时间:2024-09-14 16:57