日本美女

文爱 聊天 听说中的“草莓”模子问世,OpenAI发布具有超强推理本事的模子o1|算法|编程|数学|东谈主工智能|openai

发布日期:2024-09-28 07:03    点击次数:59

文爱 聊天 听说中的“草莓”模子问世,OpenAI发布具有超强推理本事的模子o1|算法|编程|数学|东谈主工智能|openai

当地时刻 9 月 12 日文爱 聊天,OpenAI 发布了全新模子 o1,这是该公司决议推出的一系列“推理”模子中的第一个,亦然之前业内传闻已久的“Strawberry(草莓)”技俩。

据先容,o1 模子在许多任务中草率比东谈主类更快地处理复杂查询,并展现出前所未有的超强推理本事。与此同期,OpenAI 还推出了一个较小且更经济实惠的版块 o1-mini。

(开头:OpenAI)

对 OpenAI 而言,o1 的发布代表着公司向结束类东谈主东谈主工智能(human-like AI)这一宏伟方针迈出的蹙迫一步。

从本体摆布角度来看,o1 在编写代码、推理和处罚多圭臬复杂问题方面的阐扬赫然优于先前的模子。

可是,使用 o1 的本钱较高,速率也相对较慢。OpenAI 将此次发布称为“preview(预览版)”,以强调该模子尚处于初期阶段。

从当天以后,ChatGPT Plus 和 Team 用户不错造访 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用户将于下周初取得造访权限。

o1-preview 每周最多使用 30 条音信,而 o1-mini 则为 50 条。

据 OpenAI 信息,其决议向整个 ChatGPT 免用度户洞开 o1-mini 的造访权限,但具体上线日历尚未细目。

关于诞生者而言,稳妥 API tier 5 的诞生者不错通过 API 使用这些模子,每分钟恳求数驱散为 20 条。

值得注主义是,诞生者通过摆布圭臬编程接口(API,Application Programming Interface)使用 o1 的本钱止境腾贵:o1-preview 的输入 token 价钱为每百万个 15 好意思元,输出 token 价钱为每百万个 60 好意思元。

比拟之下,GPT-4o 的输入 token 价钱为每百万个 5 好意思元,输出 token 价钱为每百万个 15 好意思元。

o1 模子的西宾设施与其前代家具有着根人道的不同。

OpenAI 的磋议驾驭杰里·特沃雷克(Jerry Tworek)对媒体暗示:“o1 使用了全新的优化算法进行西宾,并继承了挑升为其谋略的新式西宾数据集。”

与之前的 GPT 模子通过师法西宾数据中的格式不同,o1 继承了强化学习时刻,通过奖励和刑事累赘来教系统处罚问题。

此外,o1 还使用想维链来处理查询,这与东谈主类通过逐渐想考来处罚问题的表情近似。

成绩于这种新的西宾设施,OpenAI 称,o1 模子的准确性得到了权贵擢升。

特沃雷克对媒体暗示:“咱们扫视到该模子的幻觉征象减少了。”可是,他也坦言,这个问题仍然存在,“咱们弗成说也曾绝对处罚了幻觉问题”。

字据 OpenAI 的说法,o1 最权贵的脾气是其处理复杂问题(如编程和数学)的本事远超前代家具,同期还能讲解其推理经过。

OpenAI 首席磋议官鲍勃·麦格鲁(Bob McGrew)对媒体暗示:“这个模子在处罚大学预修课程数学熟练方面的阐扬笃信比我强,而我在大学时的辅修专科等于数学。”

他还提到文爱 聊天,OpenAI 对 o1 进行了国外数学奥林匹克竞赛资历熟练的测试。效果露出,GPT-4o 只可正确处罚 13% 的问题,而 o1 的得分率高达 83%。

在 Codeforces 在线编程竞赛中,o1 模子的阐扬超越了 89% 的参赛者。同期 OpenAI 宣称,该模子也曾在许多物理、化学和生物学等具有挑战性的基准任务上达到与博士生止境的水平。

尽管如斯,o1 在许多规模的阐扬仍够不上 GPT-4o 的水平。举例,在处理相干寰宇的事实性学问方面。

此外,现在 o1 还穷乏浏览网页或处理文献和图像的本事。尽管存在这些局限,OpenAI 仍然合计 o1 代表了一种全新的本事类别(模子)。

o1 模子的界面谋略旨在展示其推理圭臬,师法东谈主类想考的经过。

在解答问题时,o1 会使用“我很酷好”“我正在想考”和“让我想想”等短语,营造出一种逐渐想考的错觉。可是,OpenAI 强调,这并不虞味着模子确切在想考,更不是东谈主类。

图|o1 模子会使用许多短语,暗示我刚直在“想考”,但本体上并莫得(开头:OpenAI)

特沃雷克讲解说:“这种界面谋略是为了展示模子何如破耗更多时刻来处理和深入处罚问题。”

麦格鲁补充谈:“你会发现它在某些方面嗅觉很像外星东谈主,但在其他方面又令东谈主惊诧地像东谈主类。”

o1 模子的发布象征着 OpenAI 在结束自主系统或智能代理方面迈出了蹙迫一步。这些系统草率代表用户作念出决策并选拔看成。

对 AI 磋议东谈主员而言,结束推理本事是朝着东谈主类级智能迈进的蹙迫一步。

表面上,要是一个模子草率超越通俗的格式识别,在医学、工程等规模有望结束毁坏性进展。

播色

(开头:OpenAI)

在各项基准测试中,o1 相较于 GPT-4o 王人阐扬出了权贵的跳跃。

在 57 个大限度多任务话语深化(MMLU,Massive Multitask Language Understanding)子类别中,o1 在 54 个类别中超越了 GPT-4o。在一些需要大批推理的基准测试中,o1 的阐扬以致不错与东谈主类大家相忘形。

在数学本事方面,o1 的阐扬尤为出色。在好意思国数学邀请赛中,o1 平均处罚了 74% 的问题,而 GPT-4o 仅能处罚 12%。

通过使用共鸣和从头排序等手段,o1 的得分率以致不错达到 93%,这一成绩足以使其置身全好意思前 500 名学生之列。

在 GPQA 钻石级测试(一项测试化学、物理和生物学专科学问的盘曲智商基准)中,o1 超越了东谈主类大家的阐扬,成为首个在该基准测试中结束这一毁坏的模子。

可是,OpenAI 强调,“这并不虞味着 o1 在整个方面王人比博士更有本事”,仅仅在处罚某些特定问题时阐扬更为出色。

在编程方面,o1 也展现出了惊东谈主的本事。在 2024 年国外信息学奥林匹克中,基于 o1 运行化并进一步西宾的模子取得了 213 分,排行位于第 49 百分位。

在模拟的 Codeforces 竞赛中,这个模子达到了 1807 的 Elo 评分,超越了 93% 的东谈主类选手。

尽管 o1 在推理本事方面取得了雄壮跳跃,但 OpenAI 承认它并不适用于整个场景。

在一项东谈主类偏好评估中,o1 在数据分析、编程和数学等需要大批推理的规模赫然优于 GPT-4o,但在某些当然话语处理任务中阐扬欠安。

就像其他整个大模子相通,o1 模子也会因为多样原因给出失误谜底。在少数情况下,它会在明知谜底有误的情况下,仍然将其复返给用户。

安全性是 OpenAI 一直宝贵的要点。通过将安全计谋整合到推理模子的想维链中,OpenAI 发现这是一种有用的设施,不错庄重地传授东谈主类价值不雅和原则。

o1 在要津的逃狱评估和最严格的里面安全基准测试中,王人取得了权贵改换。

OpenAI 合计,o1 零散后续版块将为 AI 在科学、编码、数学等相干规模的摆布开采新的可能性。

可是,他们也相识到这项时刻可能带来的潜在风险,因此决定不向用户告成展示原始的想维链,而是提供一个模子生成的想维链撮要。

总的来说,OpenAI o1 的发布代表了 AI 推理本事的紧要跳跃。跟着 OpenAI 继续改换这一模子,期待看到更多令东谈主粗糙的摆布和毁坏。

可是,结束时刻发展、安全及伦理问题之间的均衡,仍然是 AI 规模所濒临的永远挑战。

参考贵寓:

https://openai.com/index/learning-to-reason-with-llms/

https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt

https://gizmodo.com/openai-releases-its-highly-anticipated-gpt-o1-model-2000498162

运营/排版:何晨龙

01/

02/

03/

04/

文爱 聊天





Powered by 日本美女 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有