OpenAI o1 被玩疯了!IQ 测试 120、分钟级创建 3D 贪吃蛇,但千万别问这个问题
🧬 OpenAI 发布「o1」模型:具有人类般的推理能力本周,OpenAI 发布了全新模型「o1」的预览版,以及更小、更便宜的「o1-mini」。据介绍,o1 与 GPT-4o 的主要区别在于能够解决编程和数学等复杂问题,OpenAI 用一种新的「强化学习」的方式训练 o1 模型,使其能够实现人类般的逐步思考能力,花更多时间去解决问题。模型会学习完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
OpenAI 使用国际奥林匹克数学资格考试对 o1 进行了测试,得分 83%,而 GPT-4o 得分 13%。不过,o1 目前不具备浏览网页或者处理文件和图像能力。困扰 ChatGPT 和其他 AI 机器人的「Strawberry 有几个 r」问题,o1 能够正确回答,但依然未能解决「9.8 和 9.11 哪个大」的经典难题。
开发人员要调用 o1 API,输入 tokens 每一百万个价格 15 美元(折合人民币元 106.75 元),输出 tokens 每一百万个 60 美元(折合人民币约 427 元),远高于 GPT-4o。网友 @howie_serious 用 o1 模型做 2024 年高考数学卷,除了证明题没有测试,其他题目均答对。
向左滑动查看更多内容
数学家陶哲轩表示, o1 模型的体验类似于指导一个水平一般但不算太无能的研究生。「与之前的版本相比,o1 模型更强大,但在处理最复杂的数学研究任务时仍然表现不佳。」
还有网友 @real_kai42 尝试用 o1 模型解读起密文,「思考」76 秒后,最终得出正确答案,展现出强大的逻辑推理能力。
向左滑动查看更多内容
关于
OpenAI o1 的
IQ 测试也安排上了。
向左滑动查看不同测试结果
还有网友用 OpenAI o1 模型在不到一分钟的时间内创建了一个 3D 版的贪吃蛇游戏。
甚至搭配近期爆火的代码神器 Cursor 创建了一个 iOS 天气 APP,全程用时不到 10 分钟。
此外,有网友在测试中发现,如果用户向 ChatGPT 询问 o1 模型详细的思考过程及步骤,OpenAI 就会给用户发出警告邮件:请停止此活动,确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。
甚至已经有部分网友因为试图「套话」o1 模型的完整思维链(CoT)而遭到封号。OpenAI 对此的解释是,公司内部需要监测模型的思维过程,因此不能在这些原始 tokens 中加入安全限制,也就不方便让用户看到。另外,据《财富》杂志报道,近日 Altman 在一次全公司会议上告诉员工,这家初创公司复杂的非营利性企业结构将发生变化。「可能在明年的某个时候。」 6park.com
|