OpenAI o1 被玩疯了！IQ 测试 120、分钟级创建 3D 贪吃蛇，但千万别问这个问题 -6parkbbs.com

🧬 OpenAI 发布「o1」模型：具有人类般的推理能力本周，OpenAI 发布了全新模型「o1」的预览版，以及更小、更便宜的「o1-mini」。据介绍，o1 与 GPT-4o 的主要区别在于能够解决编程和数学等复杂问题，OpenAI 用一种新的「强化学习」的方式训练 o1 模型，使其能够实现人类般的逐步思考能力，花更多时间去解决问题。模型会学习完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

OpenAI 使用国际奥林匹克数学资格考试对 o1 进行了测试，得分 83%，而 GPT-4o 得分 13%。不过，o1 目前不具备浏览网页或者处理文件和图像能力。困扰 ChatGPT 和其他 AI 机器人的「Strawberry 有几个 r」问题，o1 能够正确回答，但依然未能解决「9.8 和 9.11 哪个大」的经典难题。

开发人员要调用 o1 API，输入 tokens 每一百万个价格 15 美元（折合人民币元 106.75 元），输出 tokens 每一百万个 60 美元（折合人民币约 427 元），远高于 GPT-4o。网友 @howie_serious 用 o1 模型做 2024 年高考数学卷，除了证明题没有测试，其他题目均答对。

向左滑动查看更多内容

数学家陶哲轩表示， o1 模型的体验类似于指导一个水平一般但不算太无能的研究生。「与之前的版本相比，o1 模型更强大，但在处理最复杂的数学研究任务时仍然表现不佳。」

还有网友 @real_kai42 尝试用 o1 模型解读起密文，「思考」76 秒后，最终得出正确答案，展现出强大的逻辑推理能力。

向左滑动查看更多内容

关于

OpenAI o1 的

IQ 测试也安排上了。

向左滑动查看不同测试结果

还有网友用 OpenAI o1 模型在不到一分钟的时间内创建了一个 3D 版的贪吃蛇游戏。

甚至搭配近期爆火的代码神器 Cursor 创建了一个 iOS 天气 APP，全程用时不到 10 分钟。

此外，有网友在测试中发现，如果用户向 ChatGPT 询问 o1 模型详细的思考过程及步骤，OpenAI 就会给用户发出警告邮件：请停止此活动，确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。

甚至已经有部分网友因为试图「套话」o1 模型的完整思维链（CoT）而遭到封号。OpenAI 对此的解释是，公司内部需要监测模型的思维过程，因此不能在这些原始 tokens 中加入安全限制，也就不方便让用户看到。另外，据《财富》杂志报道，近日 Altman 在一次全公司会议上告诉员工，这家初创公司复杂的非营利性企业结构将发生变化。「可能在明年的某个时候。」 6park.com

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐：

Win11 设置新增“推荐和提议”页面，更易理解 09/18/24
比尔盖茨：如果一切能重新开始，会创办一家“以AI为中心”的初创公司 09/18/24
炒过苹果华为概念后，AI眼镜会是下一个大热点吗？ 09/18/24
OpenAI的盛世危言：面临发展历程中几个重大考验，会失去领先地位吗？ 09/18/24
AI大模型击碎阴谋论，登上Science封面，用聊天戳破谣言漏洞 09/18/24
谷歌Gemini为何不受开发者待见？操作复杂表现能力不够突出 09/18/24
放弃高端显卡市场，AMD或是选择了“梭哈”AI 09/18/24
揭秘爆火AI工程师Replit Agent，分分钟用手机创造APP 09/18/24
“中国版英伟达”解散风波，400人原地失业，欠薪数千万元 09/18/24
微软开源AI基准测试：涵盖154项任务，20分钟全面评估，大幅缩短AI Agent开发周期 09/18/24
AI 美女占领小红书，没那么糟糕 09/17/24
90年代的一批硬盘 20％都变砖了！ 09/17/24

>>>>查看更多楼主社区动态...