[返回电脑前线首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
OpenAI o1 被玩疯了!IQ 测试 120、分钟级创建 3D 贪吃蛇,但千万别问这个问题
送交者: gonewithsmoke[☆★★★声望勋衔15★★★☆] 于 2024-09-15 14:49 已读 3714 次  

gonewithsmoke的个人频道

🧬 OpenAI 发布「o1」模型:具有人类般的推理能力本周,OpenAI 发布了全新模型「o1」的预览版,以及更小、更便宜的「o1-mini」。据介绍,o1 与 GPT-4o 的主要区别在于能够解决编程和数学等复杂问题,OpenAI 用一种新的「强化学习」的方式训练 o1 模型,使其能够实现人类般的逐步思考能力,花更多时间去解决问题。模型会学习完善自己的思维过程,尝试不同的策略,并认识到自己的错误。


OpenAI 使用国际奥林匹克数学资格考试对 o1 进行了测试,得分 83%,而 GPT-4o 得分 13%。不过,o1 目前不具备浏览网页或者处理文件和图像能力。困扰 ChatGPT 和其他 AI 机器人的「Strawberry 有几个 r」问题,o1 能够正确回答,但依然未能解决「9.8 和 9.11 哪个大」的经典难题。


开发人员要调用 o1 API,输入 tokens 每一百万个价格 15 美元(折合人民币元 106.75 元),输出 tokens 每一百万个 60 美元(折合人民币约 427 元),远高于 GPT-4o。网友 @howie_serious 用 o1 模型做 2024 年高考数学卷,除了证明题没有测试,其他题目均答对。



向左滑动查看更多内容


数学家陶哲轩表示, o1 模型的体验类似于指导一个水平一般但不算太无能的研究生。「与之前的版本相比,o1 模型更强大,但在处理最复杂的数学研究任务时仍然表现不佳。」


还有网友 @real_kai42 尝试用 o1 模型解读起密文,「思考」76 秒后,最终得出正确答案,展现出强大的逻辑推理能力。






向左滑动查看更多内容


关于

OpenAI o1 的 

IQ 测试也安排上了。



向左滑动查看不同测试结果


还有网友用 OpenAI o1 模型在不到一分钟的时间内创建了一个 3D 版的贪吃蛇游戏。


甚至搭配近期爆火的代码神器 Cursor 创建了一个 iOS 天气 APP,全程用时不到 10 分钟。


此外,有网友在测试中发现,如果用户向 ChatGPT 询问 o1 模型详细的思考过程及步骤,OpenAI 就会给用户发出警告邮件:请停止此活动,确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。


甚至已经有部分网友因为试图「套话」o1 模型的完整思维链(CoT)而遭到封号。OpenAI 对此的解释是,公司内部需要监测模型的思维过程,因此不能在这些原始 tokens 中加入安全限制,也就不方便让用户看到。另外,据《财富》杂志报道,近日 Altman 在一次全公司会议上告诉员工,这家初创公司复杂的非营利性企业结构将发生变化。「可能在明年的某个时候。」 6park.com



喜欢gonewithsmoke朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ gonewithsmoke的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回电脑前线首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


    用户名:密码:[--注册ID--]

    标 题:

    粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


         图片上传  Youtube代码器  预览辅助

    打开微信,扫一扫[Scan QR Code]
    进入内容页点击屏幕右上分享按钮

    楼主本栏目热帖推荐:

    >>>>查看更多楼主社区动态...






    [ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]