[返回电脑前线首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
OpenAI新模型测评:满分通过巴西最难入学考试之一
送交者: 娄东风[♂☆★声望品衔8★☆♂] 于 2024-09-18 15:29 已读 1223 次 1 赞  

娄东风的个人频道

OpenAI新模型测评:满分通过巴西最难入学考试之一 6park.com

发布时间: 2024-09-18 04:25:38 6park.com


6park.com

OpenAI o1人工智能大语言模型满分通过巴西航空理工学院入学考试的数学测试。《圣保罗州报》 6park.com

 
OpenAI公司上周推出了名为“OpenAI o1”的新人工智能(AI)大语言模型。根据巴西人的测评,这款AI模型可以在巴西航空理工学院(ITA)入学考试的数学测试中获得10分满分,并通过圣保罗大学(USP)住院医师考试多个专业的测试。
6park.com


6park.com

o1满分通过巴西最难入学考试之一的数学测试 6park.com


6park.com

巴西《圣保罗州报》9月17日报道,OpenAI称,o1具有逻辑推理和数学运算能力,能处理更复杂的问题。如今,这款AI模型正在世界各地接受专家和研究人员的测试。 6park.com


6park.com

在巴西,企业家维尼修斯·苏亚雷斯(Vinícius Soares)使用巴西航空理工学院2024年入学考试中的数学试卷对o1进行了测试,这一考试历来被视为巴西最难入学考试。最终,o1凭借其解决复杂数学问题的能力取得了10分满分的优异成绩。 6park.com


6park.com

不过,与ChatGPT的快速响应不同,o1需要更多的处理时间来评估现有数据,并寻找不同的方法得出答案,这一点也体现在苏亚雷斯进行的测试实验中。 6park.com


6park.com

苏亚雷斯认为,o1有潜力彻底改变多个领域的发展。他提到,在教育领域,该AI模型可用于生成新的问题并给出解题方案,帮助学生准备航空理工学院等高校的入学考试;在法律领域,o1还可以分析数千个诉讼,以识别其中的模式和趋势,帮助辩方寻找赢得官司的最佳辩护方案。 6park.com


6park.com

o1在巴西医疗领域考试中的表现优于“前辈” 6park.com


6park.com

不仅如此,o1在医疗领域的表现也令人惊叹。巴西医学教育和数字健康医学专家马修斯·费雷拉(Matheus Ferreira)使用2024年圣保罗大学住院医师考试的试题对o1进行了测试。结果显示,即便没有图像分析能力,o1也能达到82%的准确率,超过了同样由OpenAI开发的ChatGPT-4模型和美国AI初创企业Anthropic推出的Claude 3.5 Sonnet,后两者的准确率皆为76%。 6park.com


6park.com

值得一提的是,由于o1在处理图像方面的限制,完全依赖于图像分析的问题被排除在本次试验之外,但仍保留了题干中配有图像的其他问题。 6park.com


6park.com

费雷拉指出,在测试过程中,o1最主要的问题是反应时间过长。相比较而言,GPT-4和Claude 3.5几乎能立刻作答,而o1在面对一些问题时,需要“思考”大约100秒。尽管如此,事实证明,o1的答案更加可信,正确回答了93个问题,而另外两个AI模型只答对了85个。 6park.com


6park.com

不过,费雷拉强调,在预防医学专业的测试中,三个AI模型的表现都不尽如人意。他认为,主要原因在于训练三个模型的数据库内容大多是英文,而预防医学涉及很多区域性知识,例如巴西的立法和统一卫生系统(SUS)等相关问题。

评分完成:已经给本帖加上 20 银元!

喜欢娄东风朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ 娄东风的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回电脑前线首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]