OpenAI新模型测评：满分通过巴西最难入学考试之一 -6parkbbs.com

OpenAI新模型测评：满分通过巴西最难入学考试之一 6park.com

发布时间： 2024-09-18 04:25:38 6park.com

6park.com

OpenAI o1人工智能大语言模型满分通过巴西航空理工学院入学考试的数学测试。《圣保罗州报》 6park.com

OpenAI公司上周推出了名为“OpenAI o1”的新人工智能（AI）大语言模型。根据巴西人的测评，这款AI模型可以在巴西航空理工学院（ITA）入学考试的数学测试中获得10分满分，并通过圣保罗大学（USP）住院医师考试多个专业的测试。
6park.com

6park.com

o1满分通过巴西最难入学考试之一的数学测试 6park.com

6park.com

巴西《圣保罗州报》9月17日报道，OpenAI称，o1具有逻辑推理和数学运算能力，能处理更复杂的问题。如今，这款AI模型正在世界各地接受专家和研究人员的测试。 6park.com

6park.com

在巴西，企业家维尼修斯·苏亚雷斯（Vinícius Soares）使用巴西航空理工学院2024年入学考试中的数学试卷对o1进行了测试，这一考试历来被视为巴西最难入学考试。最终，o1凭借其解决复杂数学问题的能力取得了10分满分的优异成绩。 6park.com

6park.com

不过，与ChatGPT的快速响应不同，o1需要更多的处理时间来评估现有数据，并寻找不同的方法得出答案，这一点也体现在苏亚雷斯进行的测试实验中。 6park.com

6park.com

苏亚雷斯认为，o1有潜力彻底改变多个领域的发展。他提到，在教育领域，该AI模型可用于生成新的问题并给出解题方案，帮助学生准备航空理工学院等高校的入学考试；在法律领域，o1还可以分析数千个诉讼，以识别其中的模式和趋势，帮助辩方寻找赢得官司的最佳辩护方案。 6park.com

6park.com

o1在巴西医疗领域考试中的表现优于“前辈” 6park.com

6park.com

不仅如此，o1在医疗领域的表现也令人惊叹。巴西医学教育和数字健康医学专家马修斯·费雷拉（Matheus Ferreira）使用2024年圣保罗大学住院医师考试的试题对o1进行了测试。结果显示，即便没有图像分析能力，o1也能达到82%的准确率，超过了同样由OpenAI开发的ChatGPT-4模型和美国AI初创企业Anthropic推出的Claude 3.5 Sonnet，后两者的准确率皆为76%。 6park.com

6park.com

值得一提的是，由于o1在处理图像方面的限制，完全依赖于图像分析的问题被排除在本次试验之外，但仍保留了题干中配有图像的其他问题。 6park.com

6park.com

费雷拉指出，在测试过程中，o1最主要的问题是反应时间过长。相比较而言，GPT-4和Claude 3.5几乎能立刻作答，而o1在面对一些问题时，需要“思考”大约100秒。尽管如此，事实证明，o1的答案更加可信，正确回答了93个问题，而另外两个AI模型只答对了85个。 6park.com

6park.com

不过，费雷拉强调，在预防医学专业的测试中，三个AI模型的表现都不尽如人意。他认为，主要原因在于训练三个模型的数据库内容大多是英文，而预防医学涉及很多区域性知识，例如巴西的立法和统一卫生系统（SUS）等相关问题。

评分完成：已经给本帖加上 20 银元！

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐：

新型诈骗？ 07/31/24
中了militerysearch病毒怎么办？ 05/24/23

>>>>查看更多楼主社区动态...