[返回电脑前线首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
最强 AI 程序员 Genie 砸饭碗:84 秒跑通代码,像人一样思考,团队仅 5 人
送交者: netcamel[★★声望品衔10★★] 于 2024-08-13 17:02 已读 13947 次 1 赞  

netcamel的个人频道

继 Devin 之后,又一个 AI 软件工程师被刷屏了 —— 它叫 Genie,号称目前地表最强,已经可以像人一样思考和行动了! 6park.com

6park.com

那么这个“地表最强”,到底强到什么程度?先来看下评测分数6park.com

在权威榜单 SWE-Bench 中,Genie 以解决了 30.07% 问题的成绩夺得榜首。 6park.com

(SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。) 6park.com

而这个成绩可谓是遥遥领先第二名 19.27%,解锁了提升 SOTA 的最大增幅 —— 57%! 6park.com

6park.com

至于 Genie 的实际效果,用团队的话来说就是: 6park.com

它可以做到像人类工程师一样解决现实生活中的软件问题。 6park.com

首先,你可以用 4 种方式让 Genie 开始工作,分别是提示词、GitHub Issue、Linear Ticket 或者 API。 6park.com

6park.com

以解决 GitHub Issue 为例,先喂给 Genie 一个 repo 的链接,它就开始自动解析问题了: 6park.com

6park.com

Genie 会自动迭代思考如果想要解决这个问题它都需要哪些文件,直到它觉得找到了自己满意的为止: 6park.com

6park.com

紧接着,它将对问题做一个自动迭代分析的过程: 6park.com

6park.com

然后 Genie 就开始“唰唰唰”地自动写 + 跑代码了: 6park.com

6park.com

6park.com

如果运行代码过程中出现 bug,Genie 会只针对出问题的地方再重复分析、写代码和运行的过程,直至跑通为止。 6park.com

而整个过程,仅仅耗时 84 秒6park.com

6park.com

用团队的话来说: 6park.com

Genie 已经观察并学习人类程序员如何解决软件问题的次数达到了数百万次6park.com

这是任何一个人类程序员一辈子都无法达到的数量。 6park.com

6park.com

但更令人意想不到的是,Genie 背后的团队 —— Cosine,才仅仅 5 人6park.com

而且 CEO Alistair 还发文感谢 OpenAI:没有你们,我们做不出来 Genie。 6park.com

6park.com

那么 Cosine 团队,究竟是如何打造 Genie 的呢。 6park.com

最强 AI 工程师是如何炼成的?

6park.com

Genie 的主要特点,是能够模仿人类工程师的认知过程、逻辑和工作流。 6park.com

为做到这一点,Genie 团队透露过去一年收集了一个包含真实人类程序员开发活动的数据集。 6park.com

其中不仅使用了成果分析、静态分析、自我对弈、逐步验证等方法,还用到了基于大量标记数据训练的 AI 模型。好处是,当基础模型能力提升时,它们能够提取的数据质量也会相应提高。 6park.com

最终 Genie 使用该专有数据进行训练6park.com

数据集中编码了人类推理的完整过程,包括完美的信息溯源、增量知识发现,还有基于软件工程师实际工作案例的逐步决策过程。 6park.com

Genie 的推理过程包括规划、检索、代码编写和代码运行四个主要步骤,突破了其它 AI 工程师依靠在基础模型之上添加网页浏览器、代码解释器等额外工具的限制,能够像人一样处理多样化的、高度情境的、前所未见的问题。 6park.com

6park.com

这种训练方法,让网友们立刻想到,之前 Karpathy 也提出的类似想法:
对于 LLM 来说,理想的训练数据并不是你所写的内容本身,而是你在写作过程中的完整思考过程和每一个编辑动作。然而,我们只能尽力利用现有的资源。 6park.com

6park.com

除此之外,Genie 训练中还引入了自我改进机制6park.com

初始训练数据多为可正常运行的没有错误的代码,导致 Genie 导致难以应对错误情况。为解决这个问题,团队使用初代版本的 Genie 生成包含错误的合成数据,然后用这些数据训练下一版模型。 6park.com

具体来说,使用旧版本 Genie 提出解决方案,如果解决方案错误,就利用掌握的任务最终状态来教它从当前状态达到正确状态。 6park.com

不断重复这一过程,Genie 提出的初始解决方案逐渐变得更准确,在多数情况下能直接给出正确答案,即使出错也只需在数据集中作较少的修正。 6park.com

Genie 能力提升的另一大关键,在于 OpenAI 提供的大模型支持。 6park.com

团队表示,最初开发 Genie 时,只能访问微调 16-32k 范围内的短上下文模型,他们用这些模型进行了大量早期开发,用超 1 亿 token 的数据训练模型,虽然发现设计的架构有一定优势,但从根本上受限于模型在特定时间内可以处理的信息量。 6park.com

尝试了各种压缩 / 分块方法后,唯一的解决方法就是使用更大上下文的模型。 6park.com

OpenAI 提供了长上下文模型支持,最新版本的 Genie 经过了数十亿 token 的数据训练。 6park.com

团队认为,相比超参数调整和数据量,数据的质量才是关键。因此他们还在数据混合方面进行了大量实验,包括语言、任务类型、任务长度等多个维度,以下是训练 Genie 的不同编程语言数据的占比: 6park.com

6park.com

还有不同类型实例的数据占比: 6park.com

6park.com

只有 5 个人的团队

6park.com

正如我们在上文提到的,Cosine 这个初创团队人数目前仅仅为 5 人。 6park.com

在官网的介绍中,他们也非常直接的将自己形容为: 6park.com

Small but mighty.
虽小但有力。
6park.com

6park.com

从介绍来看,成员有的是从独角兽企业出身,有的拥有管理全球团队的经验,甚至还有从 8 岁就开始编程的。 6park.com

但 Cosine 最初成立之际是仅有 3 人,他们的目标是想把人类推理这件事儿给搞明白6park.com

6park.com

值得一提的是,团队成员中还有一位是华人,Yang Li,是 Cosine 的联合创始人,在 2021 年登上过福布斯 30 under 30。 6park.com

6park.com

除此之外,对于 Genie 本身,CEO Alistair 还表示:
早在 2022 年我们就开始构想 Genie 了,但当时从技术角度来说是不可行的。
直到过去半年多来,随着大模型的逐步成熟,Genie 才能走入现实。
6park.com

6park.com

嗯,不得不说,大模型又立功了。 6park.com

Genie 目前是可以申请 Waitlist 了,感兴趣的小伙伴可以戳文末链接~

参考链接:
[1]https://x.com/alistairpullen/status/1822981361608888619?s=46
[2]https://cosine.sh/blog/genie-technical-report
[3]https://cosine.sh/blog/state-of-the-art
[4]https://x.com/AlistairPullen/status/1823030874579120223
[5]https://x.com/yangli_
本文来自微信公众号:微信公众号(ID:QbitAI),作者:金磊、西风

评分完成:已经给 netcamel 加上 50 银元!

喜欢netcamel朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ netcamel的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回电脑前线首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

手机扫描进入,浏览分享更畅快!

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]