英伟达高级科学家Jim Fan,也揭示了这一朴实的真理——
要想在SWEBench上获得12.3%的分数,只要更好地手动设计GPT-4的命令行工具就行,不需要什么别的神奇之处。
下面就是一个SWE-agent如何解决GitHub问题的示例。
这是sympy项目中的一个问题,是SWE-bench的一个实例。
用户报告了这个问题:矩阵操作的Insert时,产生了一些不符合预期的输出。
首先,它重现了报告的bug,把bug的代码复制到了一个名为「reproduce_bug」的文件中。
确认问题之后,它在存储库中搜索了「col_insert」函数,看看是在哪里被定义的。很快SWE-agent就发现了是在common.py里。
打开文件后,它找到了一个名为「_eval_col_insert」的函数,认为这可能是关键所在。
在分析代码后,SWE-agent发现,问题就是出在了矩阵操作的索引上!
提交解决方案后,SWE-bench的评估结果显示,该方案已经通过初步测试,因此可以将其标记为已解决。
而整个过程中,SWE-agent解决问题之神速,令人惊叹!
在项目主页中,还有一个可以自主操作的演示,感兴趣的可以自主尝试体验修改bug。
根据研究者John Yang,也是SWE-bench一作介绍,SWE-agent的工作原理是与专门的终端交互,它可以:
- 打开、滚动和搜索文件
- 编辑特定行,并自动进行语法检查
简单地将大模型连接到vanilla bash终端,并不能很好地工作。
因此,John等研究小组认为,大模型需要精心设计的智能体——计算机接口,类似于人类喜好的UI设计。
就比如,当LLM搞乱缩进时,编辑器就可以阻止,并给出反馈。
而另外一个典型案例是,在查看文件时,让SWE-agent每次只看100行,要比每次看200-300行,甚至整个文件效果要好得多。
即便是用上了GPT-4,一个优秀的智能体-计算机设计也非常重要。
而关于SWE-agent的技术报告,也将在4月10日上线。
作者Ofir Press表示,自己耗费了好几个小时用DALLE-3设计出了logo。
Devin从面世到现在不足一个月的时间,走向大众化。
有开发者表示,我感觉到了一个新的研究领域:智能体计算机交互(ACI)。它与人机交互(HCI)类似,但更侧重于LLM和LVM。
有人发出感慨,普林斯顿团队打造的「开源Devin」,仅用GPT-4在基准测试中取得了12.29%的准确率,真不敢想象GPT-5诞生之后会怎样?