中印码农移民西方现象有望扭转！普林斯顿就推出了全新的「开源版本」——SWE-agent！93秒修bug

来源: 精木于 2024-04-03 09:12:45 [博客] [旧帖] [给我悄悄话] 本文已被阅读：次

英伟达高级科学家Jim Fan，也揭示了这一朴实的真理——

要想在SWEBench上获得12.3%的分数，只要更好地手动设计GPT-4的命令行工具就行，不需要什么别的神奇之处。

矩阵操作bug，神速解决

下面就是一个SWE-agent如何解决GitHub问题的示例。

这是sympy项目中的一个问题，是SWE-bench的一个实例。

用户报告了这个问题：矩阵操作的Insert时，产生了一些不符合预期的输出。

SWE-agent是怎么解决这个问题的呢？

首先，它重现了报告的bug，把bug的代码复制到了一个名为「reproduce_bug」的文件中。

运行后，果然出现了和报告中一样的问题——

确认问题之后，它在存储库中搜索了「col_insert」函数，看看是在哪里被定义的。很快SWE-agent就发现了是在common.py里。

打开文件后，它找到了一个名为「_eval_col_insert」的函数，认为这可能是关键所在。

在分析代码后，SWE-agent发现，问题就是出在了矩阵操作的索引上！

于是，它对这个函数进行了修改。

再次运行代码，问题完美解决了！

提交解决方案后，SWE-bench的评估结果显示，该方案已经通过初步测试，因此可以将其标记为已解决。

而整个过程中，SWE-agent解决问题之神速，令人惊叹！

在项目主页中，还有一个可以自主操作的演示，感兴趣的可以自主尝试体验修改bug。

「开源Devin」，软件工程护城河不存在了

根据研究者John Yang，也是SWE-bench一作介绍，SWE-agent的工作原理是与专门的终端交互，它可以：

- 打开、滚动和搜索文件

- 编辑特定行，并自动进行语法检查

- 编写和执行测试

简单地将大模型连接到vanilla bash终端，并不能很好地工作。

因此，John等研究小组认为，大模型需要精心设计的智能体——计算机接口，类似于人类喜好的UI设计。

就比如，当LLM搞乱缩进时，编辑器就可以阻止，并给出反馈。

而另外一个典型案例是，在查看文件时，让SWE-agent每次只看100行，要比每次看200-300行，甚至整个文件效果要好得多。

即便是用上了GPT-4，一个优秀的智能体-计算机设计也非常重要。

而关于SWE-agent的技术报告，也将在4月10日上线。

作者Ofir Press表示，自己耗费了好几个小时用DALLE-3设计出了logo。

Devin从面世到现在不足一个月的时间，走向大众化。

有开发者表示，我感觉到了一个新的研究领域：智能体计算机交互（ACI）。它与人机交互（HCI）类似，但更侧重于LLM和LVM。

有人发出感慨，普林斯顿团队打造的「开源Devin」，仅用GPT-4在基准测试中取得了12.29%的准确率，真不敢想象GPT-5诞生之后会怎样？

网友纷纷表示，软件行业再也没有护城河了。