新火種AI|Devin再次震撼谷歌！但卻是以被質疑造假的方式...

作者：小岩

編輯：彩雲

我們常說有人的地方就有江湖，就會存在炒作，扒皮和虛僞。沒想到，到了人工智能這裏，也是一樣。

4月9日，一位自稱有35年軟件工程師經驗的網絡博主卡爾逐幀複現了人工智能軟件師Devin的演示視頻，並據此提出4點質疑。他認爲Devin所展示的編程能力存在一定欺騙性，並且“所處理的任務並非隨機，而是演示者精心選擇的刻意呈現”。

這個Devin極其特別，被稱爲“全球首個AI人工智能軟件師”，它被質疑造假，這件事足以震驚整個硅谷，乃至全球AI領域。

細扒全球首個AI程序員的上線經過...

我們先來了解一下Devin的來曆。

Devin是由Cognition Labs于今年3月12日發布的一項AI編程産品，它最大的宣傳點是“全球首位AI工程師”。

主創介紹，Devin在長程推理和規劃上面下了很大功夫，可以規劃和執行需要數千個決策才能完成的複雜軟件工程任務。具體來說有6大功能：端到端構建和部署程序，可以解決的不只是代碼問題，還包括與之相關的整個工作流；自主查找並修複bug；訓練和微調自己的AI模型；修複開源庫；爲成熟的生産庫做貢獻；超強學習能力，實時補足知識和能力短板。Devin完整技術報告中顯示，在SWE-bench基准測試中，無需人類輔助，Devin可解決13.86%的問題。

這個數據看似平平無奇，但其實已經超過了此前所有AI大模型的成績。要知道，目前數一數二的GPT-4，在同個測試中的成績只有1.74%，且必須配備一個人類，提示它要處理哪些文件。

Cognition Labs始終沒開放公測，但陸陸續續給出了一些內測名額。耐人尋味的是，很多人在當時上手體驗過了，還給出了很高的評價。譬如熱衷AI的沃頓商學院教授Ethan Molick試過後就大大贊賞了Devin，認爲其新穎的實時交互方式是最值得關注的。他要求Devin開發一個解釋“創業公司融資中的股權稀釋”的網站，隨後透露，AI還無法在沒有任何幫助的情況下，自主且無差錯地完成這項工作。

被認爲是炒作!所謂專業實力，不過是“自導自演”。

可反轉就這麽毫無預兆的出現了。

在Cognition官網發布的長達1分50秒的演示視頻裏，Devin只需一句指令，就能實現端到端地處理整個開發項目。視頻中還表示，它具備自主學習新技術，端到端構建和部署應用，自主查找以及修複代碼問題等方面的能力。此外。，Devin還可以按照用戶需求同時執行多步驟工作流程，程序員們可以實時觀察其進度，發現錯誤時，跳出指令就能修正。

但博主卡爾卻站出來質疑，認爲這些宣傳是不實的。Devin在操作過程中看似修複了許多問題，但這些問題很多都是Devin的“自導自演”。他認爲，在上述演示視頻的2.936秒處，屏幕左上角顯示“他們搜索過這個任務”，這意味著演示視頻中Devin處理的任務並非隨機，而是演示者選擇的，甚至還出現了“自己現寫bug然後當場修複”的騷操作。

除此之外，Devin還有很多其他的槽點：譬如號稱能解決任何Upwork任務，但演示中解決的問題並不是prompt要解決的那一個，簡直是在做無用功。或者看起來在修複bug，但是這些bug毫無意義，因爲真正的人類程序員根本就不會犯那種錯誤。還有些時候，Devin就是在做沒有意義的事情，很多事情簡單兩步就能搞定，但它卻花裏胡哨的一頓操作，把簡單的問題複雜化。

至于Devin修改代碼的真實水平，也只能說是一言難盡。在演示視頻中，Devin花費了足足6個小時才完成了任務，而這些內容，博主卡爾僅用了半個多小時就完成了。

大瓜激起千層浪！專業人士普遍認爲：博主的質疑有理有據。

博主卡爾的質疑在圈內引起了極大的熱度和熱烈的討論，這件事在推特和YouTube的熱度居高不下，成爲了網友們爭論的焦點。

一個月前，Devin的誕生成功引起了整個AI圈的注意；如今,Devin的塌房再次吸引到了全AI圈的目光。

而事件背後所承載的影響力也是深遠的。要知道，Devin背後的公司Cognition AI手握10塊IOI金牌的活招牌，還在推出Devin當月宣布成功融資2100萬美金。

Cognition AI背後的團隊成員共10人，核心團隊共有3人，分別是Scott Wu，Steven Hao和Walden Yan，團隊非常年輕。全體成員共擁有10枚國際信息學奧林匹克競賽（IOI）金牌，很多成員在青少年時期也參加過信息學國際奧林匹克競賽等。在發布“全球首個AI程序員Devin”這一信息後，Cognition AI備受外界關注。公開資料顯示，此前，Cognition AI已經獲得了彼得·蒂爾的Founders Fund基金領投的2100萬美元A輪融資。一旦造假事件落下實錘，所能帶來的後坐力無疑是巨大的。

對于博主卡爾的質疑，網絡上的口徑大多是站在了博主一邊，很多網友都對Devin的造假嗤之以鼻。有人還調侃，“Devin至少掌握了看起來很忙的技巧”，很多專業人士也認爲卡爾的質疑有理有據。

仔細複盤一下，大家會發現Devin和Cognition AI的疑點早已存在。直到今天Devin 都沒有開放使用，只能通過郵箱提交申請。所以，外界對Devin的認知，基本都來自官方給出的演示視頻，以及少數第三方開發和産品人員的評價，很少有人有機會可以對其進行真正的體驗和測評。

所以，我們有理由相信，從呈現出的結果來看，Devin的確有虛假炒作，過度包裝的嫌疑。如果是頭部巨頭發布新産品新工具，諸如微軟Copilot這樣的，都會提供充足的上下文。Devin顯然沒有做到，甚至連對程序的邏輯理解都不到位。

但從另一個角度來說，AI程序助手的發展經曆陣痛和挫折在所難免，我們不能因此就質疑整件事情的意義。Devin的功能固然被虛假誇大了，但這並不能否認AI編程的發展趨勢。AI程序員的存在確實可以協助人們獨立完成簡單的開發工作，甚至可以脫離一名真正程序員的幫助，能減少大量不需要創新的重複勞動，例如批量修改代碼的命名風格，代碼的依賴關系等。程序員們依然需要各類代碼輔助工具的幫助，這是大勢所趨。

文采家

新火種AI|Devin再次震撼谷歌！但卻是以被質疑造假的方式...

新火種