新火種AI|Devin再次震撼谷歌!但卻是以被質疑造假的方式...

新火種 2024-04-24 16:13:17

作者:小岩

編輯:彩雲

我們常說有人的地方就有江湖,就會存在炒作,扒皮和虛僞。沒想到,到了人工智能這裏,也是一樣。

4月9日,一位自稱有35年軟件工程師經驗的網絡博主卡爾逐幀複現了人工智能軟件師Devin的演示視頻,並據此提出4點質疑。他認爲Devin所展示的編程能力存在一定欺騙性,並且“所處理的任務並非隨機,而是演示者精心選擇的刻意呈現”。

這個Devin極其特別,被稱爲“全球首個AI人工智能軟件師”,它被質疑造假,這件事足以震驚整個硅谷,乃至全球AI領域。

細扒全球首個AI程序員的上線經過...

我們先來了解一下Devin的來曆。

Devin是由Cognition Labs于今年3月12日發布的一項AI編程産品,它最大的宣傳點是“全球首位AI工程師”。

主創介紹,Devin在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的複雜軟件工程任務。具體來說有6大功能:端到端構建和部署程序,可以解決的不只是代碼問題,還包括與之相關的整個工作流;自主查找並修複bug;訓練和微調自己的AI模型;修複開源庫;爲成熟的生産庫做貢獻;超強學習能力,實時補足知識和能力短板。Devin完整技術報告中顯示,在SWE-bench基准測試中,無需人類輔助,Devin可解決13.86%的問題。

 

這個數據看似平平無奇,但其實已經超過了此前所有AI大模型的成績。要知道,目前數一數二的GPT-4,在同個測試中的成績只有1.74%,且必須配備一個人類,提示它要處理哪些文件。

Cognition Labs始終沒開放公測,但陸陸續續給出了一些內測名額。耐人尋味的是,很多人在當時上手體驗過了,還給出了很高的評價。譬如熱衷AI的沃頓商學院教授Ethan Molick試過後就大大贊賞了Devin,認爲其新穎的實時交互方式是最值得關注的。他要求Devin開發一個解釋“創業公司融資中的股權稀釋”的網站,隨後透露,AI還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。

被認爲是炒作!所謂專業實力,不過是“自導自演”。

可反轉就這麽毫無預兆的出現了。

在Cognition官網發布的長達1分50秒的演示視頻裏,Devin只需一句指令,就能實現端到端地處理整個開發項目。視頻中還表示,它具備自主學習新技術,端到端構建和部署應用,自主查找以及修複代碼問題等方面的能力。此外。,Devin還可以按照用戶需求同時執行多步驟工作流程,程序員們可以實時觀察其進度,發現錯誤時,跳出指令就能修正。

但博主卡爾卻站出來質疑,認爲這些宣傳是不實的。Devin在操作過程中看似修複了許多問題,但這些問題很多都是Devin的“自導自演”。他認爲,在上述演示視頻的2.936秒處,屏幕左上角顯示“他們搜索過這個任務”,這意味著演示視頻中Devin處理的任務並非隨機,而是演示者選擇的,甚至還出現了“自己現寫bug然後當場修複”的騷操作。

 

除此之外,Devin還有很多其他的槽點:譬如號稱能解決任何Upwork任務,但演示中解決的問題並不是prompt要解決的那一個,簡直是在做無用功。或者看起來在修複bug,但是這些bug毫無意義,因爲真正的人類程序員根本就不會犯那種錯誤。還有些時候,Devin就是在做沒有意義的事情,很多事情簡單兩步就能搞定,但它卻花裏胡哨的一頓操作,把簡單的問題複雜化。

至于Devin修改代碼的真實水平,也只能說是一言難盡。在演示視頻中,Devin花費了足足6個小時才完成了任務,而這些內容,博主卡爾僅用了半個多小時就完成了。

大瓜激起千層浪!專業人士普遍認爲:博主的質疑有理有據。

博主卡爾的質疑在圈內引起了極大的熱度和熱烈的討論,這件事在推特和YouTube的熱度居高不下,成爲了網友們爭論的焦點。

一個月前,Devin的誕生成功引起了整個AI圈的注意;如今,Devin的塌房再次吸引到了全AI圈的目光。

而事件背後所承載的影響力也是深遠的。要知道,Devin背後的公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣布成功融資2100萬美金。

Cognition AI背後的團隊成員共10人,核心團隊共有3人,分別是Scott Wu,Steven Hao和Walden Yan,團隊非常年輕。全體成員共擁有10枚國際信息學奧林匹克競賽(IOI)金牌,很多成員在青少年時期也參加過信息學國際奧林匹克競賽等。在發布“全球首個AI程序員Devin”這一信息後,Cognition AI備受外界關注。公開資料顯示,此前,Cognition AI已經獲得了彼得·蒂爾的Founders Fund基金領投的2100萬美元A輪融資。一旦造假事件落下實錘,所能帶來的後坐力無疑是巨大的。

對于博主卡爾的質疑,網絡上的口徑大多是站在了博主一邊,很多網友都對Devin的造假嗤之以鼻。有人還調侃,“Devin至少掌握了看起來很忙的技巧”,很多專業人士也認爲卡爾的質疑有理有據。

仔細複盤一下,大家會發現Devin和Cognition AI的疑點早已存在。直到今天Devin 都沒有開放使用,只能通過郵箱提交申請。所以,外界對Devin的認知,基本都來自官方給出的演示視頻,以及少數第三方開發和産品人員的評價,很少有人有機會可以對其進行真正的體驗和測評。

所以,我們有理由相信,從呈現出的結果來看,Devin的確有虛假炒作,過度包裝的嫌疑。如果是頭部巨頭發布新産品新工具,諸如微軟Copilot這樣的,都會提供充足的上下文。Devin顯然沒有做到,甚至連對程序的邏輯理解都不到位。

但從另一個角度來說,AI程序助手的發展經曆陣痛和挫折在所難免,我們不能因此就質疑整件事情的意義。Devin的功能固然被虛假誇大了,但這並不能否認AI編程的發展趨勢。AI程序員的存在確實可以協助人們獨立完成簡單的開發工作,甚至可以脫離一名真正程序員的幫助,能減少大量不需要創新的重複勞動,例如批量修改代碼的命名風格,代碼的依賴關系等。程序員們依然需要各類代碼輔助工具的幫助,這是大勢所趨。

1 阅读:6

新火種

簡介:讓一億人用上AI