第三方抓取數據合法,X的API生意可能要黃了

三易生活 2024-05-14 20:50:12

自從Gemini承認自己是用文心一言來訓練中文語料,到各大機構的預測高質量數據集即將枯竭,大模型在未來數年或面臨“熄火”的危機,就成爲了懸在如今整個AI行業頭頂的“達摩克利斯之劍”。爲了收集更多的數據或者說語料來澆灌大模型,“買買買”也成爲了相關廠商的解決方案,例如谷歌每年花6000萬美元從Reddit手中買數據,OpenAI則滿世界找新聞出版機構簽訂內容許可協議。

一時間,向AI廠商賣數據俨然成爲了一衆內容平台賺錢的好方法。比如苦于大量廣告主離開、而陷入虧損的X,去年就靠著API付費牆,向需要X用戶數據的每一個企業級客戶收取了超過超過百萬美元的費用。

然而就在一年之後,X通過API向第三方賣數據這個生意恐怕要黃了。日前,X方面起訴了以色列數據公司Bright Data非法抓取該平台數百萬條記錄一案落下帷幕,美國加利福利亞州聯邦法院駁回了X的所有主張。

去年8月,X公司稱Bright Data公然違反該平台的服務協議,通過技術手段規避平台風控、從而批量非法抓取了X上的回複、點贊、轉發等數據,並認爲這些非法行爲對X的服務器造成嚴重影響、還損害了用戶體驗,爲此其要求獲得禁令救濟、以阻止Bright Data的這一行爲。

對此Bright Data方面則表示,X公司建設了一堵圍牆來拒絕他人訪問該平台的公開數據,並將在法庭上捍衛他們的立場,確保所有人都可以公開訪問互聯網及相關數據。

使用爬蟲在互聯網上搜集數據,其實在過去二十年間都是一個處于灰色地帶的操作,各家的做法基本上都是“悄悄的進村,開槍的不要”,很少有像Bright Data這種理直氣壯承認自己在這樣做的廠商。更讓人意外的是,法院居然沒有支持作爲受害者的X。因此有觀點認爲,這一次美國聯邦法院的裁定或將極大影響到互聯網行業的格局。

法院在駁回X相關請求時使用的理由,是社交網絡實際上不擁有用戶數據,因爲平台不能一方面享受避風港原則帶來的好處,另一方面又強調數據屬于自己。這就等于是否定了社交平台對于用戶數據主權的法理,既然X本身不擁有數據、而是通過其他方式向用戶提供公開的數據,那麽Bright Data抓取公開數據的行爲就不屬于違法。

從某種意義上來說,曾經讓大批美國互聯網平台免受法律風波的避風港原則,如今卻成爲了他們賣數據的絆腳石。而所謂“避風港原則”,是美國1998年制定的《數字千年版權法案》中提出的一個概念,目的在于在解決互聯網語境下版權保護相關的法律問題,網絡服務提供商(ISP)只要能夠證明自己沒有惡意,並及時刪除侵權鏈接或相關內容的情況下,將不承擔相應的侵權責任。

具體來說,網絡服務提供者在接到權利人的通知後,需要及時將相關該通知轉達給用戶,並對侵權信息根據初步證據和服務類型等,采取刪除、屏蔽或斷開鏈接等必要措施。只要網絡服務提供者履行了上述義務就會進入“避風港”,不承擔侵權責任。“我們不可能實時監控平台上發生的每一件事”,是就是相關互聯網平台在撇清監管責任的常用說辭。

“你通知、我刪除、我免責”,在這樣的避風港原則保護下,互聯網廠商在新世紀初度過了它們的幼年期。然而此一時彼一時,當初弱小的互聯網廠商需要避風港原則來讓現實世界的信息網絡化,並暢通無阻地傳播,可是隨著互聯網經濟的興旺,當初創廠商成長爲巨頭後,規避監管責任的避風港原則反過來讓他們們在法律層面也失去了聲明用戶數據歸屬的權利。

既然在避風港原則下,用戶在平台發布侵權內容後,權利人可以通知平台刪除內容,只要平台及時處理、那麽版權方就不能起訴平台,僅可以起訴發布侵權的用戶。那麽主張用戶發布內容不是平台的行爲,平台又憑什麽在法律層面擁有用戶的數據呢?以子之矛攻子之盾,這就是X此次要求獲得禁令救濟失敗的關鍵。

無獨有偶,Bright Data不僅在此次與X對弈中獲得了勝利,今年年初美國法院同樣駁回了Meta的類似訴訟主張。短短半年時間,連續兩個同樣的判例對于互聯網平台而言,表明風向確實已經變了。如今擺在X、Meta面前的問題,就是避風港原則和用戶數據要二選一了,而互聯網廠商其實也只有一個選項、那就是繼續堅持避風港原則。因爲即便避風港原則越來越不好使,但它的存在還是讓互聯網廠商免除了大部分的監管責任。

換而言之,未來任何人都可以抓取美國社交平台的數據。互聯網廠商賣數據給AI廠商的生意,很有可能剛開了個頭就要面臨終結。畢竟買數據是要花真金白銀的,可如果使用技術手段繞開目標設置的屏障,成本顯然就會低得多。可偏偏互聯網廠商幾乎都不缺乏技術力,所以在大數據時代之後,爬蟲和反爬蟲或將再次成爲互聯網廠商的一大課題。

只是對于用戶而言,美國聯邦法院的這一判例可能並不是什麽好事,最起碼大家未來使用相關平台的體驗大概率會變差。通常來說,互聯網廠商的反爬蟲策略都是圍繞判斷用戶是否爲人類展開,其中最有效的手段不是JavaScript參數加密、代碼混淆,而是驗證碼和人機驗證。所以未來各種喪心病狂的驗證碼可能會重出江湖,大家或許又要與奇葩的驗證碼鬥智鬥勇了。

0 阅读:4

三易生活

簡介:專注IT,最快最專業資訊!