
「Vibe coding」(氛圍編碼)興起後,AI 公司急著建立大技術知識庫,以訓練下代 AI 助理。但這些公司如何取得珍貴資料庫,常引發法律問題。最近 Reddit 和 Stack Overflow 舉動或許可知道未來發展。
「Vibe coding」是指用戶告訴AI程式助理需求,然後讓AI自動寫程式,因關鍵字搜尋量暴增6,700%,許多知名專家如Databricks的CEO Ali Ghodsi,都開始依賴這種方法。但寫AI程式助理如何取得存取論壇討論內容的權限,學習數以千計技巧和邊緣案例,成了重要問題。某些情況,AI公司甚至未經許可就直接抓取這些數據。
Reddit最近提告Anthropic,指其未經授權,從平台抓取用戶內容以訓練AI模型,違反Reddit政策。Reddit說Anthropic自2024年7月存取平台超過十萬次,並明知禁止機器人爬蟲,仍不斷偷取資料。
Stack Overflow也積極保護資料,最近與Snowflake簽署協議,允許用戶經Snowflake Marketplace存取人類策畫過高品質問答資料。Stack Overflow CEO Prashanth Chandrasekar表示,這些動作都使Snowflake用戶更輕鬆取得資料,且都經過授權。
兩平台顯示無論Reddit的自由或Stack Overflow的嚴謹,都不會容忍未經授權的資料存取。大型科技公司15年來不斷收集網路資料,這些平台也努力確保任何商業化行為都須遵循各平台條款和規定,並將更多控制權交還給用戶。Stack Overflow還有防止資料拿去訓練AI的措施,確保資料庫不被AI侵入,用Cloudflare驗證用戶身分,並對AI答案採嚴格禁止政策。這些措施都為了保護人類生產內容,確保品質。
AI模型開發者和用戶對高品質資料需求日益增加,各事件突顯資料所有權、授權和隱私問題的重要性。AI公司追求更多資料時,也必須遵循法律規範,確保用戶隱私得到保護。
(首圖來源:Pixabay)