網路資料保護意識抬頭！Reddit 與 Stack Overflow 對 AI 資料爬蟲說不

「Vibe coding」（氛圍編碼）興起後，AI 公司急著建立大技術知識庫，以訓練下代 AI 助理。但這些公司如何取得珍貴資料庫，常引發法律問題。最近 Reddit 和 Stack Overflow 舉動或許可知道未來發展。

「Vibe coding」是指用戶告訴AI程式助理需求，然後讓AI自動寫程式，因關鍵字搜尋量暴增6,700%，許多知名專家如Databricks的CEO Ali Ghodsi，都開始依賴這種方法。但寫AI程式助理如何取得存取論壇討論內容的權限，學習數以千計技巧和邊緣案例，成了重要問題。某些情況，AI公司甚至未經許可就直接抓取這些數據。

Reddit最近提告Anthropic，指其未經授權，從平台抓取用戶內容以訓練AI模型，違反Reddit政策。Reddit說Anthropic自2024年7月存取平台超過十萬次，並明知禁止機器人爬蟲，仍不斷偷取資料。

Stack Overflow也積極保護資料，最近與Snowflake簽署協議，允許用戶經Snowflake Marketplace存取人類策畫過高品質問答資料。Stack Overflow CEO Prashanth Chandrasekar表示，這些動作都使Snowflake用戶更輕鬆取得資料，且都經過授權。

兩平台顯示無論Reddit的自由或Stack Overflow的嚴謹，都不會容忍未經授權的資料存取。大型科技公司15年來不斷收集網路資料，這些平台也努力確保任何商業化行為都須遵循各平台條款和規定，並將更多控制權交還給用戶。Stack Overflow還有防止資料拿去訓練AI的措施，確保資料庫不被AI侵入，用Cloudflare驗證用戶身分，並對AI答案採嚴格禁止政策。這些措施都為了保護人類生產內容，確保品質。

AI模型開發者和用戶對高品質資料需求日益增加，各事件突顯資料所有權、授權和隱私問題的重要性。AI公司追求更多資料時，也必須遵循法律規範，確保用戶隱私得到保護。