Google 提告網路內容抓取工具公司 SerpApi,因違反《版權法》,以欺騙手段自動存取並以驚人規模抓取 Google 搜尋結果,然後販售數據。Google 19 日提交訴狀說,SerpApi 每日發給 Google 數億次假搜尋請求,模仿真人行為以繞過安全防護。
Google 投資數百萬美元研發 SearchGuard 遭破解
訴訟核心是 Google SearchGuard,是 1 月推出的保護措施,耗費數萬工時及數百萬美元投資開發。SearchGuard 會發給不明來源搜尋查詢 JavaScript 挑戰,要求瀏覽器傳送特定資訊,以證明搜尋是真人而非機器人系統。正常用戶瀏覽器可無縫解決這些挑戰,但自動化抓取工具通常無法存取搜尋結果及版權物。
Google 訴狀表示,1 月推出 SearchGuard 時有效阻止 SerpApi 存取 Google 搜尋結果及合作夥伴版權內容,但 SerpApi 馬上開始研究繞過 SearchGuard 的方法,迅速成功與立即應用。
創辦人自爆製造假瀏覽器大量 IP 地址
SerpApi 破解 SearchGuard 方法是掩飾每日發送 Google 數億次自動化查詢,使這些請求看似來自真人。SerpApi 創辦人 Ilyass Khaleghy 近日形容為「利用大量 IP 地址製造假瀏覽器,讓 Google 視之為正常用戶」。
SerpApi 提交自動化查詢及接收 SearchGuard 挑戰時,會謊報查詢發出裝置、軟體或位置,應付挑戰並取得授權。另一個方法是用合法請求解決挑戰,然後將所得授權分發給全球未經授權機器,使假瀏覽器產生自動化查詢看似獲得 Google 授權。也使用自動化手段繞過 CAPTCHA,是 SearchGuard 另一個測試用戶是否真人的工具。
SerpApi 行銷時也不時強調技術程度,最近部落格文章解釋,SearchGuard 使網路爬蟲更困難,但稱公司有幸只受最低程度影響,因服務預先解決 Google JavaScript 挑戰。當 Google 提高 SearchGuard 難度,SerpApi 承認業務短暫中斷,但工程師團隊全力投入,很快解決問題。
SerpApi 商業模式寄生,損害版權內容授權
Google 形容 SerpApi 商業模式是寄生性質,SerpApi 使用自動化抓取其他服務內容,產生數十億次人工請求,然後複製及出售回應資料。SerpApi 並無就抓取輸出內容或自動化程式對服務電腦基礎設施造成龐大負擔成本補償這些服務。抓取行為一律違反服務管理協議,並無視這些服務透過 robots.txt 指令傳達存取限制自動化爬蟲或機器人。
Google 主張搜尋結果含大量版權內容,包括圖片,搜尋不同模組時顯示,如知識面板。Google 指 SerpApi 破壞授權顯示版權材料投資,其他不須承擔類似成本服務也能取得內容。
SerpApi 販售給第三方「Google Search API」服務,月費 75~275 美元。Google 認為這具誤導性,因 Google 並無提供公共搜尋 API,SerpApi 本質上是出售 Google 搜尋引擎後門。
Reddit 同樣起訴 SerpApi 涉及 Perplexity AI
Reddit 也於 10 月提告 SerpApi 及另外兩家資料抓取公司,指控至少一家從網站抓取內容供 AI 新創企業 Perplexity 使用。雖然 Google 訴狀簡要提及 Reddit 提告 SerpApi,但並無直接提及 Perplexity 或 AI 機器人。
Reddit 訴狀指出,7 月兩週間,被告繞過 Google 技術障礙,非法存取近 30 億個充滿 Reddit 文字、連結、相片及影片搜尋引擎結果頁面。Reddit 表示,Perplexity 收到停止函後,引用 Reddit 次數激增 40 倍,由於 Perplexity 是 SerpApi 推廣客戶,顯然可知從何處及如何取得未經授權的 Reddit 資料。
Google 要求法院停止並銷毀 SerpApi 技術
Google 主張安全系統(如 SearchGuard)屬控制存取版權作品技術措施,繞過這些措施涉嫌違反《數位千禧年版權法》(DMCA)第 1201 條。Google 稱 SerpApi 違反 Google 服務條款,嚴格禁止自動化抓取及使用代理伺服器隱藏身分,SerpApi 未對生態系統有貢獻或遵守規則下,從 Google 組織全球資訊龐大投資獲利。
Google 要求法院下令 SerpApi 停止繞過反抓取限制,並銷毀任何技術。Google 有權從 SerpApi 追討因對方違反法例遭受實際損失,以及 SerpApi 賺取的任何額外非重複利潤,或可選擇追討法定賠償,每次違法行為賠償額不少於 200 美元及最多 2,500 美元。






