AI 訓練不靠「侵權」也能創新,最新研究推翻產業迷思

作者 | 發布日期 2025 年 06 月 06 日 12:00 | 分類 AI 人工智慧 , OpenAI , 資訊安全 line share Linkedin share follow us in feedly line share
Loading...
AI 訓練不靠「侵權」也能創新,最新研究推翻產業迷思

在人工智慧(AI)領域,許多公司聲稱其工具無法在不使用受版權保護的內容的情況下存在。然而,最近的一項研究顯示,這種說法並不完全正確。研究人員成功訓練了一個新的大型語言模型(LLM),該模型的資料集僅使用公共領域和開放授權的內容,雖然這個模型的效能不如當前的先進模型,但其道德性卻得到提升。

這項研究由14個不同機構的學者合作完成,包括麻省理工學院、卡內基美隆大學和多倫多大學等知名學府,以及非營利組織如Vector Institute和Allen Institute for AI。研究團隊建立了一個8TB的「道德來源」資料集,其中包括來自美國國會圖書館的13萬本書籍。經過資料輸入後,他們訓練了一個擁有70億參數的LLM,結果顯示其性能與2023年Meta推出的Llama 2-7B相當。

儘管這個模型的性能與兩年前的模型相當,但其訓練過程卻相當艱辛。由於許多資料無法被機器讀取,研究人員不得不依賴人工篩選。共同作者斯特拉·比德曼(Stella Biderman)表示:「我們使用自動化工具,但最終所有的資料都需要人工標註和審查,這真的很困難。」此外,確定每個擷取網站的授權細節也增加了訓練的難度。

這項研究的結果挑戰了AI公司的一個常見論點。2024年,OpenAI在英國國會的一次聽證會上表示,這樣的模型幾乎不可能存在,並聲稱「今天的領先AI模型,無法在未使用受版權保護資料的情況下進行訓練」。去年,Anthropic的一位專家證人也表示,如果AI公司需要為其訓練資料集中的作品獲得授權,LLM可能根本不會存在。

儘管這項研究不太可能改變AI公司的發展方向,但它至少反駁了業界的論點。未來在法律案件和監管討論中,這項研究的結果可能會再次被提及。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》