
在人工智慧(AI)領域,許多公司聲稱其工具無法在不使用受版權保護的內容的情況下存在。然而,最近的一項研究顯示,這種說法並不完全正確。研究人員成功訓練了一個新的大型語言模型(LLM),該模型的資料集僅使用公共領域和開放授權的內容,雖然這個模型的效能不如當前的先進模型,但其道德性卻得到提升。
這項研究由14個不同機構的學者合作完成,包括麻省理工學院、卡內基美隆大學和多倫多大學等知名學府,以及非營利組織如Vector Institute和Allen Institute for AI。研究團隊建立了一個8TB的「道德來源」資料集,其中包括來自美國國會圖書館的13萬本書籍。經過資料輸入後,他們訓練了一個擁有70億參數的LLM,結果顯示其性能與2023年Meta推出的Llama 2-7B相當。
儘管這個模型的性能與兩年前的模型相當,但其訓練過程卻相當艱辛。由於許多資料無法被機器讀取,研究人員不得不依賴人工篩選。共同作者斯特拉·比德曼(Stella Biderman)表示:「我們使用自動化工具,但最終所有的資料都需要人工標註和審查,這真的很困難。」此外,確定每個擷取網站的授權細節也增加了訓練的難度。
這項研究的結果挑戰了AI公司的一個常見論點。2024年,OpenAI在英國國會的一次聽證會上表示,這樣的模型幾乎不可能存在,並聲稱「今天的領先AI模型,無法在未使用受版權保護資料的情況下進行訓練」。去年,Anthropic的一位專家證人也表示,如果AI公司需要為其訓練資料集中的作品獲得授權,LLM可能根本不會存在。
儘管這項研究不太可能改變AI公司的發展方向,但它至少反駁了業界的論點。未來在法律案件和監管討論中,這項研究的結果可能會再次被提及。
- It turns out you can train AI models without copyrighted material
- Copyright Office Weighs In on AI Training and Eair Use
(首圖來源:shutterstock)