AI 訓練不靠「侵權」也能創新，最新研究推翻產業迷思

在人工智慧（AI）領域，許多公司聲稱其工具無法在不使用受版權保護的內容的情況下存在。然而，最近的一項研究顯示，這種說法並不完全正確。研究人員成功訓練了一個新的大型語言模型（LLM），該模型的資料集僅使用公共領域和開放授權的內容，雖然這個模型的效能不如當前的先進模型，但其道德性卻得到提升。

這項研究由14個不同機構的學者合作完成，包括麻省理工學院、卡內基美隆大學和多倫多大學等知名學府，以及非營利組織如Vector Institute和Allen Institute for AI。研究團隊建立了一個8TB的「道德來源」資料集，其中包括來自美國國會圖書館的13萬本書籍。經過資料輸入後，他們訓練了一個擁有70億參數的LLM，結果顯示其性能與2023年Meta推出的Llama 2-7B相當。

儘管這個模型的性能與兩年前的模型相當，但其訓練過程卻相當艱辛。由於許多資料無法被機器讀取，研究人員不得不依賴人工篩選。共同作者斯特拉·比德曼（Stella Biderman）表示：「我們使用自動化工具，但最終所有的資料都需要人工標註和審查，這真的很困難。」此外，確定每個擷取網站的授權細節也增加了訓練的難度。

這項研究的結果挑戰了AI公司的一個常見論點。2024年，OpenAI在英國國會的一次聽證會上表示，這樣的模型幾乎不可能存在，並聲稱「今天的領先AI模型，無法在未使用受版權保護資料的情況下進行訓練」。去年，Anthropic的一位專家證人也表示，如果AI公司需要為其訓練資料集中的作品獲得授權，LLM可能根本不會存在。

儘管這項研究不太可能改變AI公司的發展方向，但它至少反駁了業界的論點。未來在法律案件和監管討論中，這項研究的結果可能會再次被提及。

（首圖來源：shutterstock）