在 2024 年底,開發出 ChatGPT 的 OpenAI 發出重量級聲明:該組織將轉型為營利型公益公司(Public Benefit Corporation,PBC),表示未來公司發展將更尋求公共利益與獲利間的平衡。此舉除了震撼業界,也讓人擔憂 AI 開發業者一一朝獲利方向發展,是否將讓大模型愈來愈危險?開發出 Claude 的 Anthropic 團隊,當初就是從 OpenAI 出走,他們如何解讀近期的 AI 安全性爭議?
人工智慧除了接管工作以外,還會帶來哪些危害?有人大膽預測,未來30年內,人類有10%至20%的機率因AI而滅絕。提出如此激進觀點的人不是江湖術士,而是2024年拿下諾貝爾物理學獎、有「AI教父」之稱的辛頓(Geoffrey Hinton)。在接受BBC訪談時,他再次重申長期呼籲關注AI安全性的想法。
對許多發展先進人工智慧的企業來說,將AI和危害人類連結在一起,似乎還很遙遠,先想方設法衝擊大模型榜單,或者降低推論成本才是重點,例如阿里巴巴搶在跨年夜,宣布降低其視覺模型消耗輸入符元(token)的單位價格,為去年年度第三輪降價,降價幅度分別在80%至85%之間。
在眾多人工智慧團隊之中,推出能夠與ChatGPT匹敵的Claude、由達里歐兄妹(Dario Amodei & Daniela Amodei)領銜創辦的Anthropic,顯得獨樹一幟。團隊成員有大量來自OpenAI,他們為何沒有繼續待著,而是創辦重視安全性的Anthropic?又如何在與OpenAI的激烈競爭中,仍舊務實看待AI安全?
他們離開OpenAI,因為不再重視安全
「我當初會加入OpenAI,原因是它屬於非營利組織,在那裡我可以專注於安全性的工作。」在一支由Anthropic釋出的創辦團隊成員對談影片中,Anthropic可解釋性研究主管(Interpretability Research Lead)歐拉(Christopher Olah)分享加入OpenAI的背景。
他曾在Google Brain、OpenAI工作,後來成為Anthropic創辦團隊的一員。歐拉坦承表示,離開OpenAI並不容易,但隨著時間推移OpenAI的方向改變,例如朝向營利公司奔去,讓他認為繼續待著不再是選項。最後決定成為Anthropic創辦團隊的一員,關鍵在於「面對限制,以及誠實地面對限制對達成(我們)使命的意義」。
歐拉口中的限制,指的便是發展AI先進模型時,若將安全性納入考量,很有可能就此拖累研發腳步,進而落後於對手。
舉例來說,去年9月OpenAI技術長穆拉提(Mira Murati)離職後,《財富》便在報導中揭露,因為急於推出具有推理能力的o1模型,讓OpenAI的研究與安全團隊和商業團隊之間出現摩擦,可能是穆拉提掛冠求去的原因之一。
對研發模型者來說,注重安全性無疑是種拉扯,若完全不重視AI對社會造成的危害,當消費者使用產品時,可能會生成有種族歧視的圖像,或者在對談中引導人們自戕,企業端也會因為生成品質不佳影響營運。
達里歐(Dario Amodei)表示,發展AI需要技術,同時得挹注巨額資金,但如果開始時,沒有從根基就關注其可能的風險,則錯誤便會一再重複。「都是同一群人,都是同樣的態度,都是同樣的模式,所以在某個時候,以不同的方式來做這些(AI),似乎就不可避免了。」雖然沒有直接點名OpenAI,但從字裡行間中不難看出他所說的對象。
▲ 因急於推出o1模型,OpenAI的研究與安全團隊和商業團隊之間出現摩擦。(Source:OpenAI)
安全可以是客戶選擇Claude的原因
看在Anthropic團隊裡,犧牲安全性並非選項,他們希望能夠拿出最強大的模型,但同時也要確保不會傷害人類。
「這就是一場向上登頂的競賽,但如果說,我們不打算建立這項技術(AI),或者不打算把它建得比其他人更好,那麼這最終是行不通的。」丹尼耶菈(Daniela Amodei)強調,唯有自家做到平衡安全與模型表現,才有辦法讓產業接受安全的重要性,也才能推動其他市場玩家仿效。
她也分享,在Anthropic的使用者研究中,顧客愈來愈常表達對AI的擔憂,有些和工作被取代有關,有些特別指涉AI產出的偏見與毒性,也有些疑問更為巨大,例如「這會不會把世界搞砸?」或「這會如何從根本上改變人類共同工作或運作的方式?」丹尼耶菈認為,人們對AI的看法已經出現巨大的轉變。
打造Gen AI,不該你犯錯我修補
達里歐認為,Anthropic的產品團隊和安全團隊之間,甚至是整間公司,都對AI的安全性抱持一致看法,並非以「你犯錯、我修補」的觀念協作。例如,Instagram共同創辦人、加入Anthropic擔任產品長的克里格(Mike Kreiger)即便是在產品團隊,就曾因為捍衛模型安全性,向團隊表達不應發布新品。
當然,從企業角度來看,安全性固然重要,但這些所費不吝的先進模型,究竟能帶來哪些價值,才是最重要的事情。
Anthropic科學長(Chief Science Officer)克普蘭便提到,要想辦法讓AI對顧客來說是創新且有用處的,同時兼顧安全。「對於如此新穎的技術,實際上存在一個很大的灰色地帶,」他提醒自己與同事,不能像「狼來了」一樣就此扼殺創新。
丹尼耶菈補充,從顧客端也收到正面回饋,「顧客不想要會產生幻覺的模型,他們不想要容易被破解的模型,他們想要有幫助且無害的模型。」她認為安全性,是顧客從眾多模型中選擇Claude的重要原因之一,甚至可以藉此向競爭對手施加壓力。
▲ Anthropic產品長克里格。(Source:Linkedin)
模型惡用不只影響社會,也可能傷害企業
2023年9月,Anthropic發表「負責任擴展政策」(Responsible Scaling Policy,簡稱為RSP),去年10月發表更新,內容主要是制定出評估AI能力與潛在風險的框架。隨後,OpenAI、Google等同樣致力於衝擊AI前沿的企業們,也紛紛提出各自的安全性架構。
在RSP裡面,Anthropic示警AI對公民社會帶來的可能危害,例如具備STEM大學學歷者,可能利用AI模型協助製造化學、生物、放射性和核武武器(CBRN);又或者當AI自己就能完成研發任務時(AI R&D),將會大幅提升AI對人類造成的風險,Anthropic表示將會以AI自動完成2至8小時的軟體工作做為檢查點。
與企業直接相關的風險,則是網路攻擊,例如增強或者自動化複雜的網路攻擊,包含辨識出零時差漏洞(zero-day vulnerability)、開發複雜的惡意軟體,或者精心策劃且難以偵測的網路入侵等。將危害層次降低,安全性較高的AI系統,也能減少企業因錯誤決策或意外行為帶來的損失。
在歐拉眼裡,發展最先進的AI模型同時注重安全性,並不代表「具有美德的行為可能就是高尚的失敗。」他沒有天真地認為,要以不切實際的方式,展現自己的純潔。相反地,歐拉務實地表示,渴望在這場AI耐力賽之中,透過自家公司的產品表現證明,關注AI的安全性非常重要,甚至讓其他人不得不跟隨。
新功能隨時被抄,對Claude的衝擊在哪?
從側面角度觀察,當新功能隨時可以被複製,例如Claude的Artifacts很快被ChatGPT的Canvas借鑑、NotebookLM推出音訊概覽沒多久旋即被Meta致敬,工具本身的價值就得超越功能本身,必須上升到企業本身的伙伴,以及掌握到面對消費者與企業客戶的通路,這仍是Anthropic與OpenAI和Google等企業近身肉搏的戰場。
Anthropic希望透過他們在安全性方面的努力,建立起值得信賴的品牌形象,吸引更多客戶,從這個出發點來說,若企業可以擺脫「安全性是額外成本」的想法,將AI的安全性視為策略性投資,將其融入在AI的應用與開發中,對Anthropic來說,便會是大好消息。
相較於OpenAI為了資金走向營利的大方向,以及推出新產品而忽略檢核模型危害的消息,Anthropic與AI安全性已經緊密捆綁。如同達里歐所說「想以某種有益的方式發明和發現事物。」若能夠持續兼顧模型性能和安全性,得到AWS資金支持的Anthropic,便能走得更遠。
(本文由 遠見雜誌 授權轉載;首圖來源:科技新報)