過去兩年的討論大致認為,由於 AI 訓練成本極高,能真正提供他人完整續作或自主更新迭代的開源 AI 模型可能性不高,除非各國政府或大型學研組織願意投入。
現在,這個動向似乎初露曙光──瑞士的研究團隊以 Apache-2.0 授權發表了一款名為 「Apertus」 的開源多語言 AI 模型。名稱來自拉丁文的 open(開放),屬於 瑞士 AI 計畫(Swiss AI Initiative) 的一部分,由 洛桑聯邦理工學院(EPFL)、蘇黎世聯邦理工學院(ETH Zurich) 以及 瑞士國家超級電腦中心(CSCS) 共同合作。
不過,依照 OSI 在 2024–2025 年推動的 OSAID(開源 AI 定義),要符合「Open Source AI」的標準,除了公開模型權重(weights)之外,還必須揭露訓練資料(training data information)的來源(provenance)與性質(nature)。目前觀察,Apertus 並未公開逐一列出完整語料庫清單或資料集來源,也沒有提供可重現的資料處理流程(pipeline)。
Apertus 當前的作法包括:
1. 使用公開可取得(publicly available)的資料(共 15 兆 tokens);
2. 濾除資料中的個人資訊;
3. 若有濾除不周之處,提供專門網站讓個資當事人提出退出請求(opt-out);
4. 80 億參數版本適合運算資源有限的個人開發;
5. 700 億參數版本則具備企業應用潛力;
6. 程式碼與權重以 Apache-2.0 授權發布,但在 Hugging Face 下載時,需額外同意一份 Apertus LLM Acceptable Use Policy(AUP)。該 AUP 要求下載者:(1) 提供聯繫資訊;(2) 使用者須自行承擔因使用模型可能引發的法律責任,若對瑞士研究團隊造成損害亦須負責;(3) 提醒後續應用方也應妥善進行個資管理與輸出過濾。
在 Reddit 上有人提出質疑:這樣把 AUP 設在下載前,是否違反了 Apache-2.0 授權,或等同於對 Apache-2.0 的實質修改?目前討論方向是:原則上不算爭議,因為 AUP 更接近 EULA/網站使用條款 的性質,主要著重於風險告知與下載規範。一旦模型被下載,後續流通的規則原則上就是依 Apache-2.0 授權,而非強制綁定 Apache-2.0 + AUP。
報導連結:It’s FOSS News: https://news.itsfoss.com/apertus/
模型出處:Hugging Face Apertus Collection: https://huggingface.co/……/apertus-llm……