中研院AI語言模型出包!廖俊智:提醒其他計畫勿用中國資料

▲中研院AI語言模型用中國資料庫惹議,中研院長廖俊智今(12)日說明,年輕研究員求快心切,已深切反省。(圖/記者李琦瑋攝,2023.10.12)
▲中研院AI語言模型用中國資料庫惹議,中研院長廖俊智今(12)日說明,年輕研究員求快心切,已深切反省。(圖/記者李琦瑋攝,2023.10.12)

記者李琦瑋/台北報導

我國中央研究院日前推出類似CHatGPT的繁體中文語言模型CKIP-Llama-2-7b,被踢爆使用中國建置的資料庫,9日緊急下架,立委今(12)日關切此議題,中研院長廖俊智說明,主要是年輕研究員求快心切,想利用新技術,將明清人物的生平進行自動化分析,建構語言模型並非研究本意,另外,中研院將成立生成式AI風險研究小組,提供研究人員相關指引。

我是廣告 請繼續往下閱讀
立法院教文會邀請中研院院長廖俊智列席報告業務概況,並備質詢。多名立委關切繁中AI語言模型出包狀況。

立委萬美玲指出,中研院日前推出繁體中文語言模型,請網友測試,結果回答我國最高領導人是國家主席習近平,並自述是由復旦大學自然語言處理實驗室和上海人工智能實驗室共同開發,居住地在上海人工智能實驗室服務器集,非常離譜,質疑這是中研院研發的嗎?還是研究員大量引用中國資料、甚至抄襲對岸研究成果?

廖俊智回應,主要是一名研究員求快心切,把尚未完全測試完畢的軟體,以開源精神,上網請大家一同測試,產生了一些有待商榷的結果,研究員已深切反省,中研院也在本次事件學到正面教訓,體認到繁中語言詞彙非常重要,需要大家一起來做。

萬美玲表示,中研院管理不夠嚴謹,研究員的所有研究出去都是代表中研院,絕非他個人,結果這套系統3天就下架,簡直是鬧了個笑話。

中研院資訊所長廖弘源表示,主要是年輕研究員執行2個計畫,一個是國科會從去年8月到今年7月、經費70萬元的計畫,大型預訓練語言模型的建構與校正,另一個則是中研院數位文化中心給予30萬元研究計畫,有關明清歷史時空調查,因為CHatGPT是去年10月問世,該研究員拿到計畫後,就想用新技術來趕快進行研究。

廖弘源說明,大型語言模型就像人腦,需要給予許多資料、知識的訓練,必須花很多錢請很多人去建構資料庫,但台灣主要是靠國家力量做,該研究員僅是為了歷史研究計畫,建構出資料集,但經費不夠多,便想到對岸與我們同語言,便想直接使用中國與明清歷史相關的資料,將簡體中文轉成繁體中文,去加以訓練,想要很快展現研究成果,卻沒想到這些資料庫背後的價值觀也被納入。

廖弘源強調,開發AI語言模型非研究員本意,年輕人也不知道引用中國資料庫的敏感度,才犯下此種疏忽。

立委張廖萬堅詢問,中研院僅用30萬元去做繁體中文語言模型?日前聲明說會成立「生成式AI風險小組」因應,何時會成立?院內的擬定審核機制何時提出?

廖俊智說,30萬元計畫原本並非要做生成式AI研究,而是明清歷史研究,是研究員想利用新技術,求快心切,動用這些經費趕快做測試;「生成式AI風險小組」正在規劃中,會儘快進行,國際上也正在進行這類控管,因為AI對社會衝擊仍然是未知數。

立委黃國書詢問,中研院未來在推動CHatGPT研究,還會持續使用中國資料集嗎?

廖俊智回應,將配合國科會TAIDE計劃自行開發。

黃國書說,目前除了該出包計劃外,目前與CHatGPT相關的研究計畫還有6個,都還會再進行嗎?是否也在引用中國資料集?

廖俊智說,目前了解到沒有引用中國資料集,還會再注意、盤點,中研院後續將規劃成立「生成式AI風險研究小組」,深入了解AI對社會的衝擊,提供研究人員相關指引,但在指引出來前,上述計畫不會暫停,因為這些計劃除了辭庫外,還有技術方面等很多面向 ,會再跟幾位研究員提醒勿使用中國資料。

我是廣告 請繼續往下閱讀
app下載