【謝昆霖】中研院的AI大翻車。中央研究院詞庫小組(CKIP)(略)這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」

學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?

Facebook
(全文下收)

這件事情包括了 #中國用語入侵 以及 #國安#國防#世代洗腦與認同改變#溫水煮青蛙的潛移默化 問題,看看一堆看抖音的年輕人都逐漸覺得政治干我屁事、中共當政也沒關係,甚至覺得自己就中國人了。

【複習】國教院跟風中國? EUV曝光機變「光刻機」 - 自由財經
@singjen - [摘]半導體業成為台灣製造業鎮國之寶,中國砸重金企圖超車,不僅大肆補助各項技術研發...
latest #27
掰噗~ says
6 months ago
息怒息怒 @口@
立即下載
【謝昆霖】中研院的AI大翻車。中央研究院詞庫小組(CKIP)釋出這個繁中 LLM ,昨晚我看到新聞,仔細端詳之後就趕緊跟伙伴說它一定會出問題。

它的多任務微調訓練,使用兩個簡轉繁後的資料:

1. COIG-PC 資料集
2. dolly-15k 資料集
生活內底揣趣味(生活中找樂趣) says
6 months ago @Edit 6 months ago
1. COIG-PC 資料集

該資料集的基礎資料是 北京星塵數據 AI2.0数据标注和数据策略专家|星尘数据 提供的網路資料集。並由以中國 AI 相關研究單位為首,超過二十所全球知名大學和機構共同編制。

資料集:BAAI/COIG-PC · Datasets at Hugging Face
生活內底揣趣味(生活中找樂趣) says
6 months ago @Edit 6 months ago
以下是一些重點機構:

中國:北京人工智慧學院
中國:北京大學
中國:北京郵電大學
中國:香港科技大學
中國: stardust . ai
中國: LinkSoul.AI
• 加拿大:滑鐵盧大學
• 英國:謝菲爾德大學
2. dolly-15k 資料集

是一個以簡體中文為主的一般性知識問答對話資料集。

預覽:Elliot4AI/dolly-15k-chinese-guanacoformat · Datasets...
用簡體中文資料,再透過OpenCC翻成繁體中文就能訓練出台灣可用的訓練資集嗎?

答案絕對是否定的。

簡轉中不只是用字遣詞的差異,它還包含很多的民生知識、文化知識,用北京研究機構校正出來的是「適用於中國的民生、文化知識」,要再修剪成「台灣版」,

它再監督與修正的總體成本會高於「認份做台灣的資料集」。

終究是要做台灣的資料集,為什麼不一開始就做?
除了訓練資料集。評鑑也是個大問題!!!

CKIP 說這個LLM 經過C-Eval中文模型評測,C-Eval 是什麼?它是「中國清大」、「中國交大」開發的中文基礎模型評量系統
C-Eval: 一个适用于大语言模型的多层次多学科中文评估套件

中研院用簡轉繁的資料集訓練完他們認為適用台灣的基礎模型,然後再派它去考中國的考試,計算分數。

這相當於「教育部搬中國所有系所的教科書,簡轉繁教學生;再拿中國所有的專業考卷,簡轉繁後考學生。」

學生考不好,敢問是要叫它背台灣教科書還是背中國教科書?

一般商用的還好,中研院推的基礎模型用中國資料轉繁體後訓練,並說明可用於「學術、商業使用、文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等。」

這會出事的。
怎麼測試?按這個連結,問他一些學術術語、政府運作體制、地方文物,保證你會看到一個繁體中文講很好,略知台灣的中國AI。

https://huggingface.co/....

(註:10/9 中午已下架,連結失效)
我可以理解台灣嚴重嚴重缺乏台灣在地語言資料集的困境,它真的超級燒錢,是用億為單位計算的。要整個做好,可能相當於好幾個軍購案做好多年。

政府很難編列這種預算,很難說服民意機關投資;民間企業也不可能投資這種錢做語言數位化。但資料集是AI時代的基礎建設。

沒錢有沒錢的做法,民間先來。所以我開了一個開放社群「中華民國台灣開源語言資料集_建立、收集、標註、監督、評鑑」。

Facebook
歡迎加入參與編修的工作。
社群命名很直接,就是用開放的態度,在合法的範圍內把建立台灣在地的訓練資料集,用眾人的力量做,這樣台灣的商用的AI才有在地的訓練資料可以用。

OpenAI 使用了大量「人工整理過的高品質 Reddit 對話」才讓 GPT-3.5 人模人樣。但中研院畢竟是國家投資的研究單位,而且還是「台灣的詞庫小組」。

所以我希望為中研院發聲,大家也一起努力幫忙。
生活內底揣趣味(生活中找樂趣) says
6 months ago @Edit 6 months ago
AI 時代的競爭,強化台灣在地用詞的資料收集、建立資料集,建立熟悉台灣在地文化的AI,應該視為 國防/國安 投資,有急迫性和必要性。
生活內底揣趣味(生活中找樂趣) says
6 months ago @Edit 6 months ago
問專業的就會翻車,這樣學術、商業完全不能用,要導入首先是全部再訓練一次。

砂、石,台灣會講骨材、粒料。我們講「品質」不講「質量」。混凝土 - 維基百科,自由的百科全書
其實這個AI 很適合打算去中國發展的台灣人使用。

1. 公司類型:獨資企業、合夥企業、有限責任公司、股份有限公司等;
2. 申請機關:工商局、稅務局、人力資源和社會保障局、質量技術監督局等;
3. 辦理手續:公司名稱預先審批、設立登記、稅務登記、財務報表等。
= 引用結束 =
生活內底揣趣味(生活中找樂趣) says
6 months ago @Edit 6 months ago
中午看完時我頭好痛...
生活內底揣趣味(生活中找樂趣) says
4 months ago @Edit 4 months ago
via@sophist4ever - 是說昨天去上AI課時,講師在講大型語言模型的訓練時,痛罵中研院罵了快二十...【精進波羅蜜】是說昨天去上AI課時,講師在講大型語言模型的訓練時,痛罵中研院罵了快二十分鐘。
原因在於中研院之前釋出一個號稱強化繁體中文能力的大型語言模型,結果被發現竟然被訓練成了對岸的樣子,不時吐出簡體字與對岸用語,甚至說國慶日是十月一日。中研院被罵以後,立刻下架了這個模型,還發了一篇聲明切割。
講師說中研院還有臉說這個案子只花了三十萬,明明就是去下載臉書的LLaMa模型,然後直接拿中國那邊的資料集進行訓練,給他三萬塊都嫌多了,研究的態度非常草率。出事了就推說是個人的研究,然後研究的目的竟然是「將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜。」講師痛罵人家發展AI是要上太空,中研院發展AI是要撿骨

(以上為該講師的個人意見。)
= 引用結束 =
back to top