Deva
1 years ago @Edit 1 years ago
Facebookref
有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣品質的簡體中文資料集污染了整個大模型,這也是各大LLM中文表現明顯比英文差的根本原因。

#支語警察真的有必要!

https://images.plurk.com/7yukAB1zrugDAiwXu2rmMj.png https://images.plurk.com/7JGS8il2k3y4NLSXIWidxp.png https://images.plurk.com/2R0vdNqGc5qAE5vGzbJ1aM.png https://images.plurk.com/6XhBa2DlggxOLYiGdwBdeK.png

+歸藏(guizang.ai) (@op7418) on XLongest Chinese tokens in gpt4o
Reco
1 years ago
中國老技倆:把信仰的雞血打入健康的人體系統
Deva
1 years ago
有網友一看說這是 telegram 上各種廣告頻道的字眼。(黑產灰產)
立即下載