Facebookref
有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣品質的簡體中文資料集污染了整個大模型,這也是各大LLM中文表現明顯比英文差的根本原因。
#支語警察真的有必要!
+歸藏(guizang.ai) (@op7418) on XLongest Chinese tokens in gpt4o
有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣品質的簡體中文資料集污染了整個大模型,這也是各大LLM中文表現明顯比英文差的根本原因。
#支語警察真的有必要!
+歸藏(guizang.ai) (@op7418) on XLongest Chinese tokens in gpt4o