Login
Sign Up For Free
English
中文 (繁體)
中文 (香港)
中文 (简体)
日本語
Filipino
Bahasa Indonesia
Bahasa Melayu
Pусский
Português (Brasil)
Magyar
Français
Español
Deutsch
Čeština
العربية
Català
Dansk
Ελληνικά
فارسی
Suomi
Gaeilge
Hindi
עברית
Hrvatski
Italiano
Norsk bokmål
Nederlands
한국어
Polski
Română
Slovenský
Svenska
Türkçe
українська
беларуская
ไทย
Standard view
Deva
1 years ago
@Edit 1 years ago
Facebook
ref
有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣品質的簡體中文資料集污染了整個大模型,這也是各大LLM中文表現明顯比英文差的根本原因。
#支語警察真的有必要!
+
歸藏(guizang.ai) (@op7418) on X
Longest Chinese tokens in gpt4o
Reco
1 years ago
中國老技倆:把信仰的雞血打入健康的人體系統
Deva
1 years ago
+
@davecode - + + RT GPT-4o 的新詞表被中文資料污染的厲害啊,老哥寫了個程式碼篩選...
Deva
1 years ago
有網友一看說這是 telegram 上各種廣告頻道的字眼。(黑產灰產)
立即下載
Delete
Reply
Edit
Cancel
Cancel