Login
Sign Up For Free
English
中文 (繁體)
中文 (香港)
中文 (简体)
日本語
Filipino
Bahasa Indonesia
Bahasa Melayu
Pусский
Português (Brasil)
Magyar
Français
Español
Deutsch
Čeština
العربية
Català
Dansk
Ελληνικά
فارسی
Suomi
Gaeilge
Hindi
עברית
Hrvatski
Italiano
Norsk bokmål
Nederlands
한국어
Polski
Română
Slovenský
Svenska
Türkçe
українська
беларуская
ไทย
Standard view
DaveC
1 years ago
@Edit 1 years ago
@davelin - ref 有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣...
+
Han (@HanchungLee) on X
+
Tianle Cai (@tianle_cai) on X
Longest Chinese tokens in gpt4o
RT
GPT-4o 的新詞表被中文資料污染的厲害啊,老哥寫了個程式碼篩選了新詞表中最長的前 100 個中文字元。
裡面全是賭博網站廣告內容,剩下一小部分是色情網站廣告。
掰噗~
說
1 years ago
喔?
DaveC
1 years ago
有網友一看說這是 telegram 上各種廣告頻道的字眼。(黑產灰產)
立即下載
Delete
Reply
Edit
Cancel
Cancel