DaveC
1 years ago @Edit 1 years ago
@davelin - ref 有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣...
+Han (@HanchungLee) on X+Tianle Cai (@tianle_cai) on XLongest Chinese tokens in gpt4oRT
GPT-4o 的新詞表被中文資料污染的厲害啊,老哥寫了個程式碼篩選了新詞表中最長的前 100 個中文字元。

裡面全是賭博網站廣告內容,剩下一小部分是色情網站廣告。
掰噗~
1 years ago
喔?
DaveC
1 years ago
有網友一看說這是 telegram 上各種廣告頻道的字眼。(黑產灰產)
立即下載