@davelin - ref 有人寫了script來反向探測GPT-4o所使用的訓練資料集,發現大量低劣...
+Han (@HanchungLee) on X+Tianle Cai (@tianle_cai) on XLongest Chinese tokens in gpt4oRT
GPT-4o 的新詞表被中文資料污染的厲害啊,老哥寫了個程式碼篩選了新詞表中最長的前 100 個中文字元。
裡面全是賭博網站廣告內容,剩下一小部分是色情網站廣告。
+Han (@HanchungLee) on X+Tianle Cai (@tianle_cai) on XLongest Chinese tokens in gpt4oRT
GPT-4o 的新詞表被中文資料污染的厲害啊,老哥寫了個程式碼篩選了新詞表中最長的前 100 個中文字元。
裡面全是賭博網站廣告內容,剩下一小部分是色情網站廣告。