#AI最近 Gemini 3 很紅，不過看到這個。在 AA-Omniscience 這個幻覺基準測試中，Gemini 3 Pro 的幻覺率仍然居高，沒有比前代改善。Haider. (@slow_developer) on X下面是這個測試的官方內容，他們發現 Gemini 3 Pro 確實在知識準確率提高了，但幻覺率並沒有下降。這兩者以他們的經驗來看確實沒有直接關聯，確實可能在高知識的情況下同時高幻覺（很愛答題也答對很多，但一定不該答的題還是很愛亂答）：Artificial Analysis (@ArtificialAnlys) on X

2 weeks ago @Edit 2 weeks ago

#AI
最近 Gemini 3 很紅，不過看到這個。
在 AA-Omniscience 這個幻覺基準測試中，Gemini 3 Pro 的幻覺率仍然居高，沒有比前代改善。

Haider. (@slow_developer) on X下面是這個測試的官方內容，他們發現 Gemini 3 Pro 確實在知識準確率提高了，但幻覺率並沒有下降。這兩者以他們的經驗來看確實沒有直接關聯，確實可能在高知識的情況下同時高幻覺（很愛答題也答對很多，但一定不該答的題還是很愛亂答）：

2 weeks ago

這件事情世界上只有三個人知道

立即下載