DaveC Yc Chen on Facebook昨晚發表的Google AI, Gemini pro 3的效能比較。我覺得值得注意的地方，筆記一下。但從整體來看，如果Gemini pro 2.5是勉強摸到競爭對 - #3hzi46wnk6

2 weeks ago

Yc Chen on Facebook
昨晚發表的Google AI, Gemini pro 3的效能比較。我覺得值得注意的地方，筆記一下。

但從整體來看，如果Gemini pro 2.5是勉強摸到競爭對手的尾巴，3.0就是紮實的超越了。也不過就幾個月的時間。實在是嚇死人...

1. 大家都很低，可是Gemini的表現比其他人高兩倍＠＠
.
1. and 3. 看來這次視覺方面做了很大的性能提升，screen understanding的部分，應該會大舉提升個人電腦上的應用方式。(例如你跟AI說幫我把excel裡面的資料貼到ppt，然後字調大，ai就幫你打開excel，選取範圍，點擊複製，然後切換到powerpoint貼上....，這個部分其他競爭對手顯然還沒開始著墨)
.

DaveC

2 weeks ago

3. 的OCR不知道實際用起來差多少，要試試。這個做到頂，手寫單據輸入系統這件事情，以後就是所有系統的內建功能。
.
2. 這我是沒關注過，不過以其他競爭對手的分數來看，我覺得這是一個很新或是其他人沒興趣的benchmark，所以分數才會低得誇張。
.
不過這個部分越看越可疑。以這些科技巨頭的地位，不會刻意在比較表裡面，列一個對手根本沒投入的比較項目。因為列出來不會讓自己看起來更高大，反而會覺得你把觀眾當白癡嗎？別人沒投入你去比這個？

所以Google把他列出來，應該是有其他原因。可能是因為科學研究？或是他們在測試「解決高度抽象、必須統合既有知識和沒來由的靈機一動」的能力？這個能力現在是用數學難題當作目標來訓練，但是一旦訓練好，很有可能就可以開始模擬出人類的「創意、創造」？

DaveC

2 weeks ago

總之應該不是單純為了解數學難題而去解，而是要透過解題訓練出某種能力。
.
4. gemini 性能追上來了，目前軟體工程師最愛的Claude會被拋棄嗎？
.
5. 販賣機benchmark，這個我之前有寫文章介紹過，我覺得超有趣，想自己弄一套。有販賣機、有販售擺放場所的，可以跟我聯繫，感覺架一套來玩很有意思 XD
.
6. 降低幻覺、答案的正確性核實。有google search多年的基礎，現在就贏人家20%+，以後只會贏更多
.
7. 問答內容很長的時候的運作效能。說真的數據看看就好。當用的人多，還是很慢，或是被切換成低階AI，然後開始出現明顯的亂答、搞壞前面已經完成的成果。

沃夫☆拒絕侵略！中國人滾回中國說

2 weeks ago

GOOG很久以前就下棋下贏了人類，現在才走到這算是有點慢了

立即下載