DaveC
2 weeks ago
Yc Chen on Facebook
昨晚發表的Google AI, Gemini pro 3的效能比較。我覺得值得注意的地方,筆記一下。

但從整體來看,如果Gemini pro 2.5是勉強摸到競爭對手的尾巴,3.0就是紮實的超越了。也不過就幾個月的時間。實在是嚇死人...

1. 大家都很低,可是Gemini的表現比其他人高兩倍@@
.
1. and 3. 看來這次視覺方面做了很大的性能提升,screen understanding的部分,應該會大舉提升個人電腦上的應用方式。(例如你跟AI說幫我把excel裡面的資料貼到ppt,然後字調大,ai就幫你打開excel,選取範圍,點擊複製,然後切換到powerpoint貼上....,這個部分其他競爭對手顯然還沒開始著墨)
.
DaveC
2 weeks ago
3. 的OCR不知道實際用起來差多少,要試試。這個做到頂,手寫單據輸入系統這件事情,以後就是所有系統的內建功能。
.
2. 這我是沒關注過,不過以其他競爭對手的分數來看,我覺得這是一個很新或是其他人沒興趣的benchmark,所以分數才會低得誇張。
.
不過這個部分越看越可疑。以這些科技巨頭的地位,不會刻意在比較表裡面,列一個對手根本沒投入的比較項目。因為列出來不會讓自己看起來更高大,反而會覺得你把觀眾當白癡嗎?別人沒投入你去比這個?

所以Google把他列出來,應該是有其他原因。可能是因為科學研究?或是他們在測試「解決高度抽象、必須統合既有知識和沒來由的靈機一動」的能力?這個能力現在是用數學難題當作目標來訓練,但是一旦訓練好,很有可能就可以開始模擬出人類的「創意、創造」?
DaveC
2 weeks ago
總之應該不是單純為了解數學難題而去解,而是要透過解題訓練出某種能力。
.
4. gemini 性能追上來了,目前軟體工程師最愛的Claude會被拋棄嗎?
.
5. 販賣機benchmark,這個我之前有寫文章介紹過,我覺得超有趣,想自己弄一套。有販賣機、有販售擺放場所的,可以跟我聯繫,感覺架一套來玩很有意思 XD
.
6. 降低幻覺、答案的正確性核實。有google search多年的基礎,現在就贏人家20%+,以後只會贏更多
.
7. 問答內容很長的時候的運作效能。說真的數據看看就好。當用的人多,還是很慢,或是被切換成低階AI,然後開始出現明顯的亂答、搞壞前面已經完成的成果。
GOOG很久以前就下棋下贏了人類,現在才走到這算是有點慢了
立即下載