Will 保哥的技術交流中心 on Facebook競爭是殘酷的，人類是現實的，金錢是衡量效率的最後仲裁者！🤘從這張 SWE-bench 排行榜可以直觀看到一個事實：模型之間沒有情面可講，只剩下「能不能把問題解掉、要花多少時間、成本多高」。GPT 5.1 Codex 站在最上面，不靠宣傳，只靠把題目做對；Claude、Qwen、Grok 全部擠在後面，各自用不同策略拉開差距。圖表告訴你現在的 AI 模型已經不是「能不能寫程式」的問題，而是「在相同任務下，誰能用更少成本、更可控的時間，把事情做完」。工程師的世界裡，這種排名永遠最誠實。✨

2 weeks ago

Will 保哥的技術交流中心 on Facebook
競爭是殘酷的，人類是現實的，金錢是衡量效率的最後仲裁者！🤘

從這張 SWE-bench 排行榜可以直觀看到一個事實：模型之間沒有情面可講，只剩下「能不能把問題解掉、要花多少時間、成本多高」。

GPT 5.1 Codex 站在最上面，不靠宣傳，只靠把題目做對；Claude、Qwen、Grok 全部擠在後面，各自用不同策略拉開差距。

圖表告訴你現在的 AI 模型已經不是「能不能寫程式」的問題，而是「在相同任務下，誰能用更少成本、更可控的時間，把事情做完」。

工程師的世界裡，這種排名永遠最誠實。✨

DaveC

2 weeks ago

https://images.plurk.com/5PPssAzbtX1PcA48z0fRZS.png

DaveC

2 weeks ago

Vals AI

DaveC

2 weeks ago

此基準測試包含 500 個任務，每個任務都在獨立的 Docker 容器中執行。這些任務代表來自不同 GitHub 程式碼庫的真實問題。模型配備了一套智能體工具，必須產生一個「補丁」來解決每個問題。模型解決方案的成功與否取決於針對生成的補丁執行單元測試的結果。

SWE-bench 的一個顯著複雜性在於它同時評估了智能體框架和底層基礎模型。這導致基礎模型實驗室在報告結果時採用不同的方法。此外，此基準測試的運算需求使得復現結果需要耗費大量資源。

為了實現對不同基礎模型的公平和一致的比較，我們實施了一個標準化的評估框架（基於 SWE Agent），該框架用於我們所有的評估。

立即下載