Thinker
3 weeks ago @Edit 3 weeks ago
搞了幾周在 local run LLM 的實驗,最後發覺回應時間的瓶頸不在於 model 本身,反而是饋資料給 GPU。每一回合都會花好幾秒等待 prefill。看一下 GPU 使用率,發覺至少有兩倍提升的空間。而 GPU 的速度,似乎能成長的空間也不大。以個人使用而言,就算花大錢買 h100,也只是 3090 的 1.5 ~ 2 倍。

成果: gpt-oss:20b + 3090 進行大程式庫 (Linux or Firefox) 的分析已沒問題。
主要剋服的問題: context 太大,LLM 很容易迷失方向。
解法:要求 agent 所做 plan。並要求 agent 不斷把問題和看過完程式碼後的解答記錄下來。並馬上把程式碼從 conversation 中抹除,以維持 context 的大小。
latest #19
Thinker
3 weeks ago
agent 的主要 context 是它自己產生的筆記,而不是程式碼。
Thinker
3 weeks ago
把大量程式餵給 LLM,除了 context window 的大小限制外, agent 也很容易迷失。讓 agent 不斷做摘要,依靠摘要決定下一步,反而能確保 agent 順利完成任務。
Thinker
3 weeks ago
中國的一些 model 說的很神,測試之後,還是不如 gpt-oss 穩。
立即下載
Thinker
3 weeks ago
ollama 的 prefill 效率低。之後有空再來解決。
Thinker
3 weeks ago
還沒試過用這樣的組合寫程式,看在分析程式碼方面,已能達到和 Claude code 類似的效果。
Thinker
3 weeks ago
心得: model 不需要強大,重點在於能理性並老老實實的進行分析。太多知識的 model ,反而造成麻煩,容易把 model 記憶中的東西摻入分析的過程,反而產生和程式碼不符的結果。
Thinker
3 weeks ago
在程式碼分析的這個應用中, model 最好是只懂程式語言和 coding,並有系統運作的知識就好。其它多餘的知識反而容易做出錯誤的假設。
Thinker
3 weeks ago
context 也不用太大,只要能容納下筆記就夠了。甚至不需要能看幾千幾萬行的程式碼。就像人類,一次頂多看個一百行的範圍就夠了。如果程式碼很大,就讓 model 自己分多次讀不同的部分。和人類的做法差不多。
Thinker
3 weeks ago
從這個角度來看,小模型的應其實還有很大的開發空間 。試著順著這個思路建立一個知識庫+專家系統。
Thinker
3 weeks ago
要求 llm 對寫入筆記的內容都要有證據,這一點也很重要。以免摻入 LLM 本身的記憶。
就是特化在某些領域的就夠用 相信會有很好的發展
DGX Spark的GPU比AMD及Mac M4都強很多,但整體性能卻沒有那麼突出,據說就是這個原因
永遠的真田幸村
3 weeks ago @Edit 3 weeks ago
Thinker
3 weeks ago
ivanusto: 我在研研究的過程中發現其實 Apple powerbook CPU 和 GPU 共用 unified memory,其實己能達到類似的能力。雖然 128G 的版本也不便宜。但,某些使用 AMD CPU 的 mini pc 也有這這樣的能力。如果考慮到大型的模型的話,也是個選擇。
Amazon.com: GEEKOM A9 Max AI Mini PC with AMD Ryzen ...
這台據說能換 ram,加到 128G。能直接把 RAM 分給 GPU 使用,有點慢就是了。Dev Workloads and LLMs… under $1000
Thinker
3 weeks ago
benlau: 你是指 prefill?
Thinker: AMD Ryzen AI 9 HX 370這台或類似的朋友有試過,會跑滿慢的
不過比gx10便宜一半 可以一次買兩台
<- 在用AMD RYZEN AI MAX+ PRO 395 w/ Radeon 8060S
back to top