Thinker 搞了幾周在 local run LLM 的實驗，最後發覺回應時間的瓶頸不在於 model 本身，反而是饋資料給 GPU。每一回合都會花好幾秒等待 prefill。看一下 GPU 使用率，發覺至少有兩倍 - #3hyqxv07rl

3 weeks ago @Edit 3 weeks ago

搞了幾周在 local run LLM 的實驗，最後發覺回應時間的瓶頸不在於 model 本身，反而是饋資料給 GPU。每一回合都會花好幾秒等待 prefill。看一下 GPU 使用率，發覺至少有兩倍提升的空間。而 GPU 的速度，似乎能成長的空間也不大。以個人使用而言，就算花大錢買 h100，也只是 3090 的 1.5 ~ 2 倍。

成果: gpt-oss:20b + 3090 進行大程式庫 (Linux or Firefox) 的分析已沒問題。
主要剋服的問題： context 太大，LLM 很容易迷失方向。
解法：要求 agent 所做 plan。並要求 agent 不斷把問題和看過完程式碼後的解答記錄下來。並馬上把程式碼從 conversation 中抹除，以維持 context 的大小。

latest #19

Thinker

3 weeks ago

agent 的主要 context 是它自己產生的筆記，而不是程式碼。

Thinker

3 weeks ago

把大量程式餵給 LLM，除了 context window 的大小限制外， agent 也很容易迷失。讓 agent 不斷做摘要，依靠摘要決定下一步，反而能確保 agent 順利完成任務。

Thinker

3 weeks ago

中國的一些 model 說的很神，測試之後，還是不如 gpt-oss 穩。

立即下載

Thinker

3 weeks ago

ollama 的 prefill 效率低。之後有空再來解決。

Thinker

3 weeks ago

還沒試過用這樣的組合寫程式，看在分析程式碼方面，已能達到和 Claude code 類似的效果。

Thinker

3 weeks ago

心得: model 不需要強大，重點在於能理性並老老實實的進行分析。太多知識的 model ，反而造成麻煩，容易把 model 記憶中的東西摻入分析的過程，反而產生和程式碼不符的結果。

Thinker

3 weeks ago

在程式碼分析的這個應用中， model 最好是只懂程式語言和 coding，並有系統運作的知識就好。其它多餘的知識反而容易做出錯誤的假設。

Thinker

3 weeks ago

context 也不用太大，只要能容納下筆記就夠了。甚至不需要能看幾千幾萬行的程式碼。就像人類，一次頂多看個一百行的範圍就夠了。如果程式碼很大，就讓 model 自己分多次讀不同的部分。和人類的做法差不多。

Thinker

3 weeks ago

從這個角度來看，小模型的應其實還有很大的開發空間。試著順著這個思路建立一個知識庫＋專家系統。

Thinker

3 weeks ago

要求 llm 對寫入筆記的內容都要有證據，這一點也很重要。以免摻入 LLM 本身的記憶。

永遠的真田幸村

3 weeks ago

就是特化在某些領域的就夠用相信會有很好的發展

benlau (⊚‿‿⊚)

3 weeks ago

DGX Spark的GPU比AMD及Mac M4都強很多，但整體性能卻沒有那麼突出，據說就是這個原因

永遠的真田幸村

3 weeks ago @Edit 3 weeks ago

benlau: 對
Gb10的優點反而是省電和可以堆疊

NVIDIA DGX Spark GB10 發售次月現況，用戶逐步打造小型 AI 運算叢集

Thinker

3 weeks ago

ivanusto: 我在研研究的過程中發現其實 Apple powerbook CPU 和 GPU 共用 unified memory，其實己能達到類似的能力。雖然 128G 的版本也不便宜。但，某些使用 AMD CPU 的 mini pc 也有這這樣的能力。如果考慮到大型的模型的話，也是個選擇。
Amazon.com: GEEKOM A9 Max AI Mini PC with AMD Ryzen ...
這台據說能換 ram，加到 128G。能直接把 RAM 分給 GPU 使用，有點慢就是了。

Dev Workloads and LLMs… under $1000

Thinker

3 weeks ago

benlau: 你是指 prefill?

永遠的真田幸村

3 weeks ago

Thinker: AMD Ryzen AI 9 HX 370這台或類似的朋友有試過，會跑滿慢的

永遠的真田幸村

3 weeks ago

不過比gx10便宜一半 ~~可以一次買兩台~~

benlau (⊚‿‿⊚)

3 weeks ago

Thinker yes

benlau (⊚‿‿⊚)

3 weeks ago

<- 在用AMD RYZEN AI MAX+ PRO 395 w/ Radeon 8060S