Login
Sign Up For Free
English
中文 (繁體)
中文 (香港)
中文 (简体)
日本語
Filipino
Bahasa Indonesia
Bahasa Melayu
Pусский
Português (Brasil)
Magyar
Français
Español
Deutsch
Čeština
العربية
Català
Dansk
Ελληνικά
فارسی
Suomi
Gaeilge
Hindi
עברית
Hrvatski
Italiano
Norsk bokmål
Nederlands
한국어
Polski
Română
Slovenský
Svenska
Türkçe
українська
беларуская
ไทย
Standard view
Thinker
3 weeks ago
@Edit 3 weeks ago
搞了幾周在 local run LLM 的實驗,最後發覺回應時間的瓶頸不在於 model 本身,反而是饋資料給 GPU。每一回合都會花好幾秒等待 prefill。看一下 GPU 使用率,發覺至少有兩倍提升的空間。而 GPU 的速度,似乎能成長的空間也不大。以個人使用而言,就算花大錢買 h100,也只是 3090 的 1.5 ~ 2 倍。
成果: gpt-oss:20b + 3090 進行大程式庫 (Linux or Firefox) 的分析已沒問題。
主要剋服的問題: context 太大,LLM 很容易迷失方向。
解法:要求 agent 所做 plan。並要求 agent 不斷把問題和看過完程式碼後的解答記錄下來。並馬上把程式碼從 conversation 中抹除,以維持 context 的大小。
latest #19
Thinker
3 weeks ago
agent 的主要 context 是它自己產生的筆記,而不是程式碼。
Thinker
3 weeks ago
把大量程式餵給 LLM,除了 context window 的大小限制外, agent 也很容易迷失。讓 agent 不斷做摘要,依靠摘要決定下一步,反而能確保 agent 順利完成任務。
Thinker
3 weeks ago
中國的一些 model 說的很神,測試之後,還是不如 gpt-oss 穩。
立即下載
Thinker
3 weeks ago
ollama 的 prefill 效率低。之後有空再來解決。
Thinker
3 weeks ago
還沒試過用這樣的組合寫程式,看在分析程式碼方面,已能達到和 Claude code 類似的效果。
Thinker
3 weeks ago
心得: model 不需要強大,重點在於能理性並老老實實的進行分析。太多知識的 model ,反而造成麻煩,容易把 model 記憶中的東西摻入分析的過程,反而產生和程式碼不符的結果。
Thinker
3 weeks ago
在程式碼分析的這個應用中, model 最好是只懂程式語言和 coding,並有系統運作的知識就好。其它多餘的知識反而容易做出錯誤的假設。
Thinker
3 weeks ago
context 也不用太大,只要能容納下筆記就夠了。甚至不需要能看幾千幾萬行的程式碼。就像人類,一次頂多看個一百行的範圍就夠了。如果程式碼很大,就讓 model 自己分多次讀不同的部分。和人類的做法差不多。
Thinker
3 weeks ago
從這個角度來看,小模型的應其實還有很大的開發空間 。試著順著這個思路建立一個知識庫+專家系統。
Thinker
3 weeks ago
要求 llm 對寫入筆記的內容都要有證據,這一點也很重要。以免摻入 LLM 本身的記憶。
永遠的真田幸村
3 weeks ago
就是特化在某些領域的就夠用 相信會有很好的發展
benlau (⊚‿‿⊚)
3 weeks ago
DGX Spark的GPU比AMD及Mac M4都強很多,但整體性能卻沒有那麼突出,據說就是這個原因
永遠的真田幸村
3 weeks ago
@Edit 3 weeks ago
benlau
: 對
Gb10的優點反而是省電和可以堆疊
NVIDIA DGX Spark GB10 發售次月現況,用戶逐步打造小型 AI 運算叢集
Thinker
3 weeks ago
ivanusto
: 我在研研究的過程中發現其實 Apple powerbook CPU 和 GPU 共用 unified memory,其實己能達到類似的能力。雖然 128G 的版本也不便宜。但,某些使用 AMD CPU 的 mini pc 也有這這樣的能力。如果考慮到大型的模型的話,也是個選擇。
Amazon.com: GEEKOM A9 Max AI Mini PC with AMD Ryzen ...
這台據說能換 ram,加到 128G。能直接把 RAM 分給 GPU 使用,有點慢就是了。
Dev Workloads and LLMs… under $1000
Thinker
3 weeks ago
benlau
: 你是指 prefill?
永遠的真田幸村
3 weeks ago
Thinker
: AMD Ryzen AI 9 HX 370這台或類似的朋友有試過,會跑滿慢的
永遠的真田幸村
3 weeks ago
不過比gx10便宜一半
可以一次買兩台
benlau (⊚‿‿⊚)
3 weeks ago
Thinker
yes
benlau (⊚‿‿⊚)
3 weeks ago
<- 在用AMD RYZEN AI MAX+ PRO 395 w/ Radeon 8060S
back to top
Delete
Reply
Edit
Cancel
Cancel