DaveC 奇客Solidot | 世界模型真要来了？Google 的第三代Dreamer算法，除了能完成150余种...世界模型(world models)vs大型語言模型 (large language mo - #3h66ijgpg3

7 months ago @Edit 7 months ago

奇客Solidot | 世界模型真要来了？Google 的第三代Dreamer算法，除了能完成150余种...

世界模型(world models)
vs
大型語言模型 (large language model. LLM)
---
Google 翻譯什麼時候可以把 LLM - 法學碩士權重調下去啊！一直看到法學碩士，害我想修一個來玩玩~~~

latest #6

DaveC

7 months ago

Dreamer 3 演算法在150余個不同類型控制任務中的表現都非常出色，不同於其他的強化學習演算法，不同環境下都需要重新訓練或大量人工干預，Dreamer 3不需要調整資料和參數，只需要一套固定的參數組態就可以完成不同環境下的不同類型任務。

DaveC

7 months ago

電腦科學家楊立昆（LeCun Yann）前段時間在講世界模型時認為，未來模型的基礎不是token，而是要像人一樣去理解世界。

人類之所以能夠掌握多種技能，很大程度上是因為我們有能力在頭腦中模擬動作的結果，預測未來可能發生的情況，然後據此調整自己的行為。這種"在腦中預演"的能力是我們適應性學習的關鍵。

Dreamer 3演算法就是類似這樣的工作機制，在不利用任何先驗資料的情況下，僅通過強化學習激勵就形成了世界模型，具備在不同環境下腦補“未來”，感知和適應世界的能力。

DaveC

7 months ago

研究背景：十年磨一劍的"世界模型"探索

Dreamer 3由Google DeepMind和多倫多大學的研究團隊共同完成，論文於2025年4月2日在《自然》雜誌上正式發表，並於2025年4月17日作為第640卷的一部分出版。

研究延續了團隊在"世界模型"領域的長期積累——從2019年第一代Dreamer專注機器人控制，到第二代徵服雅達利遊戲，再到如今第三代實現跨領域通用。

立即下載

DaveC

7 months ago

核心成果：會"做夢"的AI

Dreamer3演算法的核心成果可以用一個簡單的比喻來解釋：它就像是一個會"做白日夢"的AI。當我們人類學習新技能時，比如學習騎自行車，我們不僅僅是通過實際嘗試來學習，還會在腦海中想像自己騎車的場景，預測可能的結果，然後據此調整自己的行為。

Dreamer3演算法正是模擬了這種人類的學習方式。

DaveC

7 months ago

Dreamer演算法由三個關鍵元件組成：世界模型、“評論員”和“執行者”。

世界模型負責預測未來，理解眼前的場景並根據行動預測未來畫面。就像是一個能夠想像"如果我這樣做會發生什麼"的大腦。當Dreamer看到一個場景時，它不只是被動地反應，而是主動地預測接下來可能發生的事情。這個世界模型通過觀察環境的變化來學習，逐漸建立起對世界運作方式的理解。

“評論員”則像是一個內部顧問，它的工作是評估不同行動的價值，為每一種想像中的未來畫面打分。這幫助演算法區分好的行動和壞的行動。

“執行者”根據世界模型的預測和“評論員”的評分，選擇最有可能帶來好結果的行動。

DaveC

7 months ago

Mastering diverse control tasks through world models