Login
Sign Up For Free
English
中文 (繁體)
中文 (香港)
中文 (简体)
日本語
Filipino
Bahasa Indonesia
Bahasa Melayu
Pусский
Português (Brasil)
Magyar
Français
Español
Deutsch
Čeština
العربية
Català
Dansk
Ελληνικά
فارسی
Suomi
Gaeilge
Hindi
עברית
Hrvatski
Italiano
Norsk bokmål
Nederlands
한국어
Polski
Română
Slovenský
Svenska
Türkçe
українська
беларуская
ไทย
Standard view
DaveC
7 months ago
@Edit 7 months ago
奇客Solidot | 世界模型真要来了?Google 的第三代Dreamer算法,除了能完成150余种...
世界模型(world models)
vs
大型語言模型 (large language model. LLM)
---
Google 翻譯 什麼時候可以把 LLM - 法學碩士權重調下去啊! 一直看到 法學碩士,害我想修一個來玩玩~~~
latest #6
DaveC
7 months ago
Dreamer 3 演算法在150余個不同類型控制任務中的表現都非常出色,不同於其他的強化學習演算法,不同環境下都需要重新訓練或大量人工干預,Dreamer 3不需要調整資料和參數,只需要一套固定的參數組態就可以完成不同環境下的不同類型任務。
DaveC
7 months ago
電腦科學家楊立昆(LeCun Yann)前段時間在講世界模型時認為,未來模型的基礎不是token,而是要像人一樣去理解世界。
人類之所以能夠掌握多種技能,很大程度上是因為我們有能力在頭腦中模擬動作的結果,預測未來可能發生的情況,然後據此調整自己的行為。這種"在腦中預演"的能力是我們適應性學習的關鍵。
Dreamer 3演算法就是類似這樣的工作機制,在
不利用任何先驗資料的情況下,僅通過強化學習激勵就形成了世界模型
,具備在不同環境下腦補“未來”,感知和適應世界的能力。
DaveC
7 months ago
研究背景:十年磨一劍的"世界模型"探索
Dreamer 3由Google DeepMind和多倫多大學的研究團隊共同完成,論文於2025年4月2日在《自然》雜誌上正式發表,並於2025年4月17日作為第640卷的一部分出版。
研究延續了團隊在"世界模型"領域的長期積累——從2019年第一代Dreamer專注機器人控制,到第二代徵服雅達利遊戲,再到如今第三代實現跨領域通用。
立即下載
DaveC
7 months ago
核心成果:會"做夢"的AI
Dreamer3演算法的核心成果可以用一個簡單的比喻來解釋:它就像是一個會"做白日夢"的AI。當我們人類學習新技能時,比如學習騎自行車,我們不僅僅是通過實際嘗試來學習,還會在腦海中想像自己騎車的場景,預測可能的結果,然後據此調整自己的行為。
Dreamer3演算法正是模擬了這種人類的學習方式。
DaveC
7 months ago
Dreamer演算法由三個關鍵元件組成:世界模型、“評論員”和“執行者”。
世界模型負責預測未來,理解眼前的場景並根據行動預測未來畫面。就像是一個能夠想像"如果我這樣做會發生什麼"的大腦。當Dreamer看到一個場景時,它不只是被動地反應,而是主動地預測接下來可能發生的事情。這個世界模型通過觀察環境的變化來學習,逐漸建立起對世界運作方式的理解。
“評論員”則像是一個內部顧問,它的工作是評估不同行動的價值,為每一種想像中的未來畫面打分。這幫助演算法區分好的行動和壞的行動。
“執行者”根據世界模型的預測和“評論員”的評分,選擇最有可能帶來好結果的行動。
DaveC
7 months ago
Mastering diverse control tasks through world models
back to top
Delete
Reply
Edit
Cancel
Cancel