Sora 看起來是對於語意分割之類的 CV 難點擁有很好的表現,可以維持很多形象在序列和邏輯上的連續性、穩定的一貫狀態,只是有時候細節會變形。其實看起來有點像在作夢。 問題就在這裡了,人腦其實也很難長時間維持這麼清晰、細節不變換的影像輸出,就放在大腦裡面想像吧,或者做夢吧,細節也很難那麼清楚。 所以類神經網路模型發展到現在,有能力直接輸出連續且合理的影像是必要的嗎?就發展通用型 AI 而言,這難道不是一種對於認知能力的 overfitting?人類大可以為 AI 設計一些其他適當的工具,讓 AI 能進行創作,而非直接輸出他的想像,還以非常高的標準去要求成品吧。