微軟近日在游戲領域邁出了重要一步,宣布推出名為Muse的新一代生成式AI模型,這一創新成果已在Nature雜志上發表。Muse的核心在于其“世界與人類行為模型”(WHAM),該模型通過深度學習Bleeding Edge游戲七年來的玩家數據,形成了對3D空間中物體、角色及環境交互方式的深刻理解。
為了構建這一模型,微軟團隊處理了約50萬場匿名化的游戲對局錄像,總計27.89TB的數據量,相當于七年持續游戲時間的總和。這些數據被精簡為每秒10幀,最終產生了約14億幀的訓練樣本。團隊還準備了一個包含“Skygarden”地圖上一年游戲數據(3.1億幀)的小型數據集,用于快速實驗驗證。
Muse的技術架構基于主流的Transformer模型,擁有16億參數,能夠處理每秒10幀的游戲畫面及控制器輸入序列。在數據編碼上,模型采用VQGAN技術,將每幀300×180分辨率的游戲畫面壓縮為540個離散標記,詞表大小達16,384個。對于Xbox手柄的輸入,模型則將左右搖桿的x、y坐標離散化為11個區間,并處理按鍵的離散狀態。
WHAM的訓練采用了兩階段策略,首先是VQGAN編碼器/解碼器的訓練,以確保壓縮后的圖像質量,并通過GAN損失提升生成效果。第二階段則是Transformer的因果預測訓練,使用交叉熵損失預測下一個標記。訓練過程中,最大規模的模型使用了AdamW優化器,學習率從0.0008按余弦退火至0.00008。
Muse模型在一致性、多樣性和持久性方面表現出色。一致性通過比較生成的10秒視頻序列與真實游戲錄像的Fréchet視頻距離來評估,結果顯示模型能生成長達2分鐘的連貫序列。多樣性則采用Wasserstein距離,比較生成的控制器操作序列與真實玩家行為的分布差異,模型展現出行為多樣性和視覺多樣性。持久性測試顯示,當輸入5幀或以上的編輯畫面時,模型能在后續生成的畫面中保持85%以上的編輯內容。
微軟表示,Muse的應用場景廣泛,包括游戲原型開發、經典游戲的現代化改造、游戲資產生成及NPC行為模擬等。然而,盡管微軟對Muse的前景充滿信心,并訪談了全球27位游戲創作者以確保研究方向符合行業需求,但開發者群體對此反應強烈,甚至引發爭議。
資深游戲開發者David Goldfarb在社交媒體上直言不諱地批評Muse,認為生成式AI對游戲行業無益,反而可能貶低和剝奪游戲開發者和藝術家的美學積累。他擔憂我們正失去工藝,依賴這些技術實際上是在賦權給那些不關心技術如何重塑我們生活的人。
一位匿名AAA游戲工作室開發者指出,Xbox在人才流失的同時卻在生成式AI上投入巨資,無視市場對此技術的冷淡態度。該開發者還擔憂,在游戲行業動蕩的背景下,所有人都害怕因反對AI而失去工作,因此內部討論變得沉默。
據WIRED此前的調查報道,游戲行業正經歷大規模裁員,同時AI正逐步取代人工開發者的工作。僅2023年至今,游戲行業已裁員數千人,這一趨勢在2025年仍在持續。例如,Unity引擎開發商最近宣布了新一輪裁員計劃。
盡管業內對AI在游戲開發中的應用并非完全否定,但普遍認為AI在原型設計階段可能提供幫助。然而,開發者強調,原型設計既重視過程也重視結果,親歷這一過程才能獲得所有學習,快速原型設計是一項無法簡單繞過的寶貴技能。
微軟游戲AI部門副總裁Fatima Kardar在公告中表示,希望通過合作和負責任的方式引導生成式AI支持游戲行業和創作社區。然而,從開發者們的反應來看,微軟要說服他們接受這項技術,顯然還有很長的路要走。