要點:
1、中國科學院自動化研究所與倫敦大學學院合作,將最近興起的LLMAgent技術(shù)應(yīng)用于星際爭霸II的AI研究。
2、團隊通過LLM理解與分析能力來提高星際AI的長期戰(zhàn)略規(guī)劃與可解釋性決策。
3、在測試中,LLMagent涌現(xiàn)出了超越AlphaStar的危險預(yù)測和兵種轉(zhuǎn)型能力,以及前期快攻、前期偵察等類人策略。
站長之家(ChinaZ.com) 12月29日 消息:面對星際爭霸II這一巨大挑戰(zhàn),團隊開發(fā)了TextStarCraftII——一個全新的交互環(huán)境。TextStarCraftII基于python-sc2框架,將游戲中的狀態(tài)信息和動作空間映射到文本空間。宏觀戰(zhàn)略動作被轉(zhuǎn)化為LLMAgent能夠理解并執(zhí)行的具體語義動作,而微觀操作則交由一套固定的規(guī)則式方法處理。LLMagent能夠在全新的戰(zhàn)場上與游戲內(nèi)置的AI展開較量。
論文地址:https://arxiv.org/pdf/2312.11865.pdf
項目地址:https://github.com/histmeisah/Large-Language-Models-play-StarCraftII
在星際爭霸II的戰(zhàn)場上,進行有效決策需要及時處理大量復(fù)雜信息,進行合理的戰(zhàn)略分析與長期規(guī)劃,最終制定宏觀戰(zhàn)略決策。團隊創(chuàng)新性地提出了「ChainofSummarization」方法。
該方法通過單幀總結(jié)和多幀總結(jié),提高了LLM在復(fù)雜環(huán)境中的理解和決策能力。在驗證ChainofSummarization方法的有效性方面,團隊選擇了GPT-3.5-turbo-16k作為LLM。結(jié)果表明:ChainofSummarization不僅將LLM與游戲端的交互速度提升了十倍,還顯著增強了模型對游戲情境的理解及決策能力。
團隊精心設(shè)計了一套復(fù)雜的提示詞系統(tǒng),包括游戲狀態(tài)總結(jié),狀態(tài)分析,策略建議,最終決策。模型能夠全面理解游戲的當前局勢,分析敵我雙方的策略,并提出具有戰(zhàn)略深度的建議,最終做出多步的合理決策。這極大地提高了LLM的實時決策能力和長期規(guī)劃能力,也極大提升了決策的可解釋性。
(舉報)