光動嘴就能玩原神!用AI切換角色,還能攻擊敵人,網(wǎng)友:“綾華,使用神里流·霜滅”
說到這兩年風靡全球的國產(chǎn)游戲,原神肯定是當仁不讓。
根據(jù)5月公布的本年度Q1季度手游收入調(diào)查報告,在抽卡手游里《原神》以5.67億美金的絕對優(yōu)勢穩(wěn)穩(wěn)拿下第一,這也宣告《原神》在上線短短18個月之后單在手機平臺總收入就突破30億美金(大約RM130億)。
如今,開放須彌前最后的2.8海島版本姍姍來遲,在漫長的長草期后終于又有新的劇情和區(qū)域可以肝了。
不過不知道有多少“肝帝”,現(xiàn)在海島已經(jīng)滿探索,又開始長草了。
寶箱總共182個+1個摩拉箱(不計入)
長草期根本沒在怕的,原神區(qū)從來不缺整活兒。
這不,在長草期間,就有玩家用XVLM+wenet+STARK做了一個語音控制玩原神的項目。
比如,當說出“用戰(zhàn)術(shù)3攻擊中間的火史萊姆”時,鐘離先是一個套盾,凌華一個霰步后緊接著一個“失禮了”,團滅了4只火史萊姆。
同樣,在說出“攻擊中間的大丘丘人”后,迪奧娜長E套盾,凌華緊接著一個E然后3A一重漂亮地收拾掉了兩只大丘丘人。
可以在左下方看到,整個過程都沒有用手進行任何操作。
文摘菌直呼內(nèi)行,以后打本連手也能省了,并表示媽媽再也不用擔心玩原神玩出腱鞘炎了!
目前該項目已經(jīng)在GitHub上開源:
GitHub鏈接:
https://github.com/7eu7d7/genshin_voice_play
好好的原神,硬是被玩成了神奇寶貝
這樣的整活項目自然也是吸引到了不少原神長草玩家的目光。
比如有玩家就建議到,可以設(shè)計得更中二一點,直接用角色名加技能名,畢竟“戰(zhàn)術(shù)3”這樣的指令觀眾也無法第一時間知道,而“鐘離,使用地心”就很容易代入游戲體驗。
更有網(wǎng)友表示,既然都能對怪指令,那是不是也可以對人物語音,比如“龜龜,使用霜滅”。
龜龜每日疑惑.jpg
不過,這么這些指令怎么看上去有股似曾相識的味道?
對此up主“薛定諤の彩虹貓”表示,喊技能的話語速可能會跟不上,攻擊速度會變慢,這才自己預(yù)設(shè)了一套。
不過像是一些經(jīng)典隊伍,比如“萬達國際”“雷九萬班”的輸出手法倒也算是相對固定,預(yù)設(shè)攻擊順序和模式似乎也行得通。
當然除了玩梗之外,網(wǎng)友們也在集思廣益,提出了不少優(yōu)化意見。
比如直接用“1Q”讓1號位角色放大招,重擊用“重”表示,閃避則用“閃”,這樣的話下達指令也能更簡單迅速一些,或許還能用來打深淵。
也有內(nèi)行玩家表示,這個AI似乎有點“不大理解環(huán)境”,“下一步可以考慮加上SLAM”,“實現(xiàn)360度的全方位目標檢測”。
up主表示,下一步要做“全自動刷本,傳送,打怪,領(lǐng)獎勵一條龍”,那似乎也還可以加一個自動強化圣遺物功能,歪了就把AI格式化了。
原神區(qū)硬核整活up主還出過“提瓦特釣魚指南”
正如文摘菌所說,原神區(qū)從不缺整活兒,而這位up主“薛定諤の彩虹貓”應(yīng)該是其中最“硬核”的了。
從“AI自動擺放迷宮”,到“AI自動演奏”,原神出的每個小游戲可以說是應(yīng)AI盡AI了。
其中文摘菌也發(fā)現(xiàn)了“AI自動釣魚”項目(好家伙原來也是你),只需要啟動程序,提瓦特的魚全都能變成囊中之物。
原神自動釣魚AI由兩部分模型組成:YOLOX和DQN:
YOLOX 用于魚的定位和類型的識別以及魚竿落點的定位;
DQN 用于自適應(yīng)控制釣魚過程的點擊,讓力度落在最佳區(qū)域內(nèi)。
此外,該項目還用到了遷移學習、半監(jiān)督學習來進行訓練。模型也包含了一些使用opencv等傳統(tǒng)數(shù)字圖像處理方法實現(xiàn)的不可學習部分。
項目地址:
https://github.com/7eu7d7/genshin_auto_fish
等3.0更新后還需要釣魚獲得的“咸魚弓”,就拜托你了!
那些把原神變成神奇寶貝的“神器”
作為一個嚴肅的人,文摘菌覺得也有必要給大家科普一下這次原神語音項目用到的幾個“神器”。
X-VLM是一種基于視覺語言模型(VLM)的多粒度模型,由圖像編碼器、文本編碼器和跨模態(tài)編碼器組成,跨模態(tài)編碼器在視覺特征和語言特征之間進行跨模態(tài)注意,以學習視覺語言對齊。
學習多粒度對齊的關(guān)鍵是優(yōu)化X-VLM:1)通過結(jié)合邊框回歸損失和IoU損失,在給定關(guān)聯(lián)文本的圖像中定位視覺概念;2)同時,通過對比損失、匹配損失和掩碼語言建模損失,將文本與視覺概念進行多粒度對齊。
在微調(diào)和推理中,X-VLM可以利用學習到的多粒度對齊來執(zhí)行下游的V+L任務(wù),而無需在輸入圖像中添加邊框注釋。
論文鏈接:
https://arxiv.org/abs/2111.08276
WeNet是一個面向生產(chǎn)的端到端語音識別工具包,在單個模型中,它引入了統(tǒng)一的兩次two-pass (U2) 框架和內(nèi)置運行時來處理流式和非流式解碼模式。
就在今年7月初的時候,WeNet推出2.0版本,并在4個方面進行了更新:
U2++:具有雙向注意力解碼器的統(tǒng)一雙通道框架,包括從右到左注意力解碼器的未來上下文信息,以提高共享編碼器的表示能力和重新評分階段的性能;
引入了基于n-gram的語言模型和基于WFST的解碼器,促進了富文本數(shù)據(jù)在生產(chǎn)場景中的使用;
設(shè)計了統(tǒng)一的上下文偏置框架,該框架利用用戶特定的上下文為生產(chǎn)提供快速適應(yīng)能力,并在“有LM”和“無LM”兩大場景中提高ASR準確性;
設(shè)計了一個統(tǒng)一的IO來支持大規(guī)模數(shù)據(jù)進行有效的模型訓練。
從結(jié)果上看,WeNet 2.0在各種語料庫上比原來的WeNet實現(xiàn)了高達10%的相對識別性能提升。
論文鏈接:https://arxiv.org/pdf/2203.15455.pdf
STARK是一種用于視覺跟蹤的時空變換網(wǎng)絡(luò)。基于由卷積主干、編解碼器轉(zhuǎn)換器和bounding box預(yù)測頭組成的baseline的基礎(chǔ)上,STARK做了3點改進:
動態(tài)更新模板:以中間幀作為動態(tài)模板加入輸入中。動態(tài)模板可捕獲外觀變化,提供額外時域信息;
score head:判斷當前是否更新動態(tài)模板;
訓練策略改進:將訓練分為兩個階段1)除了score head外,用baseline的損失函數(shù)訓練。確保所有搜索圖像包含目標并讓模板擁有定位能力;2)用交叉熵只優(yōu)化score head,此時凍結(jié)其他參數(shù),以此讓模型擁有定位和分類能力。
論文鏈接:
https://openaccess.thecvf.com/content/ICCV2021/papers/Yan_Learning_Spatio-Temporal_Transformer_for_Visual_Tracking_ICCV_2021_paper.pdf