前往
大廳
主題

紅蓮受身5

夏洛爾 | 2022-05-19 15:42:52 | 巴幣 100 | 人氣 104


姑且算成功實現受身的研究目標,紅蓮在受到衝擊後會設法站立,或是在倒地後設法起身
本次研究採用PPO

以下認為是關鍵突破點
1.外力影響應該用現象呈現
由於ML是對於隨機動作來歸納"結果"的原理
先前會在隨機時間對紅蓮進行隨機向量的衝擊,但是如果發生在訓練過程又非觀察項,可能會被ML當成"結果",也就是ML會誤以為是自己的某個動作導致了衝擊效果,而持續產生很多錯誤歸納

所以因此先前研究在有外力的環境都傾向表現拙劣

而早期無人機閃避武士刀,或是官方的多AI互動範例,應該要認為是觀察項是"連續"的外力
而先前紅蓮閃躲子彈的研究,雖然子彈飛行是連續的,但是子彈的射擊位置實際上也是"隨機的"
大概這種觀察以外的"離散"項目,會影響ML進行合適的歸納

因此外力影響應該用現象呈現,例如受到衝擊後對策,應該是一開始就受到衝擊並進行對抗,而非動作期間發生衝擊事件

2.Cirrulum Learning
由於ML有發展出gait並延用的傾向,因此誘導其先生成合適gait,再加入外力現象或難度變化,在本次實驗確立這種設計的有效性

本次實驗紅蓮是先在無外力的情況下進行目標追逐,後續才逐漸增加衝擊力道

3.Force Sharping
本次實驗出現的不理想之處是,紅蓮的移動很笨拙,而且其實沒有朝向目標移動

根據先前研究的結論,後續可加入 Force Sharping (自創名詞)
也就是逼迫不好的類型要立即被淘汰,目前仍然理由不明,但可能是紅蓮複雜度過高
因此在產生gait後,紅蓮就幾乎不會改變動作類型,優化引導只會在其gait上進行優化,所以根據先前研究,最好加入斬殺速度慢或是追擊角度不夠精準的類型,來強制紅蓮發展出高效類型的gait

4.Set Model
本次實驗沒有採用,但可以認為是 "容易使用" 但"不容易訓練"
在訓練過程中切換model在測試上是可行的,但是獎勵函數的計算變得相當難以理解,也因此目前不知道怎麼設計切換型的訓練

但大概可以直接訓練相同觀察項,但不同目標或模式的模型,在主動進行情況偵測與切換


由於先前幾次嘗試SAC訓練都沒有得出成功的受身結果 (外力發生在動作期間的版本)
但是有意外誕生會靜止站立的紅蓮
其餘成果也都傾向靜止類型

因此下個研究將
1.完全不改動環境
2.使用SAC進行訓練

看看是否會發產出不同類型的受身和移動策略,以便後續能選擇或混用合適的訓練類型

創作回應

更多創作