前往
大廳
主題

紅蓮受身4

夏洛爾 | 2022-05-17 13:18:30 | 巴幣 0 | 人氣 92


改用SAC訓練

獎勵函數為
1.當距離目標1.5M以上,獎勵往目標移動的速度*視線
2.當距離目標1.5M以內,獎勵視線

新電腦加上GPU與CUDA後訓練速度和舊電腦相比快得嚇人

不過紅蓮變成了奇怪的類企鵝生物
SAC是否有泛用性目前不明
根據成果暫時可能為
1.獎勵函數不能離散,例如如上面獎勵函數會根據距離有項目失效
2.SAC有泛用性但紅蓮的設計或參數設置導致結果不好

下個實驗將
1.暫時重新採用PPO
2.將把離散獎勵,改為獨立Model,使用SetModel切換

以便先確認SetModel的效果
2.


創作回應

更多創作