算是目前最卓越的成果
在不依賴魔力之核的情況下
有相當穩定的移動能力,尤其這次看起來有用上膝關節
另外擁有算是非常靈活的轉身能力
可以認為對紅蓮來說關鍵的Hidden Layer不能太低
下個實驗將嘗試提高紅蓮的追逐速度
目前推測可能選項有
1.嘗試提高紅蓮身體能力
2.改良獎勵演算法
3.提高訓練次數
考慮這幾次到達100M訓練次數時,紅蓮得分趨勢都還在線性成長
所以一定會包含3
然後應該再包含2
由於當前演算法是鼓勵紅蓮對球的方向做出速度
但由於目標是一個會毫無前兆改變動量的物體,因此似乎導致紅蓮不會輕易加速
因為可能隨時都會需要改變方向
預計下個實驗會將演算法改為鼓勵距離縮短和大幅獎勵碰撞目標
===更新==
下個實驗將進行以下改動
Decision Interval=2
增加對目標物件碰撞的Observation
碰撞將Reward (Max(relativeMagnitude) * 0.1f);
Reward = upAngle*lookAngle + smoothAvgFloat * 0.1f / Time.fixedDeltaTime