改成距離描述獎勵後目前並沒有顯著成果
目前都先固定目標的球,暫時取消球的移動,先不讓紅蓮被球的主動接近或遠離困惑
*smoothAvgFloat 為紅蓮和目標距離變化的Smooth數值
第一版本描述式
lastReward = upAngle * lookAngle * smoothAvgFloat * 5f
Smooth Buffer = 10
推測smoothAvgFloat值太難以出現高水平數值,紅蓮變成以前向下墜為傾向
第二版描述式
lastReward = upAngle * lookAngle * (0.1f + smoothAvgFloat * 5f)
Smooth Buffer = 10
紅蓮變為殭屍跳,推測一樣因為位移難以出現高水平數值,在此描述式紅蓮太容易優先著重頭部視野,導致位移在其影響下發展成殭屍跳
目前進行第三版描述式
lastReward = upAngle * lookAngle * smoothAvgFloat * 5f + 0.01f;
Smooth Buffer = 20
0.01f的常數值為基礎存活分,避免紅蓮有自盡傾向
smoothAvgFloat * 5f 為 FixedDeltaTime = 0.02 的條件下,假設縮短速度是 10m/s 得分係數為1 的換算數值 ( /10 / 0.02 = *5)