主題

紅蓮追逐12

夏洛爾 | 2021-06-25 18:02:35 | 巴幣 2 | 人氣 129

仍然是走得很慢又不順，其中有觀察到的現象是，有隨機出生速度時，訓練過程還是有強烈去維持慣性的傾向 (單腳伸直去順勢彈跳)

所以下個實驗可能又要把出生速度拿掉了，取而代之是加上出生前傾

另外之前體能有可能壓過頭了，下個實驗會將體能提升為2倍

Experiment design:

1.lastReward = (1f- avgVelocityAngle/180f) * smoothAvgVelocity.magnitude * 0.1f;

2.出生水平面向球方向，前傾

3.取消出生隨機的水平速度

4.Decision interval = 5

5.Velocity buffer = 10

6.beta=5.0e-2

7.Time Horizon=250

8.調降紅蓮體能

Max joint spring從10000調整成2000

Joint Damper從100調整成30

Max joint force limit從25000調整成5000

9.learning_rate_schedule=constant

最後是還沒想清楚，應該會是比較後面的實驗

其一是移動的基礎是腳部動作，所以其實上半身捲進來在當前實驗可能只是製造額外複雜度，所以有可能產生兩個新方向，一個是只用腳部去訓練，上半身先僵化，另一個是加入需要上半身的問題，例如原定要有追擊的敵人

其二是也許可以嘗試將動作離散和模組化，例如右腳只有彎曲和伸直兩個動作，而不是像至今可以隨意調整角度甚至力度，藉由把肢體選項簡單化，雖然在最佳解上可能會遜色許多，但有可能ML會能比較好的探索肢體組合，而不會像目前很容易受困於奇怪的動作

1