前往
大廳
主題

紅蓮追逐10

夏洛爾 | 2021-06-23 14:12:42 | 巴幣 0 | 人氣 110

原定1e-3的實驗組,初期10M顯示傾向為完全無法學習,因此修改回3.0e-4
將learning rate調整為constant之後,似乎持續訓練的效果比較好
但是實驗在34.71M發生一個劇烈的得分下降,不清楚發生了什麼事

另外請教朋友和實驗後驗證,ML Vector Action的範圍為 [-1, 1]隨機
而這個影片是實驗肢體的"反應速度"
相較較高的Decision interval,低Decision interval(1)會導致肢體來不及反應,而變成看似無法動作,並且肢體會趨於中位數
因此雖然會降低反應時間,但應該調整回和肢體移動速度更為匹配的Decision interval
同時若高Decision interval應可取消hip remap機制

根據前10個研究統合
適合下個實驗的參數為
1.lastReward = (1f- avgVelocityAngle/180f) * smoothAvgVelocity.magnitude * 0.1f;
2.出生水平面向球方向,無顯著前傾
3.出生有隨機的水平速度
4.Decision interval = 5
5.Velocity buffer = 10
6.beta=5.0e-2
7.Time Horizon=250
8.調降紅蓮體能
Max joint spring從10000調整成1000
Joint Damper從100調整成20
Max joint force limit從25000調整成2500
9.learning_rate_schedule=constant

創作回應

更多創作