切換
舊版
前往
大廳
主題

Header

kbkbowo | 2022-04-19 13:03:00 | 巴幣 20 | 人氣 201

更:把 Neural Program Synthesis 更正為 Neural Program Learning,因為後者包含 NPS 和另一個技術 NPI(Neural Program Induction),後面很快會介紹這兩個的差別

老師剛剛丟給我一排論文叫我讀,想說讀都讀了不如就順便紀錄一下心得。
領域是 Neural Program Learning,一個近五年才興起的很新的領域。
這個大概算是 RL 的子領域,目標是讓機器能夠產生一些可執行的程式,像 Alphacode 也是在做差不多的事。

傳統的 RL 框架是直接讓機器 End to end 去學一個 high level expression 所對應到的所有細節動作。沒錯這樣也是有機會 train 起來,但很多眉眉角角沒注意到的話也很容易直接 train 爛。增加訓練資料可能對結果有幫助,但在現實世界中不論是跟環境互動或是收集訓練資料的成本都是很高的。

因為 End to end 的任務太難,於是就有人提出了另一種框架,先由一個 Generator 產生一串可執行的簡單指令 ,再把這些指令丟給終端的機器去執行,指令的執行細節這邊我們才用 RL 去訓練。由於這些簡單的指令不涉及任何抽象的 expression ,就像是我們一般在寫的程式一樣都是明確會知道該怎麼做,所以這樣的做法可以很大的簡化 RL 需要在與現實世界的互動中學到的東西。而 Generator 的部分完全可以架一個虛擬的環境讓他自己訓練,就免去了與現實世界互動成本太高的問題。

換言之,我們只會訓練一個能接收並順利執行指令的 Agent, Agent 並不需要去管任何 high level 的 task expression,因為 Generator 會負責把這些東西轉換成 Agent 看得懂的指令。這麼做比起直接訓練一個全知全能的 Agent 會有很多好處,在上一段都有提到就不贅述了。而 Neural program synthesis 大概就是在研究如何做一個好的 Generator 。

目前的閱讀清單如下,之後心得會更新在這個資料夾

創作回應

邊緣人
廢物來看看神人的對話
2022-04-19 13:15:37
kbkbowo
窩...窩才廢物
2022-04-19 13:21:07
高能兔
大佬椒麻...
2022-04-19 13:16:01
kbkbowo
椒都椒><
2022-04-19 13:20:50
kbkbowo
為甚麼沒人提醒我有錯字啦XDDD
2022-04-19 13:37:53
kbkbowo
---這是為了滿足強迫症的傀儡回應---
2022-04-19 17:49:07
致命節奏(太快了吧)
https://truth.bahamut.com.tw/s01/202204/45cbe95126f75b8d4603bfb626a3b685.JPG
2022-04-19 14:01:13
kbkbowo
完全理解[e3]
2022-04-19 17:48:05
最後的疼愛是腿張開
趕緊按推 免得被人發現都看不懂
2022-04-19 14:03:04
kbkbowo
老師禁止裝弱==
2022-04-19 17:47:41

更多創作