以加强式学习建构机器人行为融合演算法.ppt

以加强式学习建构机器人行为融合演算法.ppt

ID:52028842

大小:4.20 MB

页数:49页

时间:2020-03-30

以加强式学习建构机器人行为融合演算法.ppt_第1页
以加强式学习建构机器人行为融合演算法.ppt_第2页
以加强式学习建构机器人行为融合演算法.ppt_第3页
以加强式学习建构机器人行为融合演算法.ppt_第4页
以加强式学习建构机器人行为融合演算法.ppt_第5页
资源描述:

《以加强式学习建构机器人行为融合演算法.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、以加強式學習建構機器人行為融合演算法中正大學電機工程學系黃國勝博士2大綱研究動機背景介紹單一行為模仿演算法融合行為學習演算法(FBQL)實驗設計與討論結論與未來展望3研究動機問題一設計機器人行為構成的困難:環境多變需要縝密的考量需要機器人學的知識由實測結果來調整修正HardComputingv.s.SoftComputing4研究動機問題二多個行為如何並存?合作-Behavioralfusion,Gametheory競爭-Subsumption5背景介紹加強式學習Q-Learning決策樹分割法SubsumptionArchitecture加強式學習理論結構a(

2、t)Stateencoder7加強式學習理論結構控制系統與外部環境互動控制系統能接收一組環境狀態S={s1,s2,….,st}控制系統有一組可執行動作A={a1,a2,..at}環境繼以反應一獎勵值rt=r(st,at)環境同時也隨之移轉到一新的狀態st+1=δ(st,at)r,δ環境的一部份,控制系統不需已知8加強式學習理論結構Markovdecisionprocess(MDP)r(st,at),δ(st,at)只相依現有狀態與執行動作政策(policy)的形成控制系統學習政策π:S→A,根據現有狀態st,挑選一最有利的動作at可行的政策需可滿足最大化積累獎勵

3、值Vπ(st)Vπ(st)=rt+rt+1+rt+2+…π*=argmaxVπ(s)foralls9Exampler(s,a)immediaterewardvaluesGGGG0000000000100100000OneoptimalpolicyQ(s,a)valuesV*(s)values819010090100(supposeγ=0.9)V=0+0.9x0+0.92x100+0.93x0...=81V=0+0.9x100+0.92x0+...=90V=100+0.9x0+...=10081817272909090811008181100加強式學習理論結構Ad

4、aptiveHeuristicCritic結構a(t)Stateencoder11背景介紹:Q-Learning直接學習π*:S→A有所困难,因為學習資料少有的形式每當V*(s1)>V*(s2),控制系統較喜的在狀態s1而非狀態s2在狀態s下,最佳的動作a,係可最大化獎勵值-r(s,a)以及以算下一狀態的V*π*=argmaxa[r(s,a)+V*(δ(s,a))]12背景介紹:Q-LearningCorrelatedmeasurementQQ(s,a)=r(s,a)+*(δ(s,a))π*=argmaxaQ(s,a)RelationbetweenQa

5、ndV*V*(s)=maxa‘Q(s,a’)EstimateQ-valueiterativelyQ'(s,a)←r+maxa'Q'(s,a’)13背景介紹:Q-Learning14背景介紹:決策樹分割法15背景介紹:SubsumptionArchitecture16單一行為模仿演算法加強式學習之決策樹分割法(RL-basedDT)決策樹結構狀態空間之加強式學習17加強式學習之決策樹分割法(RL-basedDT)18加強式學習之決策樹分割法(RL-basedDT)純度計算公式:19加強式學習之決策樹分割法(RL-basedDT)切割終止條件:內部節點所包含的區域太

6、小內部節點所包含的資料量太少切割過後,會導致某一邊沒有資料內部節點的純度夠純20加強式學習之決策樹分割法(RL-basedDT)21加強式學習之決策樹分割法(RL-basedDT)葉子節點數22加強式學習之決策樹分割法(RL-basedDT)總純度23加強式學習之決策樹分割法(RL-basedDT)24決策樹結構狀態空間之加強式學習agentenvironmentrewardactionstate25決策樹結構狀態空間之加強式學習26加強式學習之決策樹分割法(RL-basedDT)展示模擬影片展示實體影片27融合行為學習演算法(FBQL)FBQL環境sensor

7、yrewardFusedBehaviorinput狀態標記28融合行為學習演算法(FBQL)29融合行為學習演算法(FBQL)狀態標記法(RL-basedDecisionTree):6y0846x12093分類表示範圍(x,y)N1(0,3,0,8)N2(3,6,0,8)N3(6,9,0,4)N4(9,12,0,4)N5(6,12,4,6)N6(6,9,6,8)N7(9,12,6,8)30融合行為學習演算法(FBQL)狀態標記法(FBQL):state={N5,N1,N7}31融合輸出動作(FusedBehavior):融合行為學習演算法(FBQL)32融合行為

8、學習演算法(FBQL)回

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。