欢迎来到天天文库
浏览记录
ID:32468092
大小:1.96 MB
页数:70页
时间:2019-02-06
《基于强化学习的足球机器人决策系统设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、生直盔堂亟±堂僮监塞埴要摘要足球机器人是当前机器人研究中的一个热点,涉及机器人学、人工智能、智能控制、计算机视觉等多个领域。决策系统作为整个足球机器人系统的核心,决定了机器人间的协调协作,是机器人的“大脑”。因此,决策系统的研究在多机器人、多智能体领域具有十分重要的意义。本论文以足球机器人Mirosot5v5仿真比赛为研究对象,针对传统的决策模型很难满足足球机器人系统在反应性、适应性、智能性和学习能力等方面的要求,提出一种基于改进Q学习的足球机器人两层协作模型。该模型把整个决策系统分为上下两层:协调层和运动控制层。上层协调层针对普通Q学习在环境状态复杂的情况下收
2、敛速度较慢的缺点,通过分析足球机器人比赛的特性,采用模糊聚类的方法把数量众多的系统状态转化为为数不多的模糊状态,从而大大减少了Q学习的状态空间,提高了算法的收敛速度;同时,针对普通Q学习算法易收敛到局部最优,本文通过分析Q学习算法中三个关键参数(学习率a、折扣因子y和温度值T)的作用,提出一种自适应Q学习算法,动态地调整这三个参数,从而实现系统全局最优动作。下层运动控制层,取代传统的机器人作为上层意图的简单执行方法,将下层机器人的控制设计成为一个智能体,主要设计了三个角色的智能体:防守队员、进攻队员和助攻队员,从而减轻协调层的决策任务,提高了系统的实时反应性。本
3、文采用C++编程语言在Windows下编写动态链接库(DLL)程序来实现整个决策子系统的设计。通过在MiroSot足球机器人仿真平台上进行仿真比赛,验证了所设计模型的有效性。关键词:足球机器人,多智能体,Q学习,模糊聚类,两层模型V虫直太望亟±堂焦i金塞△旦S墅丛盟ABSTRACTRobotSocceriSafocusofrobotresearchinrecentyears.Itinvolvesfieldslikerobotics,artificialintelligence,intelligentcontrol,computervisionandSOon.Th
4、estrategysubsystemisthecoreofthewholeRobotSoccersystem,justlikethebrainoftherobots.Itisresponsibleforthecooperationoftherobots.Sotheresearchofthestrategysubsystemhasasignificantmeaningtothemulti—robotandmulti—agentfields.ThisthesisiSbasedontheMirosot5v5simulationcontest.Inordertomeet
5、theRobotSoccersystem’Sneedonreactivity,adaptability,intelligenceandlearningability,adualstrategymodelbasedonimprovedQ—learningisproposed。弧ewholestrategymodelincludestheupperlayer:cooperationlayerandthelowerlayer:movementcontrollayer.ByanalyzingthecharacteroftheRobotSoccermatch,afuzzy
6、clusteringmethodisusedbytheuppercooperationlayertotransferthelarge-quantitysystemstatestoafewfuzzystateswhichreducesthenumberofthestategreatlyandspeedsuptheconvergenceofthealgorithm.Atthesametime,toavoidtoconvergetolocaloptimal,anadaptiveQ—learningalgorithmisproposedbyregulatingthree
7、Q—learning’Sparameters(1earningrate口,discount,,andtemperature丁、.Sotheglobaloptimalactioncouldbereached.Toimprovethereactiveabilityofthesystem,areactivebasedagentstructure,whichisquitedifferentwiththetraditionalmethod,isusedtodesignthelowermovementcontrollayegItcontainsthreetypesofage
8、nts:thedefen
此文档下载收益归作者所有