腾博国际娱乐tb988

 找回密码
 立即注册
搜索
查看: 847|回复: 0

而且利用行动腾博娱乐tb988之间潜在的关系

[复制链接]

53

主题

53

帖子

171

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
171
发表于 2016-8-24 16:43:53 | 显示全部楼层 |阅读模式
  摘要:很多现实生活中的强化学习问题,要求代理同时控制多个行动。在这种情况下进行学习,以前,每一个动作通常和其他动作分开处理。然而,在应用中多个行动之间几乎很少进行,而且利用行动之间潜在的关系,可能有助于加快学习。本文探讨了强化学习中多个行动之间的关系。我们提出执行一个正则项来捕获多行动之间的关系。我们将正则项具体化到最小二乘策略迭代和时域差分法中,这有效的解决了凸学习目标。所提出的方法已在几个领域中被有效。腾博娱乐tb988实验结果显示具体化多动作之间关系能有效提高学习性能。
  邮箱:
  职位:南京大学计算机科学与技术系副教授/LAMDAGroup
  研究方向:人工智能,进化的机器学习,强化学习
  相关学术论文:
  ·High-dimensionalderivative-freeoptimization
  ·Paretooptimization
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|腾博国际娱乐tb988  

GMT+8, 2018-12-11 19:17 , Processed in 0.342073 second(s), 21 queries .

Powered by Discuz! X3.2 Designed By TSMINI.COM

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表