• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

PARL: PARL 是一个高性能、灵活的强化学习框架

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

PARL

开源软件地址:

https://gitee.com/paddlepaddle/PARL

开源软件介绍:

PARL

English | 简体中文
文档| 中文文档

PARL 是一个高性能、灵活的强化学习框架。

特点

可复现性保证。我们提供了高质量的主流强化学习算法实现,严格地复现了论文对应的指标。

大规模并行支持。框架最高可支持上万个CPU的同时并发计算,并且支持多GPU强化学习模型的训练。

可复用性强。用户无需自己重新实现算法,通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中。

良好扩展性。当用户想调研新的算法时,可以通过继承我们提供的基类可以快速实现自己的强化学习算法。

框架结构

abstractions PARL的目标是构建一个可以完成复杂任务的智能体。以下是用户在逐步构建一个智能体的过程中需要了解到的结构:

Model

Model 用来定义前向 (Forward)网络,这通常是一个策略网络 (Policy Network)或者一个值函数网络 (Value Function),输入是当前环境状态 (State)。

Algorithm

Algorithm 定义了具体的算法来更新前向网络 (Model),也就是通过定义损失函数来更新Model。一个Algorithm包含至少一个Model

Agent

Agent 负责算法与环境的交互,在交互过程中把生成的数据提供给Algorithm来更新模型 (Model),数据的预处理流程也一般定义在这里。

提示: 请访问教程 and API 文档以获取更多关于基础类的信息。

简易高效的并行接口

在PARL中,一个修饰符(parl.remote_class)就可以帮助用户实现自己的并行算法。以下我们通过Hello World的例子来说明如何简单地通过PARL来调度外部的计算资源实现并行计算。 请访问我们的教程文档以获取更多的并行训练信息。

#============Agent.py=================@parl.remote_classclass Agent(object):	def say_hello(self):		print("Hello World!")	def sum(self, a, b):		return a+bparl.connect('localhost:8037')agent = Agent()agent.say_hello()ans = agent.sum(1,5) # run remotely and not comsume any local computation resources 

两步调度外部的计算资源:

  1. 使用parl.remote_class修饰一个类,之后这个类就被转化为可以运行在其他CPU或者机器上的类。
  2. 调用parl.connect函数来初始化并行通讯,通过这种方式获取到的实例和原来的类是有同样的函数的。由于这些类是在别的计算资源上运行的,执行这些函数不再消耗当前线程计算资源
PARL

如上图所示,真实的actor(橙色圆圈)运行在CPU集群,learner(蓝色圆圈)和remote actor(黄色圆圈)运行在本地的GPU上。对于用户而言,完全可以像写多线程代码一样来实现并行算法,相当简单,但是这些多线程的运算利用了外部的计算资源。我们也提供了并行算法示例,更多细节请参考IMPALA, A2C and GA3C

安装:

依赖

  • Python 2.7 or 3.5+. (Windows系统目前仅支持python3.7+以上的环境)
  • paddlepaddle>=1.8.5 (非必须的,如果你只用并行部分的接口不需要安装paddle)
pip install parl

算法示例

NeurlIPS2018 Half-Cheetah Breakout
NeurlIPS2018


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap