• 《中国科学引文数据库(CSCD)》来源期刊
  • 中国科技期刊引证报告(核心版)期刊
  • 《中文核心期刊要目总览》核心期刊
  • RCCSE中国核心学术期刊

基于深度强化学习的柑橘采摘机械臂路径规划方法

熊春源, 熊俊涛, 杨振刚, 胡文馨

熊春源, 熊俊涛, 杨振刚, 等. 基于深度强化学习的柑橘采摘机械臂路径规划方法[J]. 华南农业大学学报, 2023, 44(3): 473-483. DOI: 10.7671/j.issn.1001-411X.202206024
引用本文: 熊春源, 熊俊涛, 杨振刚, 等. 基于深度强化学习的柑橘采摘机械臂路径规划方法[J]. 华南农业大学学报, 2023, 44(3): 473-483. DOI: 10.7671/j.issn.1001-411X.202206024
XIONG Chunyuan, XIONG Juntao, YANG Zhengang, et al. Path planning method for citrus picking manipulator based on deep reinforcement learning[J]. Journal of South China Agricultural University, 2023, 44(3): 473-483. DOI: 10.7671/j.issn.1001-411X.202206024
Citation: XIONG Chunyuan, XIONG Juntao, YANG Zhengang, et al. Path planning method for citrus picking manipulator based on deep reinforcement learning[J]. Journal of South China Agricultural University, 2023, 44(3): 473-483. DOI: 10.7671/j.issn.1001-411X.202206024

基于深度强化学习的柑橘采摘机械臂路径规划方法

基金项目: 国家自然科学基金(32071912);广州市基础研究计划(202102080337)
详细信息
    作者简介:

    熊春源,硕士研究生,主要从事采摘机器人研究,E-mail: 20203165015@stu.scau.edu.cn

    通讯作者:

    熊俊涛,教授,博士,主要从事智慧农业方向研究,E-mail: xiongjt2340@163.com

  • 中图分类号: S666;S233.4

Path planning method for citrus picking manipulator based on deep reinforcement learning

  • 摘要:
    目的 

    为解决非结构化环境下采用深度强化学习进行采摘机械臂路径规划时存在的效率低、采摘路径规划成功率不佳的问题,提出了一种非结构化环境下基于深度强化学习(Deep reinforcement learning, DRL)和人工势场的柑橘采摘机械臂的路径规划方法。

    方法 

    首先,通过强化学习方法进行采摘路径规划问题求解,设计了结合人工势场的强化学习方法;其次,引入长短期记忆(Longshort term memory,LSTM)结构对2种DRL算法的Actor网络和Critic网络进行改进;最后,在3种不同的非结构化柑橘果树环境训练DRL算法对采摘机械臂进行路径规划。

    结果 

    仿真对比试验表明:结合人工势场的强化学习方法有效提高了采摘机械臂路径规划的成功率;引入LSTM结构的方法可使深度确定性策略梯度(Deep deterministic policy gradient,DDPG)算法的收敛速度提升57.25%,路径规划成功率提升23.00%;使软行为评判(Soft actor critic,SAC)算法的收敛速度提升53.73%,路径规划成功率提升9.00%;与传统算法RRT-connect(Rapidly exploring random trees connect)对比,引入LSTM结构的SAC算法使规划路径长度缩短了16.20%,路径规划成功率提升了9.67%。

    结论 

    所提出的路径规划方法在路径规划长度、路径规划成功率方面存在一定优势,可为解决采摘机器人在非结构化环境下的路径规划问题提供参考。

    Abstract:
    Objective 

    In order to solve the problems of poor training efficiency and low success rate of picking path planning of manipulator using deep reinforcement learning (DRL), this study proposed a path planning method combined with DRL and artificial potential field for citrus picking manipulator in unstructured environments.

    Method 

    Firstly, the picking path planning problem was solved by the DRL with artificial potential field method. Secondly, the longshort term memory (LSTM) structure was introduced to improve the Actor network and Critic network of two DRL algorithms. Finally, the DRL algorithms were trained in three different unstructured citrus growing environments to perform path planning for picking manipulator.

    Result 

    The comparison of simulation experiments showed that the success rate of path planning was effectively improved by combining DRL with the artificial potential field method, the method with LSTM structure improved the convergence speed of the deep deterministic policy gradient (DDPG) algorithm by 57.25% and the success rate of path planning by 23.00%. Meanwhile, the method improved the convergence speed of the soft actor critic (SAC) algorithm by 53.73% and the path planning success rate by 9.00%. Compared with the traditional algorithm RRT-connect (Rapidly exploring random trees connect), the SAC algorithm with LSTM structure shortened the planned path length by 16.20% and improved the path planning success rate by 9.67%.

    Conclusion 

    The proposed path planning method has certain advantages for path planning length and path planning success rate, which can provide references for solving path planning problems of picking robots in unstructured environments.

  • 大面积水产养殖发展迅速,信息化、数字化、智慧化监测技术手段的研发与应用对实现优质、高效、安全、环保的养殖目标尤为重要[1-2]。在针对溶解氧、酸碱度、温度、盐度、氨氮等水体环境关键因子构建基于物联网技术的水体环境在线实时监测系统的研究方面,黄建清等[3]在水产养殖水质监测系统开发中通过nRF905射频芯片实现水质数据的传输,使中短程无线数据传输创新性在水产养殖中得到实际应用;李鑫星等[4]针对ZigBee多跳通信的特点提出了一种基于JN5139的ZigBee无线模块,实现对溶解氧、pH、电导率和温度的监测。多跳通信的远距离数据传输会增大数据的丢失概率。金光等[5]对ZigBee与LoRaWAN的网络拓扑复杂度、能耗、部署3部分进行了对比分析,在拓扑结构方面ZigBee为多跳路由将数据传输到汇聚节点建立簇树形的无线传感网,LoRaWAN网络节点单跳即可覆盖终端节点从而建立星型低功耗广域网,得出LoRa在大范围覆盖通信场景优于ZigBee。林永君等[6]发展了水产养殖数据监测领域的无线通信方式,将基于商业化的GPRS无线通信媒介应用到了监测领域,借助互联网对现场设备信息进行远程监控;但GPRS通信依赖于电信运营商,若监测目的地离运营商基站较远,GPRS信号差或无信号的情况下实际通信质量较低,导致通信丢包率高甚至无法完成正常通讯需求[7]

    针对大面积水产养殖中水质监测所面临的节点分布广且分散,偏远郊野地带商用通信信号较差的问题,本文结合LoRa无线通信距离远的特点,设计了一款实现低功耗远距离无线传输的多水质因素监测系统,并开发了在线监测平台,在覆盖较大规模目标监测水域面积的前提下实现对目标监测水体温度、溶解氧、pH、氨氮和盐度5种关键环境理化因素的在线监测。文中对系统采集终端的误差进行了比对及对系统整体水质因素采集进行了整体测试,以期为水质环境监测的相关研究提供新的参考。

    水质监测设备主要包括数据采集模块、通信接口电路、控制核心、LoRa无线发送模块、远程LoRa无线接收模块和上位机端可视化平台等。在水质数据采集端,分别使用溶解氧/温度传感器、酸碱度传感器、氨氮传感器、盐度传感器实现对水质多重因素的采集。各节点采集的数据通过RS485总线经由通信接口电路传送至控制核心进行下一步处理。由于水体环境比较复杂,通信线路面临多种形式的干扰源,以通信接口电路的形式实现电路保护。数据传输单元(Data transfer unit,DTU)把采集到的数据通过LoRa无线数据通信方式向外发送,远程接收模块实现对采集数据的接收,至此完成一个水质数据采集发送与远程接收端的收发周期。系统整体框架图见图1

    图  1  监测系统结构图
    Figure  1.  Structure diagram of monitoring system

    系统水质数据采集终端的控制核心采用TI公司具有16位总线的MSP430F149型微控制器[8-10]。该芯片包括60 kb闪存、256字节FLASH、2 kb RAM,以及基本时钟模块、看门狗定时器、带3个捕获/比较寄存器和PWM输出的16位定时器、带7个捕获/比较寄存器和PWM输出的16位定时器、2个具有中断功能的8位并行端口、4个8位并行端口、模拟比较器、12位A/D转换器、2个串行通信接口等模块。基本最小控制电路见图2

    图  2  监测系统控制核心电路
    Figure  2.  Control core circuit of monitoring system

    通过查阅文献[11-13],本系统的水质数据采集采用了对水质温度、溶解氧、pH、盐度、氨氮5个关键因子进行监测的4个传感器,各传感器型号、量程及精度如表1所示。

    表  1  数据采集传感器及相关参数
    Table  1.  Data acquisition sensors and related parameters
    水质因子
    Water element
    型号
    Model
    量程
    Range
    精度
    Accuracy
    氨氮 NH4+-NO2 NHN-202A 0~10 mg·L−1 ±0.2 mg·L−1
    溶解氧
    Dissolved oxygen
    RDO-206 0~20 mg·L−1 ±0.2 mg·L−1
    温度 Temperature RDO-206 0~40 ℃ ±0.5 ℃
    pH PHG-200 0~14 ±0.01
    盐度 Salinity DDM-202I/C 0~0.5% ±0.007 5%
    下载: 导出CSV 
    | 显示表格

    以上4种传感器通过RS485总线传输采集的数据信号,以连接到采集设备控制核心进行数据的无线传输。图3为探测器实物图。

    图  3  各探测传感器实物图
    Figure  3.  Physical map of each detecting sensor

    具有代表性的无线通信方式主要包括长距离无线广域网代表技术GPRS、NB-IOT[14]、LoRa[15],短距离无线局域网代表技术WiFi、Zigbee[16]表2对各技术从通信频段、传输距离、传输速度方面进行了综合对比。本系统采用LoRa无线通信方式进行采集端与汇聚节点间的数据传输。

    表  2  无线通信技术对比分析
    Table  2.  Comparative analysis of wireless communication technology
    无线技术
    Wireless technology
    通信频段/Hz
    Communication frequency
    传输距离/m
    Transmission distance
    传输速度/bp·s−1
    Transmission speed
    ZigBee 2 400 000 000 10~100 20 000~ 250 000
    WiFi 2 450 000 000 300 11 000 000
    GPRS 935 000 000~ 960 000 000 20 000 10 000~ 100 000
    NB-IOT 800 000 000~ 2 100 000 000 10 000~ 20 000 100 000
    LoRa 470 000 000~ 518 000 000 20 000 300~50 000
    下载: 导出CSV 
    | 显示表格

    LoRa汇聚网关端采用SX1301数字基带芯片[17],该芯片具备对应8个频点的8个通道,每个通道支持SF7到SF12 六种速率,LoRa Std可以对49个LoRa信号解码,网关容量大,理论上可支持多达10 000个终端接入。结合Mediatek(联发科)的MT7688AN芯片进行数据处理构成汇聚网关。通过采取LoRaWAN协议标准实现网络协议转换。本系统网关节点保留了GPRS通信方式作为备选,网关节点实物图见图4

    图  4  网关节点实物图
    Figure  4.  Gateway node physical map

    文中采用主机轮询方式组网,从机编号为1、2、3、4、5、6、7、8、9,分别对应9个养殖水塘,主机根据从机地址不同分别访问各从机节点。各从机在接收到主机数据传输命令后,对应从机将数据打包开始数据传送。单一节点的数据接收完成后,主机以同样的轮询方式获取其他从机的待传输数据。

    数据传输过程中,采用MODBUS RTU通信协议。报文传输格式如下。开始:T1-T2-T3-T4,4位起始符;地址:8 bits,表示设备地址,即主站要访问的从站地址,范围为0~247;功能:8 bits,表示功能代码占位,主要区分为“读”、“写”功能,即具体读取从站哪块区域的数据以及具体将数据写到从站的哪块区域,不同从站的数据区对应有不同的功能码;数据:N*8 bits,对所发送数据进行整8位的分配空间;校验:16 bits,2个字节的差错校验,即CRC校验低位8 bits,CRC校验高位8 bits;终止:T1-T2-T3-T4,4位结束符。

    监测终端数据的采集与发送。系统通过各传感器设备采集水质数据后,按照数据帧的格式传输到LoRa发送模块,LoRa模块发送前一直处于待机状态,在初始化Tx模块后,将FifoPtrAddr设置为FifoTxPtrBase,并把PayloadLength写入FIFO(RegFifo)。然后方可将待发送数据(Payload)写入FIFO,通过发送Tx模式请求切换到发送状态将数据通过LoRa调制成信号帧发送出去,等到发送完成后,会产生TxDone中断,同时再次切换为待机状态,完成一个发送流程[18]。发送流程如图5a所示。

    图  5  数据收发流程
    Figure  5.  Data sending and receiving processes

    远程无线接收端的数据接收。该监测系统采取连续接收模式,LoRa调制解调器首先会持续地扫描信道搜索前导码,如果检测到,LoRa会在收到数据之前对该前导码进行检测及跟踪,然后继续等待检测下一前导码。如果前导码长度超过RegPreambleMsb和RegPreambleLsb设定的预计值(按照符号周期测量),则前导码会被丢弃,并重新开始搜索前导码,但这种场景不会产生中断标志。与单一Rx模式相反,在连续Rx模式下,当产生RxTimeout中断时,设备不会进入待机模式,这时用户必须在设备继续等待有效前导码的同时直接清除中断信号。接下来开始数据包接收,在睡眠或待机模式下,选择RxCOUNT模式;在收到有效报头Header后,紧接着会产生RxDone中断。芯片一直处于RxCOUNT模式,等待下一个LoRa数据包;检查PayloadCrcError标志,以验证数据包的完整性。如果数据包被正确接受,则可以读取FIFO;之后不断判断是否有新的数据包待接收。接收流程图如图5b所示。

    为满足系统远程监测需求,参考文献[19-21]开发了服务器端的监测平台。依据权限不同,平台提供2个进入系统的端口,用户登录时可以选择以普通用户或管理员身份登录。管理员可以进入系统用户管理页面,功能包括已注册成员的增删改查等。普通用户直接进入数据可视化平台,实现对水体环境关键因素的实时监察。服务器端采用Linux系统搭建,通过JetBrains下的IntelliJ IDEA开发工具创建,编程语言为Java。该线上平台采用SpringMVC框架,数据库连接通过HiBernate对象关系映射框架连接操作,通过Tomcat部署在Linux系统上。数据展示界面通过调用开源可视化库Echarts实现,其中包括对中国气象平台应用程序接口(Application programming interface,API)的调用,实现平台的天气预报功能。图6为服务器云平台的架构。

    图  6  服务器云平台的架构
    1:目标水塘;2:水体数据采集;3:设备控制端;4:服务器云平台;5:MYSQL数据库;6:服务提供层;7:后台信息管理应用程序接口;8:信息展示应用程序接口;9:监测终端;10:控制;11:采集
    Figure  6.  Architecture of server cloud platform
    1: Target reservoir; 2: Water data collection; 3: Equipment control terminal; 4: Sever cloud platform; 5: MYSQL database; 6: Service layer; 7: Background information management API; 8: Information display API; 9: Monitoring terminal; 10: Control; 11: Collection

    作为大面积水产养殖水质环境因素监测设备这一应用实例,为了进一步验证系统整体的实际应用效果,水质参数在线监测系统于2019年5月开始在杨进浜水产养殖基地部署进行水质环境因素监测,截至2020年6月已经正常完成了13个月有余的时间。图7为设备实际部署的位置情况。

    图  7  采集节点设备部署
    1~5:采集节点1~5
    Figure  7.  Collection node equipment deployment
    1−5: Collection node 1−5

    本文给出了2019年10月4日13:00—16:00对1号水塘水体水文数据的实际采集情况与误差分析。数据采集周期为10 min,监测时段内系统运行状态正常。图8为单一采集终端实物及电路封装图。

    图  8  单一采集终端实物图及电路封装
    Figure  8.  Physical map of single acquisition end and circuit package

    为分析本系统采集数据的精度,采用HANNA公司研发的HI98319型电导EC法盐度测定仪、HI9146型饱和溶解氧测定仪、HI98121型手持酸度pH−氧化还原ORP−温度测定仪分别测出水体的盐度、溶解氧、pH、温度4个要素,与本系统设备实际所测数据进行误差分析。如图9所示,在所测时段内,水质数据采集系统实际所测水体溶解氧含量的绝对误差为0.12 mg/L,盐度的绝对误差为0.001%,pH的绝对误差为0.017,温度的绝对误差为0.05 ℃。

    图  9  部分监测时段内各要素数据
    Figure  9.  Element data during partial monitoring period

    根据实际需求,本系统的监测平台如图10所示,主要功能包括但不限于:

    图  10  上位机端可视化平台
    Figure  10.  Host computer side visualization platform

    1)对汇聚网关节点接收到的数据包进行数据合法性检验,应答空中入网请求,提取有效传感器数据信息传输到终端监测模块,进行数据绘图处理。

    2)网络气象服务。实时校验系统与传输节点间时间,并提供满足基地所处区域最近7天天气的监测端服务需求。

    3)终端监测功能。对数据获取模块经过校验后的有效信息进行进一步处理并对当前水体溶解氧浓度、氨氮浓度、温度、pH、盐度5种环境因素进行实时显示。

    另外,为测试采集设备用电情况,试验采用5 200 mA电池为设备供电,于10月4日16:06放置在水域,开始数据采集测试,设备于10月5日20:37左右电量耗尽而停止工作,持续工作约28.5 h。

    本文针对水产养殖的环境因素动态变化,尤其是多种水体环境监测因素综合影响的特点,采用动态自检测技术方案,设计了一种基于MSP430F149微控制器的可同时采集水体溶解氧、盐度、pH、氨氮和温度5种参数数据的设备。设备通过LoRa无线通信技术与上位机端数据可视化平台相结合的设计,增强了远距离水质监测技术的可靠性,解决了动态实时测量中监测数据长距离传输问题及数据同步上位机端平台展示问题。

    系统在杨进浜水产养殖基地应用中取得了良好的效果。系统实际所测水体溶解氧含量绝对误差为0.12 mg/L,盐度的绝对误差为0.001%,pH的绝对误差为0.017,温度的绝对误差为0.05 ℃,可以达到实际水质监测应用中的需求。单一采集设备功耗测试中,5 200 mA电池可持续为终端设备供电28.5 h。

    考虑到大面积养殖渔业环境监测的实际需求,为实现监测端长时间持续地工作,下一步将在现有研究的基础上为系统搭载太阳能供电系统,以避免频繁更换供电电源;另外需要在水产养殖中智能控制及通信距离与质量上进行更深层次的研究。

    致谢:特此感谢上海海洋大学农业农村部渔业信息重点实验室提供的实验平台以及课题组指导老师们的帮助!

  • 图  1   采摘机械臂

    θ:关节角;d:关节偏移量;a:连杆长度;α:连杆扭转角;xyz:机器人坐标系,其中,蓝色坐标系为机械臂的原点和末端坐标系,黑色坐标系为关节坐标系

    Figure  1.   Picking manipulator

    θ: Joint angle; d: Joint distance; a: Link length; α: Link twist angle; xyz: Robot coordinate system, in which the blue coordinate system is the origin and end coordinate system of the manipulator, and the black coordinate system is the joint coordinate system

    图  2   碰撞检测模型

    Figure  2.   Collision test model

    图  3   果实区域

    Pg:采摘点,O:果实区域原点,rO:果实区域半径,r:径向距离,φ:方位角,ρ:极角

    Figure  3.   Fruits space

    Pg: Picking point, O: Origin point of fruits space, rO: Radius of fruits space, r: Radial distance, φ: Azimuth angle, ρ: Polar angle

    图  4   二维采摘平面

    γ:采摘平面,$ {p_i} $:枝干横截面中心点,$ {p_{\rm{e}}} $:末端执行器,$ {p_{\rm{r}}} $:线段$ {p_i}{p_{\rm{e}}} $与横截面的交点,$ \overrightarrow {{p_{\rm{r}}}{p_{\rm{e}}}} $:采摘平面法向量,$ \overrightarrow {{p_{\rm{e}}}{p_{\rm{r}}}} $:采摘平面法向量(方向与$ \overrightarrow {{p_{\rm{r}}}{p_{\rm{e}}}} $相反)

    Figure  4.   2D picking plane

    γ: Picking plane, $ {p_i} $: Center point of branch cross section, $ {p_{\rm{e}}} $: End effector, $ {p_{\rm{r}}} $: Intersection of line segment $ {p_i}{p_{\rm{e}}} $ and cross section, $ \overrightarrow {{p_{\rm{r}}}{p_{\rm{e}}}} $: Normal vector of picking plane, $ \overrightarrow {{p_{\rm{e}}}{p_{\rm{r}}}} $: Normal vector of picking plane(opposite direction to $ \overrightarrow {{p_{\rm{r}}}{p_{\rm{e}}}} $)

    图  5   非结构化环境中的采摘测试

    Figure  5.   Picking test in unstructured environment

    图  6   强化学习流程

    Figure  6.   Process of reinforcement learning

    图  7   DDPG网络结构

    Figure  7.   DDPG network structure

    图  8   SAC网络结构

    Figure  8.   SAC network structure

    图  9   LSTM-actor网络与LSTM-critic网络结构

    Figure  9.   LSTM-actor network and LSTM-critic network structure

    图  10   不同方法与环境下的试验结果

    Figure  10.   Experiment results of different methods and environments

    图  11   不同环境下算法的训练结果

    Figure  11.   Training results of algorithms in different environments

    表  1   采摘机械臂D-H参数1)

    Table  1   D-H parameters of picking manipulator

    关节编号 Joint No. θ d/m a/m α/(°)
    1 $ {\theta _1} $ 0.22 0 90
    2 $ {\theta _2} $ 0 0.38 180
    3 $ {\theta _3} $ 0 0 90
    4 $ {\theta _{\text{4}}} $ 0.42 0 −90
    5 $ {\theta _{\text{5}}} $ 0 0 90
    6 $ {\theta _{\text{6}}} $ 0.4 0 0
     1)θ:关节角,d:关节偏移量,a:连杆长度,α:连杆扭转角  1)θ: Joint angle, d: Joint distance, a: Link length, α: Link twist angle
    下载: 导出CSV

    表  2   不同算法在3种环境中的试验结果1)

    Table  2   Experiment results of different algorithms in three environments

    环境 Environment 算法 Algorithm t/s l/m 成功率/% Success rate
    A LSTM-SAC 0.03 0.721 96
    LSTM-DDPG 0.03 0.764 80
    SAC 0.05 1.237 90
    DDPG 0.05 1.432 58
    RRT-connect 7.28 0.813 90
    RRT 11.36 0.896 85
    B LSTM-SAC 0.04 1.103 93
    LSTM-DDPG 0.04 1.864 72
    SAC 0.06 2.034 88
    DDPG 0.07 2.339 57
    RRT-connect 9.64 1.337 81
    RRT 17.32 1.431 77
    C LSTM-SAC 0.04 0.793 95
    LSTM-DDPG 0.04 0.937 76
    SAC 0.06 1.361 79
    DDPG 0.07 1.581 44
    RRT-connect 8.72 0.973 84
    RRT 16.56 1.038 81
     1) t:平均规划耗时;l:路径平均长度  1) t: Average planning time; l: Average path length
    下载: 导出CSV
  • [1] 常有宏, 吕晓兰, 蔺经, 等. 我国果园机械化现状与发展思路[J]. 中国农机化学报, 2013, 34(6): 21-26. doi: 10.3969/j.issn.2095-5553.2013.06.007
    [2] 徐丹琦. 基于kinect相机的自然生长状态下果树枝干的三维构建[D]. 桂林: 广西师范大学, 2021.
    [3] 崔永杰, 王寅初, 何智, 等. 基于改进RRT算法的猕猴桃采摘机器人全局路径规划[J]. 农业机械学报, 2022, 53(6): 151-158.
    [4] 张勤, 乐晓亮, 李彬, 等. 基于CTB-RRT~*的果蔬采摘机械臂运动路径规划[J]. 农业机械学报, 2021, 52(10): 129-136. doi: 10.6041/j.issn.1000-1298.2021.10.013
    [5] 王怀震, 高明, 王建华, 等. 基于改进RRT~*-Connect算法的机械臂多场景运动规划[J]. 农业机械学报, 2022, 53(4): 432-440.
    [6] 马宇豪, 梁雁冰. 一种基于六次多项式轨迹规划的机械臂避障算法[J]. 西北工业大学学报, 2020, 38(2): 392-400. doi: 10.3969/j.issn.1000-2758.2020.02.021
    [7] 贾庆轩, 陈钢, 孙汉旭, 等. 基于A*算法的空间机械臂避障路径规划[J]. 机械工程学报, 2010, 46(13): 109-115.
    [8] 张敦凤, 赵皓, 徐亮, 等. 基于栅格法的机械臂工作空间解析方法研究[J]. 制造业自动化, 2019, 41(4): 69-70.
    [9] 张强, 陈兵奎, 刘小雍, 等. 基于改进势场蚁群算法的移动机器人最优路径规划[J]. 农业机械学报, 2019, 50(5): 23-32.
    [10] 刘可, 李可, 宿磊, 等. 基于蚁群算法与参数迁移的机器人三维路径规划方法[J]. 农业机械学报, 2020, 51(1): 29-36. doi: 10.6041/j.issn.1000-1298.2020.01.003
    [11]

    KHATIB O. Real-time obstacle avoidance for manipulators and mobile robots[M]// COX I J, WILFONG G T. Autonomous robot vehicles. New York: Springer, 1986: 396-404.

    [12] 史亚飞, 张力, 刘子煊, 等. 基于速度场的人工势场法机械臂动态避障研究[J]. 机械传动, 2020, 44(4): 38-44.
    [13]

    WANG W, ZHU M, WANG X, et al. An improved artificial potential field method of trajectory planning and obstacle avoidance for redundant manipulators[J]. International Journal of Advanced Robotic Systems, 2018, 15(5): 1729881418799562.

    [14] 谢龙, 刘山. 基于改进势场法的机械臂动态避障规划[J]. 控制理论与应用, 2018, 35(9): 1239-1249. doi: 10.7641/CTA.2018.70187
    [15]

    ZHANG N, ZHANG Y, MA C, et al. Path planning of six-DOF serial robots based on improved artificial potential field method[C]// 2017 IEEE International Conference on Robotics and Biomimetics (ROBIO), Macau: IEEE, 2017.

    [16]

    GU S, HOLLY E, LILLICRAP T, et al. Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates[C]//2017 IEEE international conference on robotics and automation (ICRA), Singapore: IEEE, 2017: 3389-3396.

    [17]

    WEN S, CHEN J, WANG S, et al. Path planning of humanoid arm based on deep deterministic policy gradient[C]//2018 IEEE International Conference on Robotics and Biomimetics (ROBIO). Kuala Lumpur: IEEE, 2018: 1755-1760.

    [18]

    KIM M, HAN D, PARK J, et al. Motion planning of robot manipulators for a smoother path using a twin delayed deep deterministic policy gradient with hindsight experience replay[J]. Applied Sciences, 2020, 10(2): 575. doi: 10.3390/app10020575

    [19]

    LU X, LEE K, ABBEEL P, et al. Dynamics generalization via information bottleneck in deep reinforcement learning[EB/OL]. arXiv, 2020: 2008.00614 [2020-08-03]. https://arxiv.org/abs/2008.00614.

    [20]

    BANINO A, BADIA A, WALKER J, et al. CoBERL: Contrastive BERT for reinforcement learning[EB/OL]. arXiv, 2021: 2107.05431 [2022-02-22]. https://arxiv.org/abs/2107.05431.

    [21]

    LIN G, ZHU L, LI J, et al. Collision-free path planning for a guava-harvesting robot based on recurrent deep reinforcement learning[J]. Computers and Electronics in Agriculture, 2021, 188: 106350. doi: 10.1016/j.compag.2021.106350

    [22] 毕松, 张潞. 自然环境下的柑橘采摘点识别方法研究[J]. 计算机仿真, 2021, 38(12): 227-231.
    [23] 杨长辉, 刘艳平, 王毅, 等. 自然环境下柑橘采摘机器人识别定位系统研究[J]. 农业机械学报, 2019, 50(12): 14-22. doi: 10.6041/j.issn.1000-1298.2019.12.002
    [24] 尹建军, 武传宇, YANG S, 等. 番茄采摘机器人机械臂避障路径规划[J]. 农业机械学报, 2012, 43(12): 171-175. doi: 10.6041/j.issn.1000-1298.2012.12.031
    [25]

    CAO X, ZOU X, JIA C, et al. RRT-based path planning for an intelligent litchi-picking manipulator[J]. Computers and Electronics in Agriculture, 2019, 156: 105-118. doi: 10.1016/j.compag.2018.10.031

    [26] 郑嫦娥, 高坡, GAN H, 等. 基于分步迁移策略的苹果采摘机械臂轨迹规划方法[J]. 农业机械学报, 2020, 51(12): 15-23. doi: 10.6041/j.issn.1000-1298.2020.12.002
    [27] 邓钊. 椪柑省力化疏果和促进果实膨大技术研究[D]. 武汉: 华中农业大学, 2018.
    [28] 张哲. 柑橘采摘机器人采摘姿态及序列研究[D]. 重庆: 重庆理工大学, 2018.
    [29] 熊俊涛, 李中行, 陈淑绵, 等. 基于深度强化学习的虚拟机器人采摘路径避障规划[J]. 农业机械学报, 2020, 51(S2): 1-10. doi: 10.6041/j.issn.1000-1298.2020.S2.001
    [30]

    ZHANG T, ZHANG K, LIN J, et al. Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments[J]. IEEE Robotics and Automation Letters, 2021, 7(1): 65-72.

    [31]

    XIE J, SHAO Z, LI Y, et al. Deep reinforcement learning with optimized reward functions for robotic trajectory planning[J]. IEEE Access, 2019, 7: 105669-105679. doi: 10.1109/ACCESS.2019.2932257

    [32]

    DUGULEANA M, BARBUCEANU F, TEIRELBAR A, et al. Obstacle avoidance of redundant manipulators using neural networks based reinforcement learning[J]. Robotics and Computer-Integrated Manufacturing, 2012, 28(2): 132-146.

    [33]

    LILLICRAP T, HUNT J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. arXiv, 2015: 1509.02971 [2019-07-05]. https://arxiv.org/abs/1509.02971.

    [34]

    HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor[EB/OL]. arXiv, 2018: 1801.01290 [2018-08-08]. https://arxiv.org/abs/1801.01290.

    [35]

    HAARNOJA T, ZHOU A, HARTIKAINEN K, et al. Soft actor-critic algorithms and applications[EB/OL]. arXiv, 2018: 1812.05905 [2019-01-29]. https://arxiv.org/abs/1812.05905.

  • 期刊类型引用(19)

    1. 钱卫星,郑东. 动态环境监测系统的设计. 集成电路应用. 2024(03): 186-187 . 百度学术
    2. 陈雄,罗海波. 碳汇渔业贝类养殖监测管理系统的设计与开发. 闽江学院学报. 2024(05): 51-58 . 百度学术
    3. 罗潜,吉艺宽,李美娣. 基于STM32和ZigBee的水产养殖水质监测系统设计. 仪器仪表用户. 2023(08): 22-26 . 百度学术
    4. 杨智玲,程玮. 基于无人机遥感技术的渔业养殖池塘水质监测方法. 太原师范学院学报(自然科学版). 2023(02): 35-40 . 百度学术
    5. 余钱程,管延敏,黄温赟,韦龙,虞嘉晨. 基于STM32与树莓派的养殖水质监测无人艇系统研究. 渔业现代化. 2023(05): 33-42 . 百度学术
    6. 林盾,怀晓伟,宁睿. 面向电网基建现场的LoRa通信低功耗组网控制技术的优化设计. 自动化应用. 2023(22): 73-75 . 百度学术
    7. 杨智玲. 无人机技术在水产养殖作业通信系统中的应用. 长江信息通信. 2022(04): 1-3 . 百度学术
    8. 孔兵,余梅,乔欣. 基于LoRa无线通信的水产养殖水质监测系统设计. 滨州学院学报. 2022(02): 74-80 . 百度学术
    9. 任晓亮,施羽露,廖河庭,杨晓曦,钱信宇,郑尧,陈家长. 水产环境污染现状及治理策略. 农学学报. 2022(05): 42-46 . 百度学术
    10. 闫尉深,刘威,刘家俊,李志达. 基于无线技术的隧道积水监测系统设计. 电子设计工程. 2022(14): 137-141 . 百度学术
    11. 李阳东,漆林,笪亨融,谢洋洋. 基于物联网的近海岸水质监测平台方案设计. 海岸工程. 2022(03): 268-276 . 百度学术
    12. 康晋. 基于LoRa无线通信的工业机器人远程监控系统设计. 计算机测量与控制. 2022(09): 119-124+132 . 百度学术
    13. 肖军. 基于无线通信技术的医院信息管理系统设计. 自动化技术与应用. 2022(11): 107-111 . 百度学术
    14. 巫鹏航,王锦鹏,朱敬宾,郭来功. 基于STM32与LabVIEW的地下水压水温监测系统设计. 长春师范大学学报. 2021(04): 43-47 . 百度学术
    15. 覃伟锋,郝文杰,莫胜胜,龙应萍,蔡世媚,范嘉晨. 基于云服务的水产养殖水质监测系统. 电子制作. 2021(10): 30-32 . 百度学术
    16. 胡颖,徐轶群. 基于窄带物联网通信的海洋水质监测系统设计. 广州航海学院学报. 2021(02): 14-19 . 百度学术
    17. 谭明,曾海涛,王田. 基于无线通信的换流阀冷却塔温度监测系统设计. 电工技术. 2021(12): 8-9+12 . 百度学术
    18. 颜瑞,王震,李言浩,李哲敏,李娴. 中国农业智能传感器的应用、问题与发展. 农业大数据学报. 2021(02): 3-15 . 百度学术
    19. 尹航,廖梓渊,徐龙琴,刘双印,曹亮,郭建军. 基于ECharts的对虾产业数据可视化分析平台设计及实现. 现代农业装备. 2021(04): 7-14 . 百度学术

    其他类型引用(12)

图(11)  /  表(2)
计量
  • 文章访问数:  198
  • HTML全文浏览量:  305
  • PDF下载量:  82
  • 被引次数: 31
出版历程
  • 收稿日期:  2022-06-16
  • 网络出版日期:  2023-05-17
  • 刊出日期:  2023-05-09

目录

/

返回文章
返回