Path planning method for citrus picking manipulator based on deep reinforcement learning
-
摘要:目的
为解决非结构化环境下采用深度强化学习进行采摘机械臂路径规划时存在的效率低、采摘路径规划成功率不佳的问题,提出了一种非结构化环境下基于深度强化学习(Deep reinforcement learning, DRL)和人工势场的柑橘采摘机械臂的路径规划方法。
方法首先,通过强化学习方法进行采摘路径规划问题求解,设计了结合人工势场的强化学习方法;其次,引入长短期记忆(Longshort term memory,LSTM)结构对2种DRL算法的Actor网络和Critic网络进行改进;最后,在3种不同的非结构化柑橘果树环境训练DRL算法对采摘机械臂进行路径规划。
结果仿真对比试验表明:结合人工势场的强化学习方法有效提高了采摘机械臂路径规划的成功率;引入LSTM结构的方法可使深度确定性策略梯度(Deep deterministic policy gradient,DDPG)算法的收敛速度提升57.25%,路径规划成功率提升23.00%;使软行为评判(Soft actor critic,SAC)算法的收敛速度提升53.73%,路径规划成功率提升9.00%;与传统算法RRT-connect(Rapidly exploring random trees connect)对比,引入LSTM结构的SAC算法使规划路径长度缩短了16.20%,路径规划成功率提升了9.67%。
结论所提出的路径规划方法在路径规划长度、路径规划成功率方面存在一定优势,可为解决采摘机器人在非结构化环境下的路径规划问题提供参考。
Abstract:ObjectiveIn order to solve the problems of poor training efficiency and low success rate of picking path planning of manipulator using deep reinforcement learning (DRL), this study proposed a path planning method combined with DRL and artificial potential field for citrus picking manipulator in unstructured environments.
MethodFirstly, the picking path planning problem was solved by the DRL with artificial potential field method. Secondly, the longshort term memory (LSTM) structure was introduced to improve the Actor network and Critic network of two DRL algorithms. Finally, the DRL algorithms were trained in three different unstructured citrus growing environments to perform path planning for picking manipulator.
ResultThe comparison of simulation experiments showed that the success rate of path planning was effectively improved by combining DRL with the artificial potential field method, the method with LSTM structure improved the convergence speed of the deep deterministic policy gradient (DDPG) algorithm by 57.25% and the success rate of path planning by 23.00%. Meanwhile, the method improved the convergence speed of the soft actor critic (SAC) algorithm by 53.73% and the path planning success rate by 9.00%. Compared with the traditional algorithm RRT-connect (Rapidly exploring random trees connect), the SAC algorithm with LSTM structure shortened the planned path length by 16.20% and improved the path planning success rate by 9.67%.
ConclusionThe proposed path planning method has certain advantages for path planning length and path planning success rate, which can provide references for solving path planning problems of picking robots in unstructured environments.
-
Keywords:
- Picking manipulator /
- Citrus /
- Path planning /
- Deep reinforcement learning /
- Unstructured environment /
- LSTM
-
东方蜜蜂微孢子虫Nosema ceranae是一种专性侵染成年蜜蜂中肠上皮细胞的单细胞真菌病原,对蜂王、工蜂、雄蜂和幼虫均有感染性[1]。东方蜜蜂微孢子虫侵染能引起蜜蜂中肠上皮细胞结构破坏、细胞凋亡和免疫应答抑制,哺育力下降,寿命缩短,严重影响蜂群群势和生产力[2]。目前,东方蜜蜂微孢子虫的参考基因组[3]和全长转录组[4]均已公布,为深入开展相关分子生物学研究奠定了基础。
染色体结构维持(Structural maintenance of chromosome,SMC)蛋白在细菌、古生菌和真核生物中广泛存在,可直接参与染色体的形成与结构维持等动态变化及DNA的复制、重组和修复等过程,因而对染色质结构的组织、细胞分裂过程中遗传物质的准确分离等均具有关键作用[5]。在水稻中,SMC1和SMC3-1基因被证实参与DNA双链断裂损伤修复和有丝分裂等生物学过程[6]。作为SMC复合体蛋白的成员之一,凝聚蛋白复合体Ⅰ通过分级折叠启动早期的染色质凝聚,起到塑造、稳定染色体的作用[7]。敲除凝聚蛋白复合体Ⅰ或Ⅱ的特异亚基均能引起中期染色体结构的明显异常[8]。然而对于东方蜜蜂微孢子虫,SMC相关研究至今依然缺失。
近期,笔者团队测定了nce-miR-15325及其靶向的核凝聚复合体亚基(Nuclear condensin complex subunit,NCCS)基因在东方蜜蜂微孢子虫侵染意大利蜜蜂工蜂过程中的表达谱,并发现nce-miR-15325与NCCS具有相似的表达规律。本研究利用生物信息学方法解析东方蜜蜂微孢子虫NCCS编码的SMC的分子特性,预测和分析东方蜜蜂微孢子虫和其他物种SMC的保守基序和结构域,并进行系统进化分析,以期丰富东方蜜蜂微孢子虫SMC的基础信息,并为深入开展相关功能研究提供理论依据。
1. 材料与方法
1.1 SMC的分子特性分析
根据前期基于东方蜜蜂微孢子虫转录组数据[9]预测出的NCCS序列,利用NCBI网站(https://www.ncbi.nlm.nih.gov/)上的ORF工具预测相应的氨基酸序列。通过Expasy网站(https://www.espasy.org/resources)上的Protparam、ProtScale和SWISS-model等软件分析SMC的理化性质、亲水性和三级结构。使用SignalP 4.1 Server、NetPhos 3.1 Server、TMHMM及SOPMA等软件[10]预测SMC的信号肽、磷酸化位点、跨膜结构域和二级结构。采用PSORTⅡ软件(https://www.genscript.com/psort.html)[11]进行SMC的亚细胞定位预测。
1.2 SMC的保守基序和结构域预测
使用MEME软件(https://meme-suite.org/)[12]预测东方蜜蜂微孢子虫、海伦脑炎微孢子虫Encephalitozoon hellem、菲尼斯毕罗酵母Piromycesc finnis、发廯菌Trichophyton tonsurans和黑曲霉Aspergillus melleus等10个物种SMC的保守基序。通过Pfam网站(http://pfam.xfam.org/search#tabview=tab1)查找东方蜜蜂微孢子虫等10个物种SMC保守结构域相关信息。采用TBtools软件预测上述10个物种SMC的结构域,选择默认参数。
1.3 SMC蛋白的系统进化分析
利用Blast工具将东方蜜蜂微孢子虫SMC氨基酸序列比对到NCBI GenBank数据库(https://www.ncbi.nlm.nih.gov/genbank/),搜索序列相似性较高的其他物种的SMC。通过Mega 11.0软件[13]对东方蜜蜂微孢子虫和其他物种的SMC进行氨基酸序列多重比对,采用邻接法构建基于SMC的系统进化树,选择软件默认参数。
2. 结果与分析
2.1 SMC的分子特性
东方蜜蜂微孢子虫NCCS含有3 093个核苷酸,编码的SMC含有1 102个氨基酸。SMC的分子式为C5787H9418N1526O1771S41,相对分子质量约130 020,等电点为8.28;包含195个负电荷氨基酸,其中天冬氨酸和谷氨酸分别有67和128个;包含202个正电荷氨基酸,其中赖氨酸和精氨酸分别有169和33个;含量最高和最低的氨基酸分别为赖氨酸和色氨酸(表1)。
表 1 东方蜜蜂微孢子虫SMC的氨基酸组成Table 1. Amino acid composition of SMC in Nosema ceranae氨基酸
Amino acid数量
Number占比/%
Proportion氨基酸
Amino acid数量
Number占比/%
Proportion丙氨酸 Ala 27 2.50 亮氨酸 Leu 128 11.60 精氨酸 Arg 33 3.00 赖氨酸 Lys 169 15.30 天冬酰胺 Asn 94 8.50 蛋氨酸 Met 28 2.50 天冬氨酸 Asp 67 6.10 苯丙氨酸 Phe 35 3.20 半胱氨酸 Cys 13 1.20 脯氨酸 Pro 12 1.10 谷氨酰胺 Gln 31 2.80 丝氨酸 Ser 64 5.80 谷氨酸 Glu 128 11.60 苏氨酸 Thr 43 3.90 甘氨酸 Gly 29 2.60 色氨酸 Trp 1 0.10 组氨酸 His 15 1.40 酪氨酸 Tyr 46 4.20 异亮氨酸 Ile 101 9.20 缬氨酸 Val 38 3.40 SMC的脂溶系数为93.49,平均亲水系数为−0.740,亲水氨基酸数量比疏水氨基酸多(图1A),说明该蛋白为亲水性蛋白。SMC中不存在典型的信号肽,说明其为胞内蛋白(图1B)。另外,在SMC中预测到104个磷酸化位点,包含50个丝氨酸、26个酪氨酸和28个苏氨酸磷酸化位点(图1C)。
二级结构分析结果显示,SMC含有787个(71.42%)α−螺旋,106条(9.62%)β−折叠,49个(4.45%)β−转角和160个(14.52%)无规则卷曲(图2A)。三级结构分析结果显示,SMC的模板为6yvu.1.B,序列相似性为31.26%,其中61.00%的残基自信度达80%以上(图2B)。此外,SMC同时定位于细胞核、细胞质和线粒体,占比分别为78.30%、8.70%和13.00%。
2.2 SMC的保守基序与结构域分析
在东方蜜蜂微孢子虫SMC中预测到9个保守基序,分别为Motif 1、2、3、4、5、6、7、8、9;类似地,在海伦脑炎微孢子虫、颗粒病微孢子虫Nosema granulosis、麦格水蚤汉氏孢虫Hamiltosporidium magnivora、康氏泰罗汉孢虫Thelohania contejeani、菲尼斯毕罗酵母、指间毛廯菌Trichophyton interdigitale、紫色毛廯菌Trichophyton violaceum、发廯菌和黑曲霉的SMC中同样预测上述9个Motif(图3),说明SMC在东方蜜蜂微孢子虫和其他真菌物种中高度保守。
在东方蜜蜂微孢子虫SMC中预测到4个结构域,包括1个SMC_N、1个SMC_hinge、1个AAA_29和1个AAA_23;在海伦脑炎微孢子虫、指间毛廯菌和黑曲霉SMC中同样预测到1个SMC_N、1个SMC_hinge、1个AAA_23和1个AAA_21;在颗粒病微孢子虫、麦格水蚤汉氏孢虫TBU02480.1和康氏泰罗汉孢虫SMC中预测到2个相同的结构域,包括1个SMC_N和1个SMC_hinge;在麦格水蚤汉氏孢虫TBU02444.1 SMC中预测到6个结构域,包括1个SMC_N、1个SMC_hinge、1个AAA_29、1个AAA_21、1个AAA_23和1个AAA_15;在菲尼斯毕罗酵母SMC中预测到5个结构域,包括1个SMC_N、1个SMC_hinge、1个AAA_29、1个AAA_21和1个AAA_23;在紫色毛廯菌SMC中预测到3个结构域,包括1个SMC_N、1个SMC_hinge和1个AAA_15;在发廯菌SMC中预测到3个结构域,包括1个AAA_21、1个SMC_N和1个SMC_hinge(图4)。进一步分析发现东方蜜蜂微孢子虫和其他9个物种的SMC中均含有1个SMC_N和1个SMC_hinge(图4)。以上结果进一步说明SMC在东方蜜蜂微孢子虫和其他真菌物种中高度保守。
2.3 SMC的系统进化分析
如表2所示,东方蜜蜂微孢子虫、海伦脑炎微孢子虫、颗粒病微孢子虫、康氏泰罗汉孢虫、菲尼斯毕罗酵母、指间毛廯菌、紫色毛廯菌、发廯菌和黑曲霉均仅含有1个SMC,而麦格水蚤汉氏孢虫含有2个SMC。
表 2 东方蜜蜂微孢子虫与其他9个物种的SMC蛋白概览Table 2. Overview of SMC proteins in Nosema ceranae and other nine species物种
Species数量
NumberGenBank数据库收录号
Accession ID in GenBank database东方蜜蜂微孢子虫 Nosema ceranae 1 XP_024332082.1 海伦脑炎微孢子虫 Encephalitozoon hellem 1 KAG5859151.1 颗粒病微孢子虫 Nosema granulosis 1 KAF9763737.1 麦格水蚤汉氏孢虫 Hamiltosporidium magnivora 2 TBU02444.1、TBU02480.1 康氏泰罗汉孢虫 Thelohania contejeani 1 KAF7683982.1 菲尼斯毕罗酵母 Piromyces finnis 1 ORX56484.1 指间毛廯菌 Trichophyton interdigitale 1 KAF3899244.1 紫色毛廯菌 Trichophyton violaceum 1 OAL71733.1 发廯菌 Trichophyton tonsurans 1 EGD94457.1 黑曲霉 Aspergillus melleus 1 XP_045938706.1 氨基酸序列多重比对结果显示,东方蜜蜂微孢子虫与菲尼斯毕罗酵母的SMC序列相似性最高,达到61.96%,其次是与指间毛廯菌、发廯菌、紫色毛廯菌和黑曲霉,SMC序列相似性均为60.98%,与康氏泰罗汉孢虫的SMC序列相似性最低(34.73%)。
系统进化分析结果显示,东方蜜蜂微孢子虫、颗粒病微孢子虫、麦格水蚤汉氏孢虫、康氏泰罗汉孢虫和海伦脑炎微孢子虫的SMC聚为一个大支,而发廯菌、指间毛廯菌、紫色毛廯菌、黑曲霉和菲尼斯毕罗酵母的SMC聚为一个大支;东方蜜蜂微孢子虫与颗粒病微孢子虫的SMC聚为一支,且置信度达到99%,说明二者SMC的进化距离最近(图5)。
3. 结论与讨论
目前,由于缺乏成熟的转基因操作技术体系,东方蜜蜂微孢子虫绝大多数基因功能未明,相关信息匮乏。本研究通过生物信息学手段对东方蜜蜂微孢子虫NCCS基因编码的SMC进行分子特性解析,结果显示,SMC的分子式为C5787H9418N1526O1771S41,包含1 102个氨基酸,相对分子质量约130 020,等电点为8.28,脂溶系数为93.49,平均亲水系数为−0.740,亲水氨基酸数量多于疏水氨基酸,说明SMC可能是亲水性蛋白;不含信号肽和跨膜螺旋区,说明SMC可能为胞内蛋白和非跨膜蛋白。以上结果丰富了东方蜜蜂微孢子虫NCCS基因的基本信息,为进一步开展相关功能研究提供了有价值的参考信息。另外,预测SMC同时定位于细胞核、细胞质和线粒体,但主要定位于细胞核(占比78.30%),鉴于染色体主要存在于细胞核,上述结果符合客观实际;但预测到少量SMC分布于细胞质和线粒体,一方面需要通过分子生物学试验加以验证,另一方面暗示SMC功能的潜在多样性。
真核生物中存在6种SMC,这6种蛋白两两结合形成异二聚体,进而结合其他组分形成复合体,分别为黏结蛋白复合体、凝聚蛋白复合体和SMC5-SMC6复合体,这些复合体在DNA修复、重组与复制等方面发挥重要作用[14]。SMC在进化上较为保守,从微生物到哺乳动物的SMC蛋白都具有相似的结构[15]。本研究在东方蜜蜂微孢子虫、海伦脑炎微孢子虫、麦格水蚤汉氏孢虫、颗粒病微孢子虫、康氏泰罗汉孢虫、菲尼斯毕罗酵母、指间毛廯菌、紫色毛廯菌、发廯菌和黑曲霉的SMC中均预测到Motif 1~9共9个保守基序;此外,发现东方蜜蜂微孢子虫和上述其他物种的SMC均含有1个SMC_N和1个SMC_hinge。以上结果表明SMC在东方蜜蜂微孢子虫和其他真菌中具有高度保守性,推测SMC在东方蜜蜂微孢子虫和上述其他真菌中发挥类似功能。本研究发现,东方蜜蜂微孢子虫、颗粒病微孢子虫、海伦脑炎微孢子虫、麦格水蚤汉氏孢虫和康氏泰罗汉孢虫的SMC聚为一个大支,说明这些物种的SMC亲缘关系较近;东方蜜蜂微孢子虫与颗粒病微孢子虫的SMC聚为一支,置信度为99 %,说明二者的SMC进化距离最近。
前人研究发现SMC的C端和N端相互结合形成ATP酶功能域,因此SMC蛋白也属于ABC(ATP binding cassette)蛋白家族[16],ABC蛋白在东方蜜蜂微孢子虫的生命活动中起到重要作用[17]。因此,推测SMC在东方蜜蜂微孢子虫中发挥的功能类似于ABC蛋白。
通过建立东方蜜蜂微孢子虫侵染成年蜜蜂的模式进行东方蜜蜂微孢子虫的基因功能研究已见诸报道[18-19]。我们下一步拟通过体外转录合成NCCS的dsRNA,并通过饲喂法探究东方蜜蜂微孢子虫侵染蜜蜂宿主过程中NCCS的功能。
-
图 1 采摘机械臂
θ:关节角;d:关节偏移量;a:连杆长度;α:连杆扭转角;xyz:机器人坐标系,其中,蓝色坐标系为机械臂的原点和末端坐标系,黑色坐标系为关节坐标系
Figure 1. Picking manipulator
θ: Joint angle; d: Joint distance; a: Link length; α: Link twist angle; xyz: Robot coordinate system, in which the blue coordinate system is the origin and end coordinate system of the manipulator, and the black coordinate system is the joint coordinate system
图 4 二维采摘平面
γ:采摘平面,$ {p_i} $:枝干横截面中心点,$ {p_{\rm{e}}} $:末端执行器,$ {p_{\rm{r}}} $:线段$ {p_i}{p_{\rm{e}}} $与横截面的交点,$ \overrightarrow {{p_{\rm{r}}}{p_{\rm{e}}}} $:采摘平面法向量,$ \overrightarrow {{p_{\rm{e}}}{p_{\rm{r}}}} $:采摘平面法向量(方向与$ \overrightarrow {{p_{\rm{r}}}{p_{\rm{e}}}} $相反)
Figure 4. 2D picking plane
γ: Picking plane, $ {p_i} $: Center point of branch cross section, $ {p_{\rm{e}}} $: End effector, $ {p_{\rm{r}}} $: Intersection of line segment $ {p_i}{p_{\rm{e}}} $ and cross section, $ \overrightarrow {{p_{\rm{r}}}{p_{\rm{e}}}} $: Normal vector of picking plane, $ \overrightarrow {{p_{\rm{e}}}{p_{\rm{r}}}} $: Normal vector of picking plane(opposite direction to $ \overrightarrow {{p_{\rm{r}}}{p_{\rm{e}}}} $)
表 1 采摘机械臂D-H参数1)
Table 1 D-H parameters of picking manipulator
关节编号 Joint No. θ d/m a/m α/(°) 1 $ {\theta _1} $ 0.22 0 90 2 $ {\theta _2} $ 0 0.38 180 3 $ {\theta _3} $ 0 0 90 4 $ {\theta _{\text{4}}} $ 0.42 0 −90 5 $ {\theta _{\text{5}}} $ 0 0 90 6 $ {\theta _{\text{6}}} $ 0.4 0 0 1)θ:关节角,d:关节偏移量,a:连杆长度,α:连杆扭转角 1)θ: Joint angle, d: Joint distance, a: Link length, α: Link twist angle 表 2 不同算法在3种环境中的试验结果1)
Table 2 Experiment results of different algorithms in three environments
环境 Environment 算法 Algorithm t/s l/m 成功率/% Success rate A LSTM-SAC 0.03 0.721 96 LSTM-DDPG 0.03 0.764 80 SAC 0.05 1.237 90 DDPG 0.05 1.432 58 RRT-connect 7.28 0.813 90 RRT 11.36 0.896 85 B LSTM-SAC 0.04 1.103 93 LSTM-DDPG 0.04 1.864 72 SAC 0.06 2.034 88 DDPG 0.07 2.339 57 RRT-connect 9.64 1.337 81 RRT 17.32 1.431 77 C LSTM-SAC 0.04 0.793 95 LSTM-DDPG 0.04 0.937 76 SAC 0.06 1.361 79 DDPG 0.07 1.581 44 RRT-connect 8.72 0.973 84 RRT 16.56 1.038 81 1) t:平均规划耗时;l:路径平均长度 1) t: Average planning time; l: Average path length -
[1] 常有宏, 吕晓兰, 蔺经, 等. 我国果园机械化现状与发展思路[J]. 中国农机化学报, 2013, 34(6): 21-26. doi: 10.3969/j.issn.2095-5553.2013.06.007 [2] 徐丹琦. 基于kinect相机的自然生长状态下果树枝干的三维构建[D]. 桂林: 广西师范大学, 2021. [3] 崔永杰, 王寅初, 何智, 等. 基于改进RRT算法的猕猴桃采摘机器人全局路径规划[J]. 农业机械学报, 2022, 53(6): 151-158. [4] 张勤, 乐晓亮, 李彬, 等. 基于CTB-RRT~*的果蔬采摘机械臂运动路径规划[J]. 农业机械学报, 2021, 52(10): 129-136. doi: 10.6041/j.issn.1000-1298.2021.10.013 [5] 王怀震, 高明, 王建华, 等. 基于改进RRT~*-Connect算法的机械臂多场景运动规划[J]. 农业机械学报, 2022, 53(4): 432-440. [6] 马宇豪, 梁雁冰. 一种基于六次多项式轨迹规划的机械臂避障算法[J]. 西北工业大学学报, 2020, 38(2): 392-400. doi: 10.3969/j.issn.1000-2758.2020.02.021 [7] 贾庆轩, 陈钢, 孙汉旭, 等. 基于A*算法的空间机械臂避障路径规划[J]. 机械工程学报, 2010, 46(13): 109-115. [8] 张敦凤, 赵皓, 徐亮, 等. 基于栅格法的机械臂工作空间解析方法研究[J]. 制造业自动化, 2019, 41(4): 69-70. [9] 张强, 陈兵奎, 刘小雍, 等. 基于改进势场蚁群算法的移动机器人最优路径规划[J]. 农业机械学报, 2019, 50(5): 23-32. [10] 刘可, 李可, 宿磊, 等. 基于蚁群算法与参数迁移的机器人三维路径规划方法[J]. 农业机械学报, 2020, 51(1): 29-36. doi: 10.6041/j.issn.1000-1298.2020.01.003 [11] KHATIB O. Real-time obstacle avoidance for manipulators and mobile robots[M]// COX I J, WILFONG G T. Autonomous robot vehicles. New York: Springer, 1986: 396-404.
[12] 史亚飞, 张力, 刘子煊, 等. 基于速度场的人工势场法机械臂动态避障研究[J]. 机械传动, 2020, 44(4): 38-44. [13] WANG W, ZHU M, WANG X, et al. An improved artificial potential field method of trajectory planning and obstacle avoidance for redundant manipulators[J]. International Journal of Advanced Robotic Systems, 2018, 15(5): 1729881418799562.
[14] 谢龙, 刘山. 基于改进势场法的机械臂动态避障规划[J]. 控制理论与应用, 2018, 35(9): 1239-1249. doi: 10.7641/CTA.2018.70187 [15] ZHANG N, ZHANG Y, MA C, et al. Path planning of six-DOF serial robots based on improved artificial potential field method[C]// 2017 IEEE International Conference on Robotics and Biomimetics (ROBIO), Macau: IEEE, 2017.
[16] GU S, HOLLY E, LILLICRAP T, et al. Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates[C]//2017 IEEE international conference on robotics and automation (ICRA), Singapore: IEEE, 2017: 3389-3396.
[17] WEN S, CHEN J, WANG S, et al. Path planning of humanoid arm based on deep deterministic policy gradient[C]//2018 IEEE International Conference on Robotics and Biomimetics (ROBIO). Kuala Lumpur: IEEE, 2018: 1755-1760.
[18] KIM M, HAN D, PARK J, et al. Motion planning of robot manipulators for a smoother path using a twin delayed deep deterministic policy gradient with hindsight experience replay[J]. Applied Sciences, 2020, 10(2): 575. doi: 10.3390/app10020575
[19] LU X, LEE K, ABBEEL P, et al. Dynamics generalization via information bottleneck in deep reinforcement learning[EB/OL]. arXiv, 2020: 2008.00614 [2020-08-03]. https://arxiv.org/abs/2008.00614.
[20] BANINO A, BADIA A, WALKER J, et al. CoBERL: Contrastive BERT for reinforcement learning[EB/OL]. arXiv, 2021: 2107.05431 [2022-02-22]. https://arxiv.org/abs/2107.05431.
[21] LIN G, ZHU L, LI J, et al. Collision-free path planning for a guava-harvesting robot based on recurrent deep reinforcement learning[J]. Computers and Electronics in Agriculture, 2021, 188: 106350. doi: 10.1016/j.compag.2021.106350
[22] 毕松, 张潞. 自然环境下的柑橘采摘点识别方法研究[J]. 计算机仿真, 2021, 38(12): 227-231. [23] 杨长辉, 刘艳平, 王毅, 等. 自然环境下柑橘采摘机器人识别定位系统研究[J]. 农业机械学报, 2019, 50(12): 14-22. doi: 10.6041/j.issn.1000-1298.2019.12.002 [24] 尹建军, 武传宇, YANG S, 等. 番茄采摘机器人机械臂避障路径规划[J]. 农业机械学报, 2012, 43(12): 171-175. doi: 10.6041/j.issn.1000-1298.2012.12.031 [25] CAO X, ZOU X, JIA C, et al. RRT-based path planning for an intelligent litchi-picking manipulator[J]. Computers and Electronics in Agriculture, 2019, 156: 105-118. doi: 10.1016/j.compag.2018.10.031
[26] 郑嫦娥, 高坡, GAN H, 等. 基于分步迁移策略的苹果采摘机械臂轨迹规划方法[J]. 农业机械学报, 2020, 51(12): 15-23. doi: 10.6041/j.issn.1000-1298.2020.12.002 [27] 邓钊. 椪柑省力化疏果和促进果实膨大技术研究[D]. 武汉: 华中农业大学, 2018. [28] 张哲. 柑橘采摘机器人采摘姿态及序列研究[D]. 重庆: 重庆理工大学, 2018. [29] 熊俊涛, 李中行, 陈淑绵, 等. 基于深度强化学习的虚拟机器人采摘路径避障规划[J]. 农业机械学报, 2020, 51(S2): 1-10. doi: 10.6041/j.issn.1000-1298.2020.S2.001 [30] ZHANG T, ZHANG K, LIN J, et al. Sim2real learning of obstacle avoidance for robotic manipulators in uncertain environments[J]. IEEE Robotics and Automation Letters, 2021, 7(1): 65-72.
[31] XIE J, SHAO Z, LI Y, et al. Deep reinforcement learning with optimized reward functions for robotic trajectory planning[J]. IEEE Access, 2019, 7: 105669-105679. doi: 10.1109/ACCESS.2019.2932257
[32] DUGULEANA M, BARBUCEANU F, TEIRELBAR A, et al. Obstacle avoidance of redundant manipulators using neural networks based reinforcement learning[J]. Robotics and Computer-Integrated Manufacturing, 2012, 28(2): 132-146.
[33] LILLICRAP T, HUNT J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. arXiv, 2015: 1509.02971 [2019-07-05]. https://arxiv.org/abs/1509.02971.
[34] HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor[EB/OL]. arXiv, 2018: 1801.01290 [2018-08-08]. https://arxiv.org/abs/1801.01290.
[35] HAARNOJA T, ZHOU A, HARTIKAINEN K, et al. Soft actor-critic algorithms and applications[EB/OL]. arXiv, 2018: 1812.05905 [2019-01-29]. https://arxiv.org/abs/1812.05905.