基于混合分组扩张卷积的玉米植株图像深度估计

周云成; 刘忠颖; 邓寒冰; 苗腾; 王昌远

doi:10.7671/j.issn.1001-411X.202304019

基于混合分组扩张卷积的玉米植株图像深度估计

沈阳农业大学信息与电气工程学院, 辽宁沈阳 110866

基金项目: 国家重点研发计划(2021YFD1500204)；辽宁省教育厅科学研究项目(LSNJC202004，LSNQN202022)

详细信息

作者简介:
周云成，教授，博士，主要从事机器学习在农业信息处理中的应用研究，E-mail: zhouyc2002@syau.edu.cn

中图分类号: TP183；S126
计量
- 文章访问数: 117
- HTML全文浏览量: 30
- PDF下载量: 27
出版历程
- 收稿日期: 2023-04-13
- 网络出版日期: 2023-12-10
- 发布日期: 2023-12-06
- 刊出日期: 2024-03-09

Depth estimation for corn plant images based on hybrid group dilated convolution

College of Information and Electrical Engineering, Shenyang Agricultural University, Shenyang 110866, China

摘要

摘要:
目的
研究面向玉米田间场景的图像深度估计方法，解决深度估计模型因缺少有效光度损失度量而易产生的精度不足问题，为田间智能农业机械视觉系统设计及导航避障等提供技术支持。
方法
应用双目相机作为视觉传感器，提出一种基于混合分组扩张卷积的无监督场景深度估计模型。设计一种混合分组扩张卷积结构及对应的自注意力机制，由此构建反向残差模块和深度估计骨干网络；并将光照不敏感的图像梯度和Gabor纹理特征引入视图表观差异度量，构建模型优化目标。以田间玉米植株图像深度估计为例，开展模型的训练和测试试验。
结果
与固定扩张因子相比，采用混合分组扩张卷积使田间玉米植株深度估计平均相对误差降低了63.9%，平均绝对误差和均方根误差则分别降低32.3%和10.2%，模型精度显著提高；图像梯度、Gabor纹理特征和自注意力机制的引入，使田间玉米植株深度估计平均绝对误差和均方根误差进一步降低3.2%和4.6%。增加浅层编码器的网络宽度和深度可显著提高模型深度估计精度，但该处理对深层编码器的作用不明显。该研究设计的自注意力机制对编码器浅层反向残差模块中不同扩张因子的卷积分组体现出选择性，说明该机制具有自主调节感受野的能力。与Monodepth2相比，该研究模型田间玉米植株深度估计的平均相对误差降低48.2%，平均绝对误差降低17.1%；在20 m采样范围内，估计深度的平均绝对误差小于16 cm，计算速度为14.3帧/s。
结论
基于混合分组扩张卷积的图像深度估计模型优于现有方法，有效提升了深度估计的精度，能够满足田间玉米植株图像的深度估计要求。
- 深度估计 /
- 扩张卷积 /
- 自注意力 /
- 无监督学习 /
- 玉米植株图像
Abstract:
Objective
To study the image depth estimation methods for corn field scenes, solve the problem of insufficient accuracy in depth estimation models due to the lack of effective photometric loss measures, and provide technical support for the vision system design of field intelligent agricultural machinery and navigation obstacle avoidance.
Method
This study applied binocular cameras as visual sensors, and proposed an unsupervised depth estimation model based on hybrid grouping extended convolution. A hybrid grouping extended convolution structure and its corresponding self-attention regulation mechanism were designed. The reverse residual module and deep neural network were constructed as the backbone of the model. The illumination insensitive image gradient and Gabor texture features were introduced into the apparent difference measurement of view, and the model optimization objective was constructed based on them. Taking maize plant image as an example, the model training and verification tests were carried out.
Result
Compared with the fixed expansion factor, the average relative error of maize plant depth estimation in the field was reduced by 63.9%, the average absolute error and root mean square error were reduced by 32.3% and 10.2% respectively, and the accuracy of the model was significantly improved. With the introduction of image gradient, Gabor texture feature and self-attention mechanism, the mean absolute error and root mean square error of field scene depth estimation were further reduced by 3.2% and 4.6% respectively. Increasing the network width and depth of shallow encoder could significantly improve the accuracy of model depth estimation, but the effect of this treatment on deep encoder was not obvious. The self-attention mechanism designed in this study was selective to the convolution grouping of different expansion factors in the shallow reverse residual module of the encoder, indicating that the mechanism had the ability to adjust the receptive field. Compared with Monodepth2, the average relative error and the average absolute error of the estimated depth of maize plants in the field of the research model were reduced by 48.2% and 17.1% respectively. Within the sampling range of 20 m, the average absolute error of the estimated depth was no more than 16 cm, and the calculation speed was 14.3 frames per second.
Conclusion
The image depth estimation model based on hybrid group dilated convolution is superior to existing methods, effectively improves the accuracy of depth estimation and can meet the depth estimation requirements of field corn plant images.
- Depth estimation /
- Dilated convolution /
- Self-attention /
- Unsupervised learning /
- Corn plant image

HTML全文

借助于卫星定位系统，大田智能农业机械可实现自主导航^[1] 及定位^[2-3]，但自主避障^[4-6]通常需要视觉系统的参与，即需要该系统实时提供行进方向的场景深度。目前，深度感知技术主要有以激光雷达、深度传感器、超声波等为代表的主动感知手段，以及以图像传感器为代表的被动感知技术。对于生长在复杂多样田间环境的植株来说，现有主动感知器件应用尚存在一些制约因素，激光雷达价格昂贵，会显著增加农机制造成本；Kinect等深度传感器发出的红外激光易受日光干扰，超声波会受作物表面情况影响^[4]。虽然被动感知技术也存在计算耗时长、误匹配率高等问题，但图像传感器可同时应用于多种视觉任务，且价格低廉，如果能够在算法上取得突破，将会是理想的视觉传感部件，也将大大促进智能农机装备的发展。

传统被动感知技术主要利用双目相机作为传感器，通过立体匹配法获取场景深度信息。翟志强等^[7]用特征点检测和双目测距技术获取田间场景稀疏三维坐标，根据三维阈值，提取作物行特征点，用自适应Kalman滤波技术构建作物行中心线跟踪模型。洪梓嘉等^[8]通过双目立体匹配获得视差图，对视差图构建的三维点云进行自适应阈值点云提取，实现了田埂边界识别和测距。田间植株图像颜色、纹理单一，基于人工特征的立体匹配算法误匹配现象严重。近几年，以卷积神经网络(Convolution neural network，CNN)为代表的深度学习技术取得了长足的进步。王亮等^[3]通过建立YOLO-ZED神经网络识别模型，识别并提取拖拉机特征，用双目视觉原理计算其空间位置坐标，对多机协同导航作业中本机前方的拖拉机进行定位。景亮等^[5]用改进的YOLOv3算法获取障碍物在图像中的位置信息，结合立体匹配获取障碍物相对于相机的三维坐标。将特定类型目标的检测模型与双目视觉技术相结合，可实现场景中感兴趣目标物的空间定位，但该类方法不能获得完整的场景结构，且障碍物类型通常也难以预知。Eigen等^[9]通过端到端的有监督学习实现单张彩色图像的深度预测。有监督学习需要样本中包含真实深度图作为标注，数据集构建困难，且有监督学习也无法适应变化的工作场景。Xie等^[10]将离散深度估计建模成新视图生成问题，提出一种无监督学习方法。Garg等^[11]对该方法进行了扩展，以实现连续深度预测。Zhou等^[12]将位姿估计引入深度估计模型，提出一种无监督单目深度估计模型。单目深度估计的前提是假设场景为刚体，这与田间场景内易受干扰的植株为柔性材料不符。Godard等^[13]提出一种基于左右一致性约束的双目深度估计模型，并在Monodepth2^[14]中进行了改进，在现有数据集上取得了优异的结果。这些研究将深度估计建模成视图生成问题，用1范数(L1)和结构近似度指数(Structural similarity index，SSIM)构建的光度损失作为CNN自监督学习信号，然而L1和SSIM并不足以度量颜色纹理单一、光环境复杂的植株图像近似性。周云成等^[15]将CNN卷积特征引入近似性度量中，在植株图像深度估计方面取得了较高的精度，然而该方法需要预先通过有监督方式训练一个CNN分类网络，过程较复杂。虽然无监督深度估计模型研究取得了一定进展，但鲜见其在田间场景中的应用及有效性研究。

鉴于深度感知对智能农业机械自主避障的重要作用，及现有无监督深度估计方法存在着光度损失难以充分度量田间植株图像表观差异的问题^[16-18]，本研究应用双目相机作为视觉传感器，提出一种无监督场景深度估计模型，并引入包含边缘梯度和Gabor纹理特征的表观差异度量函数。同时将混合扩张应用到卷积核上，提出一种混合分组扩张卷积结构及对应的自注意力机制，由此构建反向残差模块和深度估计骨干网络。以田间玉米植株图像深度估计为例，开展模型的训练和测试试验，验证方法的有效性。以期实现田间场景深度信息的高精度获取。

1. 玉米植株图像数据集和深度估计模型

1.1 构建田间玉米植株双目图像数据集

于2021年7—8月，在沈阳农业大学棕壤长期定位试验基地1块种植作物为玉米的试验田中采集双目图像，此时玉米处于孕穗期，株高约1.8~2.5 m，株距约0.3 m，行距约0.5 m。图像采集设备为ZED双目相机(Stereolabs，美国)，该相机可同步采集左、右目图像，单目分辨率为1 920像素×1 080像素，有效成像距离为0.5~20.0 m。

在晴朗天气的9:00—16:00采集玉米植株图像。将双目相机固定于轮式遥控机器人底盘顶部的托架上，离地高度约1.35 m，相机前向平视。由于玉米植株已封行，无法直接进入株行内采样。采用远程遥控机器人底盘沿田间通道和地头人行道前进的方式，采集沿途场景图像。共采集双目图像8000对。

用MATLAB R2018a的Stereo Camera Calibrator工具箱对双目相机进行标定，获取左、右目相机内、外参数。基于相机参数，用Bouguet法对双目图像进行校正，使对应像素行对齐。用SIFT算子提取校正图像的特征点，并采用k近邻法匹配双目特征点，以人工走查的方式剔除误匹配后，计算匹配特征点间的横坐标差值，此差值即为匹配特征点的真实视差，用于验证模型预测视差的精度。校正后的双目图像及真实视差值共同构成玉米植株双目图像数据集。

1.2 玉米植株图像深度估计模型

空间点在双目相机采集的同步双目图像对$ \left( {{I_{\rm{l}}},{I_{\rm{r}}}} \right) $中的投影称为对应像素，其水平坐标之差称为视差(d)，根据式(1)可获得空间点的深度值(z)。

$$ z = fb/d ， $$

(1)

式中，f、b分别表示双目相机的焦距和左、右相机间的基线距离。图像深度估计的目标是，训练出一个由CNN构建的深度估计模型 $ {f_{\rm{D}}} $，其以$ \left( {{I_{\rm{l}}},{I_{\rm{r}}}} \right) $作为输入，预测与之对应、且大小相同的双目视差图$ \left( {{D_{\rm{l}}},{D_{\rm{r}}}} \right) $，即有映射$ {f_{\rm{D}}}:\left( {{I_{\rm{l}}},{I_{\rm{r}}}} \right) \to \left( {{D_{\rm{l}}},{D_{\rm{r}}}} \right) $。通过模型预测的视差图中的稠密视差值，可获得田间玉米植株图像的深度信息^[15]。

1.2.1 无监督学习

由双目图像对应像素间的投影关系，根据左目视差图$ {D_{\rm{l}}} $，用可微分双线性插值采样函数($ {f_{\rm{B}}} $)^[19]从$ {I_{\rm{r}}} $上采样，可重构左视图$ {\bar I_{\rm{l}}} = {f_{\rm{B}}}\left( {{I_{\rm{l}}},{D_{\rm{l}}}} \right) $，同理也可重构右视图$ {\bar I_{\rm{r}}} = {f_{\rm{B}}}\left( {{I_{\rm{l}}},{D_{\rm{r}}}} \right) $。如果 $ {f_{\rm{D}}} $ 预测的$ \left( {{D_{\rm{l}}},{D_{\rm{r}}}} \right) $足够精确，则重构视图对$ \left( {{{\bar I}_{\rm{l}}},{{\bar I}_{\rm{r}}}} \right) $和原图像对$ \left( {{I_{\rm{l}}},{I_{\rm{r}}}} \right) $应具有表观一致性，否则，则表明模型预测的视差图不正确。用表观差异度量函数$ {\rm{pe}} $度量原图像和重构视图的差异，并以其最小化作为$ {f_{\rm{D}}} $的优化目标，如式(2)所示。

$$ 优化f_{\rm{D}}= \mathop {\arg \min }\limits_{{D_{\rm{l}}},\;{D_{\rm{r}}}} \left[ {{\rm{pe}}\left( {{{\bar I}_{\rm{l}}},{I_{\rm{l}}}} \right) + {\rm{pe}}\left( {{{\bar I}_{\rm{r}}},{I_{\rm{r}}}} \right)} \right] \text{，} $$

(2)

式中，$ {\rm{pe}}\left( {{{\bar I}_{\rm{l}}},{I_{\rm{l}}}} \right) $、${\rm{pe}}\left( {{{\bar I}_{\rm{r}}},{I_{\rm{r}}}} \right)$分别表示对$ {\bar I_{\rm{l}}} $、$ {I_{\rm{l}}} $和${{\bar I}_{\rm{r}}} $、${{ I}_{\rm{r}}}$的表观差异度量。以式(2)为优化目标，用大量双目图像样本训练$ {f_{\rm{D}}} $，将使其预测的视差图逐渐趋于真实值，并学习出根据双目图像预测对应视差的能力。该过程无需视差真值作为标注，属于自监督学习，模型整体结构如图1所示。

图 1 自监督深度估计模型

I_l、I_r分别表示左、右目图像；D_l、D_r分别表示左、右目视差图；$ {\bar I_{\rm{l}}} $、$ {\bar I_{\rm{r}}} $分别表示左、右目重构图像；f_B表示图像采样器

Figure 1. Self-supervised depth estimation model

I_l and I_r are left and right images respectively; D_l and D_r are left and right disparity maps respectively; $ {\bar I_{\rm{l}}} $ and $ {\bar I_{\rm{r}}} $ represent left and right warping images respectively; f_B denotes image sampler

下载: 全尺寸图片幻灯片

1.2.2 图像表观差异度量函数

由于玉米植株并非理想朗伯体，加上田间光线复杂，以及左、右相机物理特性的不同，同一目标在双目图像上的成像可能存在着颜色、光度等差异。现有研究^[11-14]通常采用像素空间的L1距离和SSIM指数的组合作为$ {\rm{pe}} $函数，然而这种组合对图像颜色变化及局部光度分布较敏感^[16]，难以适应田间复杂光环境。本研究在此基础上引入边缘特征比较，该类特征对颜色及光度变化的敏感度较低。设$ {\nabla _j} $为某种可微分图像边缘(梯度)提取算子，$ {\nabla _j}\left( I \right) $为对图像$ I $的边缘检测结果，即边缘特征图。进一步用边缘特征图的L1距离衡量2幅图像的边缘特征差异，如式(3)所示。

$$ \mathop L\nolimits_{\rm{g}} \left( {I,\bar I} \right) = \displaystyle\sum\nolimits_j {{{\left\| {{\nabla _j}\left( I \right) - {\nabla _j}\left( {\bar I} \right)} \right\|}_1}} \text{，} $$

(3)

式中，$ \mathop L\nolimits_{\rm{g}} \left( {I,\bar I} \right) $为图像$ I $、$ \bar I $的边缘特征差异度量，$ \displaystyle\sum\nolimits_j $表示可采用多种边缘提取算子。本研究拟采用3种一阶梯度算子Sobel、Scharr和Prewitt和1种二阶梯度算子Laplacian，来提取图像边缘特征。

图像的纹理特征也具有良好的光不敏感性，本研究同时用Gabor滤波器提取并比较图像纹理差异。Gabor函数可模仿人眼生物学作用，其由余弦函数和高斯函数在二维空间中叠加而成，具有方向和尺度选择性，该函数实数部分定义如式(4)所示。

$$ g\left( {x,y;\lambda ,\theta ,\psi ,\sigma ,\gamma } \right) = \exp \left( { - \dfrac{{{{x'}^2} + {\gamma ^2}{{y'}^2}}}{{2{\sigma ^2}}}} \right)\cos \left( {2{\text{π}} \dfrac{{x'}}{\lambda } + \psi } \right) \text{，} $$

(4)

其中，

$$ x' = x\cos \theta + y\sin \theta \text{，} $$

(5)

$$ y' = - x\sin \theta + y\cos \theta ， $$

(6)

式中，$ x $、$ y $为Gabor核内坐标，$ \theta $表示核方向，$ \gamma $为核的纵横比，$ \lambda $为余弦函数的波长，$ \psi $为相位，$ \sigma $为高斯函数的标准差。根据现有研究结果^[20]及预试验，选取$ \lambda \in \left\{ {3,5} \right\} $，$ \sigma = 0.56\lambda $，$ \psi = 0 $，$ \gamma = 0.5 $，θ ∈ {kπ/8|k ∈ [0,8]}，利用式(3)生成16个大小为7×7的Gabor滤波器核，组成16×7×7的张量模板，通过其对图像做卷积运算，提取图像I的纹理特征，记为$ {\rm{Gabor}}\left( I \right) $。同样用L1距离计算Gabor纹理特征差异，如式(7)所示。

$$ {L_{\rm{g}}}\left( {I,\bar I} \right) = {\left\| {{\rm{Gabor}}\left( I \right) - {\rm{Gabor}}\left( {\bar I} \right)} \right\|_1} \text{，} $$

(7)

式中，${L_{\rm{g}}}\left( {I,\bar I} \right)$表示图像$ I $、$ \bar I $的纹理特征差异。

以图像像素空间的L1距离、SSIM指数、边缘及Gabor纹理特征差异的线性组合作为图像表观差异度量函数 $ {\rm{pe}} $ 的最终定义，如式(8)所示。

$$ \begin{split} {\rm{pe}}\left( {I,\bar I} \right) = & \alpha \left[ {\left( {1 - {\rm{SSIM}}\left( {I,\bar I} \right)} \right)/2} \right] + \\ &\left( {1 - \alpha } \right){\left\| {I - \bar I} \right\|_1} + \beta {L_{\rm{g}}}\left( {I,\bar I} \right) + \eta {L_{\rm{g}}}\left( {I,\bar I} \right) \text{，} \end{split} $$

(8)

式中，$ \alpha $、$ \beta $、$ \eta $为比例调整系数。

1.2.3 像素消失及遮挡处理

双目相机的位姿差异会导致图像边界附近的部分像素在另一目图像中消失，同时也存在着场景遮挡问题，即左图像中的部分像素，在右图像中可能无对应匹配点，反之亦然。此时，即使 $ {f_{\rm{D}}} $ 预测的视差图是准确的，基于该视差图，用 $ {f_{\rm{B}}} $ 采样重构的视图，和原图像在像素消失和遮挡区域仍具有较大差异。因此，需要从 $ {\rm{pe}} $ 中将该区域内的差异度量排除，否则以式(2)为目标的优化过程将产生问题梯度回传。为抑制该问题，在用 $ {f_{\rm{D}}} $ 预测 $ {D_{\rm{l}}} $、$ {D_{\rm{r}}} $ 的同时，也用其为左、右目图像分别预测归一化遮罩平面$ {E_{\rm{l}}} $、$ {E_{\rm{r}}} $，即模型修改为$ {f_{\rm{D}}}:\left( {{I_{\rm{l}}},{I_{\rm{r}}}} \right) \to \left( {{D_{\rm{l}}},{D_{\rm{r}}},{E_{\rm{l}}},{E_{\rm{r}}}} \right) $，同时将重构视图的差异度量(损失)修改为式(9)所示。

$$ \begin{split} {L_{{\rm{rec}}}} = &\dfrac{1}{M}\displaystyle\sum\nolimits_{i=1}^M {{E_{{\rm{l}},i}}{\rm{p}}{{\rm{e}}_i}\left( {{{\bar {{I}}}_{\rm{l}}},{{{I}}_{\rm{l}}}} \right)} + {E_{{\rm{r}},i}}{\rm{p}}{{\rm{e}}_i}\left( {{{\bar I}_{\rm{r}}},{I_{\rm{r}}}} \right) -\\ &\rho \left[ {\ln \left( {{E_{{\rm{l}},i}}} \right) + \ln \left( {{E_{{\rm{r}},i}}} \right)} \right] \text{，} \end{split} $$

(9)

式中，$ {L_{{\rm{rec}}}} $为考虑像素消失及遮挡后的图像重构损失，M为图像像素数，$ \rho $ 为比例系数，$ i $ 为像素索引，$ - \rho \left[ {\ln \left( {{E_{{\rm{l}},i}}} \right) + \ln \left( {{E_{{\rm{r}},i}}} \right)} \right] $为正则化项。对于像素消失和遮挡区域，如有$ {E_{{\rm{l}},i}}= 0 $、$ {E_{{\rm{r}},i}} = 0 $，则可避免该区域的差异度量对模型训练的影响，而对于非遮挡区域，$ {E_{{\rm{l}},i}}= 1 $、$ {E_{{\rm{r}},i}}= 1 $则可产生有效的误差梯度回传。以$ \arg \min {L_{{\rm{rec}}}} $为模型优化目标时，如无正则化项，将使遮罩平面$ {E_{\rm{l}}} $、$ {E_{\rm{r}}} $的所有值趋近于0，而正则化项则使平面值趋近于1。通过使用恰当的系数 $ \rho $，可产生的效果是，对于非遮挡区域，即使对应的遮罩值趋近于1，仍可保证$ {E_{{\rm{l}},i}}{\rm{p}}{{\rm{e}}_i} $或$ {E_{{\rm{r}},i}}{\rm{p}}{{\rm{e}}_i} $较低，而对于遮挡区域，对应的遮罩值趋近于0，才可保证$ {E_{{\rm{l}},i}}{\rm{p}}{{\rm{e}}_i} $或$ {E_{{\rm{r}},i}}{\rm{p}}{{\rm{e}}_i} $较低。因此，如 $ \rho $ 选取得当，模遮罩平面具有标识像素消失及遮挡区域的潜力。

1.2.4 损失函数定义

图像的平滑区域通常为物体的非边界区，该区域内各方向不应出现大的视差跳变。为给$ {f_{\rm{D}}} $预测的视差图引入局部平滑约束，本研究采用Laplacian算子检测图像物体边缘和视差跳变，在目标边缘区域允许有大的视差变化，而在非边缘的均匀区域则抑制视差跳变，用视差平滑损失($ {L_{{\rm{ds}}}} $)来实现该约束。

$$ {L_{{\rm{ds}}}} = \dfrac{1}{M}\displaystyle\sum\nolimits_{i=1}^M {{{\rm{e}}^{ - \left| {{\nabla ^2}{I_{{\rm{l}},i}}} \right|}}\left| {{\nabla ^2}{D_{{\rm{l}},i}}} \right| + } {{\rm{e}}^{ - \left| {{\nabla ^2}{I_{{\rm{r}},i}}} \right|}}\left| {{\nabla ^2}{D_{{\rm{r}},i}}} \right| 。 $$

(10)

参考Godard等^[13]的研究，在模型的优化目标中引入双目视差一致性约束($ {L_{{\rm{dc}}}} $)，如式(11)所示。

$$ {L_{{\rm{dc}}}} = \dfrac{1}{M}{\displaystyle\sum\nolimits_{i=1}^M {\left\| {{D_{{\rm{l}},i}} - {{\bar D}_{{\rm{l}},i}}} \right\|} _1} + {\left\| {{D_{{\rm{r}},i}} - {{\bar D}_{{\rm{r}},i}}} \right\|_1} 。 $$

(11)

以图像重构损失、视差平滑约束和双目视差一致性约束的线性组合作为深度估计模型的总损失函数定义，如式(12)所示。

$$ {L_{\rm{t}}} = {L_{{\rm{rec}}}} + {\eta _1}{L_{{\rm{ds}}}} + {\eta _2}{L_{{\rm{dc}}}} \text{，} $$

(12)

式中，$ {L_{\rm{t}}} $表示总损失，$ {\eta _1} $、$ {\eta _2} $表示线性组合的比例系数。以$ \arg \min \mathop L\nolimits_{\rm{t}} $作为 $ {f_{\rm{D}}} $ 的最终优化目标。

1.3 深度估计网络结构设计

深度估计模型$ {f_{\rm{D}}} $属高维张量到张量的映射，采用卷积自编码器(Convolutional auto-encoder，CAE)对其进行建模。$ {f_{\rm{D}}} $的输出视差图与输入图像具有共同的底层空间结构，为避免与目标边缘、位置等相关的低层图像特征经CAE的编码器降采样后消失，采用U-Net架构^[21]的CAE网络，使低层特征通过跨越连接直接进入CAE的解码器，并融合到对应的同尺度激活特征图中。

1.3.1 空间相关性假设

假设 $ {f_{\rm{D}}} $ 对视差的预测建立在对应像素在空间维上的结构相关性，则视差为d的对应像素需要卷积层的累积感受野达到d以上，才能建立起这种相关性。当d较大时，CAE的编码器需经过多层卷积和空间降维才能累积出满足该要求的感受野。经N次步长为2的下采样操作后，2^N的图像块将降维为1像素的高层特征，该范围内的空间结构信息将完全消失，且在理论上无法重建。CAE解码器一方面需要编码器建立的空间相关性和提取的高层特征来预测视差，另一方面又需要特征图保留图像的空间结构信息。常规CNN结构无法同时满足这2种对立的需求，需优化设计CAE网络，主要策略是通过增加单层卷积的感受野大小，使图像块在不经过显著降维的前提下，建立像素的空间相关性。

1.3.2 混合分组扩张卷积模块分析与设计

扩张卷积(Dilated convolution，DC)^[22]在保持权重参数和运算量不变的前提下，可有效扩大单层卷积感受野，能够降低建立空间相关性所需的CAE编码器下采样次数。Wang等^[23]采用不同扩张因子的DC在网络纵深方向上重复堆叠，来解决相同扩张因子产生的网格伪影问题^[24]。本研究将这一概念扩展到同一卷积层的不同卷积核上，即不同卷积核采用不同扩张因子。该处理无需对现有神经网络计算框架作任何修改，可通过在组卷积模块^[25-27]的各组卷积核中使用不同的扩张因子来实现，本文称此为混合分组扩张卷积(Hybrid group dilated convolutions， HGDConv)。

HGDConv包含$ G $个等宽的卷积分组，各组的$ 扩张因子 $分别取1~$ G $，且各组的输入相同，并用深度化卷积(Depthwise convolution，DepthConv)^[28]作为各分组运算形式，以降低运算量。进一步用逐元素求和的方式融合各分组的输出特征图，作为HGDConv的输出。当HGDConv的卷积核大小为 $ k \times k $，输入、输出通道数为A时，其参数量为 $ GA{k^2} $，而相应的常规卷积的参数量为 $ {A^2}{k^2} $。实际使用中，通常$ G < A $，即HGDConv的权重参数量和计算代价并不比常规卷积大，但该模块却具有更大且有变化的感受野。

反向残差^[29]允许卷积模块具有更窄的输入输出特征图，在不影响网络性能的前提下，具有更高的内存使用效率^[30]，本文进一步构建基于HGDConv的反向残差模块(Inverted residual module， IRM)。IRM首先用点卷积(Conv1×1)对输入特征图$ {F_{\rm{I}}} \in \mathop R\nolimits^{C \times H \times W} $进行通道扩展，将具有C个通道的$ {F_{\rm{I}}} $扩展为具有 $ {\rm{SC}} $ 个通道的扩展特征图，S称为扩展因子，再用HGDConv在扩展特征图上进行空间特征提取和关系映射，如图2所示。在CAE编码器的某一层，可能特定感受野范围内的图像特征和空间相关性对视差预测起决定作用，需要对该感受野范围内的特征进行选择，抑制其他范围内的特征。为此，采用自注意力机制对HGDConv多个分组(即不同的感受野)的特征进行选择，如图2所示。

图 2 基于混合分组扩张卷积与自注意力机制的反向残差模块

DepthConv SC，3×3， s=1，r=G等表示通道数为SC、卷积核大小为3×3、步长为1且扩张因子为G的深度化卷积；Conv表示标准卷积；FC表示全连接层；S为扩展因子，G为组数，R为缩减因子，C、C'表示输入、输出特征图通道数

Figure 2. Inverted residual module based on hybrid group dilated convolution and self-attention mechanism

DepthConv SC, 3×3, s=1, r=G represent deep convolutions with SC channels, 3×3 kernel size, 1 stride, and dilation factor of G; Conv denotes regular convolution; FC means fully connected layers; S is expansion factor; G is the number of group; R is reduction factor; C and C' denote the numbers of input and output channels respectively

下载: 全尺寸图片幻灯片

参考Hu等^[31]方法，在自注意力模块中，首先用全局平均池化操作将HGDConv输出的融合特征图压缩成1维的通道描述子$ q \in \mathop R\nolimits^{{\rm{SC}}} $，以获取全局信息，在此基础上，采用2个全连接层(Fully connected layers, FC)，学习并捕获HGDConv的组间相关性，输出组选择向量(s)。

$$ {\boldsymbol{s}} = {\text{softmax}}[ {\mathop W\nolimits_2 {\text{LReLU}}\left( {\mathop W\nolimits_{\text{1}} q} \right)} ] ， $$

(13)

式中，${\boldsymbol{s}} \in \mathop R\nolimits^G$，$ \mathop W\nolimits_1 \in \mathop R\nolimits^{{\rm{SC}}/R \times {\rm{SC}}} $，$ \mathop W\nolimits_2 \in \mathop R\nolimits^{G \times {\rm{SC}}/R} $，W₁、W₂分别为2个FC的可学习参数，R代表为降低FC参数量而引入的缩减因子，LReLU (Leaky rectifier linear unit)为渗漏型线性整流单元。与研究^[31]在通道维强化或抑制输出特征不同，本研究在组级别对HGDConv的各分组输出特征图进行选择。具体方法为用组选择向量s中的各门限值与HGDConv各对应分组的输出特征图进行逐元素相乘后，作为对各组的特征选择结果，并对各组选择结果再次进行元素级求和，计算方法如式(14)所示。

$$ {F_{\rm{a}}} = \displaystyle\sum\nolimits_j^G {{s_j} \otimes } {F_j} \text{，} $$

(14)

式中，$ \otimes $表示逐元素相乘，$ {F_{\rm{a}}} \in \mathop R\nolimits^{{\rm{SC}} \times H' \times W'} $即为基于自注意力机制的HGDConv特征选择结果，$ {s_j} $为与HGDConv第j个分组对应的门限值，$ {F_j} \in \mathop R\nolimits^{{\rm{SC}} \times H' \times W'} $为第j个分组的输出特征图。

在特征选择基础上，IRM进一步用点卷积映射$ {F_{\rm{a}}} $的通道间相关性^[28]，并调整模块的输出通道数为$ C' $，产生输出特征图$ {F_{\rm{O}}} \in \mathop R\nolimits^{C' \times H' \times W'} $。当$ {F_{\rm{O}}} $和$ {F_{\rm{I}}} $维度相同时，在输入和输出之间引入恒等映射^[31]。本研究在HGDConv的各分组DepthConv中采用3×3卷积核，即 $ k = 3 $，并将S、G、R视为IRM的超参数。

1.3.3 CAE网络结构设计

进一步用IRM构建U-Net结构的CAE(图3)作为 $ {f_{\rm{D}}} $ 模型。双目图像在颜色通道上连接后输入编码器。CAE的编码器采用去除分类器的ResNet^[31]架构，该架构共有5个阶段(Stage)，Stage 1采用1个常规卷积，其输出特征图通道数(宽度)设为C"，其余阶段均采用IRM构建，每个阶段的IRM宽度相同，且每个阶段的第一个IRM的卷积步长设为2，用于特征图下采样，同时后一个阶段的IRM宽度是前一个阶段的2倍。解码器也有5个阶段，每个阶段先通过转置卷积(Transposed convolution， TransConv)对特征图进行上采样，并用逐元素求和的方式融合对应编码器阶段的最后一个IRM的输出特征图，然后再用1个IRM解码特征，各阶段的TransConv和IRM的宽度在前一个阶段基础上减半，解码器Stage 1的宽度则固定为16。根据CAE结构，整个网络宽度由超参数C"决定。

图 3 基于IRM的卷积自编码器

C"为用于调整网络宽度的超参数；TransConv表示转置卷积；$ D_{\rm{l}}^{(1)} $、$ D_{\rm{r}}^{(1)} $、$ E_{\rm{l}}^{(1)} $、$ E_{\rm{r}}^{(1)} $表示多尺度视差图及遮罩平面；/2等表示输出步长

Figure 3. IRM-based convolutional auto-encoder

C" is the super parameter used to adjust network width; TransConv stands for transposed convolution; $ D_{\rm{l}}^{(1)} $, $ D_{\rm{r}}^{(1)} $, $ E_{\rm{l}}^{(1)} $ and $ E_{\rm{r}}^{(1)} $ denote multi-scale disparity maps and mask planes; /2 and so on denote output stride

下载: 全尺寸图片幻灯片

在解码器尾端IRM上，设置输出通道数为4、配置有Sigmoid激活的Conv 3×3标准卷积作为预测模块，该层卷积输出的4通道特征图分别用作左、右目图像的归一化视差图及遮罩平面。用归一化视差图，可避免模型预测出小于0或大于图像宽度的异常视差值。视差(d)可由归一化视差$( \hat d) $与图像宽度W相乘得到。同时，还用预测模块从解码器尾端之前的3个IRM上读取特征，预测图像的多尺度视差及遮罩平面，用以解决 $ {f_{\rm{B}}} $ 梯度局部化问题^[13]。除预测模块外，CAE的所有卷积均采用批归一化(Batch normalization， BN)和LReLU激活，并按Conv-BN-LReLU形式进行组合。

1.4 模型的训练与评估

1.4.1 模型训练

在深度学习计算框架Microsoft Cognitive Toolkit(CNTK) v2.7基础上实现本研究提出的无监督深度估计模型。用NVIDIA Tesla K80图形计算卡进行模型训练和测试试验，计算机配置为Intel Xeon E5-2623 v4处理器，128 GB内存，Windows Server 2012操作系统。从数据集中随机选择85%的样本用于训练，其余15%的样本用于验证测试，每个试验重复3次。

采用比SGD优化速度更快的Adam^[32]优化器对模型进行训练，优化器参数设置为$ {\beta _1} = 0.9 $、$ {\beta _2} = 0.999 $，权重衰减因子设置为5×10⁻⁵。初始学习率为2.5×10⁻⁴，经20代迭代训练后，学习率下降10倍，直至训练结束，每一小批样本为4对双目图像。根据预试验，总损失函数中的各比例系数分别设置为$ \alpha = 0.15 $、$ \beta = 0.25 $、$ \eta = 0.05 $、$ \rho = 0.2 $、$ {\eta _1} = 1.0 $、$ {\eta _2} = 1.0 $，经40代迭代训练后，网络损失及模型深度估计误差可收敛至稳定状态(图4)。

图 4 网络损失及深度估计误差曲线

Figure 4. Network loss and depth estimation error curves

下载: 全尺寸图片幻灯片

1.4.2 模型性能评估标准

设p为玉米植株双目图像测试集中具有真实视差值的像素点数量，$ \left[ {{{\hat X}_i},{{\hat Y}_i},{{\hat Z}_i}} \right] $、$ \left[ {{X_i},{Y_i},{Z_i}} \right] $分别为像素i对应空间点的模型估计坐标和实际坐标。采用文献[13-14]中的评估指标来度量模型的深度预测精度，具体包括估计深度和实际深度的平均相对误差(Mean relative error， Rel)、平方相对误差(Squared relative error，Sq Rel)、均方根误差(Root mean squared error， RMSE)、lg化均方根误差(RMSE_lg)，以及阈值限定精度，即满足$ \delta = \max \left( {\dfrac{{Z{}_i}}{{{{\hat Z}_i}}},\dfrac{{{{\hat Z}_i}}}{{{Z_i}}}} \right) < {\omega ^\tau } $的像素点i占总量p的比例，本文设置$ \omega = 1.15 $、$ \tau \in \left[ {1,2,3} \right] $。在这些指标基础上，进一步用平均绝对误差(Mean absolute error，MAE)和平均距离误差(Mean range error， MRE)来衡量模型精度，定义如式(15)、(16)所示。各项误差值越小、阈值限定精度越高表明模型性能越好。

$$ {\text{MAE}} = \dfrac{1}{p}\displaystyle\sum\nolimits_{i = 1}^p {\left\| {{{\hat Z}_i} - {Z_i}} \right\|} \text{，} $$

(15)

$$ {\text{MRE}} = \dfrac{1}{p}\displaystyle\sum\nolimits_{i = 1}^p {\sqrt {{{\left( {{{\hat X}_i} - {X_i}} \right)}^2} + {{\left( {{{\hat Y}_i} - {Y_i}} \right)}^2} + {{\left( {{{\hat Z}_i} - {Z_i}} \right)}^2}} } 。 $$

(16)

2. 玉米植株图像深度估计性能的影响因素

2.1 处理对玉米植株图像深度估计性能的影响

首先采用ResNet50作为CAE编码器架构，并设置$ C''=24 $，IRM超参数设置为 $ S = 2 $、$ G = 8 $、$ R = 1 $，解码器IRM超参数设置为 $ S = 1 $、$ G = 1 $、$ R = 1 $。为分析模型中不同处理对田间玉米植株深度估计性能的影响，通过启用和停止3种不同处理，构建4种深度估计模型(表1)，其中，混合扩张处理表示在HGDConv的各DepthConv分组中是否采用不同r值，如不采用，则各分组扩张因子均为1；梯度纹理处理表示在$ {\rm{pe}} $函数中是否引入边缘和Gabor纹理特征比较，如不引入，则将其从式(5)中去除；自注意力处理表示在IRM中是否启用本文的自注意力机制，如不启用，则HGDConv的输出特征直接进入IRM的输出层点卷积。各模型采用相同的训练和测试方法，结果如表1所示。

表 1 不同深度估计模型的测试结果¹⁾

Table 1. Test results for different depth estimation models

模型 Model	处理 Treatment			深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold
模型 Model	混合扩张 Hybrid dilation	梯度纹理 Gradient and texture	自注意力 Self-attention	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	$ \delta < 1.15 $	$ \delta < {1.15^2} $	$ \delta < {1.15^3} $
A				20.8±0.08a	85.3±0.87a	667.0±2.0a	0.1364±0.0007a	249.7±1.1a	272.8±2.3a	80.8±0.35b	85.2±0.23b	89.0±0.31b
B	√			7.5±0.02b	66.9±0.67b	599.2±2.0c	0.0764±0.0004b	169.1±1.0b	185.6±1.1b	93.0±0.14a	95.5±0.19a	96.6±0.10a
C	√	√		7.3±0.02c	64.9±0.34c	625.1±1.8b	0.0739±0.0002c	167.2±1.0c	184.9±1.7c	92.5±0.20a	95.7±0.14a	97.0±0.12a
D	√	√	√	6.7±0.02d	58.0±0.47d	568.2±2.0d	0.0722±0.0002d	161.0±1.0d	177.0±3.4d	93.9±0.13a	96.0±0.20a	97.2±0.09a
1) Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同模型间差异显著(P<0.05，Duncan’s法) 　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error, MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different models (P<0.05, Duncan’s method)

下载: 导出CSV

| 显示表格

表1中，模型B与A的比较表明，混合扩张卷积使深度估计各项误差显著下降、阈值限定精度显著提高，其中，平均相对误差降低63.9%，平均绝对误差和均方根误差分别降低32.3%和10.2%。在HGDConv的各组DepthConv中采用不同r值，扩大了同层卷积核的感受野，减少了建立空间相关性所需的下采样层数，保留了空间位置信息，且由于各组扩张因子的连续性，能更有效地提取图像局部特征，进而提高深度估计效果。模型C与B的比较表明，在$ {\rm{pe}} $函数中引入梯度和Gabor纹理特征，除均方根误差显著升高外，其他各项误差均显著下降，阈值限定精度均值有所提高，说明该处理对深度估计性能的提升是有效的。引入梯度与纹理特征比较，可精确重构边界及纹理，进而精确恢复边界附近及纹理覆盖的局部区域的深度。模型D与C的比较表明，IRM中的自注意力机制使各项深度估计误差显著下降，阈值限定精度有所提高。自注意力机制使模型能够根据全局信息从HGDConv的各分组中选择对提高重构图像表观近似性具有重要作用的感受野特征，从而间接提高了视差估计精度。

2.2 网络结构超参数对深度估计性能的影响

固定CAE的解码器，在模型C基础上调整超参数S、$ G $，在模型D基础上调整R，来改变编码器IRM的内部结构，分析超参数及IRM结构对网络深度估计性能的影响，用于筛选与改进CAE网络。模型在训练和测试过程中，分别固定 $ S $、$ G $、$ R $ 的其中2个，改变第3个超参数，结果如表2所示。

表 2 结构超参数对深度估计性能的影响¹⁾

Table 2. Effects of structural hyper parameters on depth estimation performance

模型²⁾ Model	深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold			参数(×10⁶) Parameter	速度/ (帧·s⁻¹) Speed
模型²⁾ Model	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	δ < 1.15	δ < 1.15²	δ < 1.15³	参数(×10⁶) Parameter	速度/ (帧·s⁻¹) Speed
C (2, 8, —)	7.3±0.02e	64.9±0.34d	623.4±1.8b	0.0741±0.0001d	170.7±1.0c	183.7±1.0c	93.5±0.20abc	95.7±0.14ab	97.0±0.12a	2.70	15.7±0.1e
C1 (1, 8, —)	7.8±0.05c	79.1±0.82b	723.6±1.9a	0.0764±0.0002c	188.2±1.0a	204.3±1.1a	93.2±0.15bc	95.6±0.15ab	96.9±0.10ab	1.35	20.2±0.5c
C2 (4, 8, —)	7.0±0.05f	58.7±0.58e	564.7±2.0f	0.0719±0.0003e	151.6±1.1f	163.5±1.1f	94.2±0.15a	95.9±0.12ab	97.0±0.17a	5.40	10.6±0.1g
C3 (2, 2, —)	11.2±0.01a	88.1±0.47a	588.7±1.8d	0.0953±0.0001a	184.3±1.0b	198.7±1.1b	89.7±0.27d	92.8±0.17c	95.0±0.10c	2.44	28.0±0.1a
C4 (2, 4, —)	8.0±0.02b	69.7±0.59c	612.8±1.8c	0.0789±0.0005b	169.7±1.0c	183.6±1.1c	93.0±0.18c	95.2±0.14b	96.5±0.13b	2.52	21.6±0.4b
C5 (2, 6, —)	7.4±0.02d	63.8±0.81d	576.4±1.9e	0.0759±0.0004c	160.9±0.9de	173.8±0.9de	93.6±0.17ab	95.6±0.18ab	96.7±0.12ab	2.61	18.5±0.0d
D (2, 8, 1)	6.9±0.02f	59.0±0.47e	572.1±2.0ef	0.0723±0.0002e	163.2±1.0d	175.9±1.0d	93.8±0.15abc	95.9±0.20ab	97.1±0.09a	4.98	12.3±0.2f
D1 (2, 8, 4)	6.8±0.05f	58.2±0.99e	576.9±1.6e	0.0717±0.0003e	158.6±0.9e	171.7±1.0e	93.9±0.19ab	96.0±0.18a	97.2±0.11a	3.27	12.5±0.1f
D2 (2, 8, 8)	7.1±0.03e	59.4±0.65e	567.1±1.7f	0.0735±0.0001d	164.2±0.8d	177.1±1.0d	93.8±0.17abc	95.8±0.22ab	97.0±0.07a	2.99	12.5±0.1f
D3 (2, 8, 16)	7.2±0.03e	60.1±0.83e	559.0±1.8g	0.0743±0.0004d	163.7±1.1d	175.6±1.1d	93.6±0.12abc	95.7±0.17ab	97.0±0.10a	2.85	12.4±0.1f
1) Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同模型间差异显著(P<0.05，Duncan’s法)；2)括号中数字依次为超参数S、G和R，其中“—”表示模型不包含R参数　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error, MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different models (P<0.05, Duncan’s method); 2) The numbers in brackets are super parameters S, G and R in turn, “—” indicates that the model does not contain parameter R

下载: 导出CSV

| 显示表格

表2中，模型C1、C和C2的比较表明，深度估计误差随扩展因子 $ S $ 的增大而显著降低，阈值限定精度有所提高，但同时编码器权重参数的数量也显著增加、计算速度下降，与C1相比，C2的权重参数增加了3倍，速度下降了47.5%。模型C3、C4、C5和C的比较表明，在$ G \leqslant 6 $时，除均方根误差有波动外，其他各项误差均随G的增大而显著下降，阈值精度有所提高。与C5相比，模型C的平均相对误差和 lg化均方根误差显著降低，均方根误差、平均绝对误差和平均距离误差显著升高，阈值精度差异不显著，表明很难通过继续增加HGDConv的组数 $ G $ 来进一步提高网络性能。在有限层数内，HGDConv卷积核的累积感受野已在特征图大尺度降采样前建立对应像素的空间相关性，继续增大G，对降低下采样层数已无作用，且扩张因子过大不利于图像局部特征提取，还可能会影响模型深度估计性能。在一定范围内增大S或G，都会使HGDConv的特征图通道数增加，即提取的特征更加多样化，进而带来深度估计性能的提升，但也会增加计算和消耗存储资源，这可通过调节S和G对模型的深度估计性能和计算性能进行平衡。在模型D、D1、D2和D3中，除均方根误差外，D1($ R = 4 $)模型具有最低的误差和最高的阈值限定精度均值。平衡各项指标，以D1模型的超参数设置作为选择结果，并作进一步分析。

以D1模型为基础，采用ResNet18、ResNet50和ResNet101作为CAE编码器架构。同时在D1网络宽度($ C''=24 $)基础上分别增、减1/3，组合多种编码器架构和$ C'' $，分析网络宽度和深度对田间玉米植株深度估计性能的影响，结果如表3所示。

表 3 编码器架构对深度估计性能的影响¹⁾

Table 3. Effects of encoder architectures on depth estimation performance

模型 Model	编码器架构 Encoder architecture	C″	深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold			速度/(帧·s⁻¹) Speed
模型 Model	编码器架构 Encoder architecture	C″	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	$ \delta < 1.15 $	$ \delta < {1.15^2} $	$ \delta < {1.15^3} $	速度/(帧·s⁻¹) Speed
D1	ResNet50	24	6.9±0.05f	58.4±0.99e	576.4±1.6d	0.0717±0.0003f	158.6±0.9ef	171.7±1.0ef	94.03±0.19a	96.1±0.18a	97.2±0.11a	12.5±0.1e
D1a	ResNet50	32	7.1±0.03e	57.5±0.75e	537.2±1.7f	0.0736±0.0003e	157.2±1.0f	170.5±1.1f	93.96±0.14a	95.9±0.25a	97.0±0.19a	11.2±0.2f
D1b	ResNet50	16	8.3±0.06c	71.6±0.94c	620.1±2.0b	0.0804±0.0005c	184.1±1.1c	199.2±0.9c	92.56±0.21c	95.1±0.19bc	96.4±0.18bc	15.1±0.1d
D1c	ResNet18	24	9.1±0.05b	75.0±0.65b	617.4±1.9b	0.0837±0.0003b	187.6±1.0b	202.5±1.0b	92.51±0.15c	94.7±0.16c	96.1±0.09c	23.9±0.2b
D1d	ResNet18	32	8.2±0.04c	70.0±0.99c	600.5±1.7c	0.0806±0.0006c	170.5±1.1d	184.1±1.1d	92.82±0.14bc	94.9±0.15bc	96.4±0.17bc	20.7±0.1c
D1e	ResNet18	16	10.8±0.07a	106.8±0.94a	750.5±1.9a	0.1020±0.0004a	230.4±1.0a	249.3±0.9a	88.78±0.49d	92.2±0.14d	94.1±0.09d	27.4±0.3a
D1f	ResNet101	24	7.4±0.04d	62.1±0.94d	568.6±1.8e	0.0758±0.0005d	161.8±1.1e	174.6±1.1e	92.51±0.15ab	95.6±0.14ab	96.9±0.18ab	6.3±0.2g
1)Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同模型间差异显著(P<0.05，Duncan’s法) 　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error; MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different models (P<0.05, Duncan’s method)

下载: 导出CSV

| 显示表格

比较模型D1a和D1，前者的均方根误差显著下降，平均相对误差和 lg化均方根误差显著升高，其他各项精度指标无显著差异，表明在ResNet50深层架构上，增加网络宽度对提高深度估计性能的作用并不明显。模型D1b、D1比较表明，在 $ C''=24 $ 基础上，降低IRM输出通道数将显著降低模型的深度估计精度，模型D1e和D1c的比较也证明了这一点。降低IRM瓶颈层通道数，减少传输到下一个IRM的特征类型，影响模块自身对图像特征的提取，使模型性能下降。模型D1d和D1c的比较表明，对于浅层编码器ResNet18架构，增加网络宽度可显著降低深度估计误差。模型D1c和D1的比较表明，增加网络深度显著提高了模型深度估计性能，但D1f的结果也说明无法在ResNet50基础上通过大幅增加网络深度来进一步降低深度估计误差。表3数据同时表明，网络的宽度和深度显著影响模型计算速度。总体而言，增加浅层编码器的网络宽度和深度可显著提高模型深度估计精度，但该处理对深层编码器的作用影响不明显。

2.3 自注意力机制的有效性分析

为进一步分析IRM的自注意力工作机制，用模型D1预测田间玉米植株双目图像测试集中各样本深度，并输出编码器中各IRM的自注意力模块计算出的组选择向量。针对每个组选择向量的每个门限，计算其在所有测试样本中的均值，比较各Stage IRM的门限均值的差异，结果如图5所示。

图 5 各反向残差模块(IRMs)门限均值比较

Stage i-j表示Stage i的第j个IRM；同一模块的不同小写字母表示差异显著(P< 0.05，Duncan’s法)

Figure 5. Comparison of mean threshold for inverted residual modules (IRMs)

Stage i-j represent the j IRM of stage i; Different lowercase letters of the same module indicate significant differences (P< 0.05, Duncan’s method)

下载: 全尺寸图片幻灯片

图5表明，编码器Stage 2、3中的IRM自注意力机制针对不同r值的卷积分组采用了不同的门限值，各门限均值差异显著，且 $ r = 1 $ 的卷积组对应的门限均值最大，表明局部特征对深度预测仍起主要作用，其他各门限均值未出现趋近于0的现象，说明$ r > 1 $的卷积分组对于像素空间相关性建立和图像特征提取也是不可或缺的。进一步对各IRM组选择向量的标准差进行比较，结果如图6所示。

图 6 各反向残差模块(IRMs)组选择向量标准差

Stage i-j等表示Stage i的第j个IRM；图中的不同小写字母表示差异显著(P< 0.05，Duncan’s 法)

Figure 6. Standard deviation of selection vector for each inverted residual modules group

Stage i-j represent the j IRM of stage i; Different lowercase letters indicate significant differences (P<0.05, Duncan’s method)

下载: 全尺寸图片幻灯片

图6表明，Stage 2的IRM组选择向量的离散度显著小于Stage 3，说明前者的自注意力机制倾向于不同r值卷积分组在深度预测任务中起近似等效作用，而图5表明Stage 3主要将注意力集中在部分较小r值的卷积分组上。试验同时观察到，Stage 4-1之后的所有IRM的组选择向量的标准差均为0，自注意力机制不再具有组选择性。为降低存储和计算资源，对于模型D1，在其编码器深层IRM中不再采用自注意力机制，并重新对其进行训练和测试，结果如表4所示。

表 4 编码器深层IRMs的自注意力机制对深度估计性能的影响¹⁾

Table 4. Effects of self-attention mechanism of encoder deep IRMs on depth estimation performance

模型 Model	移除自注意力阶段 Self-attention detached stage	深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold			参数 (×10⁶) Parameter	速度/ (帧·s⁻¹) Speed
模型 Model	移除自注意力阶段 Self-attention detached stage	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	$ \delta < 1.15 $	$ \delta < {1.15^2} $	$ \delta < {1.15^3} $	参数 (×10⁶) Parameter	速度/ (帧·s⁻¹) Speed
D1		6.9±0.05a	58.4±0.99a	576.8±1.6a	0.0717±0.0003a	157.9±0.9a	170.6±1.0a	93.9±0.19a	96.0±0.18a	97.2±0.11a	3.27	12.5±0.1fc
D1I	Stage 4、5	7.0±0.02a	55.8±0.80a	534.3±1.7c	0.0719±0.0003a	154.7±0.9b	167.2±1.0b	94.0±0.11a	96.0±0.06a	97.1±0.09a	2.71	14.3±0.0a
D1II	Stage 5	7.1±0.02a	58.8±1.01a	560.0±1.9b	0.0722±0.0003a	158.3±1.0a	170.9±0.9a	93.7±0.15a	95.9±0.21a	97.1±0.14a	2.76	13.1±0.1b
1)Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同模型间差异显著(P<0.05，Duncan’s法) 　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error, MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different models (P<0.05, Duncan’s method)

下载: 导出CSV

| 显示表格

由表4可知，从编码器Stage 4和5中移除IRM的自注意力机制后，平均相对误差、lg化均方根误差的均值有所升高，其他类型误差有所下降，其中均方根误差、平均绝对误差、平均距离误差显著下降，阈值限定精度差异不显著，参数量下降，计算速度显著提高，为14.3帧/s。从Stage 5中移除自注意力机制，均方根误差显著下降，其他指标差异变化不显著，表明本研究设计的自注意力机制主要在编码器的浅层IRM中起作用。这可能和编码器结构有关，经过前3个阶段的感受野累积和空间下采样，图像特征及对应像素的空间相关性已完全建立，后2个阶段的卷积参数主要起深度信息重建和拟合作用，不再具有感受野选择性。比较D1I和表1中的模型C，二者的区别是，前者在编码器Stage 2、3中采用了自注意力机制，权重参数增加了0.4%，但均方根误差和平均绝对误差分别降低了14.5%和8.5%，其他各项指标也均得到改善，这进一步表明，自注意力机制对提升深度估计性能是有效的。

进一步计算田间玉米植株双目图像测试集中各样本预测深度的平均值，同时输出Stage 3中各IRM的组选择向量，图像样本平均深度与各IRM中r = 1的卷积分组对应的门限均值的关系如图7所示。

图 7 门限均值与图像平均深度的关系

Figure 7. Relationship between mean threshold and mean depth of image

下载: 全尺寸图片幻灯片

图7表明，除Stage 3-4，其他IRM的 $ r = 1 $ 的卷积分组对应的门限均值与图像平均深度呈正相关，$ r = 1 $ 的门限均值随图像平均深度的增加而呈增加趋势。当图像平均深度增加时，平均视差缩小，$ r = 1 $ 的门限值增大，$ r > 1 $ 门限均值之和减小，即这些分组的重要性降低，注意力集中在r = 1的分组上。根据对应像素间空间相关性假设，当图像视差缩小时，为建立空间相关性所需要的卷积核累积感受野也会缩小，具有较大感受野($ r > 1 $)的扩张卷积组的重要性随之降低，这和试验结果是相符的，表明本文设计的自注意力机制具有感受野自主调节能力。

2.4 方法比较

选定D1I为本研究最终模型，并利用田间玉米植株深度估计任务与部分典型方法进行比较。Monodepth^[12]和Monodepth2^[13]是2种基于DCNN的无监督深度估计模型，半全局匹配算法(Semi-global matching，SGM)^[33] 是一种广泛使用的深度估计方法。在比较过程中，采用Monodepth方法中性能最高的双目版本，对Monodepth2也采用双目图像训练法。为公平起见，4种方法采用相同的图像输入尺寸(512像素×288像素)，SGM的测试过程采用与D1I相同的测试集，结果如表5所示。

表 5 方法间比较¹⁾

Table 5. Comparison of methods

方法 Method	深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold
方法 Method	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	$ \delta < 1.15 $	$ \delta < {1.15^2} $	$ \delta < {1.15^3} $
D1I	7.0±0.02d	51.1±0.80d	533.3±1.7b	0.0719±0.0003d	155.6±0.9d	167.2±1.0d	94.0±0.11a	96.0±0.06a	96.3±0.09a
Monodepth^[13]	14.4±0.07b	131.5±1.33b	504.5±2.1b	0.1218±0.0006b	211.2±1.5b	225.2±1.7b	85.9±0.43c	88.5±0.32c	90.3±0.37c
Monodepth2^[14]	13.5±0.17c	101.5±1.09c	543.4±2.4b	0.1012±0.0006c	187.8±1.8c	198.2±1.6c	87.0±0.17b	91.1±0.07b	93.3±0.11b
SGM^[34]	27.9±0.26a	932.1±7.05a	2120.0±21.8a	0.1678±0.0034a	676.2±11.7a	728.1±5.6a	80.5±0.44d	81.4±0.33d	81.5±0.18d
1)Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同方法间差异显著(P<0.05，Duncan’s法) 　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error, MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different methods (P<0.05, Duncan’s method)

下载: 导出CSV

| 显示表格

由表5可知，除均方根误差外，D1I在其余指标上都显著优于其他模型。与Monodepth2相比，D1I的平均相对误差降低了6.51个百分点，平均绝对误差和平均距离误差分别降低17.1%和15.6%，在20 m采样范围内，D1I的平均绝对误差为156.7 mm(<16 cm)。Monodepth2在Monodepth的基础上，在遮挡处理、损失函数等方面进行了改进，在田间玉米植株深度估计任务上，除均方根误差外，其他各项指标均优于后者，但前者在推理时仅以单目图像作为输入，存在单目深度估计的病态问题^[34]。相比Monodepth2，D1I用更为多样化的图像特征来构建$ {\rm{pe}} $函数，同时在网络中设计了具有更大感受野和自注意力机制的IRM，这些改进使其在田间玉米植株深度估计的各项指标上均优于前者。SGM的平均相对误差达27.92%，显著高于其他无监督学习方法，表明在颜色、纹理单一的田间玉米植株图像上，SGM难以通过立体匹配有效估计图像深度。用D1I估计部分测试图像的深度，结果如图8所示。

图 8 田间玉米植株图像深度估计示例(1~12)

Figure 8. Examples (1−12) of depth estimation for corn plant image

下载: 全尺寸图片幻灯片

图8表明，D1I估计了各田间玉米植株图像对应的三维场景基本结构，这为其应用于田间移动作业平台的导航避障提供了可能。图8中示例3、7和12等视差图展示了不同植株在场景中的远近变化。图8中示例2能较清晰地表明株与株之间的间隔。图8中示例5、7、8和11预测出了侧光、逆光、向光等光照条件下的视差图，表明本研究模型对光照条件变化具有较好的鲁棒性和适应性。图8中示例1、4、6和9的图像中包含了田埂边界和田间道路地面，由对应的视差图可以看出，模型恢复了地面的平滑视差变化，表明D1I能够克服传统双目匹配无法对低纹理区域进行有效匹配的问题。图8中示例2的视差图也表明，模型可预测出较细微的茎叶结构，这为其进一步应用于田间场景三维结构重建提供了可能。

3. 结论

本研究提出一种基于混合分组扩张卷积的无监督深度估计模型，在田间玉米植株双目图像上开展了训练和测试试验，结论如下。

1)与固定扩张因子相比，在反向残差模块IRM中采用混合分组扩张卷积使田间玉米植株深度估计平均相对误差降低了63.9%，平均绝对误差和均方根误差分别降低32.3%和10.2%，模型精度显著提高。在图像表观差异度量中引入梯度和Gabor纹理特征并启用自注意力机制，误差进一步降低了3.2%和4.6%，表明该处理对提高深度估计性能具有显著作用。

2)通过调节IRM的扩展因子、卷积组数、自注意力机制中的缩减因子，以及编码器的宽度和深度，可平衡模型的深度估计性能和计算速度；自注意力机制对编码器浅层IRM中不同扩张因子的卷积分组体现出选择性；在编码器浅层IRM中启用自注意力机制，权重参数增加0.4%，均方根误差和平均绝对误差则分别降低14.5%和8.5%，进一步表明自注意力机制对提升深度估计性能是有效的。

3)与Monodepth2相比，本研究模型的平均相对误差降低了48.2%，平均绝对误差和平均距离误差则分别降低17.1%和15.6%。在20 m的图像采集范围内，本研究模型的平均绝对误差<16 cm，计算速度为14.3帧/s。该研究可为智能农机视觉系统设计提供技术参考。

图 1 自监督深度估计模型

I_l、I_r分别表示左、右目图像；D_l、D_r分别表示左、右目视差图；$ {\bar I_{\rm{l}}} $、$ {\bar I_{\rm{r}}} $分别表示左、右目重构图像；f_B表示图像采样器

Figure 1. Self-supervised depth estimation model

下载: 全尺寸图片幻灯片

图 2 基于混合分组扩张卷积与自注意力机制的反向残差模块

Figure 2. Inverted residual module based on hybrid group dilated convolution and self-attention mechanism

下载: 全尺寸图片幻灯片

图 3 基于IRM的卷积自编码器

Figure 3. IRM-based convolutional auto-encoder

下载: 全尺寸图片幻灯片

图 4 网络损失及深度估计误差曲线

Figure 4. Network loss and depth estimation error curves

下载: 全尺寸图片幻灯片

图 5 各反向残差模块(IRMs)门限均值比较

Stage i-j表示Stage i的第j个IRM；同一模块的不同小写字母表示差异显著(P< 0.05，Duncan’s法)

Figure 5. Comparison of mean threshold for inverted residual modules (IRMs)

Stage i-j represent the j IRM of stage i; Different lowercase letters of the same module indicate significant differences (P< 0.05, Duncan’s method)

下载: 全尺寸图片幻灯片

图 6 各反向残差模块(IRMs)组选择向量标准差

Stage i-j等表示Stage i的第j个IRM；图中的不同小写字母表示差异显著(P< 0.05，Duncan’s 法)

Figure 6. Standard deviation of selection vector for each inverted residual modules group

Stage i-j represent the j IRM of stage i; Different lowercase letters indicate significant differences (P<0.05, Duncan’s method)

下载: 全尺寸图片幻灯片

图 7 门限均值与图像平均深度的关系

Figure 7. Relationship between mean threshold and mean depth of image

下载: 全尺寸图片幻灯片

图 8 田间玉米植株图像深度估计示例(1~12)

Figure 8. Examples (1−12) of depth estimation for corn plant image

下载: 全尺寸图片幻灯片

表 1 不同深度估计模型的测试结果¹⁾

Table 1 Test results for different depth estimation models

模型 Model	处理 Treatment			深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold
模型 Model	混合扩张 Hybrid dilation	梯度纹理 Gradient and texture	自注意力 Self-attention	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	$ \delta < 1.15 $	$ \delta < {1.15^2} $	$ \delta < {1.15^3} $
A				20.8±0.08a	85.3±0.87a	667.0±2.0a	0.1364±0.0007a	249.7±1.1a	272.8±2.3a	80.8±0.35b	85.2±0.23b	89.0±0.31b
B	√			7.5±0.02b	66.9±0.67b	599.2±2.0c	0.0764±0.0004b	169.1±1.0b	185.6±1.1b	93.0±0.14a	95.5±0.19a	96.6±0.10a
C	√	√		7.3±0.02c	64.9±0.34c	625.1±1.8b	0.0739±0.0002c	167.2±1.0c	184.9±1.7c	92.5±0.20a	95.7±0.14a	97.0±0.12a
D	√	√	√	6.7±0.02d	58.0±0.47d	568.2±2.0d	0.0722±0.0002d	161.0±1.0d	177.0±3.4d	93.9±0.13a	96.0±0.20a	97.2±0.09a
1) Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同模型间差异显著(P<0.05，Duncan’s法) 　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error, MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different models (P<0.05, Duncan’s method)

下载: 导出CSV

表 2 结构超参数对深度估计性能的影响¹⁾

Table 2 Effects of structural hyper parameters on depth estimation performance

模型²⁾ Model	深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold			参数(×10⁶) Parameter	速度/ (帧·s⁻¹) Speed
模型²⁾ Model	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	δ < 1.15	δ < 1.15²	δ < 1.15³	参数(×10⁶) Parameter	速度/ (帧·s⁻¹) Speed
C (2, 8, —)	7.3±0.02e	64.9±0.34d	623.4±1.8b	0.0741±0.0001d	170.7±1.0c	183.7±1.0c	93.5±0.20abc	95.7±0.14ab	97.0±0.12a	2.70	15.7±0.1e
C1 (1, 8, —)	7.8±0.05c	79.1±0.82b	723.6±1.9a	0.0764±0.0002c	188.2±1.0a	204.3±1.1a	93.2±0.15bc	95.6±0.15ab	96.9±0.10ab	1.35	20.2±0.5c
C2 (4, 8, —)	7.0±0.05f	58.7±0.58e	564.7±2.0f	0.0719±0.0003e	151.6±1.1f	163.5±1.1f	94.2±0.15a	95.9±0.12ab	97.0±0.17a	5.40	10.6±0.1g
C3 (2, 2, —)	11.2±0.01a	88.1±0.47a	588.7±1.8d	0.0953±0.0001a	184.3±1.0b	198.7±1.1b	89.7±0.27d	92.8±0.17c	95.0±0.10c	2.44	28.0±0.1a
C4 (2, 4, —)	8.0±0.02b	69.7±0.59c	612.8±1.8c	0.0789±0.0005b	169.7±1.0c	183.6±1.1c	93.0±0.18c	95.2±0.14b	96.5±0.13b	2.52	21.6±0.4b
C5 (2, 6, —)	7.4±0.02d	63.8±0.81d	576.4±1.9e	0.0759±0.0004c	160.9±0.9de	173.8±0.9de	93.6±0.17ab	95.6±0.18ab	96.7±0.12ab	2.61	18.5±0.0d
D (2, 8, 1)	6.9±0.02f	59.0±0.47e	572.1±2.0ef	0.0723±0.0002e	163.2±1.0d	175.9±1.0d	93.8±0.15abc	95.9±0.20ab	97.1±0.09a	4.98	12.3±0.2f
D1 (2, 8, 4)	6.8±0.05f	58.2±0.99e	576.9±1.6e	0.0717±0.0003e	158.6±0.9e	171.7±1.0e	93.9±0.19ab	96.0±0.18a	97.2±0.11a	3.27	12.5±0.1f
D2 (2, 8, 8)	7.1±0.03e	59.4±0.65e	567.1±1.7f	0.0735±0.0001d	164.2±0.8d	177.1±1.0d	93.8±0.17abc	95.8±0.22ab	97.0±0.07a	2.99	12.5±0.1f
D3 (2, 8, 16)	7.2±0.03e	60.1±0.83e	559.0±1.8g	0.0743±0.0004d	163.7±1.1d	175.6±1.1d	93.6±0.12abc	95.7±0.17ab	97.0±0.10a	2.85	12.4±0.1f
1) Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同模型间差异显著(P<0.05，Duncan’s法)；2)括号中数字依次为超参数S、G和R，其中“—”表示模型不包含R参数　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error, MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different models (P<0.05, Duncan’s method); 2) The numbers in brackets are super parameters S, G and R in turn, “—” indicates that the model does not contain parameter R

下载: 导出CSV

表 3 编码器架构对深度估计性能的影响¹⁾

Table 3 Effects of encoder architectures on depth estimation performance

模型 Model	编码器架构 Encoder architecture	C″	深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold			速度/(帧·s⁻¹) Speed
模型 Model	编码器架构 Encoder architecture	C″	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	$ \delta < 1.15 $	$ \delta < {1.15^2} $	$ \delta < {1.15^3} $	速度/(帧·s⁻¹) Speed
D1	ResNet50	24	6.9±0.05f	58.4±0.99e	576.4±1.6d	0.0717±0.0003f	158.6±0.9ef	171.7±1.0ef	94.03±0.19a	96.1±0.18a	97.2±0.11a	12.5±0.1e
D1a	ResNet50	32	7.1±0.03e	57.5±0.75e	537.2±1.7f	0.0736±0.0003e	157.2±1.0f	170.5±1.1f	93.96±0.14a	95.9±0.25a	97.0±0.19a	11.2±0.2f
D1b	ResNet50	16	8.3±0.06c	71.6±0.94c	620.1±2.0b	0.0804±0.0005c	184.1±1.1c	199.2±0.9c	92.56±0.21c	95.1±0.19bc	96.4±0.18bc	15.1±0.1d
D1c	ResNet18	24	9.1±0.05b	75.0±0.65b	617.4±1.9b	0.0837±0.0003b	187.6±1.0b	202.5±1.0b	92.51±0.15c	94.7±0.16c	96.1±0.09c	23.9±0.2b
D1d	ResNet18	32	8.2±0.04c	70.0±0.99c	600.5±1.7c	0.0806±0.0006c	170.5±1.1d	184.1±1.1d	92.82±0.14bc	94.9±0.15bc	96.4±0.17bc	20.7±0.1c
D1e	ResNet18	16	10.8±0.07a	106.8±0.94a	750.5±1.9a	0.1020±0.0004a	230.4±1.0a	249.3±0.9a	88.78±0.49d	92.2±0.14d	94.1±0.09d	27.4±0.3a
D1f	ResNet101	24	7.4±0.04d	62.1±0.94d	568.6±1.8e	0.0758±0.0005d	161.8±1.1e	174.6±1.1e	92.51±0.15ab	95.6±0.14ab	96.9±0.18ab	6.3±0.2g
1)Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同模型间差异显著(P<0.05，Duncan’s法) 　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error; MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different models (P<0.05, Duncan’s method)

下载: 导出CSV

表 4 编码器深层IRMs的自注意力机制对深度估计性能的影响¹⁾

Table 4 Effects of self-attention mechanism of encoder deep IRMs on depth estimation performance

模型 Model	移除自注意力阶段 Self-attention detached stage	深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold			参数 (×10⁶) Parameter	速度/ (帧·s⁻¹) Speed
模型 Model	移除自注意力阶段 Self-attention detached stage	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	$ \delta < 1.15 $	$ \delta < {1.15^2} $	$ \delta < {1.15^3} $	参数 (×10⁶) Parameter	速度/ (帧·s⁻¹) Speed
D1		6.9±0.05a	58.4±0.99a	576.8±1.6a	0.0717±0.0003a	157.9±0.9a	170.6±1.0a	93.9±0.19a	96.0±0.18a	97.2±0.11a	3.27	12.5±0.1fc
D1I	Stage 4、5	7.0±0.02a	55.8±0.80a	534.3±1.7c	0.0719±0.0003a	154.7±0.9b	167.2±1.0b	94.0±0.11a	96.0±0.06a	97.1±0.09a	2.71	14.3±0.0a
D1II	Stage 5	7.1±0.02a	58.8±1.01a	560.0±1.9b	0.0722±0.0003a	158.3±1.0a	170.9±0.9a	93.7±0.15a	95.9±0.21a	97.1±0.14a	2.76	13.1±0.1b
1)Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同模型间差异显著(P<0.05，Duncan’s法) 　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error, MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different models (P<0.05, Duncan’s method)

下载: 导出CSV

表 5 方法间比较¹⁾

Table 5 Comparison of methods

方法 Method	深度估计误差 Depth estimation error						阈值限定精度/% Accuracy with threshold
方法 Method	Rel/%	Sq Rel/mm	RMSE/mm	RMSE_lg	MAE/mm	MRE/mm	$ \delta < 1.15 $	$ \delta < {1.15^2} $	$ \delta < {1.15^3} $
D1I	7.0±0.02d	51.1±0.80d	533.3±1.7b	0.0719±0.0003d	155.6±0.9d	167.2±1.0d	94.0±0.11a	96.0±0.06a	96.3±0.09a
Monodepth^[13]	14.4±0.07b	131.5±1.33b	504.5±2.1b	0.1218±0.0006b	211.2±1.5b	225.2±1.7b	85.9±0.43c	88.5±0.32c	90.3±0.37c
Monodepth2^[14]	13.5±0.17c	101.5±1.09c	543.4±2.4b	0.1012±0.0006c	187.8±1.8c	198.2±1.6c	87.0±0.17b	91.1±0.07b	93.3±0.11b
SGM^[34]	27.9±0.26a	932.1±7.05a	2120.0±21.8a	0.1678±0.0034a	676.2±11.7a	728.1±5.6a	80.5±0.44d	81.4±0.33d	81.5±0.18d
1)Rel：平均相对误差，Sq Rel：平方相对误差，MAE：平均绝对误差，MRE：平均距离误差；同列数据后的不同小写字母表示不同方法间差异显著(P<0.05，Duncan’s法) 　1) Rel: Mean relative error, Sq Rel: Squared relative error, MAE: Mean absolute error, MRE: Mean range error; Different lowercase letters in the same column indicate significant differences among different methods (P<0.05, Duncan’s method)

下载: 导出CSV

参考文献(34)

[1]	MALAVAZI F B P, GUYONNEAU R, FASQUEL J B, et al. LiDAR-only based navigation algorithm for an autonomous agricultural robot[J]. Computers and Electronics in Agriculture, 2018, 154: 71-79. doi: 10.1016/j.compag.2018.08.034
[2]	毛文菊, 刘恒, 王小乐, 等. 双导航模式果园运输机器人设计与试验[J]. 农业机械学报, 2022, 53(3): 27-39.
[3]	王亮, 翟志强, 朱忠祥, 等. 基于深度图像和神经网络的拖拉机识别与定位方法[J]. 农业机械学报, 2020, 51(S2): 554-560.
[4]	何勇, 蒋浩, 方慧, 等. 车辆智能障碍物检测方法及其农业应用研究进展[J]. 农业工程学报, 2018, 34(9): 21-32. doi: 10.11975/j.issn.1002-6819.2018.09.003
[5]	景亮, 王瑞, 刘慧, 等. 基于双目相机与改进YOLOv3算法的果园行人检测与定位[J]. 农业机械学报, 2020, 51(9): 34-39. doi: 10.6041/j.issn.1000-1298.2020.09.004
[6]	魏建胜, 潘树国, 田光兆, 等. 农业车辆双目视觉障碍物感知系统设计与试验[J]. 农业工程学报, 2021, 37(9): 55-63. doi: 10.11975/j.issn.1002-6819.2021.09.007
[7]	翟志强, 熊坤, 王亮, 等. 采用双目视觉和自适应Kalman滤波的作物行识别与跟踪[J]. 农业工程学报, 2022, 38(8): 143-151.
[8]	洪梓嘉, 李彦明, 林洪振, 等. 基于双目视觉的种植前期农田边界距离检测方法[J]. 农业机械学报, 2022, 53(5): 27-33.
[9]	EIGEN D, PUHRSCH C, FERGUS R. Depth map prediction from a single image using a multi-scale deep network[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS 2014). Montreal, Canada: ACM, 2014: 2366-2374.
[10]	XIE J Y, GIRSHICK R, FARHADI A. Deep3D: Fully automatic 2D-to-3D video conversion with deep convolutional neural networks[C]//14th European Conference on Computer Vision (ECCV 2016). Amsterdam, Netherlands: Springer, 2016: 842-857.
[11]	GARG R, BG V K, CARNEIRO G, et al. Unsupervised CNN for single view depth estimation: Geometry to the rescue[C]//14th European Conference on Computer Vision (ECCV 2016). Amsterdam, Netherlands: Springer, 2016: 740-756.
[12]	ZHOU T H, BROWN M, SNAVELY N, et al. Unsupervised learning of depth and ego-motion from video[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 6612-6619.
[13]	GODARD C, MAC AODHA O, BROSTOW G J. Unsupervised monocular depth estimation with left-right consistency[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 6602-6211.
[14]	GODARD C, MAC AODHA O, FIRMAN M, et al. Digging into self-supervised monocular depth estimation[C]//IEEE International Conference on Computer Vision (ICCV). Seoul, Korea: IEEE, 2020: 3827-3837.
[15]	周云成, 邓寒冰, 许童羽, 等. 基于稠密自编码器的无监督番茄植株图像深度估计模型[J]. 农业工程学报, 2020, 36(11): 182-192.
[16]	PILZER A, XU D, PUSCAS M, et al. Unsupervised adversarial depth estimation using cycled generative networks[C]//2018 International Conference on 3D Vision. Verona, Italy: IEEE, 2018: 587-595.
[17]	MIYATO T, KATAOKA T, KOYAMA M, et al. Spectral normalization for generative adversarial networks[EB/OL]. arXiv: 1802.05957. https://arxiv.org/abs/1802.05957.pdf.
[18]	WAN Y C, ZHAO Q K, GUO C, et al. Multi-sensor fusion self-supervised deep odometry and depth estimation[J]. Remote Sensing, 2022, 14(5): 1228. doi: 10.3390/rs14051228.
[19]	JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems (NIPS 2015). Montreal, Canada: ACM, 2015: 2017-2025.
[20]	IDRISSA M, ACHEROY M. Texture classification using Gabor filters[J]. Pattern Recognition Letters, 2002, 23(9): 1095-1102. doi: 10.1016/S0167-8655(02)00056-9
[21]	RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI 2015). Munich, Germany: Springer, 2015: 234-241.
[22]	YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[C]//International Conference on Learning Representations. San Juan, Puerto Rico: IEEE, 2016.
[23]	WANG P Q, CHEN P F, YUAN Y, et al. Understanding convolution for semantic segmentation[C]//2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe, NV, USA: IEEE, 2018: 1451-1460.
[24]	YU F, KOLTUN V, FUNKHOUSER T. Dilated residual networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 636-644.
[25]	SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 1-9.
[26]	SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence (AAAI-17). San Francisco, California, USA: ACM, 2017: 4278-4284.
[27]	CHEN Y P, FAN H Q, XU B, et al. Drop an octave: Reducing spatial redundancy in convolutional neural networks with octave convolution[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea: IEEE, 2020: 3434-3443.
[28]	CHOLLET F. Xception: Deep learning with depth wise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 1800-1807.
[29]	SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 4510-4520.
[30]	HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea: IEEE, 2020: 1314-1324.
[31]	HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 7132-7141.
[32]	KINGMA D P, BA J. Adam: A method for stochastic optimization[J]. Computer Science, 2014.
[33]	HIRSCHMÜLLER H. Stereo processing by semiglobal matching and mutual information[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(2): 328-341. doi: 10.1109/TPAMI.2007.1166
[34]	SMOLYANSKIY N, KAMENEV A, BIRCHFIFLD S. On the importance of stereo for accurate depth estimation: An efficient semi-supervised deep neural network approach[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, UT, USA: IEEE, 2018: 11200-11208.

施引文献(2)

期刊类型引用(0)

其他类型引用(2)

资源附件(0)

图(8) / 表(5)

计量

文章访问数: 117
HTML全文浏览量: 30
PDF下载量: 27
被引次数: 2

1. 玉米植株图像数据集和深度估计模型
1.1 构建田间玉米植株双目图像数据集
1.2 玉米植株图像深度估计模型
1.2.1 无监督学习
1.2.2 图像表观差异度量函数
1.2.3 像素消失及遮挡处理
1.2.4 损失函数定义
1.3 深度估计网络结构设计
1.3.1 空间相关性假设
1.3.2 混合分组扩张卷积模块分析与设计
1.3.3 CAE网络结构设计
1.4 模型的训练与评估
1.4.1 模型训练
1.4.2 模型性能评估标准
2. 玉米植株图像深度估计性能的影响因素
2.1 处理对玉米植株图像深度估计性能的影响
2.2 网络结构超参数对深度估计性能的影响
2.3 自注意力机制的有效性分析
2.4 方法比较
3. 结论

1. 玉米植株图像数据集和深度估计模型
1.1 构建田间玉米植株双目图像数据集
1.2 玉米植株图像深度估计模型
1.2.1 无监督学习
1.2.2 图像表观差异度量函数
1.2.3 像素消失及遮挡处理
1.2.4 损失函数定义
1.3 深度估计网络结构设计
1.3.1 空间相关性假设
1.3.2 混合分组扩张卷积模块分析与设计
1.3.3 CAE网络结构设计
1.4 模型的训练与评估
1.4.1 模型训练
1.4.2 模型性能评估标准
2. 玉米植株图像深度估计性能的影响因素
2.1 处理对玉米植株图像深度估计性能的影响
2.2 网络结构超参数对深度估计性能的影响
2.3 自注意力机制的有效性分析
2.4 方法比较
3. 结论

参考文献(34)

施引文献(2)

资源附件(0)

基于混合分组扩张卷积的玉米植株图像深度估计

作者简介: 周云成，教授，博士，主要从事机器学习在农业信息处理中的应用研究，E-mail: zhouyc2002@syau.edu.cn

计量

出版历程

Depth estimation for corn plant images based on hybrid group dilated convolution

1. 玉米植株图像数据集和深度估计模型

1.1 构建田间玉米植株双目图像数据集

1.2 玉米植株图像深度估计模型

1.2.1 无监督学习

1.2.2 图像表观差异度量函数

1.2.3 像素消失及遮挡处理

1.2.4 损失函数定义

1.3 深度估计网络结构设计

1.3.1 空间相关性假设

1.3.2 混合分组扩张卷积模块分析与设计

1.3.3 CAE网络结构设计

1.4 模型的训练与评估

1.4.1 模型训练

1.4.2 模型性能评估标准

2. 玉米植株图像深度估计性能的影响因素

2.1 处理对玉米植株图像深度估计性能的影响

2.2 网络结构超参数对深度估计性能的影响

2.3 自注意力机制的有效性分析

2.4 方法比较

3. 结论

期刊类型引用(0)

其他类型引用(2)

计量

出版历程

目录

1. 玉米植株图像数据集和深度估计模型

1.1 构建田间玉米植株双目图像数据集

1.2 玉米植株图像深度估计模型

1.2.1 无监督学习

1.2.2 图像表观差异度量函数

1.2.3 像素消失及遮挡处理

1.2.4 损失函数定义

1.3 深度估计网络结构设计

1.3.1 空间相关性假设

1.3.2 混合分组扩张卷积模块分析与设计

1.3.3 CAE网络结构设计

1.4 模型的训练与评估

1.4.1 模型训练

1.4.2 模型性能评估标准

2. 玉米植株图像深度估计性能的影响因素

2.1 处理对玉米植株图像深度估计性能的影响

2.2 网络结构超参数对深度估计性能的影响

2.3 自注意力机制的有效性分析

2.4 方法比较

3. 结论

作者简介:
周云成，教授，博士，主要从事机器学习在农业信息处理中的应用研究，E-mail: zhouyc2002@syau.edu.cn