3D reconstruction and semantic segmentation of fruit trees based on NeRF and improved RandLA-Net
-
摘要:目的
随着智慧农业的快速发展,果树三维重建与果实分割已成为实现果园智能化管理的关键技术。本文提出一种新颖的柑橘果树三维重建与果实语义分割方法。
方法首先,利用神经辐射场(Neural radiance field, NeRF)技术从多视角图像中学习果树的隐式三维表示,生成高质量的果树点云模型。然后,采用改进后的随机局部点云特征聚合网络(Random local point cloud feature aggregation network, RandLA-Net)对果树点云进行端到端的语义分割,准确提取出果实点云。本研究对RandLA-Net进行了针对性改进,在编码器层后增加了双边增强模块,并采用了更适合果实点云分割任务的损失函数。改进后的分割网络通过柑橘果树数据集进行验证试验。
结果所提出的方法能够有效地重建果树三维结构,改进后的网络的平均交并比提高了2.64个百分点,果实的交并比提高了7.33个百分点,验证了该方法在智慧果园场景下的实用性。
结论研究为实现果园智能化管理和自动化采摘提供了新的技术支撑。
Abstract:ObjectiveWith the rapid development of smart agriculture, 3D reconstruction and fruit segmentation of fruit trees have become key technologies for achieving intelligent management of fruit gardens. This paper proposes a novel method for 3D reconstruction and semantic segmentation of citrus fruit trees.
MethodFirst, the implicit 3D representation of the fruit tree was learned from multi-view images using the neural radiance field (NeRF) technology, generating high-quality point cloud models of the fruit tree. Then, the improved random local point cloud feature aggregation network (RandLA-Net) was adopted to conduct end-to-end semantic segmentation of the fruit tree point cloud, accurately extracting the fruit point cloud. In this study, targeted improvements were made to RandLA-Net. A bilateral enhancement module was added after the encoder layer, and a loss function more suitable for the fruit point cloud segmentation task was adopted. The improved segmentation network was verified through experiments using the citrus fruit tree dataset.
ResultThe results showed that the proposed method could effectively reconstruct the 3D structure of the fruit tree. The average intersection over union (mIoU) of the improved network increased by 2.64 percentage points, and the intersection over union (IoU) of the fruit increased by 7.33 percentage points, verifying the practicality of this method in the scenario of smart orchards.
ConclusionThis study provides new technical support for achieving intelligent management and automated fruit harvesting in orchards.
-
柑橘是全球广泛种植的经济作物,其经济价值不仅体现在果实,还包括果实深加工得到的产品(如果汁、果酱等)[1-2]。在果园管理中,传统二维图像识别方法无法精确感知果实的空间分布和实际尺寸[3],导致自动化采摘的效率低下和无法准确进行估产。通过三维重建技术,能够精确获取果树的空间结构[4],为进一步的果实分割和分析提供数据支持[5]。而点云分割技术则能够从复杂背景中准确提取果实,为后续的果实计数、质量控制或产量预测提供基础。这些技术的应用不仅显著减少了人力成本,还为精准农业中的自动化处理奠定了基础[6-9]。
果树三维重建是果实空间信息获取的重要基础[10],传统的三维重建方法主要包括基于几何推理和基于点云的2大类[11]。基于几何推理的建模方法依赖多视角图像,通过结构化运动(Structure from motion,SfM)[12]和多视角立体视觉(Multi view stereo,MVS)[13]等技术重建三维模型。Dong等[14]利用SfM和MVS技术成功实现了果树三维重建与参数估计。Li等[15]提出了基于Matting-SfM的改进算法,通过电动转盘旋转物体,提升了建模精度。这类方法在果树三维重建中具有一定优势,但容易受到光照、遮挡和果树动态变化特性的影响,模型准确度不足。此外,高分辨率图像增加了计算资源的需求,低分辨率图像则可能丢失细节,限制了模型的精确性。基于点云的建模方法则依靠激光雷达等深度传感器直接获取果树的三维点云数据,这类方法对光照变化和遮挡具备更高的鲁棒性。Gené-Mola等[16]使用车载激光雷达对果树进行扫描,成功获取了高精度的点云数据。Chakraborty等[17]利用3D雷达结合IMU实现了苹果树和葡萄藤的精准建模。然而,点云建模也存在不足,主要是点云数据存在的噪声和稀疏性导致模型精度下降;且果实相对较小,难以通过激光雷达准确还原果实的空间位置和形状;同时,激光雷达设备价格较高,增加了应用成本[18-21]。
近年来,基于深度学习的三维重建方法备受关注。其中,神经辐射场(Neural radiance field, NeRF)技术是一种新颖的隐式三维表示方法,通过神经网络学习场景的几何结构和外观,并使用体渲染实现高质量的新视角合成[22]。NeRF在三维重建领域取得了显著的成果,但尚未被广泛应用于果树场景。Adamkiewicz等[23]将NeRF用于机器人导航,展示了其在不同环境中的适用性。Shen等[24]提出了基于NeRF的非视线成像技术,实现了复杂场景的三维重建。Hong等[25]开发了Inspection-Nerf,用于大坝表面检查,显示了NeRF在工业检测中的潜力。Gao等[26]提出的MPS-NeRF实现了从多视角图像生成高保真三维人体模型。Deng等[27]提出了FoV-NeRF,通过聚焦渲染优化了虚拟现实中的视点合成效果。NeRF的主要优势为高质量的视角合成能力、对复杂场景和动态场景的适应性以及高精度的重建表现。将NeRF引入果树的三维重建任务中,可以有效解决传统方法在复杂环境下的局限性,提供更高精度、语义丰富的三维点云模型,为精准农业中的自动化处理提供更强大的技术支持。
如何准确分割果实点云是本研究的关键。近年来,基于深度学习的三维点云分割方法引起了广泛关注。PointNet[28]及其变体PointNet++[29]是最早的经典方法,能够高效处理点云数据,但在大规模场景中效率较低。PointRCNN[30]通过直接生成候选区域提高了检测精度,但开销较大。PV-RCNN[31]结合了点云和体素的优点,提升了检测效果,但网络结构复杂、训练过程繁琐。VoteNet[32]采用投票机制适应复杂三维环境,但在处理稀疏点云时精度下降。RandLA-Net[33]作为一种轻量级网络,通过随机采样和局部特征聚合,显著提升了计算效率,并能在大规模场景中保持高精度,尤其适用于资源有限的环境和果实点云分割任务。基于RandLA-Net的优势,本研究对其进行了改进,增加了双边增强模块,以更好地捕捉果实的局部几何特征和全局空间关系。此外,还采用了更适合果实点云分割的损失函数,进一步提升了网络的分割精度和鲁棒性。使其能够在复杂的果树点云中更准确地检测和分割果实,同时保持较高的计算效率。
本研究旨在解决复杂果园环境下果实精准分割问题。通过引入NeRF进行高质量三维建模,并结合改进的RandLA-Net进行语义分割,以期能够有效提升果实点云的分割精度和效率,从而为果园自动化管理提供新的技术支持。
1. 材料与方法
1.1 试验材料
研究地点位于中国广东省肇庆市四会市黄田镇柑橘园(23°36'N, 112°68'E),如图1所示,本研究选取的40棵柑橘树年龄相近,生长环境条件良好,且还未进行果实收获,于2024年1月进行。此时的柑橘树正处于成熟期,该阶段的主要任务为采摘果实。
1.2 原始数据采集方法
使用OAK-D-PRO相机在离果树树干约2 m、离地约1.5 m的位置对果树进行环绕拍摄录制果树的RGB视频。数据采集在室外自然光条件下进行,本次一共采集包含40棵处于成熟期且未进行收获作业的柑橘果树的RGB视频。录制视频分辨率为
1920 ×1080 ,帧率为30帧/s。为了方便后面的三维重建工作,本研究从视频里每2帧图片提取出1帧来作为数据集。OAK-D-PRO相机的具体参数如表1所示。表 1 相机参数表Table 1. Camera parameter table参数 DFOV / HFOV / VFOV 分辨率/MP 最大帧率/(帧·s−1) 焦距/mm 光圈 镜头尺寸 像素/(µm×µm) RGB相机 78°D / 66°H / 54°V 12( 4032 ×3040 )60 4.81 1.8±5% 1/2.3” 1.55×1.55 OAK-D-PRO相机 82°D / 72°H / 50°V 1( 1280 ×800)120 2.35 2.0±5% 1/4” 3×3 1.3 三维重建技术的应用
基于NeRF对果树进行三维重建。在进行三维重建之前,需要使用Colmap来计算相机的位姿,Colmap支持自动化的特征提取、匹配、增量式结构从运动SfM以及稠密重建等功能,能够在不依赖于特定硬件的情况下,生成高精度的三维模型[34]。Colmap首先对每张输入图像提取SIFT(Scale-invariant feature transform)特征点,通过基于FLANN(Fast library for approximate nearest neighbors)的近邻匹配算法进行特征匹配,并使用RANSAC(Random sample consensus)算法剔除错误匹配点获得可靠的匹配对。在此基础上,算法选择最佳的初始图像对并利用五点算法估计相对位姿。接着通过增量式SfM方法,利用PnP算法逐步计算其他图像的位姿,最后使用Bundle Adjustment进行全局优化,得到准确的相机位姿参数[35],相机位姿如图2所示。
获取到相机的位置和姿态信息后,将这些数据与对应的RGB图像一起输入到NeRF模型中,NeRF网络结构如图3所示。NeRF通过对场景进行密集采样,并使用多层感知机(Multi-layer perceptron, MLP)来预测每个位置的体积密度和视角依赖的辐射率,从而实现从新视角生成高质量图像的能力。
在NeRF处理的最终阶段,模型输出用于构建果树的详细点云图。这些点云图不仅捕捉了果树与果实的几何结构和颜色信息,还能反映出树体的复杂纹理和枝杈分布,为后续的农业应用如果实成熟度判断,果实自动化采摘,果树的自动化修剪和健康监测提供了精确的三维数据。
从图4可以看出,通过Colmap和NeRF的结合,本研究能够实现对果树的精确三维重建。此外,该方法为使用非侵入性方式获取果树三维结构数据提供了一种新的技术途径,具有推广到其他植物或复杂场景的潜力。
1.4 果实数据集制作
完成三维重建后,使用CloudCompare软件对生成的点云数据进行了处理。CloudCompare是一款强大的三维点云处理软件,能够对点云数据进行精细的分割和标签化。在本研究中,CloudCompare被用于以下步骤:使用CloudCompare的分割工具对果树的点云数据进行手动分割,将果实从整体点云中分离出来。此过程通过视觉检查和手动选取果实部分的点云完成,确保果实点云的准确分割;在成功分割出果实点云后,对这些点云数据进行标签化处理。每个果实点云均被赋予标签,以便在后续的数据分析和处理过程中能够进行准确的识别和使用。本试验一共重建了35棵果树,包含560个果实,按照果树所处的种植行对数据进行划分,将1~6行的果树数据分别划分为6个子集。通过上述步骤,构建了一个包含精确果实点云的高质量数据集。该数据集不仅保留了果树整体结构的信息,还提供了详细的果实点云数据,为后续的果实检测与分析提供了坚实的数据基础。
1.5 RandLA-Net改进
1.5.1 RandLA-Net网络
RandLA-Net是一种专为大规模点云语义分割设计的端到端神经网络。它通过编码和解码结构,并利用跳跃连接和MLP作为基本单元,显著提高了点云处理的效率。RandLA-Net 依赖于随机采样(Random sampling,RS)原则和局部特征聚合(Local feature aggregation,LFA)模块,以实现高效的点云语义分割。
在处理大规模点云时,RandLA-Net不需要额外的预处理或后处理步骤,极大地减少了内存消耗,使得大规模点云可以快速分割。在编码阶段,通过局部特征聚合算法,每一层点的特征得以丰富和学习,并通过随机采样减少点云的规模。在解码阶段,使用线性插值和 K 近邻(KNN)获取最近点进行上采样,并通过跳跃连接将编码端的特征叠加,然后输入共享的 MLP 进行特征维度的缩减。最后通过若干全连接层进行分类预测。RandLA-Net的具体结构图见图5。
图 5 RandLA-Net的结构方块中的N代表输入点的数量,另外的数字代表特征的通道数,n_classes代表点的种类数。FC、LFA、RS、MLP、US分别表示全连接层、局部特征聚合、随机采样、多层感知器、上采样。Figure 5. Structure of RandLA-NetN in the blocks represents the number of input points, while other numbers represent the feature channel dimensions. n_classes represents the number of point categories. FC, LFA, RS, MLP, and US stand for Fully Connected layer, Local Feature Aggregation, Random Sampling, Multi-Layer Perceptron, and Upsampling, respectively.1.5.2 双边增强模块
RandLA-Net网络在进行局部空间编码后,简单地把点的几何信息进行融合,然而对于大部分数据来说,数据里还可能包括大量的语义信息如点的颜色、反射强度、类别标签等信息,这就会造成网络并不能充分利用并学习到点之间的差异,造成网络性能下降。果实点云的分割需要高度精确地区分果实与周围的环境,这在高密度植被中尤具挑战性。果实通常体积较小且与其他植物部件在空间上紧密相连,这使得普通的点云处理网络难以准确分割。为了解决这个问题,本研究设计了一个双边增强模块,其目的是提高网络在捕捉一些复杂结构,特别是在形状不规则的果树环境里的特征的能力。双边增强模块(Bilateral Enhancement Module, BEM)通过邻域查找、局部上下文提取、双边偏移估计、上下文增强和混合局部特征步骤实现特征增强,具体操作如下。
首先,对于每个点
$ i $ ,使用K近邻算法(KNN)找到其邻域点集合$ N({p}_{i} $ ):$$ N({p}_{i}=\{{p}_{j}|{p}_{j}\in \mathrm{k}-\mathrm{N}\mathrm{N}\left({p}_{i}\right)\} \text{,} $$ (1) 式中,
$ i $ 为当前处理的点,$ j $ 为点$ i $ 的邻域点。局部上下文提取公式如下所示:
$$ {G}_{{\psi }\mathrm{}}\left({p}_{i}\right)=\left\{{p}_{j}-{p}_{i}|{p}_{j}\in N\left({p}_{i}\right)\right\} \text{,} $$ (2) $$ {G}_{\mathrm{\phi }\mathrm{}}\left({f}_{i}\right)=\left\{{f}_{j}-{f}_{i}|{p}_{j}\in N\left({f}_{i}\right)\right\} \text{,} $$ (3) 式中,
$ {G}_{\mathrm{\psi }\mathrm{}}\left({p}_{i}\right) $ 为点$ i $ 的局部几何上下文,$ {G}_{\mathrm{\phi }\mathrm{}}\left({f}_{i}\right) $ 为点$ i $ 的局部语义上下文,$ {p}_{j}-{p}_{i} $ 为邻域点$ j $ 相对于点$ i $ 的位移向量,$ {f}_{j}-{f}_{i} $ 为邻域点$ j $ 相对于点$ i $ 的特征向量差。通过MLP对局部几何和语义上下文进行处理,估计出邻域点和特征的偏移量,计算公式如下所示。
$$ \mathrm{\Delta }{p}_{j}={MLP}_{geo}\left({G}_{\mathrm{\phi }\mathrm{}}\left({f}_{i}\right)\right) \text{,} $$ (4) $$ {\widetilde{p}_{j}}={p}_{j}+\mathrm{\Delta }{p}_{j} \text{,} $$ (5) $$ \mathrm{\Delta }{f}_{j}={MLP}_{sem}\left({G}_{\mathrm{\psi }\mathrm{}}\left({p}_{i}\right)\right) \text{,} $$ (6) $$ {\widetilde{f}_{j}}={f}_{j}+\mathrm{\Delta }{f}_{j} \text{,} $$ (7) 式中,
$ \mathrm{\Delta }{p}_{j} $ 与$ \mathrm{\Delta }{f}_{j} $ 为估计的邻域点$ j $ 的几何偏移和语义偏移,$ {MLP}_{geo} $ ,$ {MLP}_{sem} $ 为MLP网络,用于估计几何偏移和语义偏移,$ {\widetilde{p}_{j}} $ 与$ {\widetilde{f}_{j}} $ 是邻域点$ j $ 增强后的几何特征与语义特征。将增强后的几何和语义特征拼接起来,形成增强后的局部上下文(
$ {\widetilde{G}_{i}} $ )。$$ {\widetilde{G}_{i}}={MLP}_{fusion}\left({\widetilde{p}_{j}}\oplus {\widetilde{f}_{j}}\right) $$ (8) 式中,
$ {MLP}_{fusion} $ 用于融合几何和语义特征,$ \oplus $ 是拼接操作,将增强后的几何和语义特征拼接在一起。对增强后的局部上下文信息进行聚合,形成最终的点特征表示(
$ {s}_{i} $ )。$$ {s}_{i}=\mathrm{c}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({max}_{j\in \mathrm{N}\left(\mathrm{i}\right)}\left({\widetilde{G}_{i}}\right),{mean}_{j\in \mathrm{N}\left(\mathrm{i}\right)}\left({\widetilde{G}_{i}}\right)\right) $$ (9) 式中,concat代表拼接操作,max代表对增强后的局部上下文
$ {\widetilde{G}_{i}} $ 进行最大池化,mean代表对增强后的局部上下文$ {\widetilde{G}_{i}} $ 进行加权平均。1.5.3 损失函数
在自制的果树数据集中,本研究的分割目标果实点云的占比很小,约占总点云数量的8%,为了应对数据集中存在的类不平衡问题,即不同的标签样本数量可能存在明显差距,RandLA-Net采用的损失函数是加权交叉熵损失函数(Weighted cross-entropy loss),此外,本研究引入焦点损失(Focal loss)与戴斯损失(Dice loss)。加权交叉熵损失函数是在标准交叉熵损失函数的基础上,对不同类别分配不同的权重,以应对类别不平衡的问题。其定义如下:
$$ {L}_{\mathrm{W}\mathrm{C}\mathrm{E}}=-{\sum }_{i=1}^{N}{w}_{{y}_{i}}\left[{y}_{i}\mathrm{log}\left(\widehat{{y}_{i}}\right)+\left(1-{y}_{i}\right)\mathrm{lg}\left(1-\widehat{{y}_{i}}\right)\right] \text{,} $$ (10) 式中,
$ {y}_{i} $ 是第$ i $ 个样本的真实标签,取值为0或1。$ \widehat{{y}_{i}} $ 是第$ i $ 个样本被预测为正类的概率。$ {w}_{{y}_{i}} $ 是与第$ i $ 个样本真实标签对应的权重。N是样本的总数。焦点损失是为了处理类别极度不平衡问题而设计的,它在标准交叉熵损失的基础上增加了1个调制因子,以减少易分类样本的权重。其定义如下:
$$ {L}_{F}=-{\sum }_{i=1}^{N}\alpha {\left(1-\widehat{{y}_{i}}\right)}^{\gamma }{y}_{i}\mathrm{lg}\left(\widehat{{y}_{i}}\right) \text{,} $$ (11) 式中,
$ {y}_{i} $ 、$ \widehat{{y}_{i}} $ 与N的定义和公式(10)里的一样,α是平衡因子,用于平衡正负样本。$ \gamma $ 是调制因子,控制难易样本的权重,通常取值为 [0, 5] 。Dice损失主要用于分割任务,它基于Dice系数设计,能够有效处理类别不平衡和预测不稳定的问题。其定义如下:
$$ {L}_{D}=1-\frac{2{\displaystyle\sum }_{i=1}^{N}{y}_{i}\widehat{{y}_{i}}}{{\displaystyle\sum }_{i=1}^{N}{y}_{i}+{\displaystyle\sum }_{i=1}^{N}\widehat{{y}_{i}}} 。 $$ (12) 2. 结果与分析
2.1 试验设计
本研究使用了自制的果树数据集来评估所提出的方法。在单个GeForce RTX3090GPU上进行训练,项目使用Linux系统和TensorFlow2.60框架实现。在训练过程中,将数据集其中的1个子集作为验证集,剩余的5个子集作为训练集进行模型训练,并计算模型在验证集上的表现。此过程重复6次,每次选择一个不同的子集作为验证集。最终,模型的性能通过6次验证试验的平均值来衡量。这种方法可以有效地减少模型评估中由于数据划分带来的随机性,从而提供一个更加稳定和可靠的性能估计。在本研究中,模型训练采用了以下超参数设置:训练轮数(Epochs)设为100;批次大小(Batch size)为6;优化器(Optimizer)选用Adam;学习率(Learning rate)设定为0.01;学习率衰减系数(lr_decay)为0.95;K近邻(KNN)参数设为16。
2.2 评价指标
采用平均分类准确率(Mean accuracy, mAcc)、总体分类准确率(Overall accuracy, OA)、平均交并比(Mean intersection over union, mIoU)和交并比(Intersection over union, IoU)4个指标来评价模型在自制数据集上的性能。IoU表示预测区域与真实区域的交集与并集的比值,mIoU则是所有类别IoU的平均值。计算公式如下。
$$ \mathrm{m}\mathrm{A}\mathrm{c}\mathrm{c}=\frac{1}{N}{\sum }_{i=1}^{N}{A}_{i} \text{,} $$ (13) $$ \mathrm{O}\mathrm{A}=\frac{\mathrm{T}\mathrm{P}+\mathrm{T}\mathrm{N}}{\mathrm{T}\mathrm{P}+\mathrm{T}\mathrm{N}+\mathrm{F}\mathrm{P}+\mathrm{F}\mathrm{N}} \text{,} $$ (14) $$ \mathrm{m}\mathrm{I}\mathrm{o}\mathrm{U}=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}+\mathrm{F}\mathrm{N}} \text{,} $$ (15) 式中,
$ {A}_{i} $ 表示第i类的准确率,N为类别总数,TP为真阳性(True positive),TN为真阴性(True negative),FP为假阳性(False positive),FN为假阴性(False negative)。2.3 双边增强模块与损失函数对模型性能的影响
为了验证方法的有效性,其中包含1.5.2中提出的双边增强模块与1.5.3损失函数的更换,在本章节设置了对照试验,使用自制的果树数据集,分别测试双边增强模块与损失函数对模型性能的影响。
2.3.1 双边增强模块
以RandLA-Net网络为基准网络,在网络的编码器层后面加入双边增强模块。这样能最小程度增加模型的复杂程度而处理高层次的全局特征,提升全局特征的表达能力。为了直观地体现双边增强模块的有效性,在相同的实验条件下使用RandLA-Net与增加了双边增强模块的RandLA-Net对自建的果树数据集进行分割,得到的结果如表2所示,与基准网络RandLA-Net相比,加入双边增强模块的RandLA-Net在各项评估指标上均有所提升。具体而言,平均分类准确率提高了1.33个百分点,平均交并比提高了2.64个百分点,特别是在果实这一类别的IoU上,性能提升更为显著,达到了4.8个百分点,OA也有小幅提升,从96.3%增加到96.5%。这些结果充分证明加入双边增强模块的模型在保持整体性能的同时重点加强了对关键目标的识别能力,这对果实点云的分割任务来说尤为重要。值得注意的是,在2个模型训练过程中的每批次耗时几乎相当,即使BEM模块会给网络增加新的计算量,然而加入双边增强模块的网络甚至比基准网络平均少2.52ms。这是由于双边增强模块引入的流动性和更新机制,使得优化过程更加高效,从而略微减少了每个批次的训练时间。
表 2 RandLA-Net与加入BEM模块的结果对比Table 2. Comparison of results between RandLA-Net and RandLA-Net adding BEM module模型 mAcc/% mIoU/% OA/% $ \mathrm{I}\mathrm{o}{\mathrm{U}}_{\mathrm{f}\mathrm{r}\mathrm{u}\mathrm{i}\mathrm{t}} $/% t/ms RandLA-Net 87.45 85.24 96.3 74.76 228.64 RandLA-Net+BEM 88.78 87.88 96.5 79.56 226.12 试验结果表明,双边增强模块不仅显著提升了模型的分割性能,特别是对于关键类别果实的分割能力,且并未增加额外的计算负担。这种性能的提升和计算效率的优化,使得改进后的模型更适合于实际应用场景中的果树点云分割任务。
2.3.2 损失函数
为解决点云数据中类别比例不平衡的问题,本研究探讨了不同损失函数对分割性能的影响。以使用加权交叉熵损失函数(WCEL)的RandLA-Net+BEM为基准网络,对比使用焦点损失函数(FL)、Dice损失函数(DL)以及焦点损失与Dice损失的组合(FL+DL)。实验结果如表3所示,不同的损失函数对模型的分割性能产生了显著影响,尤其是在关键指标果实交并比上。基准网络采用的WCEL通过为不同类别分配不同权重来平衡类别差异,在所有指标上都取得了较好的表现。FL方案虽通过自适应调整样本权重来增强对少数类别的学习能力,但由于类别不平衡问题还与空间分布特征相关,其性能略低于基准网络。单独使用DL时性能最差,果实交并比仅为65.79%,这主要是因为在处理样本数量差异大的点云数据时,其梯度优化不稳定,难以有效学习类别特征。FL+DL组合在果实分割任务中表现最为出色,果实交并比达到82.09%,相比基准网络提升了2.53%,同时获得了最高的mIoU(88.76%),比基准网络提升了0.88%,表明该组合不仅增强了模型对样本较少目标的分割性能,还提高了整体分割性能。各损失函数在背景类别的IoU上的表现均比较优越(93.27% - 96.21%),表明模型在分割样本较多目标时能保持分割性能的稳定。FL+DL组合的优异表现可归因于其互补性,FL通过动态调整样本权重有效缓解了类别不平衡问题,而DL则专注于提高整体分割准确性,尤其在处理小目标和优化边界区域方面表现卓越。这种组合实现了点级别和区域级别的协同优化,在保持高分类准确率的同时,显著提高了区域分割质量,特别是对于数量较少的果实点云。总体而言,试验结果强有力地支持了FL+DL组合在处理类别不平衡和提高果实分割精度方面的优越性,为优化果树点云分割任务提供了有效的解决方案。
表 3 使用不同的损失函数方案的结果对比Table 3. Comparison of results using different loss function schemes损失函数 mAcc mIoU $ \mathrm{I}\mathrm{o}{\mathrm{U}}_{\mathrm{f}\mathrm{r}\mathrm{u}\mathrm{i}\mathrm{t}} $ $ \mathrm{I}\mathrm{o}{\mathrm{U}}_{\mathrm{b}\mathrm{a}\mathrm{c}\mathrm{k}\mathrm{g}\mathrm{r}\mathrm{o}\mathrm{u}\mathrm{n}\mathrm{d}} $ WCEL 88.78 87.88 79.56 96.21 FL 83.54 86.43 77.91 96.11 DL 71.82 75.95 65.79 93.27 FL+DL 87.99 88.76 82.09 96.16 2.4 结果可视化及分析
为直观展示本文提出的改进,在RandLA-Net基础上添加双边增强模块并采用焦点损失与Dice损失的组合所带来的性能提升,图6展示了原版RandLA-Net与改进后模型的分割效果对比,以地面真值(Ground-truth)为参考。每一行代表同一个样本的3种状态,从左到右依次是地面真值、原版RandLA-Net的分割结果与本研究改进后模型的分割结果。
对比结果显示,改进后的模型在果实边界分割和整体识别上均明显优于原版RandLA-Net。这种提升主要归因于两方面:首先,本文设计的双边增强模块不仅捕获局部几何信息,还将局部语义信息纳入特征提取过程,显著增强了果实点云与背景点云的特征区分度。其次,组合损失函数的应用对识别数量较少的果实点云起到了关键作用。焦点损失(FL)通过动态调整样本权重有效缓解了类别不平衡问题,而Dice损失(DL)则专注于提高整体分割准确性,尤其在处理小目标和优化边界区域方面表现优秀。
这种改进方案不仅从总体上提升了网络的分割能力,并且对于本研究数据集中所出现的类不平衡问题也有很大程度的改善。如图8所示,本研究改进后的网络不仅在果实的整体分割精度优于基准网络,且在果实的边界分割上处理的也比基准网络要更精确,这对于果实的估产来说十分重要,在一些小果实的分割处理上,ours的效果也优于RandLA-Net。这些可视化结果有力地支持了前文中定量分析的结论,证实了本研究方法在果树点云分割任务中的有效性。
3. 结论
本研究提出了一种基于NeRF和RandLA-Net的柑橘果树三维重建与果实语义分割方法。试验结果表明,改进后的RandLA-Net在果实语义分割任务中表现出色,平均交并比提高了2.64个百分点,果实交并比提升了7.33个百分点,显著增强了模型分割能力。这证实了引入双边增强模块和优化损失函数能有效提高复杂果树场景的处理能力。此外,研究发现损失函数的选择对结果有显著影响,采用更适合果实点云分割任务的损失函数能进一步提升性能。综上所述,本文提出的方法不仅能准确重建果树三维结构和识别果实,还为果园智能管理和自动采摘提供了新的技术支持,这种非破坏性的果树分析方法可以帮助果园管理者更好地掌握果树的生长状况,提高农业生产的效率和质量。未来,将进一步优化算法性能,探索在更大规模果园和不同果树品种上的应用,以及研究与农业机器人系统的集成,实现实时、高效的果实检测和采摘。通过这些深入研究,期望能够进一步推动智慧农业的发展,为农业现代化和可持续发展做出更大贡献。
-
图 5 RandLA-Net的结构
方块中的N代表输入点的数量,另外的数字代表特征的通道数,n_classes代表点的种类数。FC、LFA、RS、MLP、US分别表示全连接层、局部特征聚合、随机采样、多层感知器、上采样。
Figure 5. Structure of RandLA-Net
N in the blocks represents the number of input points, while other numbers represent the feature channel dimensions. n_classes represents the number of point categories. FC, LFA, RS, MLP, and US stand for Fully Connected layer, Local Feature Aggregation, Random Sampling, Multi-Layer Perceptron, and Upsampling, respectively.
表 1 相机参数表
Table 1 Camera parameter table
参数 DFOV / HFOV / VFOV 分辨率/MP 最大帧率/(帧·s−1) 焦距/mm 光圈 镜头尺寸 像素/(µm×µm) RGB相机 78°D / 66°H / 54°V 12( 4032 ×3040 )60 4.81 1.8±5% 1/2.3” 1.55×1.55 OAK-D-PRO相机 82°D / 72°H / 50°V 1( 1280 ×800)120 2.35 2.0±5% 1/4” 3×3 表 2 RandLA-Net与加入BEM模块的结果对比
Table 2 Comparison of results between RandLA-Net and RandLA-Net adding BEM module
模型 mAcc/% mIoU/% OA/% $ \mathrm{I}\mathrm{o}{\mathrm{U}}_{\mathrm{f}\mathrm{r}\mathrm{u}\mathrm{i}\mathrm{t}} $/% t/ms RandLA-Net 87.45 85.24 96.3 74.76 228.64 RandLA-Net+BEM 88.78 87.88 96.5 79.56 226.12 表 3 使用不同的损失函数方案的结果对比
Table 3 Comparison of results using different loss function schemes
损失函数 mAcc mIoU $ \mathrm{I}\mathrm{o}{\mathrm{U}}_{\mathrm{f}\mathrm{r}\mathrm{u}\mathrm{i}\mathrm{t}} $ $ \mathrm{I}\mathrm{o}{\mathrm{U}}_{\mathrm{b}\mathrm{a}\mathrm{c}\mathrm{k}\mathrm{g}\mathrm{r}\mathrm{o}\mathrm{u}\mathrm{n}\mathrm{d}} $ WCEL 88.78 87.88 79.56 96.21 FL 83.54 86.43 77.91 96.11 DL 71.82 75.95 65.79 93.27 FL+DL 87.99 88.76 82.09 96.16 -
[1] SANGIORGIO P, VERARDI A, SPAGNOLETTA A, et al. Citrus as a multifunctional crop to promote new bio-products and valorize the supply chain[J]. Environmental Engineering and Management Journal, 2020, 19(10): 1869-1889. doi: 10.30638/eemj.2020.179
[2] 肖阳, 项明宇, 李熹. 基于改进YOLOv8n的轻量化柑橘成熟度检测[J]. 计算机系统应用, 2024, 33(11): 202-208. [3] 伍倩. 基于Kinect v2相机的柑橘点云分割与配准研究[D]. 桂林: 广西师范大学, 2022. [4] 邹密. 基于三维重建的柑橘冠层特征检测系统设计与实现[D]. 重庆: 西南大学, 2023. [5] 韩旭洁. 基于深度学习的果实点云分类与分割[D]. 杨凌: 西北农林科技大学, 2022. [6] AFONSO M, FONTEIJN H, FIORENTIN F S, et al. Tomato fruit detection and counting in greenhouses using deep learning[J]. Frontiers in Plant Science, 2020(11): 571299. doi: 10.3389/fpls.2020.571299.
[7] PENG H, XUE C, SHAO Y, et al. Semantic segmentation of Litchi branches using DeepLabV3+ model[J]. IEEE Access, 2020(8): 164546-164555.
[8] KANG H, CHEN C. Fruit detection and segmentation for apple harvesting using visual sensor in orchards[J]. Sensors, 2019, 19(20): 4599. doi: 10.3390/s19204599
[9] BARGOTI S, UNDERWOOD J P. Image segmentation for fruit detection and yield estimation in apple orchards[J]. Journal of Field Robotics, 2017, 34(6): 1039-1060. doi: 10.1002/rob.21699
[10] FU K, WEI P, VILLACRES J, et al. Fusion-driven tree reconstruction and fruit localization: Advancing precision in agriculture[EB/OL]. arXiv: 2310.15138(2023-10-23)[2024-10-01]. https://arxiv.org/abs/2310.15138v2.
[11] GE Y, XIONG Y, FROM P J. Symmetry-based 3D shape completion for fruit localisation for harvesting robots[J]. Biosystems Engineering, 2020, 197: 188-202. doi: 10.1016/j.biosystemseng.2020.07.003
[12] ZHAO L, HUANG S, DISSANAYAKE G. Linear SFM: A hierarchical approach to solving structure-from-motion problems by decoupling the linear and nonlinear components[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 141: 275-289. doi: 10.1016/j.isprsjprs.2018.04.007
[13] SEITZ S M, CURLESS B, DIEBEL J, et al. A comparison and evaluation of multi-view stereo reconstruction algorithms[C]//2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). New York, NY, USA: IEEE, 2006: 519-528.
[14] DONG J, BURNHAM J G, BOOTS B, et al. 4D crop monitoring: Spatio-temporal reconstruction for agriculture[C]//2017 IEEE International Conference on Robotics and Automation (ICRA), Singapore: IEEE, 2017: 3878-3885.
[15] LI Z, ZHANG Z, LUO S, et al. An improved matting-SfM algorithm for 3D reconstruction of self-rotating objects[J]. Mathematics, 2022, 10(16): 2892. doi: 10.3390/math10162892.
[16] GENÉ-MOLA J, GREGORIO E, CHEEIN F A, et al. Fruit detection, yield prediction and canopy geometric characterization using LiDAR with forced air flow[J]. Computers and Electronics in Agriculture, 2019, 168: 105121. doi: 10.1016/j.compag.2019.105121.
[17] CHAKRABORTY M, KHOT L R, SANKARAN S, et al. Evaluation of mobile 3D light detection and ranging based canopy mapping system for tree fruit crops[J]. Computers and Electronics in Agriculture, 2019, 158: 284-293. doi: 10.1016/j.compag.2019.02.012
[18] CAO W, WU J, SHI Y, et al. Restoration of individual tree missing point cloud based on local features of point cloud[J]. Remote Sensing, 2022(14): 1346. doi: 10.3390/rs14061346.
[19] AI M, YAO Y, HU Q, et al. An automatic tree skeleton extraction approach based on multi-view slicing using terrestrial LiDAR scans data[J]. Remote Sensing, 2020, 12(22): 3824. doi: 10.3390/RS12223824.
[20] HUANG S, GOJCIC Z, HUANG J, et al. Dynamic 3D scene analysis by point cloud accumulation[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 674-690.
[21] ZAPATA N T, TSOULIAS N, SAHA K K, et al. Fourier analysis of LiDAR scanned 3D point cloud data for surface reconstruction and fruit size estimation[C]//2022 IEEE Workshop on Metrology for Agriculture and Forestry (MetroAgriFor). Perugia, Italy: IEEE, 2022: 197-202.
[22] MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. NeRF: Representing scenes as neural radiance fields for view synthesis[C]//Computer Vision, Cham: Springer International Publishing, 2020: 99-106.
[23] ADAMKIEWICZ M, CHEN T, CACCAVALE A, et al. Vision-only robot navigation in a neural radiance world[J]. IEEE Robotics and Automation Letters, 2022, 7(2): 4506-4613.
[24] SHEN S, WANG Z, LIU P, et al. Non-line-of-sight imaging via neural transient fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(7): 2257-2268. doi: 10.1109/TPAMI.2021.3076062
[25] HONG K, WANG H, YUAN B. Inspection-Nerf: Rendering multi-type local images for dam surface inspection task using climbing robot and neural radiance field[J]. Buildings, 2023, 13(1): 213. doi: 10.3390/buildings13010213.
[26] GAO X, YANG J, KIM J, et al. MPS-NeRF: Generalizable 3D human rendering from multiview images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(12): 9154-9167.
[27] DENG N, HE Z, YE J, et al. FoV-NeRF: Foveated neural radiance fields for virtual reality[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 28(11): 3854-3864. doi: 10.1109/TVCG.2022.3203102
[28] QI C R, SU H, MO K, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA: IEEE, 2017: 652-660.
[29] QI C R, YI L, SU H, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C]//31st Conference on Neural Information Processing Systems (NeurIPS 2017), Long Beach, CA: NeurIPS, 2017: 5099-5108.
[30] SHI S, WANG X, LI H. PointRCNN: 3D object proposal generation and detection from point cloud[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA: IEEE, 2019: 770-779.
[31] SHI S, GUO C, JIANG L, et al. PV-RCNN: point-voxel feature set abstraction for 3D object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA: IEEE, 2020: 10529-10538.
[32] DING Z, HAN X, NIETHAMMER M. VoteNet: A deep learning label fusion method for multi-atlas segmentation[J]. Medical Image Computing and Computer-Assisted Intervention, 2019, 11766: 202-210.
[33] HU Q, YANG B, XIE L, et al. RandLA-Net: Efficient semantic segmentation of large-scale point clouds[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA: IEEE, 2020: 11105-11114.
[34] CUI Y, CHANG Q, LIU Q, et al. 3D reconstruction with spherical cameras[J]. IEEE Access, 2021, 9: 143531-143544. doi: 10.1109/ACCESS.2021.3119367.
[35] 钱德宇. 可移动文物数字化原真采集系统研究与实现[D]. 北京: 北京邮电大学, 2023.