Feed consumption status monitoring method of dairy cows based on Swin-Unet
-
摘要:目的
针对监控图像中饲料区域结构较长、边界模糊,且形状与尺寸复杂多变等特点,本研究旨在更准确地分割饲料残余区域与消耗区域,以达到准确监测饲料消耗状态的目的。
方法本研究提出了基于Swin-Unet的语义分割模型,其在Swin Transformer块的开始阶段应用ConvNeXt块,增强模型对特征信息的编码能力,以提供更好的特征表示,并利用深度卷积替换线性注意力映射,以提供局部空间上下文信息。同时提出了新颖的宽范围感受野模块来代替多层感知机,以丰富多尺度空间上下文信息。此外在编码器的开始阶段,将线性嵌入层替换为卷积嵌入层,通过分阶段压缩特征,在块之间和内部引入更多的空间上下文信息。最后引入多尺度输入策略、深度监督策略,并提出了特征融合模块,以加强特征融合。
结果所提出方法的平均交并比、准确率、F1分数与运行速度分别为86.46%、98.60%、92.29%和23帧/s,相较于Swin-Unet,分别提高4.36、2.90、0.65个百分点和15%。
结论基于图像语义分割的方法应用于饲料消耗状态的自动监测是可行的,该方法通过将卷积引入Swin-Unet,有效地提高了分割精度与计算效率,对提升生产管理效率具有重要意义。
Abstract:ObjectiveIn view of the characteristics of the feed area in the monitoring image, which has a long structure, fuzzy boundaries, as well as complex and changeable shapes and sizes, the aim of this study was to more accurately segment the feed residual area and consumption area, and achieve the purpose of accurately monitoring the feed consumption status.
MethodThis study proposed a semantic segmentation model based on Swin-Unet, which applied ConvNeXt block at the beginning of the Swin Transformer block to enhance the model’s ability of encoding feature information to provide better feature representation. The model used depth-wise convolution to replace linear attention projection to provide local spatial context information. At the same time, a novel wide receptive field module was proposed to replace the multi-layer perceptron to enrich multi-scale spatial context information. In addition, at the beginning of the encoder, the linear embedding layer was replaced with a convolutional embedding layer, which introduces more spatial context information between and within patches by compressing features in stages. Finally, a multi-scale input strategy, a deep supervision strategy and a feature fusion module were introduced to strengthen feature fusion.
ResultThe mean intersection over union, accuracy, F1-score and operation speed of the proposed method were 86.46%, 98.60%, 92.29% and 23 frames/s respectively, which were 4.36, 2.90, 0.65 percentage points and 15% higher than those of Swin-Unet.
ConclusionIt is feasible to apply the method based on image semantic segmentation to the automatic monitoring of feed consumption status. This method effectively improves the segmentation accuracy and computing efficiency by introducing convolution into Swin-Unet, which is of great significance for improving production management efficiency.
-
Keywords:
- Feed consumption /
- Automatic monitoring /
- Semantic segmentation /
- Swin Transformer /
- Dairy cow /
- Deep convolution
-
饲料作为奶牛重要的营养来源,监测饲料消耗状态对保障奶牛健康和提高生产管理效率具有重要意义。当前,主要以人工目测的方式来监测饲料的消耗状态,存在工作量大、人力成本高和效率低等问题。同时,由于人工目测的局限性,巡视频率和准确率难以保障。随着畜牧业规模的不断扩大,规模化、集约化养殖日益成为趋势[1],给传统的依赖人工目测的巡视方式带来了巨大的挑战。该研究提出利用监控摄像头结合基于深度学习的图像语义分割技术计算饲料消耗区域的占比,以达到自动监测饲料消耗状态的目的。在实际应用中,监控图像中饲料区域结构较长、边界模糊,且形状与尺寸复杂多变,难以精确分割饲料消耗区域与残余区域的边界,导致出现过度分割和分割不足的现象,影响饲料消耗状态的监测值。
由于卷积算子固有的局部性,以卷积神经网络(Convolutional neural network,CNN)为主干的Unet[2]及其变体[3-7]难以对图像内的远距离语义依赖关系进行建模,因此无法有效分割具有挑战性的器官边界。为了更好地对全局上下文信息进行建模,研究人员提出引入注意力机制以及用来扩大卷积核感受野的空洞卷积核。然而,这些方法都会增加计算复杂度。此外,使用较大空洞率的卷积核可能会导致边界信息的丢失或模糊。
鉴于视觉Transformer (Vision transformer,ViT)[8]模型在全局上下文信息捕获方面具有明显的优势,创建Transformer-CNN的混合语义分割模型成为主流。然而,用于语义分割的Transformer都很庞大,并且依赖于经典视觉任务的预训练权重来适应分割任务,因此Transformer-CNN的混合模型[9-12]又会使模型变得庞大且计算复杂。最近的研究[13-20]已转向使用Transformer作为构建整个分割架构的主干,以减轻计算负担,但都未尝试在Transformer的低级特征提取阶段对局部空间上下文进行建模。Swin-Unet[15]是基于纯Transformer的语义分割模型中最具有代表性的,其使用Swin Transformer[21]提出的移位窗口机制以分层提取特征,极大地降低了传统自注意力的二次复杂度,同时实现了更好的性能,但由于其使用包含线性注意力映射和线性多层感知机(Multi-layer perceptron,MLP)的标准Swin Transformer块来处理数据,因此其创建的特征表示本质上是线性的,缺乏对局部空间信息的有效处理,无法充分挖掘局部信息,难以精确分割饲料消耗区域与残余区域的边界。
鉴于现有方法的不足,为使Swin Transformer更好地对局部信息进行建模,更准确地分割饲料区域的边界,本研究将卷积引入Transformer块,以更好地建模局部信息,从而加强对饲料边界的精确分割。
1. 基于Swin-Unet的语义分割网络
1.1 网络整体框架
改进的Swin-Unet (Improved Swin-Unet,ISwin-Unet)整体框架如图1所示,呈对称的U形结构。
模型输入输出分辨率为H×W×3的2D图像。H、W和3分别表示输入输出图像的高度、宽度和通道数。首先,提出了卷积嵌入(Convolutional embedding,CE)层,进入编码器的输入图像首先通过CE层在图像的重叠块上创建
$ \dfrac{W}{4} \times \dfrac{H}{4} \times C $ (C=96)的序列嵌入,在压缩图像尺寸的同时,引入更多的局部空间上下文信息。然后应用编码器内的多级全卷积Swin Transformer (Fully convolutional Swin Transformer,FCST)块和Patch merging层提取输入图像的特征。同时,引入多尺度输入策略,进一步向编码器注入金字塔式输入,将上级FCST块和Patch merging层提取的特征与缩小尺寸后的原图像进行特征融合,以突出显示不同类别和不同尺度下较小的感兴趣区域(Region of interest,ROI)特征。编码器提取的特征由2个FCST块组成的瓶颈层进行处理。解码器将瓶颈表示作为输入,引入反卷积上采样模块,通过反卷积上采样模块执行2倍上采样,并将通道数减半。具体来说,反卷积上采样模块对上采样特征图采用跨步反卷积,并将通道维度减半,具体实现为:LN,2d→Transposed convolution,2×2,s=2,d→GELU;LN为层归一化(Layer normalization),d表示重构后的特征图的通道数,Transposed convolution为反卷积,s为步长,GELU为GELU激活函数。通过将Patch expanding层替换为反卷积上采样层,能更好地保留特征。
将通过上采样创建的高分辨率特征图与来自编码器相同分辨率的特征图一同传递给所提出的特征融合模块(Feature fusion module,FFM),以补偿因下采样而丢失的信息。然后,将融合后的特征输入FCST块,为融合后的特征提供空间上下文信息。重复上述过程3次后,将特征输入到Patch expanding层,该层执行4倍上采样,然后进行线性映射以得到最终的分割类别。
此外,引入了深度监督策略,在训练过程中引入额外的监督信号,帮助网络更好地学习特征,以提高模型的预测能力。具体而言,在解码器的不同阶段输出中间分割图,有助于确保模型逐渐恢复空间细节,同时充分利用多尺度信息,通过在多个尺度上监督,更好地学习图像的语义信息,提高模型的预测能力。本研究没有在最低尺度上引入深度监督,因为在最低尺度上引入深度监督信号会增加计算的复杂性,而且对于小尺寸的ROI,最低尺度上的分辨率不足,难以准确地捕捉目标的细节。此外,在最低尺度上无法提供足够的上下文信息,缺少关键的上下文信息。这些都会使模型无法有效地提取语义信息,从而降低模型性能。
1.2 全卷积Swin Transformer块
该研究基于Swin Transformer块提出了新颖的FCST块,FCST块在多头自注意力(Multi-head self-attention,MHSA)和MLP中充分利用卷积的空间建模能力,将擅长提取局部空间上下文的卷积神经网络与能有效捕获长距离依赖关系的Swin Transformer相结合,在多阶段设计中引入卷积,以分层增强Swin Transformer的空间和局部建模能力,FCST块结构如图2所示。
在FCST块的开始阶段,提出应用ConvNeXt[22]块来增强模型对特征信息的编码能力,以提供更好的特征表示。同时,提出了一种新颖的基于(移位)窗口的卷积多头自注意力[(Shifted)Window-based convolutional multi-head self-attention,(S)W-CMHSA],其利用深度卷积注意力映射替换线性注意力映射,将卷积与MHSA结合构成卷积注意力,并结合Swin Transformer块的(移位)窗口机制,来提取分层语义信息及局部空间上下文信息,以加强对边界的精确分割。此外,提出了宽范围感受野(Wide receptive field,WRF)模块来代替MLP,以丰富多尺度空间上下文信息,从而应对尺寸和形状复杂多变的饲料区域。
FCST块的计算公式为:
$$ {\hat z_l} = ({\mathrm{S}}){\text{W-CMHSA}}[{\text{LN}}({z_{l - 1}})] + {z_{l - 1}} , $$ (1) $$ {z_l} = {\text{WRF}}[{\text{LN}}({\hat z_l})] + {\hat z_l} , $$ (2) $$ {\hat z_{l + 1}} = {\text{(S)W-CMHSA}}[{\text{LN}}({z_l})] + {z_l} , $$ (3) $$ {z_{l + 1}} = {\text{WRF}}[{\text{LN}}({\hat z_{l + 1}})] + {\hat z_{l + 1}} , $$ (4) 式中,
$ {\hat z_l} $ 和$ {z_l} $ 分别表示第l个FCST块中(S)W-CMHSA模块和WRF模块的输出,${\hat z_{l + 1}} $ 和${ z_{l + 1}} $ 分别表示第l+1个FCST块中(S)W-CMHSA模块和WRF模块的输出。1.2.1 ConvNeXt块
传统的特征提取网络(例如Resnet)采用两头大、中间小的瓶颈结构,在通道数减少的过程中,可能导致信息丢失。而ConvNeXt块[22]采用两头小、中间大的倒瓶颈(Inverted bottleneck)结构,使得ConvNeXt块能够有效捕获输入数据的特征,提高模型的表达能力。
ConvNeXt块的结构如图3所示,ConvNeXt块实现为:7×7 Depth-wise Conv,d→LN,d→Point-wise Conv,4×d→GELU→Point-wise Conv,d→RC;RC表示残差连接(Residual connection),Depth-wise Conv表示深度卷积,Point-wise Conv表示点卷积。其使用了7×7的大卷积核,相较于传统的3×3卷积核,可提高模型性能。同时,为了解决梯度消失问题,使用了GELU激活函数。此外,使用LN代替传统的BN (Batch normalization),LN层更适合小批量的训练数据,有助于网络收敛。
图 3 ConvNeXt块的结构k为卷积核的大小,s为步长,p为填充值的大小,H为特征图的高,W为特征图的宽,C为通道的维度Figure 3. The structure of the ConvNeXt blockk is the size of the convolution kernel, s is the step size, p is the size of the padding value, H is the height of the feature map, W is the width of the feature map, and C is the dimension of the channel1.2.2 (S)W-CMHSA
标准的Transformer模型采用线性注意力映射进行多头自注意力计算,缺乏充分的空间上下文信息。研究人员试图通过卷积增强来缓解这一问题,然而这会增加额外的计算成本。Wu等[23]提出利用深度可分离卷积替换线性注意力映射,深度可分离卷积可实现为:Depth-wise Conv→BN→Point-wise Conv。本研究为了更好地适应数据量较小的任务,去除了深度可分离卷积中的逐点卷积,使模型更简单,避免过拟合。此外,利用LN替换BN,以提高性能。深度卷积提供的空间上下文进一步消除了对位置编码的需要。深度卷积的卷积核大小为3×3,填充为1,步长为1,以确保:1)提取的块是重叠的;2)卷积运算不会改变输出尺寸。此外,在注意力输出图后,利用3×3深度卷积替换线性层,以便微调获得更多空间信息。
1.2.3 WRF模块
提出利用WRF模块替换MLP,以提取细粒度信息和多尺度上下文信息。现有的Transformer将MLP模块实现为:LN,d→Linear,4×d→GELU→Linear,d→RC。Linear表示线性映射。WRF模块如图4所示,WRF模块由LN层、密集空洞卷积模块(Dense atrous convolution,DAC)[24]、特征聚合层和RC层构成。
DAC模块通过使用不同空洞率的空洞卷积,可捕获不同尺度的上下文信息,提供对图像的多尺度表示,从而更好地捕获语义信息。特征聚合层是通过1个3×3卷积算子和GELU激活函数构成的,以进一步提取空间上下文信息。
如图5所示,DAC模块由以级联方式堆叠的空洞卷积组成,即4个级联分支,每个分支的感受野分别为3、7、9和19。最后,直接将原始特征与其他分支特征相加,类似残差连接机制。一般而言,具有较大感受野的卷积能够捕获更大区域的信息,从而提取和生成更加抽象的特征,适用于处理较大尺寸的物体。相反,具有较小感受野的卷积则更适合于处理小尺寸的物体,能够更精确地捕获局部细节信息。DAC模块通过结合不同空洞率的空洞卷积,实现对多尺寸特征的提取。
1.3 卷积嵌入层
现有模型使用线性层将图像分割成不重叠的块并大幅减小图像的大小,将原分辨率为H×W的图像压缩为
$ \dfrac{H}{4} \times \dfrac{W}{4} $ ,同时将通道维度改变为C。然而,使用线性层来压缩特征不仅会损失高质量的空间和局部信息,还会增加模型的大小。本研究提出了卷积嵌入层,以替换线性嵌入层。卷积嵌入层由具有重叠块的4个卷积构成,通过分阶段压缩特征,以在块之间和内部引入更多的空间上下文信息。卷积嵌入层如图6所示,具体来说,该层的实现过程如下:Conv 3×3,s=1,C/2→GELU→Conv 3×3,s=2,C/2→GELU+LN→Conv 3×3,s=1,C→GELU→Conv 3×3,s=2,C→GELU。其中s为步长,输入维度为3。最后,输出分辨率为$ \dfrac{H}{4} \times \dfrac{W}{4} \times C $ 的特征图。图 6 卷积嵌入层k为卷积核的大小,s为步长,p为填充值的大小,H为特征图的高,W为特征图的宽,C为通道的维度Figure 6. Convolutional embedding layerk is the size of the convolution kernel, s is the step size, p is the size of the padding value, H is the height of the feature map, W is the width of the feature map, and C is the dimension of the channel1.4 特征融合模块
将通过上采样创建的高分辨率特征图与来自编码器同一分辨率的特征图由FFM模块进行融合。FFM模块如图7所示,其进一步丰富了空间和细粒度信息,同时补偿了下采样造成的信息缺失,从而提高模型的分割性能。
具体而言,将通过上采样创建的高分辨率特征图的输出与来自编码器的浅层特征表示在通道维度上进行拼接,随后通过1个3×3的卷积层来调整通道数。然后依次通过GELU激活函数、3×3卷积、GELU激活函数,以进一步丰富空间上下文信息,最终通过残差结构得到融合后的特征图。具体实现为:Conv 3×3,s=1,d/2→GELU→Conv 3×3,s=1,d/2→GELU。
1.5 损失函数
损失函数L由dice损失函数Ldice和交叉熵损失函数Lce组成,可表示如下:
$$ L_{\text{ce}} = - \dfrac{1}{N}\displaystyle\sum\nolimits_{n = 1}^N {\displaystyle\sum\nolimits_{k = 1}^K {y_k^{n}} } \ln \hat y_k^{n}, $$ (5) $$L_ {\text{dice}} = 1 - \dfrac{2}{N}\displaystyle\sum\nolimits_{n = 1}^N {\displaystyle\sum\nolimits_{k = 1}^K {\dfrac{{\hat y_k^{n}y_k^{n}}}{{\hat y_k^{n} + y_k^{n}}}} } ,$$ (6) $$ {{L}} = L_{\text{ce}} + L_{\text{dice}} ,$$ (7) 式中,N和K分别表示样本数和类别数;
$ {y^{n}} $ 和$ {\hat y^{n}} $ 分别表示真实语义标签的one-hot编码和网络的softmax输出,$ n \in [1,\cdots ,N] $ ;$ \hat y_k^{n} $ 表示样本n属于类别k的置信度。2. 试验与结果分析
2.1 试验环境及参数配置
本研究所使用的模型是基于Pytorch深度学习框架和Python3.7编程语言实现的,集成开发环境为PyCharm。试验平台的操作系统为Ubuntu 20.04,显卡为NVIDIA GeForce RTX
2080 Ti GPU,处理器为Inter(R) Core(TM) i7-9700K,主频3.6 GHz,内存48 GB。将输入图像的尺寸设定为512像素×512像素,设置批次大小(Batch size)为64,使用Adam优化器,初始学习率设置为0.0001 ,总共训练300个周期。2.2 数据集
数据集为自制数据集,来源于内蒙古某牧场现场采集的监控视频。通过对部分视频数据进行抽帧,获取1 714张图片,训练集、验证集与测试集的比例为8∶1∶1。
图8为饲料消耗情况的分割结果图,清晰地展示了饲料消耗区域与饲料残余区域。饲料消耗状态A可由公式(8)计算:
$$ A = \dfrac{B}{{B + C}} \times 100{\text{%}}, $$ (8) 式中,B为饲料消耗区域的像素点总数,C为饲料残余区域的像素点总数。
2.3 评价指标
在图像语义分割领域,常用的性能评价指标有准确率(Accuracy)、交并比(Intersection over union,IoU)、精度(Precision)、召回率(Recall)和F1分数(F1-score)等。上述指标的计算公式可表示如下:
$$ {\text{Accuracy}} = \dfrac{{{\text{TP + TN}}}}{{{\text{TP + TN + FP + FN}}}} \text{,} $$ (9) $$ {\text{IoU}} = \dfrac{{{\text{TP}}}}{{{\text{FN + FP + TP}}}} \text{,} $$ (10) $$ {\text{Precision}} = \dfrac{{{\text{TP}}}}{{{\text{TP + FP}}}} \text{,} $$ (11) $$ {\text{Recall}} = \dfrac{{{\text{TP}}}}{{{\text{TP + FN}}}} \text{,} $$ (12) $$ {\text{F1-score}} = \dfrac{{2 \times {\text{Precision}}\times {\text{Recall}}}}{{{\text{Precision}} + {\text{Recall}}}} \text{,} $$ (13) 式中,TP (True positive)表示实际为正例且被预测为正例的数量;TN (True negative)表示实际为负例且被预测为负例的数量;FP (False positive)表示实际为负例但被预测为正例的数量;FN (False negative)表示实际为正例但被预测为负例的数量。
2.4 对比试验
为了验证ISwin-Unet算法的分割效果,将ISwin-Unet与经典的图像分割算法在相同条件下进行了比较,包括Unet、Attention Unet、Swin-Unet、TransUnet、Transfuse以及nnFormer。
为了直观展示所提出模型的分割效果,随机选取了4张测试图片,分割效果对比图如图9所示。
通过对比各方法的分割效果图,可以观察到:ISwin-Unet模型的分割效果最好,其分割出的饲料消耗区域与残余区域与真实标签最接近,且边界更加细腻。当饲料消耗区域较小时,其他方法存在误将饲料残余区域归类为饲料消耗区域或误将饲料消耗区域归类为饲料残余区域的现象,但ISwin-Unet模型比其他模型更具辨别力,分割更加细腻,能够更准确地将其区分开。
不同算法的定量对比结果如表1所示,ISwin-Unet超越了经典的基于卷积和基于Transformer的方法,在平均交并比、准确率和F1分数这几个评价指标上都是最高的,分别达到了86.46%、98.60%、92.29%,相较于Swin-Unet,分别提高4.36、0.65和2.90个百分点。总体而言,ISwin-Unet在无需预训练的情况下实现了最佳性能。
表 1 不同模型的性能比较Table 1. Performance comparison of different models模型
ModelMIoU1)/% 准确率/%
AccuracyF1分数/%
F1-score速度/(帧·s−1)
SpeedUnet[2] 80.37 97.72 88.15 25 Attention Unet[9] 81.72 97.93 89.10 24 Swin-Unet[15] 82.10 97.95 89.39 20 TransUnet[11] 83.23 98.22 90.12 18 Transfuse[12] 84.81 98.40 91.20 17 nnFormer[18] 85.50 98.49 91.67 15 ISwin-Unet 86.46 98.60 92.29 23 1) MIoU为平均交并比
1) MIoU is the mean intersection over union此外,表1还列出了所有模型在相同运行条件下的运行速度,即模型每秒钟能处理的图像帧数。就计算速度(效率)而言,基于Transformer或Swin Transformer块的模型低于其他具有纯卷积结构的模型。所提出的ISwin-Unet在自制数据集上的运行速度为23帧/s,优于Swin-Unet的20帧/s。表明所提出的ISwin-Unet在提高分割精度的同时,在算法效率方面也有较大的提升。
2.5 消融试验
ISwin-Unet是基于Swin-Unet改进的,通过消融试验以进一步验证每个改进的有效性。以平均交并比、准确率和F1分数作为评价指标,将从头开始训练的Swin-Unet视为基线模型(方法0)。本研究将Swin-Unet编码器中的线性嵌入层替换成卷积嵌入层,记作模块1。在Swin Transformer块的开始阶段(LN层之后)增加ConvNeXt块,记作模块2。将Swin Transformer块中的线性注意力映射替换为深度卷积注意力映射,记作模块3。将Swin Transformer块中的MLP替换为WRF模块,记作模块4。将传统的融合方式替换成FFM,记作模块5。在编码器阶段增加多尺度输入策略,记作模块6。在解码器阶段增加深度监督策略,记作模块7。将解码器阶段的上采样层Patch expanding替换为反卷积上采样,记作模块8。试验结果如表2所示。
表 2 添加不同模块对模型性能的影响Table 2. Effects of adding different modules on model performance方法
Method模块1
Module 1模块2
Module 2模块3
Module 3模块4
Module 4模块5
Module 5模块6
Module 6模块7
Module 7模块8
Module 8F1分数/%
F1-scoreMIoU1)/% 准确率/%
Accuracy0 89.39 82.10 97.95 1 √ 90.27 83.42 98.07 2 √ √ 91.13 84.06 98.13 3 √ √ √ 91.39 85.54 98.26 4 √ √ √ √ 91.78 86.07 98.32 5 √ √ √ √ √ 91.96 86.15 98.38 6 √ √ √ √ √ √ 92.02 86.23 98.45 7 √ √ √ √ √ √ √ 92.16 86.33 98.52 8 √ √ √ √ √ √ √ √ 92.29 86.46 98.60 1) MIoU为平均交并比
1) MIoU is the mean intersection over union由方法0与1的对比结果可知,通过将线性嵌入层替换为卷积嵌入层,F1分数、平均交并比和准确率分别提升了0.88、1.32和0.12个百分点,表明通过分阶段压缩特征,在块之间和内部引入更多的空间上下文信息,模型的性能有所提升。
对比方法1和2的数据可知,与直接创建图像的逐块映射相比,在创建图像的逐块映射之前增加ConvNeXt块后,3个评价指标都有一定的提升,表明在创建图像的逐块映射之前,通过ConvNeXt块进行预处理能提高模型的性能。对比方法2和3的数据可知,将Swin Transformer块中的线性注意力映射替换为卷积注意力映射后,F1分数、平均交并比和准确率分别提升了0.26、1.48和0.13个百分点,表明通过深度卷积创建重叠的块,丰富局部空间上下文,模型的性能有所提升。对比方法3和4的数据可知,将WRF模块替换MLP后,F1分数、平均交并比和准确率分别提升了0.39、0.53和0.06个百分点,表明包含密集空洞卷积的WRF模块由于包含多个不同大小的感受野,具有多尺度特征提取能力,模型的性能进一步提升。对比方法1和4可知,通过改进Swin Transformer块,F1分数、平均交并比和准确率分别提升了1.51、2.65和0.25个百分点。
对比方法4和5的数据可知,将传统的融合方式替换成FFM后,3个指标稍有提升,表明以卷积的方式降低通道维度的FFM能提高模型的性能。
对比方法5和6的数据可知,在编码器阶段增加多尺度输入策略后,模型在3个评价指标上都取得了一定的提升,表明多尺度输入策略能提高模型的性能。
对比方法6和7的数据可知,在解码器阶段引入深度监督策略后,F1分数、平均交并比和准确率分别提升了0.14、0.10和0.07个百分点,表明在训练阶段引入深度监督策略可提升模型的性能。
对比方法7和8的数据可知,将Patch expanding上采样层替换为反卷积上采样模块后,F1分数、平均交并比和准确率分别提升了0.13、0.13和0.08个百分点,表明以反卷积的方式进行上采样可提高模型的性能。
3. 结论
针对当前落后的奶牛饲料消耗状态监测现状,本研究提出了基于图像语义分割的监测方法。针对监控图像中饲料区域存在结构较长、边界模糊,且形状与尺寸复杂多变等特点,为了更准确地分割饲料残余区域与消耗区域,以达到准确监测饲料消耗状态的目的,本研究提出了基于Swin-Unet的语义分割模型,主要得出以下结论。
1)对于Swin Transformer块,在Swin Transformer块的开始阶段引入ConvNeXt块进行预处理以提供更好的特征表示,并利用深度卷积替换线性注意力映射,以增强对局部空间上下文信息的提取能力。同时利用包含密集空洞卷积的WRF模块替换MLP,以加强对形状和尺寸复杂多变的饲料区域的分割能力。通过改进Swin Transformer块,F1分数、平均交并比和准确率分别提升1.51、2.65和0.25个百分点,表明将卷积引入Swin Transformer块,能提升图像语义分割精度。
2)在Swin-Unet编码器的初始阶段,利用卷积嵌入层替换线性嵌入层,通过分阶段压缩特征,在块之间和块内部引入更多的空间上下文信息,F1分数、平均交并比和准确率指标分别提升0.88、1.32和0.12个百分点,表明提出的卷积嵌入层对于提升分割效果是有效的。
3)所提出模型的F1分数、平均交并比和准确率分别为92.29%、86.46%和98.60%,比改进前的Swin-Unet模型,分别提高了2.90、4.36、0.65个百分点。此外,在计算效率方面,帧率达到23帧/s,优于Swin-Unet的20帧/s。表明基于图像语义分割的方法应用于饲料消耗状态的自动监测是可行的,该方法通过将卷积引入Swin-Unet,有效提高了分割精度,同时提升了计算效率,对提高生产管理效率具有重要意义。
-
图 3 ConvNeXt块的结构
k为卷积核的大小,s为步长,p为填充值的大小,H为特征图的高,W为特征图的宽,C为通道的维度
Figure 3. The structure of the ConvNeXt block
k is the size of the convolution kernel, s is the step size, p is the size of the padding value, H is the height of the feature map, W is the width of the feature map, and C is the dimension of the channel
图 6 卷积嵌入层
k为卷积核的大小,s为步长,p为填充值的大小,H为特征图的高,W为特征图的宽,C为通道的维度
Figure 6. Convolutional embedding layer
k is the size of the convolution kernel, s is the step size, p is the size of the padding value, H is the height of the feature map, W is the width of the feature map, and C is the dimension of the channel
表 1 不同模型的性能比较
Table 1 Performance comparison of different models
模型
ModelMIoU1)/% 准确率/%
AccuracyF1分数/%
F1-score速度/(帧·s−1)
SpeedUnet[2] 80.37 97.72 88.15 25 Attention Unet[9] 81.72 97.93 89.10 24 Swin-Unet[15] 82.10 97.95 89.39 20 TransUnet[11] 83.23 98.22 90.12 18 Transfuse[12] 84.81 98.40 91.20 17 nnFormer[18] 85.50 98.49 91.67 15 ISwin-Unet 86.46 98.60 92.29 23 1) MIoU为平均交并比
1) MIoU is the mean intersection over union表 2 添加不同模块对模型性能的影响
Table 2 Effects of adding different modules on model performance
方法
Method模块1
Module 1模块2
Module 2模块3
Module 3模块4
Module 4模块5
Module 5模块6
Module 6模块7
Module 7模块8
Module 8F1分数/%
F1-scoreMIoU1)/% 准确率/%
Accuracy0 89.39 82.10 97.95 1 √ 90.27 83.42 98.07 2 √ √ 91.13 84.06 98.13 3 √ √ √ 91.39 85.54 98.26 4 √ √ √ √ 91.78 86.07 98.32 5 √ √ √ √ √ 91.96 86.15 98.38 6 √ √ √ √ √ √ 92.02 86.23 98.45 7 √ √ √ √ √ √ √ 92.16 86.33 98.52 8 √ √ √ √ √ √ √ √ 92.29 86.46 98.60 1) MIoU为平均交并比
1) MIoU is the mean intersection over union -
[1] 张玉磊, 乔泓博. 畜牧业发展方式及其未来发展趋势[J]. 科技风, 2023, 25: 161-163. [2] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science. Springer International Publishing, 2015: 234-241.
[3] ZHOU Z W, RAHMAN SIDDIQUEE M M, TAJBAKHSH N, et al. UNet++: A nested U-net architecture for medical image segmentation[M]//Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Springer International Publishing, 2018: 3-11.
[4] HUANG H M, LIN L F, TONG R F, et al. UNet 3+: A full-scale connected UNet for medical image segmentation[C]//2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona, Spain: IEEE, 2020: 1055-1059.
[5] SCHLEMPER J, OKTAY O, SCHAAP M, et al. Attention gated networks: Learning to leverage salient regions in medical images[J]. Medical Image Analysis, 2019, 53: 197-207. doi: 10.1016/j.media.2019.01.012
[6] KAUL C, MANANDHAR S, PEARS N. Focusnet: An attention-based fully convolutional network for medical image segmentation[C]//2019 IEEE 16th International Symposium on Biomedical Imaging (ISBI 2019). Venice, Italy: IEEE, 2019: 455-458.
[7] KAUL C, PEARS N, DAI H, et al. Focusnet++: Attentive aggregated transformations for efficient and accurate medical image segmentation[C]//2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI 2021). Nice, France: IEEE, 2021: 1042-1046.
[8] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16 × 16 words: Transformers for image recognition at scale[EB/OL]. arXiv: 2010.11929 (2020-10-22) [2024-04-01]. https://doi.org/10.48550/arXiv.2010.11929.
[9] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: Learning where to look for the pancreas[EB/OL]. arXiv: 1804.03999 (2018-4-11) [2024-04-01]. https://doi.org/10.48550/arXiv.1804.03999.
[10] PETIT O, THOME N, RAMBOUR C, et al. U-Net transformer: Self and cross attention for medical image segmentation[EB/OL]. arXiv: 2103.06104 (2021-03-10) [2024-04-01]. https://doi.org/10.48550/arXiv.2103.06104.
[11] CHEN J, LU Y, YU Q, et al. TransUNet: Transformers make strong encoders for medical image segmentation[EB/OL]. arXiv: 2102.04306 (2021-02-08) [2024-04-01]. https://doi.org/10.48550/arXiv.2102.04306.
[12] ZHANG Y D, LIU H Y, HU Q. TransFuse: Fusing transformers and CNNs for medical image segmentation[M]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2021. Springer International Publishing, 2021: 14-24.
[13] VALANARASU J M J, OZA P, HACIHALILOGLU I, et al. Medical transformer: Gated axial-attention for medical image segmentation[EB/OL]. arXiv: 2102.10662 (2021-02-21) [2024-04-01]. https://doi.org/10.48550/arXiv.2102.10662.
[14] KARIMI D, VASYLECHKO S D, GHOLIPOUR A. Convolution-free medical image segmentation using transformers[M]//Medical Image Computing and Computer Assisted Intervention-MICCAI 2021. Springer International Publishing, 2021: 78-88.
[15] CAO H, WANG Y Y, CHEN J, et al. Swin-Unet: Unet-like pure transformer for medical image segmentation[EB/OL]. arXiv: 2105.05537 (2021-05-12) [2024-04-01]. https://doi.org/10.48550/arXiv.2105.05537.
[16] LIN A L, CHEN B Z, XU J Y, et al. DS-TransUNet: Dual swin transformer U-net for medical image segmentation[J]. IEEE Transactions on Instrumentation and Measurement, 2022, 71: 1-15.
[17] HUANG X, DENG Z, LI D, et al. MISSFormer: An effective medical image segmentation transformer[EB/OL]. arXiv: 2109.07162 (2021-09-15) [2024-04-01]. https://doi.org/10.48550/arXiv.2109.07162.
[18] ZHOU H Y, GUO J, ZHANG Y, et al. nnformer: Interleaved transformer for volumetric segmentation[EB/OL]. arXiv: 2109.03201 (2021-09-07) [2024-04-01]. https://doi.org/10.48550/arXiv.2109.03201.
[19] WANG H Y, XIE S, LIN L F, et al. Mixed transformer U-Net for medical image segmentation[EB/OL]. arXiv: 2111.04734 (2021-11-08) [2024-04-01]. https://doi.org/10.48550/arXiv.2111.04734.
[20] TRAGAKIS A, KAUL C, MURRAY-SMITH R, et al. The fully convolutional transformer for medical image segmentation[C]//2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa, HI, USA: IEEE, 2023: 3660-3669.
[21] LIU Z, LIN Y T, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada: IEEE, 2021: 10012-10022.
[22] LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the 2020s[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA: IEEE, 2022: 11976-11986.
[23] WU H P, XIAO B, CODELLA N, et al. Cvt: Introducing convolutions to vision transformers[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada: IEEE, 2021: 22-31.
[24] GU Z W, CHENG J, FU H Z, et al. CE-net: Context encoder network for 2D medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2019, 38(10): 2281-2292. doi: 10.1109/TMI.2019.2903562
-
期刊类型引用(1)
1. 刘继芳,周向阳,李敏,韩书庆,郭雷风,迟亮,杨璐,吴建寨. 人工智能驱动畜牧新质生产力高质量发展:制约因素、生成逻辑与推进路径. 智慧农业(中英文). 2025(01): 165-177 . 百度学术
其他类型引用(0)