机器学习模型对猪基因表达量预测准确性的评估

    周天乐, 滕金言, 徐志婷, 张哲

    周天乐, 滕金言, 徐志婷, 等. 机器学习模型对猪基因表达量预测准确性的评估[J]. 华南农业大学学报, 2025, 46(4): 549-557. DOI: 10.7671/j.issn.1001-411X.202409024
    引用本文: 周天乐, 滕金言, 徐志婷, 等. 机器学习模型对猪基因表达量预测准确性的评估[J]. 华南农业大学学报, 2025, 46(4): 549-557. DOI: 10.7671/j.issn.1001-411X.202409024
    ZHOU Tianle, TENG Jinyan, XU Zhiting, et al. Evaluation of predictive accuracy of gene expression in pigs using machine learning models[J]. Journal of South China Agricultural University, 2025, 46(4): 549-557. DOI: 10.7671/j.issn.1001-411X.202409024
    Citation: ZHOU Tianle, TENG Jinyan, XU Zhiting, et al. Evaluation of predictive accuracy of gene expression in pigs using machine learning models[J]. Journal of South China Agricultural University, 2025, 46(4): 549-557. DOI: 10.7671/j.issn.1001-411X.202409024

    机器学习模型对猪基因表达量预测准确性的评估

    基金项目: 

    国家生猪产业技术体系(CARS-35);国家重点研发计划(2022YFF1000900)

    详细信息
      作者简介:

      周天乐,E-mail: tianle_zhou@foxmail.com

      通讯作者:

      张 哲,主要从事分子数量遗传学与动物育种研究,E-mail: zhezhang@scau.edu.cn

    • 中图分类号: TP181;S828

    Evaluation of predictive accuracy of gene expression in pigs using machine learning models

    Article Text (iFLYTEK Translation)
    • 摘要:
      目的 

      对比不同机器学习模型利用基因顺式单核苷酸多态性(Single-nucleotide polymorphism, SNP)预测猪的基因表达量的效果,探究基因顺式遗传力(cis-heritability, cis-h2)和顺式SNP(cis-SNP)数量与不同模型预测准确性的关系。

      方法 

      基于PigGTEx项目猪肌肉组织样本的蛋白编码基因,使用18种不同机器学习模型,将基因转录起始位点±1 Mb范围内的cis-SNP用于训练,评估每种模型的预测准确性。

      结果 

      机器学习模型的预测准确性与基因cis-h2呈正相关,弹性网络回归模型和Lasso回归模型整体预测准确性最高,R2平均值分别为0.03620.0358;一定范围内,模型预测准确性与基因cis-SNP数量呈正相关。

      结论 

      使用机器学习模型预测猪基因表达的准确性受基因cis-h2cis-SNP数量影响较大,根据不同基因的cis-h2cis-SNP数量选择合适的机器学习模型预测猪的基因表达量有利于提高预测准确性。

      Abstract:
      Objective 

      The goal was to compare the performance of various machine learning models in predicting gene expression in pigs utilizing single nucleotide polymorphisms (SNPs), and to investigate the relationship between cis-heritability (cis-h2), the number of cis-SNPs and the prediction accuracy of different models.

      Method 

      Based on the protein encoding genes of pigs derived from muscle tissue of the PigGTEx project, we trained 18 distinct machine learning models by employing cis-SNPs located within a ±1 Mb window from the transcription start sites of genes. Subsequently, we evaluated the prediction accuracy of each model.

      Result 

      There was a positive correlation between the prediction accuracy of machine learning models and the cis-h2 of genes. Notably, the elastic net regression model and the Lasso regression model exhibited the highest overall prediction accuracy, with the means of R2 being 0.0362 and 0.0358, respectively. Furthermore, there was a positive correlation between the prediction accuracy of these machine learning models and the number of cis-SNPs around the genes within certain range.

      Conclusion 

      The accuracy of utilizing machine learning models to predict gene expression in pigs is largely influenced by both cis-h2 and the number of cis-SNPs of genes. Therefore, selecting an appropriate machine learning model tailored to the specific cis-h2 and the number of cis-SNPs of different genes can be advantageous in enhancing the accuracy for predicting pig gene expression levels.

    • 在现代畜牧业中,精确测量动物体尺对评估其生长和健康状况至关重要。传统测量方法主要靠人工,不仅耗时,还因测量者技能和经验不同而导致误差。计算机技术的进步使得数字化畜牧业成为推进行业发展的关键[],其中视觉技术得到了广泛应用。众多研究利用计算机视觉技术来检测动物行为[-]、计数牲畜[-]以及评估肉质[-],展现了其在畜牧业中的潜力,为动物体尺的自动测量提供了重要支持。

      传统视觉技术测量动物体尺的主要方法包括基于三维重建和基于关键点提取的技术。三维重建技术通过从多个角度捕获动物的图像,以克服动物姿态多样性的问题[-]。然而,在实际的猪场环境中,这种方法面临多种挑战。例如,猪的活动可能导致重建的模型扭曲;表面纹理和光照的变化可能影响重建的精度;选择和配置硬件设备,以及满足大量的计算资源需求,也是这种方法所面临的挑战。另一方面,基于关键点提取的技术需要图像尺度在旋转和光照变化时保持稳定[-],其准确性主要依赖于关键点提取模型的鲁棒性;其次,猪的多种姿势(如站立、行走或躺卧)会影响图像中提取到的关键点信息的分析;此外,图像的畸变性也可能进一步造成测量结果不准确。无论是基于三维重建的技术,还是基于关键点提取的技术,都需要进一步的研究和改进,以提高在实际环境中的应用效果。

      随着农业智能化迅速发展,YOLO系列的视觉算法得到了广泛应用[-]。殷献博等[]提出了采用多注意力机制改进的YOLOX-Nano模型,在柑橘梢期监测任务中达到了88.07%的平均精度,实现了自动化监测;另外,杨秋妹等[]应用YOLO技术的高精度特点,开发了一种自动化猪只盘点系统,即使在复杂环境下也能准确地进行盘点,减少了对人工操作的依赖。此外,ByteTrack作为一种多目标跟踪算法[],与YOLO结合在农业领域广泛应用。Zheng等[]利用Yolov7和ByteTrack实现了自然场景下奶牛的自动监控,平均分析速度达到47帧/s;同时,Qian等[]提出了基于Yolov5的鱼检测算法,结合ByteTrack算法实时跟踪,解决了遮挡问题。在这些研究的启发下,本研究提出了一种基于Yolov8-Pose和ByteTrack追踪算法的猪只体尺估计方法,旨在实现实际环境中猪场猪只体尺的自动测量。

      本研究采用的猪只图像数据源自双河基地实验猪场,通过场内安装的室内监控系统进行采集。监控系统采用的是海康威视公司生产的型号为DS-2CD3146FWD-IS的半球形摄像头,该摄像头以顶置方式安装在猪栏上方,距离地面高度为2.0~2.5 m,以获得最佳的俯拍视角。在数据收集阶段,随机选取猪场中保育舍、后备舍以及营养调控舍的场景进行视频裁剪,共裁剪238段视频片段,平均每个片段为30 s,每间隔6帧进行抽取,共抽取7 324张原始图片,所有图像的分辨率均设定为2 560像素×1 440像素。经人工筛选后,选出1 822张合适的图片进行标注,共包含6 452头猪只,用于本研究的数据分析。

      本研究采用了一种详细的关键点标注策略,为图像中的每头猪标注6个主要关键点(图1展示了4个场景猪只的关键点标注):头部、右肩、右臀、尾巴、左臀和左肩,通过测量这些关键点间的距离,估算出猪的臀宽、体长和肩宽等重要的体尺数据。为了保证数据集的独立性和模型的泛化性,按照约8∶1∶1的比例划分训练集(含1 622张图像)、验证集(200张)和测试集(200张),以支持模型训练和评估的需要。

      图 1 4个不同场景猪只6个关键点的标注
      图  1  4个不同场景猪只6个关键点的标注
      Figure  1.  Annotation of six key points of pigs in four different scenarios

      为了进一步提高模型的检测能力,在训练过程中引入了Mosaic、色域变换和左右翻转3种数据增强策略。其中,Mosaic增强是指抽取训练样本集中的4张图片进行随机裁剪并拼接形成一个新的训练样本,图2展示了经过Mosaic增强后的样本图片。左右翻转的概率设为0.5,色域变换HSV分别设为0.015、0.700和0.400。为避免过拟合,更加关注原始数据,训练的最后10个epochs中不再采用任何数据增强策略。

      图 2 经过Mosaic增强后的样本图片
      图  2  经过Mosaic增强后的样本图片
      Figure  2.  The image enhanced with Mosaic

      本研究针对猪自然静止与运动状态下姿态的多样性,提出了一种结合关键点检测算法和追踪算法的体尺估计方案。通过分析视频流中连续帧的图像,实现体尺估计并完成相应记录。引入感兴趣区域(Region of interest,ROI)减少相机畸变的影响并提高处理速度,采用基于帧关联性的异常检测算法优化预测结果,提高体尺估计的精度和稳定性。图3为本研究工作流程。

      图 3 算法的整体流程图
      图  3  算法的整体流程图
      Figure  3.  Overall workflow of the algorithm

      在精确测量动物体尺的过程中,需将图像上的像素距离转换为实际世界中的距离。这种转换涉及计算一个缩放因子(实际距离与图像中测量到的像素距离的比值),使得从图像数据中直接测量物理尺寸成为可能。为实现这一转换,本研究首先通过固定摄像头并使用标定板从多个角度和位置拍摄图像,来获得摄像机的内外参数。内参数包括焦距、主点坐标以及畸变系数,这些参数反映了摄像机如何将三维世界映射到二维图像平面。外参数则描述了摄像机相对于世界坐标系的位置和方向,为确定物体在现实世界中的位置提供必要信息。通过MATLAB标定工具箱处理标定图像,可以得到这些参数。随后,利用内参数对图像进行畸变校正,并使用外参数将摄像机坐标系下的点转换到世界坐标系下。图4展示了经过相机矫正后的图像,其中的坐标系对应真实世界中的坐标系,进而通过对比棋盘格的已知实际尺寸(每个正方形小格的边长为70 mm)与其在矫正图像中的像素尺寸,计算出缩放因子。

      图 4 畸变矫正后的图像
      图  4  畸变矫正后的图像
      Figure  4.  The image after distortion correction

      本研究选用2023年新推出的Yolov8-Pose作为关键点检测模型。该模型具有以下优势:通过端到端的训练框架直接从图像中检测目标框和关键点,速度更快,利用得到的目标框更易于进行追踪任务;深度卷积网络和多尺度特征提取能力使其能够有效地识别和定位猪的关键点,精度高,无需对算法网络进行调整或优化;集成了注意力机制和上下文信息融合,增强了模型在复杂背景下尤其是在遮挡和变化光照条件下检测关键点的能力;模型轻量化、易部署,适用于各种环境。

      ByteTrack算法是一种基于目标检测的多目标跟踪技术,区别于依赖重识别(ReID)的方法,它仅使用目标检测步骤中获得的目标框信息来执行跟踪。相对于其他追踪算法,该算法保留了低置信度的检测框,采用卡尔曼滤波器来预测高低分目标框的未来状态,并运用匈牙利算法实现当前目标与已存在轨迹之间的匹配。由于其精度和速度的优势,本研究选择结合ByteTrack追踪算法和关键点检测方法,使用视频流作为输入,通过自动识别并追踪视频中的每一只猪,为其分配一个唯一ID,随后连续捕捉每只猪只的动态变化,并测量每一时刻的关键点信息,利用像素转化技术将关键点的像素距离转换为实际的体长、肩宽和臀宽,并将这些数据记录到相应的ID中。通过对视频流中猪只的连续观察和分析,能够更多地获取其体态信息,减少单次测量可能引入的误差,从而确保数据的稳定性和可靠性;同时,相对人工选取特定姿态照片的处理方式,减少了人工依赖和人工误差。以下是体尺计算公式,具体参考图5

      图 5 猪只6个关键点和体尺测量示意图
      图  5  猪只6个关键点和体尺测量示意图
      Figure  5.  Schematic diagram of six key points and body measurements for pigs
      $$ {L_{{\mathrm{body}}}} = \sqrt {{{\left[ {{\theta _1}({x_2} - {x_3})} \right]}^2} + {{\left[ {{\theta _2}({y_2} - {y_3})} \right]}^2}} \text{,} $$ (1)
      $$ {L_{{\mathrm{shoulder}}}} = \sqrt {{{\left[ {{\theta _1}({x_2} - {x_6})} \right]}^2} + {{\left[ {{\theta _2}({y_2} - {y_6})} \right]}^2}} \text{,} $$ (2)
      $$ {L_{{\mathrm{hip}}}} = \sqrt {{{\left[ {{\theta _1}({x_3} - {x_5})} \right]}^2} + {{\left[ {{\theta _2}({y_3} - {y_5})} \right]}^2}} \text{,} $$ (3)

      式中, LbodyLshoulderLhip分别为猪只的体长、肩宽、臀宽,(xi, yi)为第i个关键点的坐标,按顺序i=1~6分别对应头、右肩、右臀、尾、左臀、左肩;$ {\theta _1} $$ {\theta _2} $分别为横、纵坐标方向的缩放因子,以实现像素距离到实际尺寸的转换(缩放因子受摄像头配置参数和安装位置影响)。

      在实际生产中猪群倾向于聚集在摄像范围边缘区域,图片畸变性导致同一猪只在不同位置的体尺估计存在显著偏差,在远离中心位置时呈现缩小的趋势。同时,猪只的聚集和拥挤情况也会导致猪的姿态变形,进一步影响体尺估计的准确性。此外,猪只数量增加会显著降低处理速度。为提高估计准确度和处理速度,本研究设置ROI,仅对中央部分的猪只进行评估,既减少了边缘畸变和拥挤姿态变形的影响,也保证了足够的检测范围以便一段时间内能够统计到全部猪只。在本试验设置中,选定的ROI是图像中心的红色矩形框,其大小和形状可根据具体场景灵活调整,如图6所示。

      图 6 ROI筛选区域
      图  6  ROI筛选区域
      Figure  6.  ROI selection area

      在测量位于ROI区域内猪只体尺时,分2个阶段进行。第1阶段是猪只姿态的检测过滤,在这一阶段中需要考虑猪只是否处于站立状态以及站立时是否存在歪曲。当猪只处于站立状态时,肩宽与体长的比值以及臀宽与体长的比值均大于设定阈值(阈值的大小仅与猪舍场景有关,与猪只的实际大小无关,不同场景设定不同阈值),并且头部关键点与双肩形成的三角形以及头部关键点与左右臀部关键点形成的三角形均为锐角三角形时,表示猪只姿态端正,测得数据有效,进入第2阶段,反之数据视为无效,丢弃。图7为需要被过滤掉的异常猪只姿态的示例。第2阶段是异常检测过滤,进一步排除由于运动模糊等因素可能导致的同一猪只在连续帧中体尺测量结果有较大差异的情况,本研究利用视频流中连续帧的关键点位置关联性,采用异常检测处理测量误差:对当前有效数据的前10帧内的数据进行分析比较,若当前测得数据与各数据最小差距小于4 cm,则保存到猪只字典中,反之则丢弃。经过一段时间运行,每头猪体尺数据为当前该猪只字典所有数据的平均值。

      图 7 异常猪只姿态过滤示例
      图  7  异常猪只姿态过滤示例
      Figure  7.  Example of abnormal pig postures for filtering

      在Linux操作系统下,通过Python 3.8.1和PyTorch 1.8.0搭建的深度学习框架进行网络模型的训练与测试。试验配置包括Intel Xeon Silver 4110 CPU和2张NVIDIA GeForce RTX 2080 Ti GPU,利用CUDA 11.1并行计算框架以及CuDNN 11.7深度神经网络加速库进行性能优化。Yolov8-Pose模型训练采用640像素×640像素的输入图像分辨率,使用Adam优化器,设置训练批次大小为32,总共进行300次迭代训练。训练阶段,初始学习率设置为0.001,通过余弦退火策略进行学习率更新,针对单一目标类别,并关注6个关键点的检测。

      在执行关键点检测任务时,通常通过4个核心指标来评估模型的性能:精确度(Precision,P)、召回率(Recall,R)、平均精确度(Average precision,AP)和平均精确度均值(mean Average precision,mAP)。这些指标共同提供了一个全面的框架,量化模型在定位和识别关键点方面的效能,计算公式如下。

      $$ P = \dfrac{{{\mathrm{TP}}}}{{{\mathrm{TP}} + {\mathrm{FN}}}} \times 100{\text{%}} \text{,} $$ (4)
      $$ R = \dfrac{{{\mathrm{TP}}}}{{{\mathrm{TP}} + {\mathrm{FN}}}} \times 100{\text{%}} \text{,} $$ (5)
      $$ {\mathrm{AP}} = \displaystyle\int\limits_0^1 {P(R){\mathrm{d}}R \times } 100{\text{%}} \text{,} $$ (6)
      $$ {\mathrm{mAP}} = \dfrac{1}{M}{\displaystyle\sum}_{k } {{\mathrm{AP}}_k \times } 100{\text{%}} \text{,} $$ (7)

      式中,TP表示猪只位置被正确预测出来的数量,FP表示环境被错误预测为猪只位置的数量,FN为猪只位置未被预测出来的数量,M为检测目标的类别总数,APk为第k类AP。模型的性能通过P-R曲线(图8)进行可视化评估,曲线图标明了模型在精确度和召回率方面的表现,其下方的面积即为模型的平均精确度。图8A是目标框的P-R曲线,图8B是关键点的P-R曲线。最终,选出表现最优的模型权重,并在测试集上进行效果验证,图9展示了模型在验证集中随机抽取的4张图像中的推理效果。

      图 8 目标框(A)和关键点(B)的P-R曲线
      图  8  目标框(A)和关键点(B)的P-R曲线
      Figure  8.  P-R curves for bounding boxes (A) and key points (B)
      图 9 随机4张图像的推理效果展示
      图  9  随机4张图像的推理效果展示
      Figure  9.  Demonstration of inference results in four random images

      在评价追踪任务性能时,主要关注3个指标:每秒处理帧数(Frames per second,FPS);IDF1分数(Identity F1 score,IDF1);多目标跟踪准确率(Multiple object tracking accuracy,MOTA)。FPS衡量系统每秒能处理的图像帧数,直接反映系统的处理速度;IDF1反映跟踪过程中正确维持目标身份的比例,表明在多目标跟踪中目标身份连续性的保持情况;MOTA是评估多目标跟踪性能的综合指标,通过综合考量正确追踪到的目标数量、漏检目标数量、误检目标数量及目标定位误差等多个方面,提供对追踪系统整体性能的全面评价。IDF1和MOTA的计算公式如下。

      $$ {\rm{I D F}} 1=\dfrac{2 {\rm{I D T P}}}{2 {\rm{I D T P}}+{\rm{I D F P}}+{\rm{I D F N}}}\text{,} $$ (8)
      $$ {\rm{MOTA}} = 1 - \dfrac{{\displaystyle\sum\nolimits_{{t}} {\left( {{\rm{F}}{{\rm{N}}_t} + {\rm{F}}{{\rm{P}}_t} + {\rm{IDS}}{{\rm{W}}_t}} \right)} }}{{\displaystyle\sum\nolimits_t {{\rm{G}}{{\rm{T}}_t}} }} \text{,} $$ (9)

      式中,IDTP表示真实目标与跟踪结果正确匹配的数量,IDFP表示真实目标与跟踪结果错误匹配的数量,IDFN表示未匹配的真实目标数量,GTt​表示第t帧中真实目标的个数,FNt​表示第t帧中漏检的个数,FPt​表示第t帧中虚检的个数,IDSWt表示第t帧中轨迹发生转变的个数。

      本研究设计了4个测试场景评估3种多目标跟踪算法(FairMOT、ByteTrack、BoT-SORT)的表现。场景1展示了5头成年大猪在无遮挡的环境中自由活动;场景2聚焦于5头小猪,同样在无遮挡条件下;场景3增加了复杂性,引入遮挡物,同时仍有5头成年大猪;最后,场景4呈现了一个挑战性的大规模场景,超过20头猪只共同出现且环境拥挤,没有遮挡物。通过表1可知,在无遮挡和适量猪只情况下,选择ByteTrack算法能够保证猪只跟踪的准确性和稳定性,且能保持较高的处理速度。

      表  1  3种多目标追踪算法对猪只追踪的验证结果1)
      Table  1.  Validation results of three multiple target tracking algorithms for pig tracking
      场景
      Scene
      猪数量
      Number
      of pigs
      有无遮挡
      Occlusion
      situation
      FairMOT ByteTrack BoT-SORT
      MOTA/% IDF1/% FPS/(帧·s−1) MOTA/% IDF1/% FPS/(帧·s−1) MOTA/% IDF1/% FPS/(帧·s−1)
      1 5 86.1 87.7 43 91.3 92.9 142 96.7 90.7 59
      2 5 84.6 85.4 42 94.7 97.3 142 95.3 97.6 58
      3 5 73.7 72.3 43 67.6 82.0 144 82.8 88.3 59
      4 >20 76.3 74.9 36 79.8 86.9 129 84.5 91.4 52
       1) MOTA:多目标跟踪准确率,IDF1:IDF1分数,FPS:每秒处理帧数
       1) MOTA: Multiple object tracking accuracy, IDF1: Identity F1 score, FPS: Frames per second
      下载: 导出CSV 
      | 显示表格

      本研究采用决定系数(R2)、平均绝对误差(Mean absolute error,MAE)、平均绝对百分比误差(Mean absolute percentage error,MAPE)作为评估指标,衡量模型预测值与真实值之间的偏差程度;决定系数越大,说明模型预测值与真实值拟合程度越高,平均绝对误差、平均绝对百分比误差较小表明误差水平较低,反映模型的高准确性。

      随机抽取5个包含多头猪只的圈栏进行体尺估计(单位为cm),每个圈栏分3个组别评估不同数据处理策略的效果。第1组采用ROI筛选,仅记录摄像头中心范围内猪只的体长数据,防止摄像头畸变、猪只拥挤导致的误差。第2组在ROI筛选的基础上引入姿态和异常检测过滤,识别并过滤由运动模糊、姿态歪曲等因素导致的误差数据。第3组未采用以上机制。分别对各圈栏3个组别猪只的体长、肩宽、臀宽数据求决定系数、平均绝对误差、平均绝对百分比误差,如表2所示。

      表  2  猪只体长、肩宽、臀宽数据偏差对比1)
      Table  2.  Variance comparison of pig body length, shoulder width and hip width data
      性状
      Trait
      圈栏号(猪只数量)
      Circle ID
      (number of pigs)
      第1组 Group 1 第2组 Group 2 第3组 Group 3
      R2 MAE/cm MAPE/% R2 MAE/cm MAPE/% R2 MAE/cm MAPE/%
      体长
      Body
      length
      1(7) 0.83 4.71 5.99 0.89 4.00 4.95 0.50 8.14 9.97
      2(6) 0.92 2.75 3.84 0.93 2.50 3.48 0.45 6.50 8.65
      3(5) 0.67 2.00 2.26 0.82 1.40 1.50 −1.65 5.80 6.34
      4(2) 0.20 12.00 13.98 0.81 6.50 7.10 0.92 4.00 4.15
      5(4) 0.00 2.50 3.66 0.89 1.00 1.47 −2.13 5.25 7.65
      总计 Total(24) 0.85 3.96 5.08 0.94 2.88 3.61 0.75 6.13 7.74
      肩宽
      Shoulder
      width
      1(7) 0.81 1.57 6.15 0.83 1.71 7.50 −0.54 4.71 18.82
      2(6) 0.61 1.00 5.39 0.81 0.83 4.57 0.04 1.50 7.89
      3(5) 0.71 1.00 4.54 0.77 1.00 4.83 0.58 1.40 6.93
      4(2) −0.06 4.00 14.59 0.19 3.00 10.24 −1.31 6.00 22.16
      5(4) −1.13 2.25 13.77 0.28 3.50 12.00 −5.05 3.75 21.87
      总计 Total(24) 0.77 1.63 7.60 0.86 1.25 5.65 0.13 3.17 14.40
      臀宽
      Hip
      width
      1(7) 0.71 1.86 8.76 0.74 1.86 8.79 −0.33 4.14 18.50
      2(6) 0.72 0.67 3.76 0.81 0.67 4.30 0.67 0.83 5.40
      3(5) 0.71 1.60 7.45 0.84 1.40 6.65 0.27 2.80 13.99
      4(2) 0.27 3.00 11.99 0.59 2.00 7.45 −1.49 5.50 22.60
      5(4) 0.25 1.25 8.06 0.80 0.75 5.12 −4.36 4.25 27.14
      总计 Total(24) 0.81 1.54 7.80 0.88 1.29 6.50 0.25 3.13 15.63
       1)R2:决定系数,MAE:平均绝对误差,MAPE:平均绝对百分比误差
       1) R2: Determination coefficient, MAE: Mean absolute error, MAPE: Mean absolute percentage error
      下载: 导出CSV 
      | 显示表格

      试验结果表明,针对5个栏24头猪只,通过将跟踪算法和关键点检测算法结合,能够确保猪只体尺测量的平均绝对误差小于7 cm,平均绝对百分比误差保持在16%以内。在引入ROI筛选、姿态和异常检测过滤后,24头猪只体尺的平均绝对误差小于3 cm,体长的平均绝对百分比误差保持在4%以内,肩宽保持在6%以内,臀宽保持在7%以内,同时,体长、肩宽和臀宽的决定系数分别为0.94、0.86和0.88,展示了模型良好的拟合效果。此外,ROI筛选显著提高了数据处理速度,从原先的3.0帧/s提升至19.3帧/s。

      本研究针对猪场摄像头俯拍场景(无遮挡环境),提出了基于关键点检测和多目标跟踪的猪只体尺估计方法,在Yolov8-Pose的基础上融合了ByteTrack追踪算法、ROI筛选、姿态和异常检测过滤机制,主要优点如下。

      1)相较于其他特征提取或轮廓测量方法,该方法无需人工筛选图片,同时能够捕捉更多猪只的姿态变化信息,提供更精确的结果,且适用于猪场实际生产环境,在无需人工干预的情况下可以对多头猪只进行自动测量。与三维重建测量方法相比,这种方法无需大量计算资源,无需建立特定测量场景,同时避免了猪只剧烈活动时进行三维重建的困难。

      2)引入ROI机制可以降低猪群拥挤因素、边缘畸变性对体尺估计的影响,并提高数据处理速度。

      3)加入姿态和异常检测过滤算法,避免了运动模糊、姿态不正等干扰因素导致的误差增加。

      综上所述,本研究提出的体尺估计方法为猪场生产场景提供了一个轻量化、易部署、高精度的自动体尺测量解决方案,能够在养殖场边缘和终端设备上顺畅运行,助力养殖管理的智能化。

    • 图  1   不同机器学习模型的总体预测准确性(R2)

      柱子中的红色圆点表示R2平均值,图中数字为平均值具体数值。

      Figure  1.   Overall prediction accuracy (R2) of different machine learning models

      Red points in the columns indicate means of R2, the numbers in the figure are the values of means.

      图  2   不同机器学习模型预测准确性(R2)与基因顺式遗传力(cis-h2)的关系

      Figure  2.   Relationship between the prediction accuracy (R2) of different machine learning models and the cis-heritability (cis-h2) of genes

      图  3   不同顺式遗传力范围内排名前7的模型的预测准确性(R2)

      Figure  3.   Prediction accuracy (R2) of the top 7 models within different cis-heritability ranges

      表  1   4组基因的顺式遗传力

      Table  1   Cis-heritability of four groups of genes

      顺式遗传力
      cis-h2
      基因个数
      Number of genes
      中位数
      Median value
      平均值
      Mean value
      标准误
      Standard error
      ≤0.01 433 1.000×10−6 1.000×10−3 1.02×10−4
      (0.01, 0.10] 372 0.043 0.048 1.35×10−3
      (0.10, 0.20] 139 0.139 0.144 2.49×10−3
      > 0.20 141 0.281 0.315 9.21×10−3
      下载: 导出CSV

      表  2   不同顺式SNP数量范围的模型预测准确性(R2)与基因顺式遗传力(cis-h2)的相关系数

      Table  2   Correlation coefficient between the model prediction accuracy (R2) within different ranges of cis-SNP number and cis-heritability (cis-h2) of genes

      模型 Model 顺式SNP数量范围 The range of cis-SNP number
      [0, 1564] (1564, 3097] (3097, 5384] > 5384
      OLS 0.638 0.647 0.673 0.694
      PLS 0.656 0.668 0.698 0.647
      Ridge 0.649 0.621 0.639 0.626
      Lasso 0.782 0.780 0.795 0.774
      LassoLars 0.796 0.792 0.801 0.767
      Elastic net 0.806 0.802 0.811 0.792
      Kernel ridge_linear 0.651 0.613 0.654 0.625
      Kernel ridge_poly 0.787 0.803 0.814 0.808
      Kernel ridge_RBF 0.794 0.805 0.810 0.768
      Kernel ridge_sigmoid 0.657 0.650 0.653 0.615
      Bayesian ridge 0.777 0.778 0.786 0.750
      SVR_linear 0.617 0.617 0.634 0.632
      SVR_poly 0.742 0.770 0.788 0.774
      SVR_RBF 0.795 0.801 0.814 0.772
      GLM_Gaussian 0.640 0.671 0.704 0.709
      KNN 0.710 0.723 0.754 0.732
      Decision tree 0.618 0.644 0.680 0.631
      Random forest 0.756 0.766 0.783 0.773
      下载: 导出CSV
    • [1] 牛安然, 张兴, 杨雨婷, 等. 全基因组关联分析在猪育种中的研究进展[J]. 畜牧与兽医, 2023, 55(5): 139-147.
      [2]

      LI T, WAN P, LIN Q, et al. Genome-wide association study meta-analysis elucidates genetic structure and identifies candidate genes of teat number traits in pigs[J]. International Journal of Molecular Sciences, 2023, 25(1): 451.

      [3]

      ZENG H, ZHONG Z, XU Z, et al. Meta-analysis of genome-wide association studies uncovers shared candidate genes across breeds for pig fatness trait[J]. BMC Genomics, 2022, 23(1): 786.

      [4] 窦腾飞, 吴姿仪, 白利瑶, 等. 全基因组关联分析鉴定大白猪生长性状遗传变异及候选基因[J]. 中国畜牧杂志, 2023, 59(8): 264-272.
      [5]

      LI X, WU J, ZHUANG Z, et al. Integrated single-trait and multi-trait GWASs reveal the genetic architecture of internal organ weight in pigs[J]. Animals, 2023, 13(5): 808.

      [6] 张宇, 周佳伟, 吴俊静, 等. 大白猪繁殖性状全基因组关联分析[J]. 中国畜牧杂志, 2022, 58(8): 94-99.
      [7]

      TENG J, GAO Y, YIN H, et al. A compendium of genetic regulatory effects across pig tissues[J]. Nature Genetics, 2024, 56(1): 112-123.

      [8] 郑韵頔, 冉雪琴, 牛熙, 等. 全基因组eQTL揭示猪11号染色体肉质性状新候选位点[J]. 农业生物技术学报, 2024, 32(4): 807-819. doi: 10.3969/j.issn.1674-7968.2024.04.007
      [9]

      MAI J, LU M, GAO Q, et al. Transcriptome-wide association studies: Recent advances in methods, applications and available databases[J]. Communications Biology, 2023, 6(1): 899.

      [10]

      GAMAZON E R, WHEELER H E, SHAH K P, et al. A gene-based association method for mapping traits using reference transcriptome data[J]. Nature Genetics, 2015, 47(9): 1091-1098.

      [11]

      GUSEV A, KO A, SHI H, et al. Integrative approaches for large-scale transcriptome-wide association studies[J]. Nature Genetics, 2016, 48(3): 245-252.

      [12]

      ROBINSON M D, OSHLACK A. A scaling normalization method for differential expression analysis of RNA-seq data[J]. Genome Biology, 2010, 11(3): R25.

      [13]

      ZHENG X, LEVINE D, SHEN J, et al. A high-performance computing toolset for relatedness and principal component analysis of SNP data[J]. Bioinformatics, 2012, 28(4): 3326-3328.

      [14]

      STEGLE O, PARTS L, PIIPARI M, et al. Using probabilistic estimation of expression residuals (PEER) to obtain increased power and interpretability of gene expression analyses[J]. Nature Protocols, 2012, 7(3): 500-507.

      [15]

      MEHMOOD T, LILAND K H, SNIPEN L, et al. A review of variable selection methods in Partial Least Squares Regression[J]. Chemometrics and Intelligent Laboratory Systems, 2012, 118: 62-69.

      [16]

      HOERL A E, KENNARD R W. Ridge regression: Biased estimation for nonorthogonal problems[J]. Technometrics, 1970, 12(1): 55-67.

      [17]

      TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 1996, 58(1): 267-288.

      [18]

      ZOU H, HASTIE T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2005, 67(2): 301-320.

      [19] 汪廷华, 陈峻婷. 核函数的选择研究综述[J]. 计算机工程与设计, 2012, 33(3): 1181-1186. doi: 10.3969/j.issn.1000-7024.2012.03.068
      [20] 李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报, 2013, 50(4): 1190-1197. doi: 10.7679/j.issn.2095-1353.2013.163
      [21]

      YANG J, LEE S H, GODDARD M E, et al. GCTA: A tool for genome-wide complex trait analysis[J]. The American Journal of Human Genetics, 2011, 88(1): 76-82.

      [22]

      WHEELER H E, SHAH K P, BRENNER J, et al. Survey of the heritability and sparse architecture of gene expression traits across human tissues[J]. PLoS Genetics, 2016, 12(11): e1006423.

      [23]

      BAE S, CHOI S, KIM S M, et al. Prediction of quantitative traits using common genetic variants: Application to body mass index[J]. Genomics & Informatics, 2016, 14(4): 149-159.

      [24]

      SPILIOPOULOU A, NAGY R, BERMINGHAM M L, et al. Genomic prediction of complex human traits: Relatedness, trait architecture and predictive meta-models[J]. Human Molecular Genetics, 2015, 24(14): 4167-4182.

      [25]

      WANG J, GAMAZON E R, PIERCE B L, et al. Imputing gene expression in uncollected tissues within and beyond GTEx[J]. The American Journal of Human Genetics, 2016, 98(4): 697-708.

      [26]

      FRYETT J J, MORRIS A P, CORDELL H J. Investigation of prediction accuracy and the impact of sample size, ancestry, and tissue in transcriptome-wide association studies[J]. Genetic Epidemiology, 2020, 44(5): 425-441.

      [27]

      WAINBERG M, SINNOTT-ARMSTRONG N, MANCUSO N, et al. Opportunities and challenges for transcriptome-wide association studies[J]. Nature Genetics, 2019, 51(4): 592-599.

      [28]

      FAN J, LV J. A selective overview of variable selection in high dimensional feature space[J]. Statistica Sinica, 2010, 20(1): 101.

      [29]

      GUYON I, ELISSEEFF A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3: 1157-1182.

    • 期刊类型引用(3)

      1. 刘继芳,周向阳,李敏,韩书庆,郭雷风,迟亮,杨璐,吴建寨. 人工智能驱动畜牧新质生产力高质量发展:制约因素、生成逻辑与推进路径. 智慧农业(中英文). 2025(01): 165-177 . 百度学术
      2. 王亚彬,徐爱俊,周素茵,叶俊华. 基于Byte的生猪多目标跟踪算法. 农业工程学报. 2025(07): 145-155 . 百度学术
      3. 李振波,孙浩翔,郭倩男,张涵钰,刘皓南. 机器视觉技术在大体型家畜无接触体尺测量中的研究进展. 农业工程学报. 2025(07): 1-12 . 百度学术

      其他类型引用(1)

    图(3)  /  表(2)
    计量
    • 文章访问数:  190
    • HTML全文浏览量:  28
    • PDF下载量:  47
    • 被引次数: 4
    出版历程
    • 收稿日期:  2024-09-23
    • 网络出版日期:  2025-03-03
    • 发布日期:  2025-03-03
    • 刊出日期:  2025-07-09

    目录

    Corresponding author: ZHANG Zhe, zhezhang@scau.edu.cn

    1. On this Site
    2. On Google Scholar
    3. On PubMed

    /

    返回文章
    返回