• 《中国科学引文数据库(CSCD)》来源期刊
  • 中国科技期刊引证报告(核心版)期刊
  • 《中文核心期刊要目总览》核心期刊
  • RCCSE中国核心学术期刊

3款猪50K SNP芯片基因型填充至序列数据的效果评估

曾浩南, 钟展明, 徐志婷, 滕金言, 袁晓龙, 李加琪, 张哲

曾浩南, 钟展明, 徐志婷, 等. 3款猪50K SNP芯片基因型填充至序列数据的效果评估[J]. 华南农业大学学报, 2022, 43(4): 10-15. DOI: 10.7671/j.issn.1001-411X.202110032
引用本文: 曾浩南, 钟展明, 徐志婷, 等. 3款猪50K SNP芯片基因型填充至序列数据的效果评估[J]. 华南农业大学学报, 2022, 43(4): 10-15. DOI: 10.7671/j.issn.1001-411X.202110032
ZENG Haonan, ZHONG Zhanming, XU Zhiting, et al. Evaluation on genotype imputation performance of three porcine 50K SNP chips from chip data to sequencing data[J]. Journal of South China Agricultural University, 2022, 43(4): 10-15. DOI: 10.7671/j.issn.1001-411X.202110032
Citation: ZENG Haonan, ZHONG Zhanming, XU Zhiting, et al. Evaluation on genotype imputation performance of three porcine 50K SNP chips from chip data to sequencing data[J]. Journal of South China Agricultural University, 2022, 43(4): 10-15. DOI: 10.7671/j.issn.1001-411X.202110032

3款猪50K SNP芯片基因型填充至序列数据的效果评估

基金项目: 财政部和农业农村部:国家现代农业产业技术体系资助
详细信息
    作者简介:

    曾浩南,硕士研究生,主要从事动物遗传育种研究,E-mail: hnzeric@hotmail.com

    通讯作者:

    张 哲,教授,博士,主要从事动物遗传育种研究,E-mail: zhezhang@scau.edu.cn

  • 中图分类号: S828.2

Evaluation on genotype imputation performance of three porcine 50K SNP chips from chip data to sequencing data

  • 摘要:
    目的 

    利用猪50K SNP(Single nucleotide polymorphisms)芯片开展基因组育种已经得到了广泛的应用与认可。基因型填充可在不增加基因型检测成本的前提下大幅提高基因型数据量,有利于开展复杂性状的遗传解析与遗传评估。本研究旨在评估3款猪SNP芯片基因型填充至序列数据的填充效果。

    方法 

    选用3款芯片共同检测的48头杜洛克猪群体作为填充的目标群体,260头猪的全基因组测序数据作为参考群体,使用Beagle5.1软件进行基因型填充,对比3款不同猪SNP芯片纽勤50K、中芯一号50K和液相50K基因型填充至序列数据的填充效果。

    结果 

    3款芯片原始的SNP数分别为50697、57466和50885个。填充至序列后,未质控时位点填充准确性(基因型一致性)分别为0.886、0.886和0.898,质控过滤DR2(Dosage R-squared)<0.95的位点后,填充准确性(基因型一致性)分别提升至0.974、0.976和0.969,位点数分别为3393066、3139095和3320627个。

    结论 

    不同芯片基因型填充至序列数据具有可行性,通过基因型填充可获得高质量的高密度基因型数据,可为后续的育种应用研究打下基础。

    Abstract:
    Objective 

    Porcine 50K SNP (single nucleotide polymorphisms) chips have been widely used in pig genomic breeding. Meanwhile, genotype imputation can significantly increase the amount of genotype data without increasing the cost of sequencing, which facilitates genetic resolution and genetic evaluation of complex traits. This study was aimed to evaluate the genotype imputation performance from genotype to sequence data of three porcine SNP chips.

    Method 

    A total of 48 Duroc pigs with three kinds of porcine SNP chips were used as target panel to evaluate the genotype imputation accuracy. A total of 260 pigs with whole genome sequencing data formed a reference panel for genotype imputation. The genotype imputation was performed using Beagle5.1 software to compare the imputation effect of Geneseek 50K, ZhongxinⅠ 50K and Liquid 50K.

    Result 

    The numbers of original SNPs in three kinds of chips were 50697, 57466 and 50885 respectively. The imputation accuracies (genotype consistencies) were 0.886, 0.886 and 0.898 respectively after imputation without any quality control. After filtering the imputed SNPs with low reliability DR2 (Dosage R-squared) <0.95, the imputation accuracies (genotype consistencies) of three kinds of chips were up to 0.974, 0.976 and 0.969 respectively, and the numbers of remaining SNPs were 3393066, 3139095 and 3320627 respectively.

    Conclusion 

    Genotype data from the three types of porcine SNP chips can be imputed to sequence data with a high imputation accuracy. This study provides useful reference for subsequent breeding application research.

  • 水稻作为人类主要粮食之一,受众十分广泛,遍布亚、欧、非洲以及热带美洲,全球约一半的人口以稻米作为主食,因此水稻的产量问题一直备受关注,水稻产量预测也成为当前水稻生产中的一个重要研究方向。当前作物估产方面,主要有气象产量预测法、遥感技术和统计动力学模拟法[1],通常使用多元线性回归、决策树、神经网络等构建模型;水稻产量受多种因素影响,如气候、病虫害、农药化肥使用量等,导致产量数据呈现非线性分布,预测效果整体较差。

    现今我国的水稻主要有早、中、晚3种水稻,水稻的分布位置与气候条件密切相关,光照、温度、风向、水分等因素的变化会影响水稻的生长,进而影响水稻的产量。比如,气温变化会对水稻花器官分化、发育以及水稻同化物合成、累积、转运及分配过程产生影响;水稻在孕穗期和灌浆期对水分变化最为敏感,在这期间水稻缺水会阻碍分蘖穗的形成,并影响谷粒的灌浆充实程度;水稻从孕穗期到出穗期叶面积较大,蒸腾强度达到高峰,蒸发量过大会对水稻生长造成影响;水稻属喜阳短日照作物,光照强度直接影响水稻同化物的形成速率,进而影响产量[2-5]。当前,在气象估产方面,国内外学者已进行了相关的研究,比如,刘洪英等[6]利用四川省南充市1989—2018年气象数据和水稻单产数据,采用线性回归方法建立了基于气象因子的水稻产量预报模型;高俊杰等[7]利用1982—2020年广东省肇庆市高要区气象因子与早稻产量的数据,采用逐步线性回归方法建立了早稻产量预报模型;Chutia等[8]利用1990—2012年水稻作物产量数据和周天气数据,建立了阿萨姆邦13个地区的水稻产量预测模型;Kaeomuangmoon等[9]通过研究泰国77个区域的气候数据变化,利用Rice4cast平台预测季节性KDML 105水稻的产量;Traore等[10]使用决策分析针对萨赫勒地区气候条件进行水稻估产;Jha等[11]通过作物动态模型根据每日气象数据对尼泊尔水稻产量进行估产;Dhekale等[12]针对印度克勒格布尔市日降雨量数据,采用CERES-Rice(DSSATv4.5)模型进行水稻产量预测;Nain等[13]针对印度哈里亚纳邦卡尔纳尔地区的气象及水稻产量数据,使用多元线性回归等不同统计方法对该地区的水稻产量进行预测;Guo等[14]通过气象和水稻产量等农艺性状数据,分别使用反向传播神经网络和偏最小二乘法构建模型,预测华东地区的水稻产量;杨北萍等[15]通过长春市2个地区的气象、水稻遥感及产量数据,使用随机森林算法对2个地区的水稻产量进行预估;徐强强等[16]通过浙江省台州市椒江区的气象及水稻产量数据,使用指数平滑法对该地区早稻产量进行预测。其他作物方面,路智渊等[17]通过气象因子结合固原市小麦产量进行回归分析,进行小麦产量预测;马凡[18]基于气象数据及安徽省小麦产量,构建小麦产量预测模型。以上方法不同程度地存在模型精度低、预测区域级别过大、模型优化时间过长等缺陷,如模型的误差超过10%,预测区域的级别为国家或省市,使用群智能算法等优化神经网络时间过长等。为了解决上述问题,本文提出一种基于Spark的鲸鱼优化算法−反向传播神经网络 (Whale optimization algorithm-backpropagation,WOA-BP)水稻产量预测方法。首先,以县/市/区作为研究区域级别,避免研究区域范围过大和数据量太少的问题,可以很好地反映气象因素对县/市/区级别水稻产量的影响,在研究小区域水稻产量时更具有参考意义;此外,BP神经网络具有优良的非线性映射能力,利用其构建水稻产量模型能够提升模型的预测效果,同时利用WOA对BP网络的权值和偏置值进行优化,改善BP神经网络收敛慢、易局部收敛等缺陷,能够进一步提升模型的效果,避免误差较大等问题;最后,将现有的大数据技术与农业和人工智能进行结合,利用大数据Spark框架,搭建Spark集群,将改造后的WOA-BP算法在集群环境下实现并行化运算,减少算法优化过程的时间开销,充分发挥大数据技术的优势,实现对水稻产量与气象数据的快速建模以及县/市/区水稻产量的精准预测。

    模型的训练在TensorFlow框架下完成,优化算法在Spark集群下运行,其中Spark集群由3台相同配置的联想台式电脑组成,硬件环境:联想3148主板、AMD Ryzen5 3600 6-Core双线程CPU、16 GB DDR4 3 000 MHz内存、TP-LINK路由器,软件环境:Ubuntu16.04系统、TensorFlow2.8、Spark3.2.0、Python3.7,编程语言为Python;通过路由器将3台电脑构成局域网,按照1主节点2子节点搭建Spark集群环境,Spark集群模式为Standalone模式。

    本文以广东省西部地区4座城市(湛江、茂名、阳江、云浮)23个区县2000—2020年水稻的单产(每667 m2)数据及该地区的气象因素作为研究对象,其中,该区域的水稻单产数据共计482条,数据来源于广东省统计局历年的《广东农村统计年鉴》;气象因素选取2000—2020年每年3—10月的每月气温(最高、最低、平均),土温(最高、最低、平均),露点温度(最高、最低、平均),积温,降水量,蒸发量和太阳辐射量,来源于欧洲中期天气预报中心(ECMWF)的气象数据。为了降低后期BP神经网络模型结构的复杂程度,通过主成分分析 (Principal component analysis,PCA) 对影响因素进行降维,降维后累积方差贡献度保持在0.95以上;此外为了加快BP神经网络的收敛,需对数据进行归一化处理,归一化公式如下:

    $$ \begin{array}{c}{X}'={\rm{MIN}}+\dfrac{X-{X}_{\mathrm{m}\mathrm{i}\mathrm{n}}}{{X}_{\mathrm{m}\mathrm{a}\mathrm{x}}-{X}_{\mathrm{m}\mathrm{i}\mathrm{n}}}\left(\mathrm{M}\mathrm{A}\mathrm{X}-\mathrm{M}\mathrm{I}\mathrm{N}\right)\text{,}\end{array} $$ (1)

    式中,X为当前元素,$ {X}' $X归一化后的值,MIN、MAX分别为X整体数据集中所有元素的最小值和最大值,$ {X}_{\mathrm{m}\mathrm{i}\mathrm{n}} $$ {X}_{\mathrm{m}\mathrm{a}\mathrm{x}} $为当前所在列的最小值与最大值。

    BP神经网络是1986年由Rumelhart等[19]提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络之一。BP神经网络学习过程分为输入信息正向传播和误差反向传播2个阶段[20]

    WOA算法是由澳大利亚学者Mirjalili等[21]于2016年提出的新型群智能寻优算法,该算法主要分为座头鲸识别并包围猎物、螺旋泡网攻击、鲸鱼根据同类位置随机搜索捕食3个阶段;WOA算法已经被运用到复杂函数优化、路径规划、图像分割和光伏模型等领域,并取得显著效果[22]

    Spark是一个基于内存运算的大数据计算框架,在时间性能上优于MapReduce,Spark为了能够实现高并发和高吞吐率的数据处理过程,封装了弹性分布式数据集(Resilient distributed datasets,RDD)、累加器、广播变量3大数据结构,应对不同场景下数据处理,其中,RDD是Spark中最基本的数据单元,同时也是1个不可变、可分区且支持并行计算的数据集合。RDD用于支持Spark框架的并行计算,而累加器以及广播变量则用于数据同步,其中累加器是1个只写变量,变量一旦被修改,该变量在所有节点的值将同步更新;广播变量是1个只读变量,当变量被广播后,成为该节点的局部变量,节点修改该变量不会影响其他节点[23-24]

    由于WOA算法优化BP神经网络时,存在大量迭代计算,除鲸鱼自身的信息不一样外,每头鲸鱼在寻找自身最优解以及更新自身位置信息的过程中,所有更新逻辑均相同,因此,结合Spark并行计算框架,实现基于Spark的WOA-BP算法并行化,减少算法的时间开销。图1为基于Spark的WOA-BP算法的并行化流程图,算法的具体步骤如下。

    图  1  WOA-BP算法的并行化流程
    Figure  1.  The parallelization process of the WOA-BP algorithm

    1)设置相关参数:设置种群规模,如鲸鱼数量n,参数维度d等,同时设置Spark广播变量。

    2)初始化种群:创建含d个元素的一维零数组,通过该数组构建RDD,之后通过map算子进行种群的初始化,实现并行化初始化操作,减少时间开销。

    3)更新鲸鱼位置和适应度:更新每头鲸鱼的位置信息,并进行越界检查,之后计算该鲸鱼的适应度(Fitness),以样本的均方根误差(Root mean square error,RMSE)作为适应度,计算公式如下:

    $$ \begin{array}{c}{\rm{RMSE}}=\sqrt{\dfrac{1}{mn}\displaystyle\sum _{i=1}^{n}\displaystyle\sum _{j=1}^{m}{\left({y}_{ij}-{{y}'}_{ij}\right)}^{2}}\text{,}\end{array} $$ (2)

    式中,n为样本数,m为网络输出层输出个数,$ {y}_{ij} $为样本的实际值,$ {{y}'}_{ij} $为网络的实际输出值。

    4)更新全局最优解和最小适应度:通过sortBy算子获取最小适应度以及该适应度对应的鲸鱼位置信息,更新全局最优解。

    5)终止条件判断:若不满足终止条件,则程序继续执行,否则,通过collect算子收集各个分区的数据,完成算法的优化阶段,得到全局最优解。

    6)构建BP神经网络:利用全局最优解对网络的权值和偏置值进行初始化,构建模型。

    本文以广东省西部地区2000—2020年县/市/区水稻单产及气象数据为基础,按照3∶1∶1进行数据集划分:2000—2012年数据作为训练集,2013—2020年数据作为验证集(50%)和测试集(50%),通过BP神经网络建模,分别使用粒子群优化算法 (Particle swarm optimization,PSO) 和WOA对BP神经网络进行优化,得到BP、PSO-BP、WOA-BP 3种产量预测模型,之后对模型的预测结果进行反归一化。图2是3种模型预测值与真实值的绝对误差对比,由图2可以清晰看出,WOA-BP模型的曲线整体上更加贴近横坐标,即测试集样本的整体绝对误差小于另外2种模型的。表1为3种模型的预测精度对比,可以明显看出,与传统BP模型相比,经WOA优化后的产量预测模型的平均绝对百分比误差(Mean absolute percentage error,MAPE)减少了1.286个百分点,平均绝对误差(Mean absolute error,MAE)减少了4.338 kg,RMSE减少了7.462 kg。虽然PSO-BP模型相较传统BP模型在精度上有一定提升,但效果明显不如WOA-BP。此外,试验过程中发现,相同种群规模下,WOA与PSO 2种算法的优化时间相差较大,其中WOA为26 637 s,PSO为48 518 s,WOA比PSO少了约45%的时间开销,显然WOA的时间性能更优。因此,WOA在算法优化的时间开销以及模型效果上均优于PSO,故本文采用WOA-BP对广东省西部地区县/市/区的水稻产量进行最终建模。

    图  2  3种模型的绝对误差
    Figure  2.  Absolute error of the three models
    表  1  3种模型精度对比
    Table  1.  Precision comparison of the three models
    模型
    Model
    平均绝对
    百分比误差/%
    MAPE
    平均绝对
    误差/kg
    MAE
    均方根
    误差/kg
    RMSE
    BP 8.354 31.320 41.008
    PSO-BP 7.890 29.999 38.786
    WOA-BP 7.068 26.982 33.546
    下载: 导出CSV 
    | 显示表格

    表1图2的结果可知,经WOA-BP算法得到的预测模型效果最佳,但算法的优化时间仍旧较长,故在此基础之上,结合Spark并行计算框架,减少优化过程的时间开销。因此,使用3台台式主机按照1主节点2子节点的形式搭建Spark集群,同时改造WOA-BP算法实现并行化,并按照2倍物理核数的规则对RDD进行分区,提升集群整体的并行度,充分利用CPU性能。表2为不同节点性能对比及配置信息,图3为不同节点算法运行时间对比,由表2图3可以清晰看出,随着节点数量的增加,算法的优化时间随之减少,其中3节点比2节点和1节点分别减少了21.4%和39.3%的时间开销,大幅度缩短算法的优化时间。同时与“2.1”中非Spark的WOA的优化时间相比,减少了44%的时间开销,充分体现算法与Spark框架结合后的优势,真正实现对水稻产量与气象数据的快速建模。

    表  2  不同节点数量性能对比及配置信息
    Table  2.  Performance comparison and configuration information under different node number
    节点数量
    Node
    number
    总内存/G
    Total
    memory
    总物理核数
    Total physical
    nuclei number
    分区数量
    Partition
    number
    t/s
    116122424 534
    232244818 955
    348367214 895
    下载: 导出CSV 
    | 显示表格
    图  3  不同节点数时间开销对比
    Figure  3.  Time overhead comparison under different node number

    本文以广东省西部地区所有县/市/区作为研究区域,针对气象因素对水稻单产的影响,提出一种基于Spark框架的WOA-BP水稻县/市/区级别的单产预测方法。首先通过WOA对BP神经网络进行优化,避免BP神经网络收敛慢、易局部收敛等缺陷,提升BP模型的整体预测精度;其次,结合Spark并行计算框架,实现WOA-BP算法并行化,加快WOA-BP算法的运算速度,减少算法的时间开销;最后通过WOA-BP算法得到的最优解对网络进行初始化并构建网络模型,之后进行水稻单产的预测。测试集的预测结果表明,该模型的预测精度较高,预测结果较精确,论证了该方法的可行性及有效性;同时,该模型可以很好地反映气象因素对广东省西部地区县/市/区水稻单产的影响情况,对研究广东西部县/市/区乃至整个广东的水稻单产具有一定的借鉴意义。

  • 图  1   3款芯片之间的位点分布

    Figure  1.   Distribution of loci among three chips

    图  2   MAF、DR2与填充准确性(基因型相关性)的分布

    各点95%置信区间以垂直线标识

    Figure  2.   Distribution of MAF, DR2 and imputation accuracy (genotype correlation)

    The vertical line represents the 95% confidence interval of each point

    表  1   芯片之间重叠位点的基因型一致性与相关性

    Table  1   The consistency and correlation of overlapping loci among three chips

    芯片−芯片
    Chip-chip
    一致性
    Consistency
    相关性
    Correlation
    纽勤50K−中芯一号50K
    Geneseek 50K-ZhongxinⅠ50K
    0.999 0.996
    纽勤50K−液相50K
    Geneseek 50K - Liquid 50K
    0.991 0.985
    中芯一号50K−液相50K
    ZhongxinⅠ50K-Liquid 50K
    0.991 0.987
    下载: 导出CSV

    表  2   3款芯片基因型填充至序列数据的填充准确性1)

    Table  2   The imputation accuracy of three chips from chip data to sequencing data

    芯片
    Chip
    未质控
    No quality control
    质控标准 Quality control standard
    MAF≥0.1 DR2≥0.8 DR2≥0.95
    纽勤50K Geneseek 50K 0.886(0.828) 0.873(0.838) 0.938(0.917) 0.974(0.966)
    中芯一号50K ZhongxinⅠ50K 0.886(0.823) 0.876(0.835) 0.944(0.918) 0.976(0.959)
    液相50K Liquid 50K 0.898(0.814) 0.866(0.825) 0.930(0.909) 0.969(0.960)
     1)表中数据为位点基因型一致性(基因型相关性);基因型一致性指的是基因型完全一致的个数占总基因型个数的比例;基因型相关性用将基因型转换为0、1、2剂量编码后基因型之间的皮尔逊相关系数来表示
     1) Data in the table are genotype consistencies (genotype correlations) of loci; Genotype consistency refers to the proportion of the number of completely consistent genotypes in the total number of genotypes; Genotype correlation is represented by the Pearson correlation coefficient between the genotypes after converting genotype to dosage encoding of 0, 1, and 2
    下载: 导出CSV
  • [1] 唐立群, 肖层林, 王伟平. SNP分子标记的研究及其应用进展[J]. 中国农学通报, 2012, 28(12): 154-158. doi: 10.11924/j.issn.1000-6850.2012-0074
    [2] 徐云碧, 杨泉女, 郑洪建, 等. 靶向测序基因型检测(GBTS)技术及其应用[J]. 中国农业科学, 2020, 53(15): 2983-3004. doi: 10.3864/j.issn.0578-1752.2020.15.001
    [3] 何桑, 丁向东, 张勤. 基因型填充方法介绍及比较[J]. 中国畜牧杂志, 2013, 49(23): 95-100. doi: 10.3969/j.issn.0258-7033.2013.23.022
    [4] 叶绍潘. 基于全基因组测序数据的基因型填充准确性研究[D]. 广州: 华南农业大学, 2017.
    [5]

    BROWNING B L, ZHOU Y, BROWNING S R. A one-penny imputed genome from next-generation reference panels[J]. American Journal of Human Genetics, 2018, 103(3): 338-348. doi: 10.1016/j.ajhg.2018.07.015

    [6]

    BROWNING S R, BROWNING B L. Rapid and accurate haplotype phasing and missing-data inference for whole-genome association studies by use of localized haplotype clustering[J]. American Journal of Human Genetics, 2007, 81(5): 1084-1097. doi: 10.1086/521987

    [7]

    HOWIE B N, DONNELLY P, MARCHINI J. A flexible and accurate genotype imputation method for the next generation of genome-wide association studies[J]. PLoS Genetics, 2009, 5(6): e1000529. doi: 10.1371/journal.pgen.1000529

    [8]

    VANRADEN P M, SUN C, O'CONNELL J R. Fast imputation using medium or low-coverage sequence data[J]. BMC Genetics, 2015, 16: 82.

    [9]

    HICKEY J M, KINGHORN B P, TIER B, et al. A phasing and imputation method for pedigreed populations that results in a single-stage genomic evaluation[J]. Genetics Selection Evolution, 2012, 44(1): 9. doi: 10.1186/1297-9686-44-9

    [10]

    BECKER T, KNAPP M. Maximum-likelihood estimation of haplotype frequencies in nuclear families[J]. Genetic Epidemiology, 2004, 27(1): 21-32. doi: 10.1002/gepi.10323

    [11]

    SARGOLZAEI M, CHESNAIS J P, SCHENKEL F S. A new approach for efficient genotype imputation using information from relatives[J]. BMC Genomics, 2014, 15: 478. doi: 10.1186/1471-2164-15-478

    [12] 汪楷庭, 付璐, 孟庆利, 等. 基于填充测序数据的大白猪繁殖性状全基因组关联分析[C]//中国畜牧兽医学会. 第三届中国猪业科技大会暨中国畜牧兽医学会2019年学术年会论文集. 青岛: 中国畜牧兽医学会, 2019: 55.
    [13]

    CLEVELAND M A, HICKEY J M. Practical implementation of cost-effective genomic selection in commercial pig breeding using imputation[J]. Journal of Animal Science, 2013, 91(8): 3583-3592. doi: 10.2527/jas.2013-6270

    [14]

    ZHANG C, KEMP R A, STOTHARD P, et al. Genomic evaluation of feed efficiency component traits in Duroc pigs using 80K, 650K and whole-genome sequence variants[J]. Genetics Selection Evolution, 2018, 50(1): 14. doi: 10.1186/s12711-018-0387-9

    [15]

    GROSSI D A, BRITO L F, JAFARIKIA M, et al. Genotype imputation from various low-density SNP panels and its impact on accuracy of genomic breeding values in pigs[J]. Animal: An International Journal of Animal Bioscience, 2018, 12(11): 2235-2245.

    [16]

    ALILOO H, MRODE R, OKEYO A M, et al. The feasibility of using low-density marker panels for genotype imputation and genomic prediction of crossbred dairy cattle of East Africa[J]. Journal of Dairy Science, 2018, 101(10): 9108-9127. doi: 10.3168/jds.2018-14621

    [17]

    IBEAGHA-AWEMU E M, PETERS S O, AKWANJI K A, et al. High density genome wide genotyping-by-sequencing and association identifies common and low frequency SNPs, and novel candidate genes influencing cow milk traits[J]. Scientific Reports, 2016, 6: 31109. doi: 10.1038/srep31109

    [18]

    TALOUARN E, BARDOU P, PALHIÈRE I, et al. Genome wide association analysis on semen volume and milk yield using different strategies of imputation to whole genome sequence in French dairy goats[J]. BMC Genetics, 2020, 21(1): 19.

    [19]

    HUANG S, HE Y, YE S, et al. Genome-wide association study on chicken carcass traits using sequence data imputed from SNP array[J]. Journal of Applied Genetics, 2018, 59(3): 335-344. doi: 10.1007/s13353-018-0448-3

    [20] 邱奥, 王雪, 孟庆利,等. 3款猪50K SNP芯片基因型填充效果研究[J]. 中国畜牧杂志, 2021, 57(S1): 33-38.
    [21]

    BUTTY A M, SARGOLZAEI M, MIGLIOR F, et al. Optimizing selection of the reference population for genotype imputation from array to sequence variants[J]. Frontiers in Genetics, 2019, 10: 510. doi: 10.3389/fgene.2019.00510

    [22]

    PAUSCH H, AIGNER B, EMMERLING R, et al. Imputation of high-density genotypes in the Fleckvieh cattle population[J]. Genetics Selection Evolution, 2013, 45(1): 3. doi: 10.1186/1297-9686-45-3

    [23]

    DAETWYLER H D, CAPITAN A, PAUSCH H, et al. Whole-genome sequencing of 234 bulls facilitates mapping of monogenic and complex traits in cattle[J]. Nature Genetics, 2014, 46(8): 858-865. doi: 10.1038/ng.3034

    [24]

    MCCARTHY S, DAS S, KRETZSCHMAR W, et al. A reference panel of 64, 976 haplotypes for genotype imputation[J]. Nature Genetics, 2016, 48(10): 1279-1283. doi: 10.1038/ng.3643

    [25]

    DAVIES R W, FLINT J, MYERS S, et al. Rapid genotype imputation from sequence without reference panels[J]. Nature Genetics, 2016, 48(8): 965-969. doi: 10.1038/ng.3594

    [26]

    DAVIES R W, KUCKA M, SU D, et al. Rapid genotype imputation from sequence with reference panels[J]. Nature Genetics, 2021, 53(7): 1104-1111. doi: 10.1038/s41588-021-00877-0

    [27]

    RUBINACCI S, RIBEIRO D M, HOFMEISTER R J, et al. Efficient phasing and imputation of low-coverage sequencing data using large reference panels[J]. Nature Genetics, 2021, 53(1): 120-126. doi: 10.1038/s41588-020-00756-0

    [28]

    BOLORMAA S, GORE K, VAN DER WERF J H J, et al. Design of a low-density SNP chip for the main Australian sheep breeds and its effect on imputation and genomic prediction accuracy[J]. Animal Genetics, 2015, 46(5): 544-556. doi: 10.1111/age.12340

    [29]

    VAN DEN BERG I, BOICHARD D, LUND M S. Comparing power and precision of within-breed and multibreed genome-wide association studies of production traits using whole-genome sequence data for 5 French and Danish dairy cattle breeds[J]. Journal of Dairy Science, 2016, 99(11): 8932-8945. doi: 10.3168/jds.2016-11073

    [30]

    PICCOLI M L, BRITO L F, BRACCINI J, et al. Genomic predictions for economically important traits in Brazilian Braford and Hereford beef cattle using true and imputed genotypes[J]. BMC Genetics, 2017, 18(1): 2. doi: 10.1186/s12863-017-0475-9

    [31] 王珏, 刘成琨, 刘德武, 等. 基于不同密度SNP芯片在杜洛克公猪中的全基因组选择效果分析[J]. 中国畜牧杂志, 2019, 55(12): 75-79.
    [32]

    DUFFLOCQ P, PÉREZ-ENCISO M, LHORENTE J P, et al. Accuracy of genomic predictions using different imputation error rates in aquaculture breeding programs: A simulation study[J]. Aquaculture, 2019, 503: 225-230. doi: 10.1016/j.aquaculture.2018.12.061

    [33]

    AKBARPOUR T, HOSSEIN-ZADEH N G, SHADPARVAR A A. Marker genotyping error effects on genomic predictions under different genetic architectures[J]. Molecular Genetics and Genomics, 2021, 296(1): 79-89. doi: 10.1007/s00438-020-01728-z

  • 期刊类型引用(2)

    1. 廖娟,曹佳雯,田泽丰,刘晓丽,杨玉青,邹禹,王玉伟,朱德泉. 基于近红外光谱的稻种秕谷含量等级快速判别. 光谱学与光谱分析. 2025(03): 692-699 . 百度学术
    2. 罗永泽,张广泽,林木宋,刘骏,刘旭,欧阳咏霁,徐振江,刘洪. 基于OpenCV图像处理的水稻谷粒考种软件的设计. 电脑知识与技术. 2023(35): 23-26 . 百度学术

    其他类型引用(1)

图(2)  /  表(2)
计量
  • 文章访问数:  721
  • HTML全文浏览量:  26
  • PDF下载量:  594
  • 被引次数: 3
出版历程
  • 收稿日期:  2021-10-25
  • 网络出版日期:  2023-05-17
  • 刊出日期:  2022-07-09

目录

/

返回文章
返回