热门标签:代写本科论文 写作发表 工程师论文 代写一篇论文多少钱
当前位置: 代写一篇论文多少钱 > 医学论文 > 生物信息学分析在法医遗传学中的研究现状和发展

生物信息学分析在法医遗传学中的研究现状和发展

时间:2018-09-30 11:27作者:乐枫
本文导读:这是一篇关于生物信息学分析在法医遗传学中的研究现状和发展的文章,自DNA指纹技术应用于司法实践的报道以来, 法医DNA分析发挥着越来越重要的作用。近年来, 随着基因组学高通量测序技术的快速发展, 生物信息学分析手段也逐渐开始与法医学应用结合, 极大地扩展了法医物证的分析能力。

  摘要:自DNA指纹技术应用于司法实践的报道以来, 法医DNA分析发挥着越来越重要的作用。近年来, 随着基因组学高通量测序技术的快速发展, 生物信息学分析手段也逐渐开始与法医学应用结合, 极大地扩展了法医物证的分析能力。本文综合阐述了法医遗传学所涉及的基因组、表观组以及转录组生物信息分析相关研究现状以及发展趋势。

  关键词:法医遗传学; 生物信息; 基因组; 表观组; 转录组;

生物信息学

  Application and prospects of bioinformatics in forensic science

  Zhao Jing Tang Hui Yan Jiangwei

  Beijing Institute of Genomics, Chinese Academy of Sciences University of Chinese Academy of Sciences Beijing Hua Yan Medical Technology Research Institute

  Abstract:

  The application of DNA technologies has rendered DNA analysis an important tool since the DNA fingerprint technology has been reported. Nowadays, with the rapid development of next generation sequencing (NGS) technology, the ability of forensic DNA analysis has been greatly extended by incorporating bioinformatics technique with forensic application. This paper reviews the research status and application prospects of bioinformatics in genomics, epigenetics and transcriptomics related to forensic genetics.

  Keyword:forensic genetics; bioinformatics; forensic genomics; epigenetics; transcriptomics;

  生物信息学是伴随着人类基因组计划的发展而产生的一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 是当今世界自然科学领域中“基因组”、“信息结构”和“复杂性”三个科学问题的有机结合[1]。自1985年英国遗传学家Alec Jeffreys首次报道DNA指纹技术以来, 法医DNA检验已经在众多刑事、民事案件及一些重大事件中发挥了重要的作用。随着新一代测序技术的发展以及测序成本的大幅度下降, 使得我们可以更全面、更深入的分析基因组、转录组、表观组等组学数据, 给生命科学领域带来了新的突破, 同时也给法医遗传学领域带来了新的机遇和挑战。研究表明, 基于新一代测序技术的基因组学分析可以显著地提高降解样本、混合样本以及复杂亲缘关系鉴定的成功率。另外, 表观组和转录组的相关研究也在法医学年龄推断、同卵双生子鉴别、组织来源和种属特异性鉴定以及死亡时间推断等中显示出良好的应用前景。但是, 如何准确处理并且科学合理的解释上述分析所产生的组学数据, 是目前基于组学的法医DNA分析所面临的最大挑战。本文根据近年来生物信息学的发展状况, 综合阐述了生物信息学在法医学上述研究中的应用现状及发展趋势。

  1 基因组学研究相关的法医生物信息学分析

  开发可供法医学应用的多态性位点一直都是法医遗传学研究的热点和基础问题。目前法医学常用位点主要是位于不同染色体上的DNA遗传标记, 比较常见的有短串联重复序列 (Short tandem repeats, STRs) , 单核苷酸多态性 (Single-nucleotide polymorphisms, SNPs) 等。

  1.1 采用生物信息学方法分析STR位点

  STR是法医学中最常见的遗传标记。截止到目前, 世界上已经有超过60个国家建立了法医STR数据库, 中国已经有超过5000万个STR分型数据。数据库数据的持续增长, 使得无关个体间随机匹配概率也大大增加, 因此亟需开发出更多的多态性位点[2]。采用新一代测序技术分析STR位点, 单次检测就可以分析大量的位点。另外该技术不仅可以获得序列长度, 而且可以揭示内部序列信息, 发现新的等位基因以及更多的变异位点。然而, 该技术产生的数据量和信息量大, 而面临需要专门的分析方法的难题。目前, 生物信息学家已经开发了很多软件, 来分析由新一代测序技术产生的STR数据, 这些软件主要包括:lob STR[3]、Repeat Seq[4]、STRait Razor[5]、TSSV[6]和My FLq[7], 其中lob STR和Repeat Seq都是在全基因组的范围内, 对STR进行分析。My FLq是Van Neste等在2014年针对Illumina Mi Seq平台开发的一套生物信息算法。该软件的运行需要输入fasta/fastq格式的数据、已知等位基因的位点信息以及等位基因的序列信息等三个文件, 操作界面简单直观, 对几乎没有生物信息学背景的人也很容易使用。STRait Razor是2015年Warshauer等更新的基于Linux系统的STR分析软件。该软件的输入文件是测序得到的fasta文件, 目前可以用于包括法医学常见的86个STR位点的分析。同时, 也可以通过修改它的配置文件 (包括:位点名称, 重复次数, 侧翼序列等) 来对新的STR位点进行分析。截止到2017年, 该软件已更新到第三版, 运行速度更快[8]。Yahya Anvar等在2013年开发的TSSV软件可以用来分析单个样本或者混合样本中STR的变异信息。该软件在使用的时候需要fasta格式的数据文件和目的片段两端的侧翼序列等两个输入文件。除了上述可用于分析STR的软件外, Life Technologies和Illumina公司针对他们推出的相关高通量测序法医试剂盒配备了相应的分析工具, 例如CONVERGETM和Foren Seq等, 但是这些分析软件只能用于相应的试剂盒, 设置的参数相对固定;次要样本的主峰与主要样本的stutter峰以及噪音信号无法区分;当在STR的侧翼区存在突变时, 系统也不能给出相应的提示, 尤其是当侧翼区存在插入缺失时, 可能导致二代的测序结果与一代的测序结果不一致。

  1.2 利用生物信息学方法分析SNP位点

  SNP在基因组中数量多, 分布广, 具有较高的遗传多态性, 而且SNP大都是二等位基因, 易于分型, 更适合PCR扩增以及用来分析降解DNA和混合样本。虽然单个SNP的信息含量很少, 但是随着高通量测序技术的快速发展, 可以同时对大量的SNP位点进行分析, 从而弥补单个SNP信息量少的缺陷。目前, 利用高通量测序数据分析SNP的软件主要都是在Linux系统下进行, 常用的分析软件主要有SOAPsnp、Atlas-SNP、Samtools、GATK等。SOAPsnp是SOAP的软件包之一, 它可以根据比对结果, 在综合考虑分析数据特征, 测序质量等影响因素的基础上, 利用贝叶斯模型, 计算每个可能基因型的似然值, 找到测序过程中的SNP;GATK是Broad Institute开发的用于二代重测序数据分析的一款软件[9], 主要用来寻找单碱基的突变, 短的插入缺失等, 由于GATK需要排序后的由Samtools生成的bam文件和Bwa, Bowtie等生成的sam文件, 因此, 通常将上述几个软件结合使用。在Windows系统下SNP分析软件以Next GENe?等为代表, 它是一款收费的商业化软件, 可以对ION PGM、Illumina、Roche和SOLID系统产生的数据进行SNP、拷贝数变异等分析。如同高通量测序STR分析一样, Life Technologies和Illumina公司自带的分析工具通过使用相应的插件, 也可对配套试剂盒中包含的SNP位点进行分析。由于每种软件的算法不同, 尤其是当测序深度比较低时, 采用不同的软件得到的结果会有一定的差异。

  2 表观组学研究相关的法医生物信息学分析

  表观遗传学是指DNA序列没有发生变化, 而基因表达发生变化, 表观遗传中研究最多的是DNA甲基化。DNA甲基化在法医学亲缘关系鉴定、年龄推断、同卵双生子的鉴别以及组织来源鉴定中发挥着重要的作用[10]。

  2.1 DNA甲基化数据库

  目前比较常见的DNA甲基化数据库主要有:NCBI Epigenomics[11]、Meth DB[12]、Meth Bank[13]等, 其中, Meth DB是最早整合文献中DNA甲基化数据的数据库, 也是涵盖物种和组织最多的数据库, 因此可以进行与组织来源鉴定等相关的研究;NCBI Epigenomics主要存储人类基因组范围内高通量得到的表观遗传数据, 包括DNA甲基化、组蛋白修饰和非编码RNA等;Meth Bank是中国科学院北京基因组研究所生命与健康大数据中心开发的基于全基因组DNA甲基化图谱的表观基因组数据库, 截止到目前, 该数据库中包括692个与年龄相关的甲基化位点、2371个与年龄无关的甲基化位点以及其它一些与其它研究相关的甲基化信息等。

  2.2 基于高通量测序数据的DNA甲基化分析

  对DNA甲基化的分析主要是通过在测序前, 对测序序列进行预处理, 区分出未甲基化的胞嘧啶和甲基化后的胞嘧啶, 再利用二代测序技术对胞嘧啶上的DNA状态进行鉴定。目前, 国内外很多实验室已经产生了大量精准的DNA甲基化数据。如Lister等[14]在2009年就获得了第一个人全基因组甲基化图谱。近年来, DNA甲基化的分析也逐渐受到法医学领域的关注。如:Vidaki等[15]选择了位于染色体上不同区域的Cp G岛上与年龄相关的DNA甲基化位点, 通过建立神经网络模型, 来对人的年龄进行预测。Kaminsky等[16]研究了114个双胞胎的个体发现, 他们在白细胞、口腔黏膜上皮细胞以及肠道组织的甲基化存在一定的差异。

  根据实验方法的不同, 对甲基化数据的分析方法主要有基于重亚硫酸盐处理等的全基因组甲基化分析方法以及基于免疫共沉淀测序等的位点特异性甲基化分析方法。采用重亚硫酸盐转化法结合二代测序技术得到的数据, 由于测序之前将非甲基化的C转化成了U, 因此不能直接采用普通的短序列比对软件对测序数据进行比对。如何快速高效的把重亚硫酸盐测序得到的数据比对到参考基因组上, 是DNA甲基化研究中的难点。对这类数据的比对主要采用Bismark、BS Seeker、BSMAP、RRBSMAP等软件。通过比对可以得到基因组中单个位点的甲基化信息, 接下来可以通过Methylkit、Cp G_MPs、QDMR和Bis-SNP等软件对基因组甲基化水平、样本间差异的甲基化区域信息, 以及亚硫酸盐处理的SNP信息等进行分析。

  3 转录组学研究相关的法医生物信息学分析

  RNA是DNA的转录产物, 与遗传信息的表达和调控有关。在法医学研究中, 主要是通过芯片和高通量测序技术对m RNA和mi RNA的差异表达来进行体液斑和种属特异性鉴定以及死亡时间推断等方面的研究。

  3.1 基于芯片数据的转录组生物信息学分析

  转录组芯片数据的分析主要包括数据的预处理以及后续的差异表达分析等。数据的预处理, 主要包括对数据的过滤、补缺失值和标准化等。差异表达分析的方法主要有倍数分析法、参数分析法 (t检验) 以及非参数检验。目前, 已经有很多的用来分析芯片数据的软件。Bioconductor是建立在R语言环境下的生物芯片数据和基因组数据分析软件包[17], 提供了大量开放式的生物信息学软件包, 然而使用该软件时需要输入一定的程序代码, 对没有计算机基础的人来说有一定的难度。BRB-Array Tools是基因芯片数据集成软件包[18], 能够分析来自不同芯片平台的表达数据, 可以进行标准化处理、差异基因筛选、聚类分析等的分析。Qlucore Omics Explorer是一种商业化收费软件, 可以快速的分析基因表达、基因芯片以及DNA甲基化等多种生物学数据, 界面直观并且特别容易使用。

  3.2 基于高通量测序数据的转录组生物信息学分析

  RNA-seq可以产生大量的读段数据, 可以通过读段序列的丰度来估计基因的差异表达水平。对于RNA-seq产生的mi RNA原始数据, 分析软件主要有mi RDeep[19]/mi RDeep2[20]、mi Ranalyzer[21]、mi RExpress[22]等。mi RDeep/mi RDeep2用来分析由二代测序数据产生的mi RNA数据, 该软件运行得到的结果中包括mi RNA的前体结构以及mi RNA比对到前体的序列信息以及每种mi RNA的表达水平等, 但是该软件只能分析已经有参考序列的物种。mi Ranalyzer是一个网络的服务工具, 可以用来鉴定mi RBase数据库中已知的mi RNA, 并预测新的mi RNA等。mi RExpress可以用来分析通过高通量测序方法得到的fastq格式的数据, 它通过将测序得到的数据与mi RBase数据库中已知的mi RNA进行比较, 来得到mi RNA的表达图谱。

  与mi RNA不同的是, m RNA的转录本长度低于600bp时, 会使转录组水平得到低估, 而当转录本的长度更长时, 又会使转录本的水平得到高估[23]。因此, 要通过RNA-seq的数据计算m RNA的表达量, 需要先对数据进行标准化。目前, 用的比较多的数据标准化方法是每百万读段中来自于某基因每千碱基长度的读段数 (Reads Per Kilo Bases Per Million Reads, RPKM) [24], 该方法能消除基因长度和测序差异对计算表达量的影响, 计算得到的表达量可直接用于比较不同样品间的基因表达差异。软件r Seq、DEGseq软件包和Cufflinks等在计算m RNA表达差异的时候, 均采用了RPKM的数据标准化方法。

  4 其他法医学应用相关的生物信息学分析

  随着研究的深入, 越来越多的研究发现微生物以及动植物等非人源物证在法医学的研究中也发挥着重要的作用, 因此与之相关的生物信息分析方法也不断得到发展。如:Metcalf等[25]通过分析小鼠和人的尸体在腐烂的过程中, 采用Operational Taxonomic Units (OTU) 聚类分析, 随机森林预测模型, 主成分分析等对尸体周围的微生物的群体特征, 群体水平的新陈代谢重组情况以及土壤的生化水平等进行分析, 发现微生物在死亡时间以及死亡地点的判定中发挥着重要的作用。

  5 总结与展望

  随着生物信息学的快速发展, 生物信息学技术已经在法医学遗传标记开发、DNA甲基化、转录组分析以及非人源物证分析等方面的应用已经逐步展开。未来, 随着单分子测序、原位RNA测序等组学检测新技术的不断突破和信息技术的发展, 生物信息学将在包括法医学微量降解和混合样本分析、复杂关系亲缘关系鉴定、全基因组法医数据库构建、嫌疑人个体特征精准刻画以及非人源生物物证分析等诸多领域发挥更加重要的作用。

  参考文献
  [1]张春霆.生物信息学的现状与展望[J].世界科技研究与发展, 2000, 22 (6) :17-20.
  [2]Borsting C, Morling N.Next generation sequencing and its applications in forensic genetics[J].Forensic Sci Int Genet, 2015, 18:78-89.
  [3]Gymrek M, Golan D, Rosset S, et al.lob STR:A short tandem repeat profiler for personal genomes[J].Genome Res, 2012, 22 (6) :1154-1162.
  [4]Highnam G, Franck C, Martin A, et al.Accurate human microsatellite genotypes from high-throughput resequencing data using informed error profiles[J].Nucleic Acids Res, 2013, 41 (1) :e32.
  [5]Warshauer D H, King J L, Budowle B.STRait Razor v2.0:the improved STR Allele Identification Tool--Razor[J].Forensic Sci Int Genet, 2015, 14:182-186.
  [6]Anvar S Y, Gaag K J V D, Heijden J W F V D, et al.TSSV:a tool for characterization of complex allelic variants in pure and mixed genomes[J].Bioinformatics, 2014, 30 (12) :1651-1659.
  [7]Van N C, Gansemans Y, De C D, et al.Forensic massively parallel sequencing data analysis tool:Implementation of My FLq as a standalone web-and Illumina Base Space (?) -application[J].Forensic Sci Int Genet, 2015, 15:2-7.
  [8]Woerner A E, King J L, Budowle B.Fast STR allele identification with STRait Razor 3.0[J].Forensic Sci Int Genet, 2017, 30:18-23.
  [9]Mccormick R F, Truong S K, Mullet J E.RIG:Recalibration and Interrelation of Genomic Sequence Data with the GATK[J].G3 (Bethesda, Md.) , 2015, 5 (4) :655-665.
  [10]杨雅冉, 王鹏翔, 方向东, 等.表观遗传学在法医学中的应用研究进展[J].法医学杂志, 2012, 28 (5) :366-370.
  [11]Fingerman I M, Mcdaniel L, Zhang X, et al.NCBI Epigenomics:a new public resource for exploring epigenomic data sets[J].Nucleic Acids Res, 2011, 39 (Database issue) :908-912.
  [12]Grunau C, Renault E, Rosenthal A, et al.Meth DB-a public database for DNA methylation data[J].Nucleic Acids Res, 2001, 29 (1) :270-274.
  [13]Zou D, Sun S, Li R, et al.Meth Bank:a database integrating next-generation sequencing single-base-resolution DNA methylation programming data[J].Nucleic Acids Res, 2015, 43 (Database issue) :D54-D58.
  [14]Lister R, Pelizzola M, Dowen R H, et al.Human DNA methylomes at base resolution show widespread epigenomic differences[J].Nature, 2009, 462 (7271) :315-322.
  [15]Vidaki A, Ballard D, Aliferi A, et al.DNA methylationbased forensic age prediction using artificial neural networks and next generation sequencing[J].Forensic Sci Int Genet, 2017, 28:225-236.
  [16]Kaminsky Z A, Tang T, Wang S C, et al.DNA methylation profiles in monozygotic and dizygotic twins[J].Nat Genet, 2009, 41 (2) :240-245.
  [17]Carlson M R J, Pagès H, Arora S, et al.Genomic annotation resources in R/bioconductor[M].2016:67-90.
  [18]Simon R, Lam A, Li M C, et al.Analysis of Gene Expression Data Using BRB-Array Tools[J].Cancer Inform, 2007, 3 (2) :11-17.
  [19]An J, Lai J, Lehman M L, et al.Mi RDeep*:An integrated application tool for mi RNA identification from RNA sequencing data[J].Nucleic Acids Res, 2013, 41 (2) :727-737.
  [20]Mackowiak S D.Identification of Novel and Known mi RNAs in Deep‐Sequencing Data with mi RDeep2[M].John Wiley&Sons, Inc., 2011.
  [21]Hackenberg M, Sturm M, Langenberger D, et al.mi Ranalyzer:a micro RNA detection and analysis tool for next-generation sequencing experiments[J].Nucleic Acids Res, 2009, 37 (Web Server issue) :68-76.
  [22]Wang W C, Lin F M, Chang W C, et al.mi RExpress:analyzing high-throughput sequencing data for profiling micro RNA expression[J].BMC Bioinformatics, 2009, 10 (1) :1-13.
  [23]Oshlack A, Wakefield M J.Transcript length bias in RNAseq data confounds systems biology[J].Biol Direct, 2009, 4 (1) :14.
  [24]Mortazavi A, Williams B A, Mccue K, et al.Mapping and quantifying mammalian transcriptomes by RNA-Seq[J].Nature Methods, 2008, 5 (7) :621-628.
  [25]Metcalf J L, Xu Z Z, Weiss S, et al.Microbial community assembly and metabolic function during mammalian corpse decomposition[J].Science, 2016, 351 (6269) :158-162.

联系我们
  • 写作QQ:78307562
  • 发表QQ:78303642
  • 服务电话:18930620780
  • 售后电话:18930493766
  • 邮箱:lunwen021@163.com
范文范例
网站地图 | 网站介绍 | 联系我们 | 服务承诺| 服务报价| 论文要求 | 期刊发表 | 服务流程