基于二代测序数据的SNP发现策略及其初步应用
2022-06-27
来源:榕意旅游网
学位论文独创性声明学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签字目期:汐‘乡年彩月乙芦一………手写瘸媛辉/学位论文版权使用授权书本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究所和中国学术期刊(光盘版)电子杂志社将本学位论文收录到《中国学位论文全文数据库》和《中国优秀博硕士学位论文全文数据库》中全文发表,并通过网络向社会公众提供信息服务。(保密的学位论文在解密后适用本授权书)学位者手核宵步宵步他形,鉴字一锣作A纱祝于导师签名(手写):表砂似V刎/签7厂、//)污/D签字目期纱弓年乙月巧日摘要关键字:二代测序;单核苷酸多态性;处理流程为菌种的进化,差异表达,遗传等研究提供材料。信息,我们认为,不同的菌种遗传背景与其功能分类相关,他们的SNP信息可个。所有的SNP位点中,204407(51.44%)个SNP为单菌种特有。综上数据处于内含子区域,200个位点处于UTR区域:造成的非同义SNP位点数119537LOF分析可得,346647(87.23%)个SNP位点处于外显子区域,42911个位点颠换次数为128467,Ti/Tv值为2.156,非常符合全基因组SNP类型比例。经步骤后,得到397382个SNP位点,频率为30bp/SNP,其中转换次数为276925,calling和基因分型以及结果筛查过滤(可选)碱基质量校准、区域重比对、SNP将22种酵母菌454焦磷酸测序数据(测序深度平均约18x)经过序列比对、助于达到进一步改善其测序质量的目的。过滤后的Mismatch的Q值明显低于准确情况下的值等分析结果和趋势均可有器读取信息时的相位错误,测序错误在同聚物边缘发生的概率比其他位置高,Torrent仪的高错误率的测序碱基可显著提高其整体的测序准确率。因此,Ion67.90%。而去除的碱基比例仅占碱基数量的1.13%,由此可见,去除数量较少0.05%,错误率均为原来的一半左右,无错误的序列比例从48.30%上升为的错误后统计得Insertion,Deletion,Mismatch的错误率分别为0.13%,0.12%,考序列互换的情况。在去除同聚核苷酸长度大于2和Swap型的Mismatch形成概率随着同聚核苷酸长度的增加而有明显增加的趋势,并且存在测序碱基和参Torrent重测序数据,经统计分析知其错误针对基因组已知的大肠杆菌IonTorrent测序质量及其初步改善和讨论。的结果;另外系统的评价了Ion点,利用一套切实可行的处理流程成功应用在酵母全基因组中以及得到了较好的挑战。本文从二代测序测序基本原理出发,结合多态性分析处理的重点,难的大规模并行DNA测序手段,也因其产生的海量数据给数据分析带来了很大单一基因到全基因组范围的研究尺度。目前二代测序一方面提供了快速、低廉得到广泛应用,推动了诸如疾病基因定位、作物遗传育种、表观遗传等研究从近期二代测序在生物医学、基因组学、转录组学、系统生物学等多个学科摘要AbstractAbstractNextgenerationsequencing(NGS)iswidelyusedrecentlyinthefieldsofbiomedicine,genomics,transcriptomics,systemsbiologyandotherdisciplines,quicklypromotedsuchaslocatingofdiseasegene,cropgeneticsandbreeding,Epigeneticresearchfromasinglegenetothegenome-wideresearchextent.Now,NGSprovideafast,low—costmassivelyparallelDNAsequencingmethodsaswellasagreatdealofchallengefordownstreamdataanalysiscomesfromthehugedataproducedbyNGS.FromthebasicprincipleofNGS,combinedwiththefocalpointanddifficultiesinpolymorphismprocessingandanalysisofNGSdata,thisthesismakeuseofasetofpracticalprocessestosuccessfullyappliedintheyeastgenomeandgetareasonableresult.ThenmakeasystematicevaluationofthequalityoftheIonTorrentsequencinganditsinitialimprovementandsomediscussions.Analyzingthere—sequencedIonTorrentdatafromaknowngenomeofE.coli,wefindthereisasignificanttendencythattheerrorprobabilityincreasesinpacewiththeincreasesoftheidenticalpolynucleotidelengththroughstatistical.Andthereisacasethatsequencedbasesandreferencebasesareswappedeachother.AfterremovingtheerrorsofHomozygouslengthgreaterthan2andtheswap-typemismatch,theerrorrateforInsertion,Deletion,Mismatchdropsto0.13%,0.12%,0.05%respectively,abouthalfofitsrawerrorrate.Theproportionoffreeerrorreadsrisesfrom48.30%to67.90%.Theremovalofbasesinsequencingerrors’ratioaccountedforonly1.13%indicatesthattheremovalofasmallnumberofbasesinhighsequencingerrorratecansignificantlyimproveitsoverallsequencingaccuracyTherefore,phaseerrorswhenIonTorrentreadinginformationtogetherwiththeprobabilityofsequencingerrorsattheedgeofHomozygousishigherthanotherpositionsandqualityvaluesofmismatchesafterfilterisobviouslylowerthanthevaluesoffreeerrors’andotheranalysisresultsortrendscancontributetothepurposeofimprovingitsqualityofsequencingfurther.Aftersequencealignment,basecalibration,re—alignment,genotypingandSNPAbstractcallingandfilter(optional)steps,theNGS454Pyrosequencingdatafrom22kindsofYeast(averagedepth:18x)willproduce397382lociofSNP,including276925Tiand128467TvaccompaniedwiththeTi/Tvratioof2.156consistentwiththegenomeisaboutoneandsuchproportionisofwhole.genomeSNPtype,whosefrequencyinYeastcall30bp/SNEAnalysisarebeobtainedafterLOFthat346647(87.23%)SNPssitessitesintheUTRlocatedintheexonregions,42,911sitesintheintronregions,200exonregionand119537non—synonymousSNPsitesfromtheofallaresingleaSNPs.204,407(51.44%)SNPsspecies-specific.differentgeneticComprehensiveinformationfromthebackgroundstrainsanalysis,webelievethatassociatedwithitsfunctionalclassification,andtheirSNPmaterialfort11eresearchofevolutionofspecies,differentialotherresearches.informationcanprovideexpression,geneticandKeyWords:Nextgenerationsequencing,SNP,AnalysispipeIV目录目录摘要…….....…….……...........……..……....….…..IIAbstract.……...….....………….......………….....…III第1章引言.………...……..….....…......….........……11.1概述………..………….…………………………..11.2一代测序(Sanger测序)........……….……….………..21.2.11.2.2Sanger测序原理.....….......................…..….2Sanger测序意义.…….….......…..………….....31.3二代测序(高通量测序,下一代测序)….…………….……31.3.1二代测序基本介绍..……................….........…31.3.2二代测序基本步骤.........……...….……………..41.4Roche1.4.1454测序仪.….…….………..…………………4Roche454基本原理…..………..….……........…4454技术特点..........……...……..……….61.4.2Roche1.511lumina公司Solexa测序..........……..…......……...61.5.11.5.2Solexa测序基本原理……....….…..……........…6Solexa测序技术特点.......……...…………….....8SOLID1.6ABILifeTechnologies1.6.11.6.21.7System....………….…......8SOLID测序基本原理…………….………………...8SOLID测序的技术特点…….......………….........10PGM..….........….…….……...……....11Torrent测序原理…........…............….....1lTorrent测序技术特点........…...……..........13NucleotideIonTorrent1.7.1Ion1.7.2Ion1.8单核苷酸多态性(SinglePolymorphism,SNP).…..141.9本研究的内容、目的和意义….......…....…......…...…14第2章材料和方法.....................…….....……….…....17V目录2.1LinuxUbuntu操作系统.…………………...………....172.2计算机硬件.…………..……………………..……..172.3Perl编程脚本语言.......….......……….....…….....182.4数据来源…....……….…………….……….….….182.5二代测序数据格式…………………………………….202.5.1Basecalling评价指标:qualityscore……...……...202.5.2二代测序原始数据文件:Fastq文件………………….212.6二代测序数据处理内容…...………….………....…….232.6.1序列比对……….........……….......…….....232.6.2SAM和BAM文件....………..…….....……….….262.6.3碱基质量校准…….…………...……..…….….282.7二代测序数据分析方法学及发展.…………….......……..332.7.1基因分型和SNPcalling的关系..….....…….….….332.7.2基因分型方法及其改进的概率方法学….……….……..332.7.3连锁不平衡的应用………………….….………..342.8二代测序SNP结果分析..………………....……….....352.8.1SNP2.8.22.8.3calling……..…………....……......……35SNP的VCF格式…..…...…….…....……….....36SNP结果的过滤和优化………….………….……..372.9小结..………………….....……….....………....40第3章结果………….…...…….....…..…....……….…423.1酵母基因组SNP图谱构建………...…..…....………....423.1.1酵母基因组序列比对.………….......……......…423.1.2序列比对后续分析..........…...…..…........…..433.1.3Ti/Tv…….…....….……………...….……..46SNP注释信息…….………………………….….493.1.4单个SNP位点共有菌种个数….………...………....483.1.53.2IonTorrent测序质量评价……….….…..………….…503.2.1编程抽取、处理碱基变异信息…………………….…50VI———————————————————————————旦墨..————————一3·2·23·2.33·2.4Homozygous和测序错误之间的关系..….....………....52Homozygous对测序的影响………………….………53Swap型Mismatch………………………………..53Torrent测序初步评价及初步改善……………....54error质量值的比较……....……....563·2.5Ion3·2.6Mismatch和Free第四章讨论…....………….…......……..….…......…..584·1二代测序技术的发展….…....….....…….....……..…584·2二代测序数据分析发展及建议………....……….……....594.3展望……………………………………………….59致谢……………………………………………………61参考文献.....….…....…....…….......…........…….....62附录A……………………………………………………67附录B……………………………………………………69VII第1章引言第1章引言1.1概述著名的一代Sanger测序…诞生与上世纪七十年代,是最早也是较成熟的,得到广泛应用的测序技术手段。在它的基础上,人类全基因组计划才能够得以顺利开展。虽然到现在为止,一代测序都仍然有着它不可或缺的位置和作用,但总体而言,一代测序测序时间长,测序通量低,费时费力,已经无法满足如今高速发展的生命科学研究和需求。追求测序速度更快,测序通量更大,测序成本更少,测序操作更方便简单的测序技术就成了科学者的目标。因此,二代测序【21技术孕育而生。相比与一代Sanger测序,二代测序提供了成本低廉以及可靠的大规模的DNA测序方法。存在己知参考基因组的重测序,未知基因组的重头(denovo)测序【3],全基因组GWAS关联分析疾病基因定位‘4·51,外显子组测序旧1以及通过RNA测序[8。9】对表达水平进行量化以及群体遗传学等研究中[101,二代测序都被得以广泛应用。二代测序近年高速发展,得以开展大规模物种测序,已经彻底改变了人们对生命科学研究的认识、看法和研究方式,而且快速的推动了包括诸如基因组学、生物信息学、系统生物学在内的多学科的创立和发展。测序技术革命性的变革使生命研究从单一、具备向基因组方向转变。将眼光投向不远的未来,个人个体化的疾病诊断与治疗或许会由于测序技术的变革和突飞猛进的发展而将向基因分子水平迈进u1|。但是,伴随着新一代测序技术快速发展的另一方面就是有悖于新技术而带来的种种难题【l21,比如高通量造成的海量数据如何分析处理,如果没有适当的方法对这些数据进行解释说明,那么这些数据对于研究者而言就没有任何意义。而二代测序其并非完全百分百测序准确的事实情况下,如何评价以及对待这种测序误差造成结果上的差异和影响就显得尤其重要,本文通过从二代测序最基本的原理出发,具体到一般数据分析的各个步骤,详细阐述了理论上的二代测序数据分析和实际操作。第1章引言1.2一代测序(Sanger测序)1.2.1Sanger测序原理著名的Sanger测序又名双脱氧核苷酸(ddNTP)终止法【I31。如图1.1所示,由于ddNTP缺少3'-OH基团,使得其不具有与另一个dNTP反应形成磷酸二酯键的能力。因此,这些ddNTP会中止DNA链的复制延伸。通过设置四个平行的测序反应,DNA链将分别在A、T、G、C处反应终止,形成长度相差一个碱基的DNA片段,结合诸如凝胶电泳和显影等技术即可确定所测片段的碱基序列。另外,ddNTP通过一定的技术手段可以连接荧光标记基团或放射性同位素。通过检测连接基团实现的外部反应达到检测合成反应也是测序自动化实现的基础。s■———卜瑚≈霸■■簟*CTtkAGCTCGACT◆//\\dCTP.dGTP,dATP.dTTP专◆毒.ddWP—I_}一(;^'’‘CGAGCTGdd“l—誉~t:A2”Pr《:A(;吐d(’D-~GAT'TrE;^f;毛:.薯畦d娃—l謦一6^11CGA(;Cddq-…GATTCGddA●■警一(;A订ddf’I-vf;囊r几’GAdd(;I—}一(;ATddT-(捌吐^I-f;A盯(吐烈.IID--GAddT\\\’酣’/’—一—-{i■■——■。镧—■—謦i●__∥■■■—■擎鼍——一蔫—■——●翊—■■,j●●———-鼍——■—,:i一…。./t.-.、o二岂:‘L}.‘:图1.1ddNTP终止法测序第1章引言1.2.2Sanger测序意义Sanger测序操作简单,应用广泛。Sanger测序以及基于其技术特点原理衍生出的毛细管电泳技术在上世纪九十年代为生命科学的发展做出了巨大贡献。由Sanger测序改善发展而来的荧光自动测序技术也成为了NGS的基础。Sanger测序有着其鲜明的特点和优势:它的准确性非常高,一次测序的精确度就能达到99.999%,错误率几乎为零。这也是二代测序目前为止都无法达到的高度;它的测序读长非常长,能达到1000bp,这也是相比二代测序的一个巨大优势;但是,它的通量不高,24h测定的碱基数大约为600,000个,测序成本也比较高。因此,Sanger不适合做大规模高通量的测序。但是由于Sanger测序测序读长较长,对重复序列和多聚序列的处理较好,在比如生物学途径分析,定量基因的表达,生物标志鉴定等区域性或专向性研究中,仍然会大量的应用Sanger测序。因此,目前Sanger测序仍然占有很重要的位置,而且作为能够完成人类基因组的重头测序并组装完成的技术标杆,Sanger测序的超高精确度也一直是测序技术发展的目标和标准。即使在目前二代测序比较成熟的条件下,也需要一代Sanger测序进行协助,配合。1.3二代测序(高通量测序,下一代测序)1.3.1二代测序基本介绍由一代Sanger测序的介绍可知二代测序实际上是基于一代测序的原理,做出了技术变革创新从而达到高通量低成本实现快速测序的目的。其核心原理都是边合成边测序(SequencingBySynthesis,SBS)[14-15]。基因组或基因组靶区域被随机片段化成小序列[16|,然后片段化的DNA样本会根据不同的技术平台做相应的PCR高通量扩增【l7|。扩增完以后的DNA片段将被转移到带有CCD照相功能处的计算机进行合成测序。测序时,利用DNA聚合酶或者连接酶反应合成互补链,合成过程会跟荧光释放偶连起来,或释放出颜色不同的荧光,或者释放出不同强度的荧光,计算机将捕获到的荧光信号经过特殊的计算机软件处理,转换成DNA的碱基信息,实现从光信号到碱基信息的转换。目前,市售的二代测序平台主要有不同公司的四种型号。他们是Roche公司的454焦磷第1章引言酸测序仪[18-19】;Illumina公司的以Solexa为代表的测序仪;ABI公司的SoLiD454测序仪㈣和IonTorrentPGM(PersonalGenomeMachine)[21-22]。其中,Roche焦磷酸测序和IlluminaSolexa测序仪是利用DNA聚合酶进行合成测序,而ABISoLiD测序系统则是使用连接酶进行连接合成反应来进行合成测序。1.3.2二代测序基本步骤包括Roche454测序仪在内的二代测序仪测序的基本过程由以下几个步骤构成:(i)DNA(RNA)模板文库的构建:将基因组DNA通过超声波等随机打断成长度为数十至数百碱基的小片段,通过变性得到单链模板文库,然后再通过接上相应接头固定在相应的固定相上。(ii)以上得到的DNA片段通过在对应不同平台中利用不同的技术进行PCR循环大量扩增,形成DNA簇、阵列或微球。(iii)利用PCR扩增得到的模板DNA链在DNA聚合酶或连接酶的条件下进行合成反应,计算机捕获合成反应过程中产生的荧光信号进行分析得到碱基信息。1.4Roche454测序仪1.4.1Roche454基本原理Roche454是二代测序平台中最早(2005年)应用于商业高通量测序的平台,其核心思想是焦磷酸测序(Pyrosequencing)。如图1.2所示,经过片段化的DNA短序列文库在454中是以一种油包水乳滴结构进行PCR扩增的(emulsionPCR)[23]。水溶液和油混合在一起,以油包水的乳滴形式包裹着一个微型磁珠,这种结构构成了一个PCR反应的微小型反应器。这个反应器包含着PCR反应所需要的各种酶以及其他条件物质。并且保证了单个磁珠之间相互不受影响,让PCR能够高效准确的扩增。经过扩增后,每个乳滴内的磁珠都包含了成千上万个DNA单一拷贝。这些磁珠后续会被转移到带很多d,TL的PPT板上进行测序,这些小孔每个只能容纳一个磁珠,这也保证了各个磁珠之间反4第1章引言应的独立性,确保了测序的质量和准确性。图1-2454焦磷酸测序过程454之所以叫做焦磷酸测序,是因为在边合成边测序的过程中,三磷酸核苷酸结合到DNA链上时会释放出焦磷酸,反应体系中还存在着其他多种酶,如荧光素酶、ATP硫酸化酶等。如图1.3所示【24】,释放出的焦磷酸在ATP硫酸化酶的作用下PPi跟反应底物5’.磷酰硫酸(APS)结合形成ATP,ATP又跟荧光素酶(1uciferin)结合形成氧化荧光素,同时释放出荧光。454测序仪的计算机的CCD光学系统通过捕获所释放出的荧光信号最终计算出碱基信息。这种合成测序体系中通过焦磷酸和其他酶发生一系列的酶促级联反应,最终释放出荧光信号,实现测序的过程就是著名的焦磷酸测序法。T(;(:蠢£CTTT/k蕊CTGGCC5…●噜一£tGAOCGGe…N曲赫文I柏辅}}犍·里兰dNTf/"\、l,}_,;弋:……苎…煎篓!,。i7-p^H溆f叶泌~。、.{77‘f、iextb嚣se^。。。‘’i7l+’玎、。4,Li譬hl《P11w¨‘——/G:i盘G;\\eTNuck嘲t,*o洲图1-3焦磷酸测序原理第1章引言1.4.2Roche454技术特点(i)焦磷酸磷酸最大的特点也是最大的优势在于它的测序读长,理论上焦磷酸测序在单末端测序(single.end)情况下最高可达到500bp的长度,在双末端测序(paired—end,PE)【25J情况下理论上最高可达到1000bp,达到了Sanger测序的长度,这对于序列的拼接组装来说非常重要,长度越长的读长组装拼接所需要的计算量就越小,准确率越高。所以焦磷酸测序非常适合于微生物、细菌、病毒等新的或基因组大小较小的物种测序。(ii)焦磷酸测序实现了快速、高通量检测测序的目的,相比与一代Sanger测序,焦磷酸测序一个run过程中能够产生GB级的通量,上亿的碱基数量,大大提高的测序通量和测序速度。(iii)焦磷酸测序除了DNA聚合酶等反应所需的化合物外,在DNA链的合成延伸过程中,并没有其他的化合物参与,它也没有标记基团,缺少反应延伸终止子元件。所以,在同聚核苷酸区域,如CCCCCCC区域,焦磷酸测序无法精确识别反应碱基数量,计算机只能依靠荧光信号强度来推测同聚核苷酸的长度,这就是Roche454误差产生的地方。焦磷酸测序的主要错误也来源于此,很容易造成基因组的插入、缺失:Insertion.Deletion(Indel)错误。(iiii)焦磷酸测序体系需要依靠一系列的酶进行级联反应,试剂价格相对较高,因此焦磷酸的测序成本是非常昂贵的。1.5Illumina公司Solexa测序1.5.1Solexa测序基本原理Solexa测序和454测序相似?也是采用的边合成边测序(SBS)方法。不同之处在于,Solexa采用的是桥式PCRE261的方式进行DNA片段扩增。在完成PCR扩增以后,桥式结构打开,单一DNA克隆样本形成簇状结构以供测序,如图1—4所示。6第1章引言图14Solexa测序过程在Solexa的测序过程中,如图1.5,Solexa技术将四种不同核苷酸分别标记不同荧光,且每个核苷酸的3'-OH基团经过特殊处理而封闭保护起来的,防止核苷酸进行额外无序的延伸【27。2引。这样,每一轮聚合合成反应过程中,DNA只能延长一个碱基的长度,这很好的解决了454焦磷酸测序对于同聚核苷酸长度无法准确测定的问题。下一轮反应中,上一个碱基的3'-OH封闭基团打开,下一个碱基才能与上一个碱基结合,同时释放出相应荧光信号,计算机的CCD光学系统检测荧光信号从而得到碱基信息,实现测序【291。蛰到篆习习网一图1.5Solexa测序原理第1章引言1.5.2Solexa测序技术特点(i)在DNA聚合反应过程,由于碱基测序依赖于dNTP上标记的荧光,因此记录每个DNA簇的荧光信号,保持DNA链的合成保持一致性非常重要。但是实际过程中,荧光标记物不能及时的淬灭切掉,或者封闭基团无法正确切除都会导致DNA无法正确同步延伸,进而出现信号衰减或者荧光相位移动。因此,Solexa的主要缺点就是由于光信号衰减以及相位移动造成错误率逐渐积累,即DNA片段越长,错误率越高。正是由于这些特点,限制了Solexa技术的测序读长,它的测序读长很短,早期Solexa的测序读长为25bp左右。发展至今,通过PE文库技术可实现150至200bp读长测序。(ii)虽然Solexa测序读长比较短,但是它的优点也非常明显,那就是测序通量最高,系统后续升级较为方便,所需要的DNA样本量非常小。相比其他平台,Solexa测序仪本身的价格就比其他的相对低廉,而且测序不依赖于昂贵的酶试剂,测序成本也是最为低廉的,通过提高通量的方法也在一定程度上弥补了测序读长上的不足。(iii)作为二代测序商业市场占有量最大的平台,很多重要研究都是以Solexa为基础的,因此,除了商业软件,针对Illumina也有很多学术软件,如BWA,Dindel等。这些学术软件都是免费而且高效准确的,在研究过程中都可以找到为相应功能而设计的软件,这也是illumina测序一大优势。1.6ABILifeTechnologiesSOLIDSystem1.6.1SOLID测序基本原理SOLID测序的PCR过程与454类似,也是油包水微乳滴PCR(emPCR)。但是和以上两种方式截然不同的是,SOLID在边合成边测序的过程中采用的是连接反应而不是聚合反应。如图1-6所示,每个连接反应连接的是一个带有荧光标记的八核苷酸探针(图中XY-nnn—ZZZ),其中荧光标记在第八位,第一和第二位碱基(图中XY位)的序列的排列组合方式和特定的荧光颜色偶联起来(图中XY双碱基颜色编码),第三、四、五位(nnn)是通用碱基位。当发生下一个连接反应的时候,上一个八核苷酸探针就会从第五第六位的中间断开(图中第1章引言P处),从而留下前面五个碱基(XY-nnn),并且发出不同颜色的荧光。一X汝虹n乏HlX、;n琏亨陀p-■。=_1蠢鑫鑫。’●、1:翁●●。≥霹毒n已耵嗽艺一|{图1-6SoLiD连接探针和双碱基颜色序列因此,每一轮探针的连接反应,其获得的真实有效的信息就是前两位碱基排列信息所形成的荧光颜色信号,下一次连接反应的实测信息会比上次的信息增加5个碱基的位置。以35bp长度的模板序列为例,经过七次连接反应后,系统会捕获七个荧光颜色信号,分别是第1.2,6.7,11.12,16.17,21.22,26.27,31.32位上的碱基信息,如图1.7所示。第二轮反应在经过系统重置后,引物的位置会往前移动一位,接下来重复上面的测序步骤,这样又可以得到0.1,5-6,10.11……等位置的信息,经过七轮连接反应后,系统再次重置,引物位置再次提前一个,如此反复循环,这样经过五次循环以后,35bp的DNA片段的所有位置的碱基信息都被测定,而且被测定了两次。9第1章引言图1.7连接法测序原理1.6.2SOLID测序的技术特点(i)SOLID测序中因为DNA片段碱基都被测了两次,有效了减少了碱基因为测序本身的错误而造成的错误率,在测序深度达到15x的时候单碱基测定的准确率可以达到99.99%,因此SOLID平台是目前二代测序平台中准确率最高的。(ii)和其他平台直接获得碱基信息不同,SOLID的捕获信息是具有简并性第1章引言的colorspace颜色信号,只要知道信号序列中任何一个碱基的信息,就可以根据颜色信号对应的双碱基信息解码成碱基序列。(iii)SOLID连接测序法的通量也非常高,一个循环产生的数据量也高达10GB,而且其读长也非常短,singelend文库的读长仅能达到50.100bp,PE文库支持下可达到200bp左右。此外,ABI公司收购合并了其他软件数据处理公司,在初步测序以后可以提供基本的数据处理,因此在数据处理方面SoLiD平台具有比较好的技术支持,对数据处理要求没有很高的要求情况下,SoLiD平台自身的软件基本上可以满足普通需求。1.7IonTorrentPGM1.7.1IonTorrent测序原理上面章节已经讨论过454测序的原理,是合成过程中释放出的焦磷酸发生酶联反应释放荧光从而实现测序目的的【3…。和454类似但又不同的是,IonTorrent并不是利用DNA的合成和荧光相偶联,而是在DNA链合成延伸的时候,分别循环加入四种脱氧核苷酸,DNA片段会在如图1.8中的一个称为微池结构的小室(Micro—machinedwells)里进行聚合反应。若发生聚合反应,产生的氢离子会导致微池结构发生ph值的微小变化,每个微池的临近部位分布着离子敏感层(Ion.sensitivelayer),离子敏感层紧接着IonTorrent的场效应晶体管(Field.effectTransitors.FETS)。第1章引言图1-8IonTorrent测序反应结构通过这种结构,离子敏感层会对微池中DNA的聚合反应做出侦测作用,场效应晶体管可以感受到这种高灵敏的pH微小变化,然后把pH信号的变化转变成可以记录观测的电压变化信号,从而实现对模板DNA序列的测定和记录,如图1-9所示。一繁图1-9pH值变化转化为电压信号12第1章引言1.7.2IonTorrent测序技术特点Torrent测序反应过程简单,不需要多酶反应环境和特殊修饰处理过(i)Ion的dNTP试剂,跟其他二代测序平台最大的不同之处就在于其完全摆脱了测序所必须的昂贵的光学仪器设备,并不需要荧光捕获辅助测序,因此也称为无光系统,这极大的降低了测序成本以及加快了测序速度。也正是由于彻底摆脱了荧光系统使得它跟其它二代测序截然不同,IonTorrent也被称为2.5代测序(ii)IonTorrent测序技术使用的技术载体是半导体芯片。半导体芯片的制备工艺相对成熟,发展前景也大,升级较快。通过芯片的不断升级,其通量也持续走高,适合高通量测序。IonTorrentPGM半导体测序所宣称的一天内花费1000美元完成一个人的基因组测序也体现这个平台的前景以及优势。(iii)IonTorrent根据pH变化测定碱基信号,一方面寡聚核苷酸区域出现的信号值并不会真实的反应出同聚物的长度,同聚物区域测序的准确性还有待提高,另一方面,IonTorrent的测序读长目前在单向测序的情况下大概是在200bp左右,对于denovo测序而言,读长还需进一步增加。未来,IonTorrent新一代的测序试剂盒的读长长度将会提高到单向400bp。根据以上介绍可以对各种测序做个小结如表1.1。表1.1测序技术对比第1章引言1.8单核苷酸多态性(SingleNucleotidePolymorphism,SNP)单核苷酸多态性(SNP,如表1.2)是基因组同一位置核苷酸水平上的变异引起的DNA的序列多态性。狭义上的SNP指的是单个碱基水平的转换和颠换,广义上的SNP也可指少量碱基的插入和缺失,或者更大的片段性的重复和缺失(CopyNumberVariant,CNV)【31|。SNP在基因组中分布广泛,以人类为例,SNP出现的概率大约为500—1000个碱基出现1个,人类基因组大约有3e6个SNP的存在。不同于其他遗传标志,SNP提供了全基因组范围内的多态信息,它分布广,数量多,易于筛选查找,因此为复杂疾病易感基因的定位分析,农作物的遗传育种【321,生物进化起源,药物设计等研究提供了良好的材料。表1.2SNP类型ATGcATG(÷ATGcSNPATGCATGGATGCATGCATG——CATGC插入ATGCATGGCATGCATGCATGCATGCATGCATGC—TGCATGCA,I、GCATGCA‘rGCA’rGOAlGCATGCAT(;CATGC缺失CNvATGC————————————————————————————————————————————————————————ATGC1.9本研究的内容、目的和意义Basecalling概念:由上面小节介绍可知,NGS技术的主要原理是边合成边测序。数以百万计的小的单链DNA模板以小序列的形式聚集在一起,同时通过碱基互补配对原则进行合成。合成过程中捕获一系列的荧光或电压图像,二代测序计算机系统的计算方法能够从每个DNA模板类别中得到的荧光或电压强度推断出真实的核苷酸碱基信息,这一过程就叫做basecalling。然而,二代测序由于原理所限和实际操作过程存在误差,其测序本身并不是百分之百的准确,所以basecalling本身就有着不确定性【3引。因此,二代测序数据包括basecalling和序列比对在内的很多因素造成其有着比较高的错误率。此外,许多的NGS研究都依赖与低覆盖度的测序(平均单个个体的单个位点被14第1章引言测序5次,即5x),这也造成了很大的概率在二倍体个体中的两条染色体中,只有其中一条染色体的特定位点被测序。在这种环境下进行准确的SNPcalling和基因分型是非常困难的,造成结果往往具有很大的不确定性。量化和评价这种不确定性是很重要的,因为这会直接影响基于SNP和基因型的下游分析,例如罕见基因突变的发现,等位基因平率的估计和关联定位。减少这种不确定性的一个方法就是对目标区域进行深度测序(>20x),高的测序深度使得每个位点被测的几率增高,这样可以利用每个点重复测序来减少或消除单个碱基的测序错误。但是,对大样本序列日益增长的需求表明,中度测序(5-20x)和低覆盖度测序在最近几年的NGS应用中是最常见和最经济的研究方案。例如千人基因组计划,对大约200个人的全集因组只在3.5x的平均深度下进行测序。对于低频率变异的鉴定,在少量样本的个体中,这种方案比深度测序更加经济有效。同样,在相关的研究领域中,对多个个体在低深度水平进行测序的效率通常会得到最大化【341,而对少量个体进行深度测序的情况却无法达到效率最大化。另一方面,减少和量化SNP和基因分型的不确定性可以用一些复杂的算法来完成。因此,这类研究已经成为目前最为广泛研究的课题【3孓36J。大多数目前的算法都是引用的数学概率论的框架,即所谓的基因型似然性。似然性包括了basecalling,序列比对和组装步骤在内的可能会出现的错误,再加上其它信息,例如等位基因频率和连锁不平衡模式。利用这种方法计算出来的结果就是SNP和基因型以及不确定性的衡量方式(通常被描述为质量分数qualityscore)。这两个结果都具有统计学上的解释。本研究将从最原始、最初步的NGS平台输出的数据出发,到最后转变成一系列最终的SNP和基因型信息。其中需要涉及到一系列的步骤,如图1—10。这些步骤都对SNP和基因分型都有着相应的贡献。我们通过了解各个步骤、流程所涉及的目的、功能、方法和发展来选取适当的算法、软件程序来完成相应的任务,以了解如何解决结果中出现的不确定性,使得能够在后续分析中容纳这种不确定性造成的误差,为NGS数据的分析做一般性和经验性的建议。第1章引言蕊基错误率盼篱量方式短序列在参考基因组的定位碱基错误率的优化初步的SNP和基因分型结果的假阳性图1.10二代测序数据处理基本过程16第2章材料和方法第2章材料和方法2.1LinuxUbuntu操作系统GNUUbuntu是一个以桌面应用为主的基于DebianLinux[37]操作系统的开源系统。虽然在市场环境中LinuxUbunm等系统并不多见13圳,相比Windows系统的份额更是微不足道,但是就科学计算研究领域而言,其良好的框架结构,高度可设置性、高效的运算性能以及良好的平台移植性都为科学研究提供了方便和效率。具体N-代测序研究应用领域中,许多知名软件(如GATK,BWA,SAMtools等)都是以基于linux内核多种程序语言发布的,在linux操作系统中都可以很方便快速无障碍的对这些软件进行应用操作。相反,对于常用的windows操作系统,大部分软件都无法或者非常难于运行于windows操作系统。而且Linux系统一般都内置各种程序语言,无需额外的操作就可以轻松实现编程语言的编辑和运行。2.2计算机硬件二代测序又名高通量测序,顾名思义,其产生的数据均是以GB字节来计算,而诸如千人基因组计划发布的数据动辄上TB字节。抛开程序、数学算法暂且不谈,其本身的数据量大小就已经超越了普通个人PC所承受的极限,因此需要有高容量、运算速度快、性能稳定的计算机作为保障。目前实验室条件良好,有浪潮中型服务器,其有1个可用存储矩阵,1个胖节点,4个瘦节点,12GB内存,12核CPU。操作系统为LinuxRedHat商业版,能够稳定高效的为计算服务。另有个人PC联想ThinkPadR400,搭载双核2.2GHZCPU和LinuxUbuntu操作系统,除了大型运算,个人PC均可完成相关软件安装、调试以及数据处理过程。第2章材料和方法2.3Perl编程脚本语言二代测序实质就是对样本DNA链进行测定,即得到相应的碱基信息,最后的结果也就是A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)、C(胞嘧啶)的排列组合。归根到底就是字符串’ATGC’的信息。而脚本语言P甜【39]最大的特点和优势就在于其对字符的操作能力极其高效。另外重要之处在于Perl内部集成了正则表达式的功能,以及巨大的第三方代码库CPAN。简单的语法但是却不乏强大齐全的功能使得Perl语言在处理字符串相关的工具中非常出色,其巨大的CPAN代码库拥有几乎所有比较常见的任务的相关Perl代码,比如生物信息处理中很重要的工具BioPerl[401。因此,掌握Perl编程语言对于本研究而言能够更加高效和流畅的处理相关问题。2.4数据来源本文所使用的二代测序数据是以不同种类的酵母为基础。在NCBI二代数据库SRA(SequenceReadArchieve)[41】上,上传着来源与世界各地的不同种类的二代测序数据,我们查询了所有酵母菌种的二代数据。根据酵母菌种的种类、、{@桑地、用途、性状等特点,我们最终选取并下载了如表2.1所示的约30个种类的Roche454数据为参考研究数据。这些数据中包含了不同技术的文库构建,包括singleend文库和pairedend文库,文件大小也从单个100M到1G以上范围。此数据主要是用来分析基于二代测序的SNP图谱构建流程。表2.1研究所使用酵母菌数据SRX019567SRXO19568SRXOOO173SRX0374O6SRX04O423SRXO4O422SRX039451SRXO3945016967296396.01292.03723.8l278.661316.23375.79695.5329.6213.939.7525.5311.541183—088887一一心m舭舭胎mmⅢ雕嬲mⅢM肺310374296l4O321O783O9689149O62455943.6815.6825.0513.921口JO4P3656lI。16923一b060第2章材料和方法第二个数据分析目的是IonTorrent测序质量初步评价。其使用的数据的一个基因组已知的大肠杆菌的IonTorrent重测序数据。已知基因的大肠杆菌经过IonTorrent重测序过后,可以直接将测序数据经过序列比对后寻找其跟已知的参考基因所形成的差异位点,分析这些差异位点的特征,可以寻找出差异位点形成的规律以及特征,然后根据这些规律以及特征可以设计或借用某些数学方法来评价测序出错的概率和特征,最终应用与实际未知基因组的测序,消除或者减少由于测序本身带来的错误。第2章材料和方法2.5二代测序数据格式calling评价指标:quality2.5.1Basescore因为在目前所有的二代测序平台中,系统的basecalling并不是百分百准确的。作为最底层也是最重要,最直接的结果,这种测序的不确定性将或多或少的影响测序质量以及分析结果,在分析过程中,如何评价以及量化这种不确定性就非常重要了。另一方面,basecalling的程序会因为测序平台的不同而有变化,这很容易产生各种不同类型的错误。以454平台为例,basecalling会从观测到的荧光强度来推断出寡聚核苷酸的长度。事实上主要的挑战以及问题是,由于某种特定的聚合物的信号强度的变化是很大的,这也造成了插入和缺失会出现很高的错误率。而对于illumina平台,因其测序原理有很好的终止和启动机制,插入和缺失的错误就很少见,但总体上的错误率通常仍有1%左右。这里的主要问题来自于同一个类别中的不同DNA样本的拷贝在合成过程中会变得不一致。每个测序周期中,这种不一致的程度会加剧,这也造成了basecalling会变的越来越不准确。SOLID平台采用的是双碱基编码的方案,即每种荧光染料的颜色能代表四种核苷酸间的组合方式。在这个系统中,DNA样本中的每个碱基都会被测序两遍,一个长度为M的核苷酸序列会被表示为一个长度为M.1长度的颜色序列。colorcalling中出现的一个主要疑难问题会随着后续机器周期中出现的荧光强度误差而变得越来越困难。在这种背景下,就出现了需要对basecalling不确定性进行评价和量化的需求[421。因此,除了确定核苷酸的信息,basecalling的计算方法通过图像分析,使用噪音评估建立单个碱基的质量分数,这个碱基的质量分数就是测序中碱基测序信息的错误率概率。一些测序平台采用了这些质量分数,并且专门以这个分数来定义他们的平台,但是这些质量分数可以很容易的转变成标准的Phred质量分数[43],计算方程是:O(phred)=一1010910P‘ERRoR’例如,Q20的Phred值相应的就等于在basecalling中有着p(error)=1%的错误率,因此Q值越大代表其出错的概率越小,basecalling越可信。根据不同的平台,NGS数据的大致错误率在百分之零点几至百分之几。减少basecalling的误差率以及提高每个碱基质量分数的准确性对组装、SNPcalling、和下游的基因组分析都具有很重大的影响。因此,有许多basecalling第2章材料和方法常是核苷酸序列)和相对应的测序质量信息的标准格式。第一行以’@’开头后接序列有关的通道、流动槽、名字、坐标轴、序列标号等序列有关的标识以及描述信息;第二行就是测序结果;第三行以’+’号开头,后面可以空白,也可以跟第一行一样的信息;第四行是跟第二行测序结果相对应的质量信息,其长度必须跟第二行测序结果相等。如此循环,整个文库序列就以这样的结果储存在fastq标准格式文件中,以供后续分析。表2-2Fastq格式实例值得注意的是,第四行的碱基质量信息是其符号所对应的ASCII[49】码的十进制值做相应的数学运算的值。比如符号5所对应的ASCII码十进制数字是53,而标准的SangerPhred质量值范围是一般从0到92,ASCII码对应的十进制数字范围是从33到126,那么从ASCII码到真实情况的Phred值的运算则为ASCII码值减去33,所以符号’5’对应的Phred值就等于53减去33,等于20,根据公式可得这个碱基的错误概率为O.01,如表2.3。不同的平台,其fastq格式中的质量分数计算方法和取值范围均不同,在数据分析时一定要弄清为何种平台,其运算方式。目前Sanger的Phred质量值在不同平台中都比较通用,也有相应的程序可以方便的对不同算法的质量值的Fastq文件进行转换标准化。比对。MAO【51|,最开始没有考虑gap因素,只计算出两两序列之间的全局中,LL女.u它们或存在不匹配(mismatch),或存在gap(插入、缺失)。在早期的比对软件比对,实际过程中,比对的序列很多都不会找到跟参考序列完全一致的片段,段的类似片段,这一过程也叫mapping。值得注意的是图中所示为比较理想的过类似BLAST、BLAT同参考序列的同源查找后,可以在参考序列中找Nd,片序(re—sequencin91。如图2.2,此为单末端测序情况下的比对,DNA短序列在经比对[501。当然序列比对的前提条件是有参考序列可比较,这种测序也叫做重测序列在未打断之前在原参考基因组的位置。完成这一任务的过程就叫做序列的所以,我们需要知道这些DNA短序列到底是基因组中哪个位置的序列,即短及能够为我们所分析,那么找回这些短序列其原有的信息就变得不可或缺了。后测序完成的,因此其具体信息已经丢失,若想让这些测序结果变得有意义以信息以及对应的碱基质量分数。这些大量短的序列是经过DNA组打碎成片断由上节可知,二代测序的原始结果为一些短的序列的集合,其只包含碱基2.6.1序列比对2.6二代测序数据处理内容化有着非常重要的作用和意义。台中的原始输出测序数据的标准格式,对二代测序数据处理形成标准化和规模二代测序有着通量非常高的特点和优势,因此,Fastq格式作为二代测序平Fastq文件中的质量信息表2-3第2章材料和方法第2章材料和方法G?TGAGG0::GCGTT000GG:A000f0SA07TTG!GTA070G00007GOG:?GAGGC?雾S00T::、?!‘0G:tTOS?A£S£?SS五0了!’?GTAG0置?A000丁:i3f譬TSCg,??置TOG?AC0:{100ACTTTOTA0嚣A!‘A000篁誊00GT堂霉A2Gg?Aeoe譬GgACOT|!tG望AGSA篁AeTI’G{::,g?雪!曼TGGU’Ae007SG_Ae07,{:;TA00A?Aee00GT?=置?GG:AC嚣0700AC了?丁GTAGOATA£00要GAGG£雪?SeST0:’置TGGTAC3C=0舀AC??:‘GTAGSGCGT?0AGS0警=S00T??;.?S07AOS073S曼:££;?TTATGGTAC0:?∞A071’?GTAGSA=AOCOTC五了’GG:ACGCTGGA077TSTAGGATA£001rCG:??:G丁?:-盖TGGTACGCTSSAOT署TGrI_AG0鼻=A£00丁eGTCTCG?GC?COTeGCTGCG070AG鑫£篁2嚣£G0,=蔓TG£謇0STe尝eTGC=37TSAG30警譬00S?T=A?GG.rA(;07eG竺e30TGC0:TSAGS07坌000警掣0A?js0:。A0=五?0G=A00:堂gSAOTTTG!&GOA=Ae00fCG0:.丁TOGTGC?CG?0GOTG0077GAGG07T000T:??0G:GOCGCTGCG:0GAGGOT?0£0=T=互TGGOAC00=GTTGAG00:.等0eG0:!置!GG:A030T00G00T?T:善挈GeG^?GG?A0嚣07GSACm??G=’AGOA?盎000=‘0丁COT-:;C?eGTOGejGCG=?(:;AG0:T零G0¥TT:文个.301AOSOTGGAC!‘TT6冒AS§A=A00CTeG077T(图2-2序列比对1(单末端)除了单末端测序,PE文库构建也是测序过程中经常使用的,如图2.3。PE序列存在两端实际存在的片段以及文库构建过程中两段片段中间的空格,空格长度内的序列信息是未知的。因此,PE序列比对过程需要参考的是文库中两段序列和其长度的总因素。囊唾礴黼鞠奠和一…一————————————哪l豳嘲疆豳函睦囊唾螽晶鞠奠参一…一———————————q瞄穗黼豳妇蘸、\\‘\\/,/一,/。/一,//,一,一,\\、\i麓江;:瓤弩:{鬻嚣。_F,≮。r嘲。聪÷l曩∞袋氅蹴}图2-3序列比对2(双末端)另外,如果不存在参考基因,完成新的基因组的测序叫做denovo测序。24第2章材料和方法Denovo测序在得到测序结果后会应用不同的算法,利用各个序列之间的重叠信息拼接成长的序列,然后将长序列又拼接成更大的片段,各片段再拼接成完整的基因组。这里,本文只针对重测序的序列比对。序列比对的准确性在变异发现中起着关键的因素作用。类似于BLAST、BLAT,序列比对其实就是在参考基因组中寻找与测序序列两两的同源序列的信息。但是,样本DNA序列由于本身序列与参考序列有着多态性,以及测序结果的不准确性,错误的比对序列可能导致SNPcalling和基因分型中出现错误,所以在处理测序错误以及潜在的参考基因组和测序基因组之间由于多态性造成的两者间的差异(包括点突变和插入缺失)的比对算法是非常重要的。此外,比对软件产生一个准确性高的校准比对质量分数也是很重要的,因为突变寻找和他们的后验概率都依赖于这些质量分数。短序列和参考序列之间序列同源性的程度是由准确性和测序深度权衡的。不同的生物体之间可选择的允许错配个数会有所不同。例如果蝇的错配个数就比人类的更具有变化性,如果将分析人类序列的标准用与果蝇可能会导致严重损失果蝇的测序深度,相应的,这可能会导致下游分析中存在潜在的误差,那些可能存在真实SNP位点的区域将会被忽略。同样,将用于果蝇的标准用于人类可能会导致大量的不正确的比对序列。大多数NGS数据的比对算法都是基于哈希(hashing)算法或者被叫做“Burrows.Wheelertransform”(BWT)p2J的有效数据压缩算法。基于BWT的算法(如Bowtie[531,SOAP2和BWA[54-551)速度快,内存使用效率高,并且尤其使用与重复序列比对,但是他们的灵敏性要低于基于哈希的算法(如MAQ,SSAHA2p6J)。对于不同的平台,其测序读长也差异较大,从50bp可变化至500bp。当然,读长越长,其序列比对或拼接所需的计算量越小,结果也更精确。‘其次,读长的差异也必然导致序列比对算法针对的实际情况有所不同,以BWA为例,其默认设置是针对长度比较短的序列比对,但是对于读长比较长的序列,它还有专门针对长读长的比对算法和相应设置。目前,基于BWT算法的BWA软件在比对算法中运用了Smith.Waterman(SW)[57】算法,该算法先用迭代方法计算出两个序列的所有可能相似性比较的分值,构建打分矩阵,然后通过动态规划的方法在得分矩阵中回溯寻找最优相似性比较。SW算法很好的处理了比对过程中出现的空位以及插入的情况,因此,SW算法能够在比对序列中寻找出局部比对的最优解,相对于MAQ软件不能支持空位查找,仅能进行全局第2章材料和方法比对搜寻同源序列的缺陷而言,重测序的序列比对更适合运用基于SW算法的局部比对算法。结合使用经验以及文献报道,对于IlluminaSolexa,SoLiD测序等短读长而言,本文推荐的比对软件为BWA和MOSAIK[58】;对于454平台等较长的序列读长而言,本文推荐SMALT(SSAHA2的改进版本)和BWA.SW,对于可变剪切情况的序列比对推荐用Bowtie/Tophat。以上软件均能在个人PC上较快较高效的完成较大测序数据(小于10GB)的比对工作。序列比对一般过程为:苗‘先用软件将参考基因组进行hash分组,得到参考基因组的搜索索引,然后将测序fastq文件输入软件设置相应参数进行计算,寻找序列在索引中的位置,得出最后结果。表2—4序列比对软件属性一般而言,参考基因组和测序基因组差异性较高区域的比对是比较困难的。这种情况可以用长读长和配对末端读长(paired—end)改善。但是,组装比如MHC(MajarHistocompatibilityComplex)这种高度差异性的区域仍然是个挑战。可以利用一种基于图像论的新的组装算法【601,利用序列的重叠信息把这些序列拼接成连续的序列,这也为这个挑战提供了一个可行的方案。结合这些比对方法来研究复杂区域的遗传变异将事最近几年的热点研究领域。2.6.2SAM和BAM文件在完成比对软件对测序原始测序结果fastq文件的比对工作后,大部分软件都提供了产出SAM(SequenceAlignmentMap)[611或者BAM格式的结果文件。BAM格式是SAM格式的二进制格式。二进制格式在保证信息完整的前提下可28原始碱基质量分数的真实性和准确性。可以重新调整到相应的准确的位置上,这说明后续的质量校准可以有效的提高值分别下降到0.186和O.089,由上部分图也可知0到40值之内的质量分数均量分数的RMSE值分别为2.207和2.609,但是经过碱基质量校准以后,两者的图2.5下部分两张图可看出,机器循环造成的原始碱基质量分数和实际经验质错概率,因此对于质量分数的优化是完成对二代测序不确定性评价的完善。由量分数,二代测序的不确定性的一个重要评价参数就是使用质量分数来评估出calling及其质重要的,因为SNP和基因分型都要依赖于特定位点上序列的base始的质量分数就需要进行重新调整,获得一个良好的调整后的质量分数是非常种情况下,为了让Phred的Q值能够更正确的和误差概率10。Q/10对应起来,原有较大差异,原始质量分数均偏离了45。直线代表的实际的质量分数值。在这上部分的GA和Hiseq2000,原始的碱基质量分数均和实际的经验性的质量分数base—calling的误差概率【6引。如图2.7所示,以Illumina公司的两种型号为例,但是,由base.calling算法产生的原始的Phred质量分数可能不会如实的反映出经过序列比对后,可得到序列在参考基因组上的位置信息以及其质量分数。2.6.3碱基质量校准标识缺失,则必须由Picard进行添加相关信息。group)另外一个软件套装Plcard[62)完成,比如若果BAM文件的序列集合(read另外,有些SAMtools暂时无法完成的功能或者某些可以完成的功能同样可以由等任务,这些操作对于SAM/BAM文件的流程化的标准操作而言是非常重要的。第2章材料和方法詈霉.{.一。f::量s。1萋茎j詈2{。一‘:l:r,r,.。。耋曷jumina/GenomeAnalyzer…I第2章材料和方法o蛐1’嚣{B,。2000lumina/HiSeq非多态性位点。如果某种物种在一个综合SNP数据库中没有数据,那么首先可上下环境对测序造成的误差。如上所述,这个碱基校准的算法使用了一系列的加接近与真实的经验值,比如原始的报告Q值,机器周期误差,以及二核苷酸的不同型号的二代测序仪,经过碱基质量校准以后,原始的碱基质量值会跟更得到应用,它也能使用与各种不同的测序平台,如图2-6所示,对于不同平台差异来评估调整后的质量分数。这种重新调整的算法已经在千人基因组计划里在原始质量分数的基础上,结合经验分数和原始质量分数表示的错配率的残余个计算算法通过利用和参考基因组的非匹配的个数来评估它的经验分数。然后group)。对于每一个类别,这序列中位置,上下相邻核苷酸和序列组别(readcalling产生),在据以下特征分成不同的类别,如:原始的质量分数(由base期、上下相关核苷酸。对于所有的非多态性位点,比对到这些位点的碱基会根对校准的算法已经在GATK中得到应用,它也考虑了几个变动参数,如机器周过比较测序基因组和参考基因组的位点来进行重新调整的。一个相关的基于比在另一软件SOAPsnp中,那些不存在真正SNP的位点上的质量分数是通nlumina碱基Q值比较图2-5.一‘荨一·Rec,alt勺tat酣RMSE-Onglrla;RMSE:2207RepenadCy。Ief,^achme352515150一50一100readspairolFirstSecond·R∞alib堪∞.RMSE=0Qual竹Reported403020CvdeMachine1000r_————————————————T_——————————r.,.二:l·l:l:},(‘’。一.二:。it:="l:l:!:‘p{“r————————————————————r—————————?—第2章材料和方法一一———————————————————————————————————————∑——一以找出那些极有可能是真实的候选SNP的位点,然后对剩余的位点进行重新调整。在这种情况下,后续的SNPcalling就应在进行重新调整质量分数的情况下进行。i罐;≤i≤≤呈一二~一一一。一一图2-6各平台经过碱基质量校准后的效果除了正常的碱基质量校准之外,另一方面,对于出现的插入、缺失(Indel)也存在着许多错误,如图2-7,对于同一流动槽(flowcell)内的两个通道(1ane)中,在36bp处均可以观察到明显的indel错配,因此对于这个区域内出现的插入、缺失而言,显然是不可信的。第2章材料和方法.盯an“删~奴№一栅伯体3雕m州蜘眦她蒯眄~一~一~一Ⅵn址a=t_m÷既如c鸭神嶂一:盼∞no(+aal图2.7二代测序中明显的Indel错误另外,碱基的上下文环境也影响着造成插入、缺失的概率,如图2.8所示,AATCG序列接后面不同的三核苷酸的情形和AAAAA接相同三核苷酸的情况造成的Indel进行比较,AAAAA情况下所形成的Indel概率就要比AATCG情况显著升高。这是因为在不同的核苷酸环境中,就像图2.5形容的碱基质量其实也是存在一个经验性和报告性的质量分数差异的情况,比如不同的二核苷酸上下文环境会对碱基质量分数造成影响,同样,对于Indel,不同的核苷酸环境中,二代测序仪由于无法避免其计算方法所造成的局限,而形成某种情况会误认为Indel,造成有些类别情况会有很高的概率被计算出本身实际不存在的插入、缺失情况。第2章材料和方法;i;至置i}墨;;§§卺暑耋兰i;§呈;§i墨i£§§至ii兰;i;’量;i;!;g§£害:i墨三宴i三;要}三;ii;ii未三suffix跚;渊;m毋:g吨难三;:_三兰:.÷.:二;:;三圭三}j;:。:j二.?::i==。j鎏≥:≥j≥:!三:’J:二;;:三i≥};手,i三jIj二i};:三三三三图2.8不同核苷酸序列对Indel的影响因此,除了碱基的质量值,目前最新的办法是对插入、缺失也引入质量O值的方法来评价插入、缺失的可信度。如图2.9,从左至右为不同时期基因分型的三种计算工具:UnifiedGenotyper;HaplotypeCaller;HaplotypeCallerCalibrated。前者是早期的基因分型工具,第二个是改进过的工具,从图可看出,引入插入、缺失质量值后,其对基因分型的实际经验性的质量和准确性都有较为显著的提高。,≯,7,7≮图2-9引入插入、缺失质量值对基因分型的影响第2章材料和方法2.7二代测序数据分析方法学及发展2.7.1基因分型和SNPcalling的关系由basecalling和其质量分数到基因分型的过程通常有两个步骤:genotypecalling和SNPcalling[“]。SNP的目的是确定哪些位点存在多态性或者是哪些位点至少存在一个碱基和参考序列不一致,也通常又被成为variantcalling。基因分型是确定每个个体基因型的过程,它通常发生在那些已经被确定存在SNP或变异位点上。用calling这个词来象征一个独特的SNP或genotype的估计。在早期的研究中,genotype和SNPcalling在进行callSNP和genotype时可以通过使用简单的截止规则在每个位点上计算等位基因频率。最近更多的方法将这种不确定性纳入了概率统计的框架。在这个概率流程中,是完全有可能将有关等位基因频率和连锁不平衡的模式的有关信息进行进一步整合的16川。2.7.2基因分型方法及其改进的概率方法学早期的NGS研究对每个个体样本数据的分析,SNP和基因分型是单独进行的。通常情况下,分析过程将会涉及到一个过滤过程,它只会将那些高程度可靠的分数保留下来。最常见的质量截值为Phred=20。然后通过计算使用这个截值后观测到的等位基因的次数来进行基因分型。基于这些被推断出的基因型,然后就能进行SNPcalling。例如,当使用Q20截值时,如果非参考位点的比例在20%至80%,就认为是杂合子基因型,这个位点也是SNP位点,不然就认为是纯合子。当测序深度大于20x时,这种程序是非常标准的,且运作的很好。因为这种情况下个体间杂合子落在20.80%之外的区域的概率是很小的。这种用于基因分型的相关方法构成了市售软件的基础,如Roche’SGSMapper;CLCGenomicworkbench;DNSTARLasergene等。这些方法通过使用更多的经验性的临界Q值可以得到更好的改善。相比于早期的方法,简单的使用经验性的截值进行基因分型计算,其在测序深度大于20x时运作很好而言,若中度和低度测序也进行基于改进截值的基因分型将会导致杂合子基因型的概率被低估,另外,低覆盖度测序基于质量分数的简单过滤也可能会导致丢失本来信息量就不够大的相关个体序列质量的信第2章材料和方法息。这种类型基因分型的另一个不足之处在于,它通常没有提供推断基因型不确定性的措施和方法。出于这个原因,使用质量分数来为每个基因型提供后验概率的几种概率学方法就被开发出来了。比如先简单的假设计算一个基因型为G的似然性P(XtG)。符号x表示特定个体的特定位点上的所有的序列数据信息。结合基因型先验概率P(G),利用贝叶斯公式来计算P(GIX),这就是基因型G在特定序列信息情况下的后验概率。最高的后验概率的基因型通常会被挑选出来,这个最高的概率或者最高和第二高之间的比率通常被用于检验可靠程度的方法。这种概率法的优点在于,在基因分型的时候它提供了统计不确定性的方法,它使得基因分型更加准确,以及在整合相关等位基因频率以及连锁不平衡模式信息的时候,提供了一个可行的模式框架。2.7.3连锁不平衡的应用目前讨论的方法都是假设基因分型是在单个位点单独完成的。但是,在附近的位点上。很多都能通过连锁不平衡【66]的模式来得到不少的提升。几种不同的群体遗传学方法因SNP数据的丢失的归集而被开发出。简之,这些方法通过在位点上使用连锁不平横的模式来推断基因型。举个例子,一个个体被观测到的三个位点是TAT和GCG,如果个体的第一个位点是T或C,那么第三个位点也是T或G,但是第二个是未知的,我们可能会认为未知的基因型是A或C。这些算法的简单应用使得他们能够利用NGS数据。连锁不平衡模式的使用就是千人基因组计划的基石,它也让基因分型的准确性有了明显的改善。图2.10对比了三种基因分型方法的准确性:单个个体单独进行计算(图中蓝色线段);对所有个体一起进行计算且不使用连锁不平衡分析(图中红色线段)和对所有个体一起计算并且使用连锁不平衡分析(图中黑色线段)。从图可知,对于蓝色和红色线段而言,使用多个个体导致了在基因分型时比单个样本的准确性有了大幅提高。从红色和黑色线段而言,连锁不平衡信息的使用在准确性方面提供了甚至更大的改善作用:大约能达到96%的准确性。获得相同水平准确性而不使用连锁不平衡信息的情况下大约需要而外40%的non.calls(非准确性的基因分型结果)基因型,也就是说,这些non.calls就成为了缺失数据。显然,当多个样本测序时,连锁不平衡模式的使用能大幅改善基因分型。当有一第2章材料和方法个高质量的参考数据时甚至可以得到更多的好处,例如当Hapmap或dbSNP数据存在时准确性的增益主要是从中等或高等位基因频率多态性中获得的。但是,罕见的基因突变的SNP和基因分型在使用连锁不平衡信息时也无法改善很多。这还需要进一步的发展和研究。1。OOO.950。90O.85。三—O。80OProportionofnon—calls图2.10不同基因型方法的比较2.8二代测序SNP结果分析2.8.1SNPcalling到现在为止,我们只考虑了基因分型。这个问题和怎样callSNP略有不同。在早期NGS文献中,只分析了单个基因组,SNPcalling和genotypecalling或多或少都是一样的,作为推断出的杂合子或纯合子,非参考的基因型将意味着一个SNP的发现。但是,这可能不是最佳方式,因为假阳性比率会随着样本量而直线上升。此外,多个个体的信息在使用基因型时并没有最好的结合。理想情况下,后验概率的结合将被用来确定所有基因型对照参考序列是纯合子的概率,产生的结果就是SNP和一个相关的信赖分数。第2章材料和方法2.8.2SNP的VCF格式从最原始的Fastq文件,经过和参考序列的序列比对,以及质量校准重排,SNPcalling后就可以计算出相应的SNP位点信息。由于二代测序数据量极其庞大,其SNP的结果的个数也非常之多,因此,如何可以方便、批量、高效、安全的储存以及适合生物信息分析操作这些结果也是需要解决的问题。面对这一需求,千人基因组计划在完成SNPcalling之后发展了一种方便保存这种结果的文件格式,为VCF(VariantCallFormat)[67]格式,这种格式其实质上是由GVF(GenomeⅧentFormat)改进而来。其中一段例子为图2.11所示。其中主要包含一些注释信息的头文件(Header)以及储存SNP信息的正文(Body)部分。头文件包含了所使用样本的名称;参考序列名称;默认或者可选参数的设置数值选项以及对正文部分的部分解释等内容。正文部分第一列是染色体编号,第二列是染色体位置坐标,第三列是突变的ID号(若存在dbSNP[68】参考结果);第四列是参考基因组序列,第五列是突变信息,第六列是突变质量分数,第七列是过滤信息,第八列是其他信息,第九列是基因型信息格式,往后就是单个样本的具体基因型信息。以第四个SNP为例,其含义为:在1号染色体的第五个碱基上有着A/G多台位点,样本的基因型和基因型质量分数分别为,第一个样本1m0意为杂合基因型G/A(0代表参考基因组序列,1代表突变序列中的第一个),其质量值为77:同理,第二个样本的基因型为纯合G/G,质量值是95。在实际计算过程还有许多其他有用的参数,每项参数的具体含义请参考VCF文献或者干人基因组网站的相关介绍。一ntp…4一dk一…ow|篓麓蒜吼。瑟÷Ch,ec//liI牌&IODtiorm,header№。。meta。:鞭蘸鬻薰囊TvDe黧=].e。FORNt;###G嘲A1=心0口∞K“脯e,=i0批u砒跨’=7.:尊##J豫M^T2dD=OP‰omo?r=1l砧矗t下*tj【瑞05:,00s=rlp=10n#”}}鲁、etjDp”≥;#爹I}{#必ci轻巧VoY艇,Nun,be悻:了v#e=;I-'-lng,bes:一』o:。∽1Ty:,e=f冀DesDes嚣篆;嚣警≥泛娑‘誊篓耋一。一.=.Feq}“.融s:’蟑:joP.℃:v,‘一r/o鼯Rh舡oe7;:j=rj’:二on;一=o—u’?:t二。L;?jⅣ:1;.∥t[。=n‘r:…e_=.!:o’£o释j汴=‘11。20+SAMR旺己,一Refe障nceL韶7……………喜{;,≥涉霉≤渣\粱%黜瑚㈢6T:D缈P毫器一然抛l确∞7SNP/{\nse嚏m眦№。even’pha二d。ta(6and:a。。∞图2.11VCF格式第2章材料和方法2.8.3SNP结果的过滤和优化如果每个位点的后验概率都计算正确,而且考虑了所有于错误相关的信息,也就没有理由添加额外的过滤或对数据进行额外的操作。但是,对于很多真实数据,情况并非如此,如图2.12,以已经测得的实际的SNP结果作为训练集进行机器学习计算其高斯混合模型,如图2.14A,可得杂合子和纯合子突变的一些图形规律,黄色部分为错误所在区域,将同样的方法用于新计算出的SNP结果中可以得出类似的图像B,图形规律同A中类似的区域(画椭圆区域)为可能真实准确的SNP结果。而图中紫色部分则可能为不准确的假阳性结果。所以,经过以上完整流程的来的SNP结果中,仍有相当一部分是不可靠的,这时使用一系列的过滤步骤可以很大程度上改善基因分型和SNPcalls。例如,千人基因组计划【54】就把那些和已知的Hapmap[69】数据中的基因型差异过大的需类集给淘汰掉。这种类型的过滤只适用于那些已经存在基因组范围内的SNP分型信息个体的重测序情况。那些其它非人类的物种,或是人类中没有基因型数据的NGS,都将比千人基因组中观测的数据有着较高的错误率。HiSeq:trainingonHapMapLI№打d0SNr'eVaa伟/”一竺墨竺羔御’“州‘。神辄‘吣赣e■■匿■—醪№纛纛孙瑟¨《k~黟一。~瑟篓。lo蜘船一FBias。:扣■^o■dh图2.12SNP结果评价其他基于HWE偏差的过滤,通常有着较低的质量分数,以质量分数系统地识别主要和次等位基因。异常的连锁不平衡模式,如极端的序列深度,链偏差以及其他偶能有助于改善基因分型和SNP.calling。如何使用适当的过滤方法需要依赖于测序方法和上游分析。比如,一个有着链误差的位点(正负链不成比例)可能会容易出错,应该被过滤掉。但是,如果序列是用于捕获序列的,比如那些用于外显子捕获的序列,那么这种偏差可能就不是意味着一个有问题第2章材料和方法的位点而是捕获阵列中的一个人工错误。针对原始的SNP结果,有许多经验性的参数都影响着SNP最后的准确性,这些参数有QD,MQ,HaplotypeScore,和ReadPosRankSum等。这些参数对SNP准确性的影响如图所2.13,14示。利用不同的参数来评价所有的SNP位点的信息,那些符合实际经验性存在的SNP位点信息规律的SNP才能认为是计算过程中寻找到的真实SNP位点。_一图2.13极端违反HW平衡近亲系数的点(红色)为假阳性Iod隧一鬈0DQD图2—14qD(Quality/Depth)值和Haplotype值对SNP筛选的情况第2章材料和方法还有一种比较常见的情况,就是在比对过程中,那些比对在插入缺失边缘处的序列更容易出现看起来像SNP位点的不匹配位点,但是,实际上其中很大一部分是错误的SNP,如图2.15,红色代表假阳性的SNP位点,大部分位于DNA片段序列造成的插入、缺失处,在间隔处尤为明显。r2,3rld已r¨】1睁f:+f档ns譬1s1.hdeiL—FilteredinVQSR.Cailedin2,§CailedinVQSR.fillered2/5图2—15处于Indel边缘处的碱基更容易形成假阳性的SNP因此,在插入缺失边缘处的序列,需要对序列重新进行比对,即localrealignment,以消除或减少这部分造成的误差。图2.16显示了一个经过比对后的片段经过localrealignment后,那些很明显并不是真实的SNP结果大量减少,有效的提高了SNPcalling的准确性。最后,高度重复的序列也不应该成为查找变异位点的因素,将那些高度重复的序列在文件中进行特殊标记可以使计算算法对这些序列进行忽略。第2章材料和方法efDe,~~~吲w引酬难~m时~铋引廿.m.∞一一.眵论琢伦阡~|喜)裂黔~mⅢ陀蚓洲一~州撤削舶№~On0汁a~b当唧m~图2—16Local黧篓州删删献_.墓。一~~一一~一~.曙。讲邓.mm~M协…域训竺realignment对序列比对SNP结果的影响效果2.9小结NGS基因分型方法的选择最终和数据的后续分析有关。不同的应用方法需要不同的基因分型方法。对于低度或中度测序的数据的基因分型过程会带来不确定性,在很多的应用上,考虑这些不确定性是尤其重要的。NGS最重要的应用之一就是关联定位分析。在目前基因分型不确定性中,使用等位基因测试取得的P值的标准方法是无效的,因为存在潜在的纯合子或杂合子被高估了。但是,如果错误结构在实际组和对照组是一致的,说明很大程度上违背HWE并不会导致过多的假阳性。尽管如此,他们可能还会遭受到效率上的衰减。甚至低水平的基因分型错误也会导致效率强劲的衰弱。这种效率的减少并不能通过增加过滤步骤来避免,因为过滤是基于基因型的质量分数的,这种过滤通常只能导致效率的进一步衰减。第2章材料和方法但是,基因型后验概率的使用允许有效检验的结构能够结合所有个体的概率,以及有效的总结了所有可能的基因型。对于测序数据,这种方法已被描述为等位基因测试和用与单体性数据的方法,比如得分统计和Bayes模型【7…,是很有吸引力的方法。类似这种方法导致关联定位有效统计检验以及提高定位的能力。对于基于连锁不平衡的方法,这意味着进行多重计算,获得多个可能推断出的数据的样本以及根据相关概率对每个进行加权处理。大多数用与基因分型的基于连锁不平衡的方法都是为了这个目的而研发的,它也很容易能够应用于多个样本中。基因分型的不确定性同样是人类遗传研究中的一个重要的考虑因素。在这种研究中,许多推论都是基于等位基因频率而忽略了不确定性会导致估计出现偏差。等位基因频率的分布将会有偏差【71l,在应用与群体遗传学的大部分常见的统计方法会导致偏差。有参考文献【72J中提到解决这个问题的一个方法涉及到了计算每个位点的等位基因的后验概率。用于估计变异,检测选择,量化人口亚种的群体遗传学方法可以通过总结这些后验概率而进行。41第3章结果第3章结果3.1酵母基因组SNP图谱构建3.1.1酵母基因组序列比对酵母基因组二代测序数据选用的图2.1内的数据,测序平台是Roche454。454焦磷酸测序的测序读长比较长,但是所有这些类别的数据分布于不同国家、不同地区、不同时期,菌种种类也不同,各个实验室的测序技术手段,测序一致性也不一样,因此,虽然454其测序的读长比较长,但是考虑到这些很多因素会造成很多不一致性,测序读长就是其中之一。虽然同为454测序,但是基于不同文库构建的手段不同,测序读长也不同,比如单末端测序读长有的为100到200bp,有些除掉测序质量非常差的碱基后甚至只有几十bD,但是基于双末端(pairedend,PE)文库构建的测序读长却可以达到400—500bp。原始的测序读长相差较大,而测序读长又在序列比对步骤中影响较大,不同的比对软件对不同的读长序列的比对效果有着较大差异,因此选取一款合适的软件保证能够既对较长读长有比较良好的比对支持和效率,同时也能兼顾相对较短读长的比对效果。另外一方面,在这些酵母454测序中,存在着单末端测序和双末端测序,因此,比对软件也需要对不同文库构建技术的读长也需有良好的支持。综上,本文选取了SMALT作为这些数据的比对软件。SMALT是Sanger实验室基于SSAHA2的一个改进版本,它对三种平台的不同读长的数据都能支持,也能支持PE序列的比对,而且相比SSAHA2,它的计算速度更快,计算要求更低,计算准确率更高,使用起来更加简单方便,它也能产生SAM标准比对格式最为结果输出。SMALT操作简单,首先将酵母参考基因组(¥288CR64版本)进行哈希计算,计算出一个被索引过的smi文件,这个索引文件将用于fastq文件中的序列比对。然后将单末端数据或者双末端数据的两部分文件和索引过的文件进行比对计算,计算的结果就是最终一个比对结果。第3章结果一个类似的计算机指令如图3.1,.f指定输出格式,一O指定输出内容,后面的路径参数为输入序列参数。图3-1SMALT序列比对参考命令序列比对完成以后可以利用基因组可视化工具IGV(IntegrativeGenomicsViewer)[731观察比对情况,如图3.2。灰色条状为实际的测序短序列,下方为参考基因组序列,灰色条状中若出现ATGC字样则为该位点出现跟参考序列碱基不一致的情形,其上方的柱状图是每个位点的测序深度。利用IGV可以快速的定位到研究者个人感兴趣的区域。川r-=flN:005.i三_}【二5e.C1≠昔I田51嘶’"卿坤,∞蜥坤1∞舢扫。图3-2IGV可视化基因组酵母454测序数据包括22个样本在内的88个文件,总共大小约为12GB。在个人PC上,通过Perl的程序化处理可以在1天内完成所有原始文件的比对工作。这与酵母基因组较小,454测序平台的读长较长有关。3.1.2序列比对后续分析在完成序列比对后,按照第二章的讨论,参照SNPcalling过程一般会出现43第3章结果对结果产生影响的因素,需要对比对文件BAM进行质量重新校准等一系列操作,这里,本文借鉴了千人基因组计划的基因组分析工具GATK套装[74-75】里的一些计算软件。对于二代测序,包含的大致的处理过程为三部分,如图3.1。第一:原始数据的初步处理,包括序列比对、碱基质量校准、Localrealignment等,这一部分的目的主要是完成原始数据的校准化处理,为后续分析提供标准的文件。第二:利用突变查找计算工具计算比较初级原始的突变信息,包括SNP、Indel、CNV等。第三:就是在条件允许的情况下(能提供图中橙色部分数据),针对原始的突变信息,利用额外的信息对原始突变信息进行分析、筛选和优化,得到的最后结果就是认为比较可信的变异信息。二代测序数据分析处理步骤又因研究目的、方案、手段条件不同而不同,根据自身的研究实际情况,结合其他重要软件(如SAMtools、Picard等)设计出符合自身数据处理特点条件的方案是尤其重要的。瓣∽瓣鼹瀚饕蔫黪麟嘲糍蕊每毋搿戮豁㈣j徽i错!;嘲黼、蠲i鹕鼎辩聱l嚣臻㈧馨羞猢㈣g曼曼曼曲标准化§㈣渗一;序列比对##∞d黜89#黼8#《描※g§§※≮‘≈《《xs£窬■》《爨g二§蹿z“,。一;t。*j》一{掰㈣糍蘸黼嚣蟪;端4麓《㈣女‰E女¥≯。强栈》话≤质量校准;s*》一;区域重比对多态性变异标准化BAM2;;6盯r7基[司分型、触崩蔫i点二…誓二竹~插入、缺失ij原始结果t黑=:?。。,。。,i;;萋。《;蓦袅.嚣耋篓#、__。哗x心,薯*.蕊=7;};蔓。黔∞”“∞‰掰;;;}Yj蔷童黧∞ii辩’群;臻大片殷变异i“嚣!g删曩£iii;耋乏∞《§!i糍}。已知多态性已知基因型结果筛查过滤最终结果;后续分析二。信息图3-3二代测序数据处理一般过程处理过程的每一步骤的含义及其操作过程如表3.1。45这种方法对于前期参考数据匮乏的数据而言比较有效,但是因为高通量数calling参考命令SNP图3-4请参考GATK说明文档详细信息。conf分别指定突变位点符合要求和过滤质量阈值,其他具体指令emit和.standconfcall的工具方法,一I指定输入BAN文件数据信息,.O指定输出文件,.standcallingcalling的参考命令如图3.4所示。.T指定SNP~个GATK的SNP部分质量分数高、可信度大的位点。如此往复循环,一直到结果收敛。得到第二次的运算结果,将第一次的结果和第二次的结果进行比较,选取重叠文件。然后返回重头开始运行处理,利用上回的结果作为参数进行质量校准,批量选择质量参数大,可信度高的位点,人为的构造相当于dbSNP功能的突变校准的部分,以原始数据完成SNP图谱的构建,然后在原始SNP数据中人工必须采取迂回绕道的办法实现这一目的。具体可采用的方法是:首先跳过质量准部分而言,这一环节就无法顺利的应用于酵母基因组的SNP图谱构建。因此,所以其dbSNP数据库非常匮乏,对于非常依赖于有先验概率情况而言的质量校首先,作为重要模式生物的一种,暂时还未有酵母的全基因组SNP图谱发表,情况而言,酵母基因组SNP图谱构建又跟理论上的方法学有着很大的不同点。能够实现具体的每一个步骤,自然是能够产生足够准确的结果,但是根据实际具体到本文酵母基因组的构建而言,对于第二章节详细的理论介绍,如果SNP构建流程框架表3.1第3章结果~一=一…‘o:|¨“‘”““F誓鬻?第3章结果f一{篷一一£Cj簿戆图…、奠……_:…~==+∑:。·。,…。……囊爱一一…48行后续验证是否这些SNP是不同菌种差异形成的差异以及其他感兴趣的研究。具有比较高的遗传信息和背景。因此,可以利用这些单菌种特有的SNP位点进SNP。我们猜想单菌种特有的SNP很大程度上是形成特有酵母菌种的一个因素,数,如图3—8所示。大约超过200000个位点(约为50%)是单菌种所特有的由VCF文件经注释信息统计计算得出每个SNP位点发生多态性的菌种个3.1.4单个SNP位点共有菌种个数表3-2本文SNP结果以及Ti厂rv值和假阳性关系套流程在酵母454焦磷酸测序全基因组多样本分析中起到了相应的作用。Ti/T、,:276925/128467=2.156。非常符合全基因组SNP类型比概率特点。说明此SNP位点,其中转换(Ti)类型有276925个,颠换(Tv)类型共有128467个,本文酵母全基因组SNP构建结果(表3.2)统计计算得其共有397382个Ti厂rv比对SNP的影响umuiaflve:。羔鹜薹篓!釜二要。蠢遵i羞篓嚣醚ii誊篓三三.i黧_3.7TPs篷鎏鋈耋鎏粪鋈鎏i羔:i譬x∞§一塞乱TreⅢnch’黑specI酰hc.弛一:。一三T油rarlc∞h-叶st’一ecihcF印SNP与菌种关系第3章结果瑚也是不同菌种表达差异的原因之一。了解其对不同菌种间的差异影响。外显子中的非同义突变比率接近50%,也许大的影响,处于其他区域(如内含子,ncRNA)的SNP也需进一步进行研究,在的特定区域有关,大量处于外显子区域的SNP对不同菌种的形状或许有比较消失1396次。SNP的LOF分析结构表明,不同菌种间的差异形成或许跟其所位点可能发生多种突变)。非同义突变中形成新的终止子2761次,原有终止子子区域内的SNP位点中,有138126次同义突变,119537次非同义突变(一个为ncRNA区域,而处于UTR5和UTR3区域的位点数量明显较少。其中,外显64.21%的SNP位点位于外显子区域,10.80%位于内含子区域,14.77%位点SNP结果进行统计,部分结果如表3.3。释程序对所得VCFFunction)注R64基因组注释信息利用LOF(Loss根据酵母基因组¥288CSNP共有菌种个数图3-8SNP注释信息3.1.5∞渤|兰||49Of洲P共有菌种藏p位点敏50如图3-9所示。们利用Perl语言进行编程智能化、批量化的进行数据抽取。部分Perl程序代码格式文件抽取相关信息。而Perl语言是进行文本操作的最优秀的语言,因此我法进行打开或编辑操作,但SAM格式为纯文本格式,所以,我们可以利用SAM应的比对错误区域。又BAM格式是SAM格式的二进制文件,普通编辑软件无参考基因序列的比对情况,所以,我们可以从SAM/BAM文件中提取计算出相SAM和BAM文件可知,SAM/BAM格式文件储存着测序和由章节2.4.2因序列不一致的位点或区域,则为测序错误。已知的大肠杆菌测序样本作为研究对象。因此,若测序样本中存在着与参考基台,其测序质量应该是被广大研究者关注的焦点。本文选取一标准化基因序列须依靠荧光的检测才能实现测序的目的。因此,作为一种新技术代表的测序平致的pH值微量变化跟合成测序偶联起来进行测序,取代了以往测序过程中必PGM测序出现时间比较晚,它创造性的将测序过程中氢离子导TorrentIon3.2.1编程抽取、处理碱基变异信息Torrent测序质量评价Ion3.2第3章结果第3章结果3.2.2Homozygous和测序错误之间的关系由第一章可知,IonTorrent测序原理可能导致在同聚物区域,即Homozygous(以下简称HOMO)区域出现错误的概率较大。现将所测大肠杆菌的基因组序列变化成Homo形式,如表3.4所示,参考基因组中相邻碱基若相等则转化为其相等的个数,如6-9位碱基为连续四个相同的碱基,其余则为相邻互不相同的碱基。将图3-9所示所有信息结合基因组不同Homo长度信息进行归类计算。表34参考基因组的Homo形式RefHomoA1G1A2A2C1GGGG4A1444部分分类结果如图3.11所示(其余见附录A)。横坐标为不同Homo长度,纵坐标为缺失出现的次数。可明显看出,随着同聚物长度的增加,其区域内或临近处发生缺失的概率明显增大。我们认为发生在同聚长度较长区域内的不匹配将很大程度上是机器测序本身的错误。这一趋势也可被后续分析所借鉴。DeletionforHomo50..。—。。....。.—.。。。。.—。。。——。....—。、4540—3530·2520点七50一一二-2一II1£—I~/…Ie5horn0gl|■●-g■●强bengtr:图3.11不同Homo长度区域发生缺失的平均次数第3章结果3.2.3Homozygous对测序的影响同样利用图3.10所示文件中的信息,结合参考基因组的Homo信息,定义一个Homo为一个整体,其左右各5bp为研究位点,研究对象为发生在Homo两边5bp和其自身坐标上的测序错误的统计,图3.12为长度为6的Homo其左右各5bp发生插入的次数统计。可明显看出,处于Homo边缘上的碱基其发生插入的概率要比远离Homo的位点的概率大(所有数据见附录B)。因此,我们认为,若测序错误发生在寡聚核苷酸的附近,其可信度不高。leR5hOm06ria睫53.2.4Swap型Mismatch经过序列比对后,我们发现存在实测序列和参考基因组序列相互倒置的情况,如图3.13,为两个碱基相互倒置,我们定义为二连体倒置或二连体互换(Swap)。发生这种情况的原因可能是计算机在处理由pH值转换的电信号时发生读取紊乱或相位移动。对于此情况的测序mismatch,我们也定义为不可信的结果。第3章结果!C!T1..一c”F一!一彳_一彳一了一一■“i………’i_-i’—一一1F一一_图3-13二连体碱基互换此外,还存在连续三个碱基倒置互换的情况,如图3.14。定义为三连体互换。经计算得,实测大肠杆菌中,有23449对二连体互换,共46898bp,885对三联体互换,共2655bp。碱基互换错误占原始mismatch比率为13.15%。说明在测序中,由于测序仪本身在测序时读取信息时的相位错误占有很大的比重。此种情况也可被利用与改善测序仪的测序质量。:::■T………上Cj~二一量一一一C图3.14三连体碱基互换3.2.5IonTorrent测序初步评价及初步改善在能够获取所有测序错误信息的前提下,对这些信息进行统计分类分析可以了解其测序技术所造成错误的大概分布情形。同样利用编程,将上小节的所有碱基变异结果进行分类统计可得表3.5上部分。54第3章结果从表可知,IonTorrent的总体错误率在0.61%,单片段测序的准确率高达99.4%,这是一个很高的准确率了,因为如果考虑到测序深度,以及错误识别算法等因素,其总体的准确率应该可以达到99.9%以上。但是相比不匹配造成的SNP错误率,插入、缺失的错误概率要比替换高处3.4倍的比率,也就是说,IonTorrent对于插入、缺失的准确率并没有单碱基情况那么高。对比454测序的错误率[76。77],发现IonTorrent错误类型及其概率都和454相类似,图3—15中上半部分是针对454序列的前101个碱基,下部分是所有碱基。对于Mismatch情况,IonTorrent的出错概率为0.08%,454则为O.09%,两者相当,说明对于碱基的替换错误,两者均控制在了比较低的水平。但是对于插入、缺失的情况,IonTorrent和454一样,Indel错误明显的要高于SNP错误。‘∞二:1引昕;■’一蛳菩j要蔓‘63妊麓二∞。::一竺。窭∞:飘铡j:ij‘_二●》00曼00慨:二》:j氆∞7%一剧叫州一f二j托一f‘13{。坼;引瓤薹x?3托0i燕辨:z:~∞巍0:溉!嚣jj::煞^。。一:图3.15454焦磷酸测序错误率对于一些我们认为很明显的测序错误,如3.22至3.24小节所述,定义Mismatch发生在实测序列跟参考基因组形成大于等于三个同聚核苷酸的时候,则认为这个mismatch是测序错误,另外swap型的mismatch也认为是纯粹的机器错误。经过这样简单的过滤后,可得表3.2下部分的结果。过滤掉仅仅1.13%第3章结果的测序碱基后,完全准确的测序序列由48.30%的比例提高到67.86%,插入和缺失的错误个数均降为原来的一半左右,mismatch则减少了36.57%,总体的错误率由0.61%下降到0.30。由此可见,我们利用的过滤方法可以牺牲少量的测序数据从而大大提高其测序质量。3.2.6Mismatch和Freeerror质量值的比较由表3.2得,原始376833个SNP位点在经过比对Homo信息和Swap信息筛选过滤后,剩下239035个认为暂时难以解释原因的SNP位点。将这些位点处于原始序列位置和Q值的信息与freeerror序列坐标和Q值进行比较,结果如图3.16。横坐标为序列中碱基的实际坐标(5’=>3’),纵坐标为Q值。由图可知,对于测序良好没有错误的序列,其在5’端的250bp内Q值都比较平稳,均在20附近,而出现mismatch情况下,其Q值明显低于freeerror的情况,且波动比较大。这种测序质量的不同趋势也可被后续统计分析改良所借鉴从而达到进一步改善其测序质量的目的。薹三≮=一原始捌序序列碱基坐标图3.16过滤以后的Mismatch和Freeerror质量值的比较了解IonTorrent测序错误形成的方式、类别、因素、概率等原因,可以针对特定的原因借鉴或发展相关数学算法来优化测序结果,如第二章,针对荧光信号检测的basecalling的校准优化以及突变优化等。如何从这些看似随机无序的因素中找出其中的规律加以应用是目前二代测序数据处理的难题,同时也第3章结果是机遇。57第4章讨论第四章讨论4.1二代测序技术的发展二代测序从2005年左右开始进入人们的视野,高通量测序的概念提出,到2010年高通量测序技术走向成熟,二代测序开始迅猛发展,全面的深入生命科学的研究领域,带来了一场具有里程碑意义的技术革命。从最开始人类基因组计划花费三十亿美金完成人类基因组的草图,到如今二代测序提出一千美元为目标的基因组测序计划,成本低廉的测序技术使得研究者可以实施更多物种的基因组计划,从而解密更多生物的生命遗传生命密码。由二代测序衍生而来的外显子组测序、DNA甲基化测序、Chip.Seq测序【7法。虽然二代高通量测序已经得到了很好的发展以及应用,但是作为有着居安思危,永不止步精神的科学研究者又把眼光投向了未来的三代测序技术上。目81、microRNA测序等测序手段更是极大丰富和扩宽了科学研究者的研究手段和方前的二代测序由于技术原理本身的局限或实际操作的不确定性,其准确性最高也只能达到99.99%,虽然从数字上来看很接近百分百的准确率,但是对于基因组动辄几十亿上百亿的碱基数量而言,微小的哪怕是这万分之一的错误率都会造成数量极其庞大的测序错误。而就是因为目前这微小的错误率,科学家们还得通过发展各种不同的方法来达到消除或者减小错误的目的。因此,追求更准确、成本更低、操作更简单的新一代技术就成了科学家们的追求。目前,比较为人熟悉的三代测序是Helico和PacificE79J公司的单分子测序技术和纳米孔测序技术。此外还有诸如磁极测序类的新一代测序方法也被提出来。目前三代测序由于技术上不够成熟,测序准确率只有百分之八十几,和二代测序相比还有很大一段距离,而且其及其售价高昂,普通实验室无力承担,但是就算如此,我们也有理由对三代新测序技术持有乐观、期望和谨慎的态度。第4章讨论4.2二代测序数据分析发展及建议NGS涉及的领域较广,研究的对象也较多,而且NGS目前还处于高速发展成熟和完善中,NGS数据的处理也日新月异,新的分析处理方法一致在源源不断的研发出来和改善中[80】。NGS数据由于其庞大的体积和晦涩的内容,使得针对它的处理过程显得较为复杂。明确自己的研究方案会大大降低NGS数据处理的难度。以本文处理内容的过程经验为例,NGS基因分型和SNPcalling可以由以下步骤完成。首先要清楚本人研究的内容、背景、目的。最重要的是明确所使用的NGS数据的basecalling和质量分数的计算方式、类别,虽然目前大部分平台都是使用已经彻底测试和基准过的方法进行,但是仍有不少数据和标准的格式不同。短序列的比对可以根据NGS数据的类型选用,目前最常使用也比较权威的软件有SMALT、BWA和BOWTIE等。SAMLT操作简单方便,适用基本所有平台,但是格式自定义设置性不强,对于454和SoLiD数据可以选用SMALT;BWA使用领域广,认知度高,速度快,自定义设置性强,但软件使用较复杂,上手难度较大,类似Illumina的短序列可以选用BWA;BOWTIE运算结果比较精确,但运行速度较慢,也适用于Illumina。序列比对完之后建议用GATK或SOAPsnp进行碱基的重新调整。SNPcalling和基因分型应该使用能够同时纳入所有个体数据以及使用似然比率检验或贝叶斯程序的方法进行。如果条件存在,应该使用基于连锁不平衡的方法,以用来提高基因分型和SNPcalls的准确性。还有其它几种额外的步骤可以采取来改善基因分型,比如Localrealignment,将结果和多个SNP和基因分型的算法结合,然后再根据质量分数值进行过滤。最后,后续的统计过程中也需要纳入不确定性的分析。尤其是基于低度和中度测序数据的关联定位研究,应该使用基于所有可能基因型的总结和由各自相应概率权重的关联检验。4.3展望对于本文的酵母全基因组SNP图谱构建,因为不像人类测序数据拥有比较良好的研究背景,导致在处理过程中有个别比较重要的步骤比如Localrealignment,质量校准等因为缺乏先验数据而无法直接运行,只能通过运行流第4章讨论程获得初步结果再返回重新完成未完成的步骤而获得收敛结果,这样的步骤对于工作量的需求非常大,精确度也要求高,不大适合基于以SNP结果和分型数据信息的下游分析。因为这样的过程可能会遗弃本来真实存在的SNP位点。但是对于像人类的数据,其分析过程对于目前而言是比较可靠准确的。以千人基因组计划的SNP数据、人类HapMap单体型数据、人类SNPdbSNP数据库信息等提供的SNP先验信息将对人类测序数据的SNP信息提供良好的环境信息以及数学算法支持。因此,随着研究的深入和延伸,相信更多物种的SNP信息将会得到验证,届时对于NGS的基因分型和SNP分析而言将是极大的方便和精确。但是像人类这种数据量特别大的研究,其计算对计算机要求也特别高,普通个人PC甚至无法完成序列比对环节。另一方面,进行数据流程处理的软件比如GATK随着NGS分析的发展也在迅速升级。本文作者在阅读和使用当时最新版本的套装时,距离本文完成不过半年的时间,但是其版本已经经历了很多次大的改变。当时的基因分型工具是UnifiedGenotype,如今已经升级成更为复杂和准确的HaplotypeCaller,因此保持对最新研究进展和相关计算方法的关注是不断发展的NGS分析的重要过程。NGS数据的基因分型和SNPcalling已经从简单的基于计算等位基因的方法向着能够计算不确定性的复杂方法逐渐成熟,这些方法现在也能够纳入多个个体和连锁位点的信息。依赖与基因型似然性计算准确度的概率法能够整合有关与比对或组装的不确定性和basecalling的不确定性信息。所以,在计算基因型似然性的准确性、改善基因型似然性计算方法以及基于连锁不平衡方法的发展都有希望能够让NGS的数据分析更加成熟可靠。另一方面,多学科的不断发展也促进了NGS数据分析,例如计算机领域的GPU并行编程的逐步实现使得在计算领域内超越了CPU的限制,从而转移到速度更快的GPU上,这在应用于比如序列比对的过程中尤其有效,高通量的测序数据带来的计算上的复杂性通过快速的计算方法可以减少人们对硬件的需求,这也提高了序列比对结果的准确性。致谢致谢研究生阶段即将成为往事,在此毕业之际感谢我的研究生导师毛理凯副教授。是毛老师带我走进了我挚爱的生物信息领域,毛老师渊博的编程知识一直是我追求的榜样。毛老师手把手的指点我编程的画面至今犹在。毛老师严谨的科研态度,精益求精的工作态度,诲人不倦的职业精神都会使我终身受教。感谢南昌大学转化医学院邓立彬副教授。邓立彬老师亦师亦友的教学方式让我对科研产生了极大的兴趣。邓老师扎实博大的专业知识是我学习的目标。在我很多不了解的知识点上,邓老师都能亲自详细的描述解决。在我不清楚的领域上,邓老师都能亲自寻找并提供相应的资料供我学习。感谢邓立彬老师对我硕士学习阶段的帮助,使我在医学院度过了充实丰富的两年。感谢大连理工大学钟世钧教授。感谢钟老师跟我亲切详细的交流以及学习方面上的帮助,让我在硕士毕业以后有了更高的目标和追求。另外我要诚挚的向我的父母表示感谢。他们的支持和鼓励是我前进的动力,他们的慈爱和关怀是我进步的源泉。从呱呱坠地、嗷嗷待哺,到现在风华正茂、胸怀大志,我的成长是父母倾注毕生心血的结果。如今的我朝气蓬勃,意气风发,而父母却早己银丝素裹,两鬓霜白。再次感谢一直在我身后遮风挡雨的父母,没有他们含辛茹苦的栽培,就没有我的茁壮成长。感谢我的同窗们,张君慧、何娜、谢琳、胡明华、钟丽梅、陈凯、曾芳发、吴新贵、杨小强等,感谢我的师兄,曾欣、乐小兵、胡超,林家日等,感谢你们陪我度过了快乐、充实、难忘的研究生生涯。再次对所有人表示感谢!衷心祝各位老师身体健康,工作顺利;祝同学们一帆风顺,前程似锦。高或辉2013年5月24日参考文献参考文献[1]SANGER,Fred;COULSON,Alanbiology,1975,94.3:441-448.R.ArapidmethodfordeterminingsequencesinDNAbyprimedsynthesiswithDNApolymerase[J].Journalofmolecular[2]METZKER,Michael[3]Meyer,Eli,et[4]NG,SarahL.Sequencingtechnologies--thenextanddenovogeneration[J].NatureofcorallarvalReviewsGenetics,2009,11.1:31.46.a1.”Sequencinganalysisatranscriptomeusing454GSFlx[J].”BMCgenomics10.1(2009):219.causeB.,eta1.Exomesequencingidentifiestheofamendeliandisorder[J].Naturegenetics,2009,42.1:30.35[5]Walsh,Tom,etcancera1.”DetectionofinheritedmutationsforbreastandovariangenomicofcaptureNationalandmassivelyofparallelsequencing.f2010):using【J]”Proceedings12629.12633.theAcademySciences107.28[6]O’Roak,Brian585.589.J.,eta1.”Exomesequencinginseveresporadicautismspectrumdisordersidentifiesdenovomutations.[J]fINaturegenetics43.6(2011):[7]Yah,Xiao—Jing,etmethyltransferasea1.”ExomesequencingidentifiessomaticmutationsofDNAgeneDNMT3Ainacutemonocyticleukemia.[J]t’Natureoftheyeastgenetics43.4(2011):309-315.[8]NAGALAKSHMI,Ugrappa,eta1.ThetranscriptionallandscapegenomedefinedbyRNAsequencing[J].Science,2008,320.5881:1344—1349.[9]TRAPNELL,Cole,eta1.Transcriptrevealsunannotatedtranscriptsassemblyandquantificationswitching1—515.byRNA—Seqduringcellandisoformdifferentiation[J].Naturebiotechnology,2010.28.5:51[10]ALTSHULER,DavidMatthew,et[11]Voelkerding,KarlV.,Shalesequencing:frombasica1.Amapofhumangenomevariationfrompopulationscalesequencing[J].2010.A.Dames,andJacobD.Durtschi.”Next—generationtoresearchdiagnostics.[J]”Clinicalchemistry55.4(2009):641—658.[12]Rowen,Lee,GregoryMahairas,andLeroyHood.”Sequencingthehumangenome.[J]”Science278.5338(1997):605—607.[13]SANGER,Frederick;NICKLEN,Steven;COULSON,AlanR.DNASciences,1977,74.12:5463—5467.sequencingwithchain-terminatinginhibitors[J].ProceedingsoftheNationalAcademyof[14]LIU,Lin,eta1.Comparisonofnext—generationsequencingsystems[J].BioMed参考文献ResearchInternational.2012.2012.[15]QUAIL,MichaelcomparisonofA.,eta1.Ataleofthreenextgenerationsequencingplatforms:IonTorrent.PacifiCBiosciencesandIlluminaMiSeqsequencers[J].BMCgenomics.2012.13.1:341.[16]STADEN,R.AstrategyofDNAsequencingemployingcomputerprograms[J].Nucleicacidsresearch.1979.6.7:2601.2610.『171BARTLETT,JohnMS:ST取LING,David.AHistoryofshorthistoryofthepolymerasechainreaction.In:PCRprotocols[J].HumanaPress.2003.P.3—6.[18]NYREN,Pal.ThePyrosequencing⑧.In:Pyrosequencing⑧Protocols[J].HumanaPress.2007.P.1.13.[19]KING,Cristi;SCOTT-HORTON,Tiffany.Pyrosequencing:aaccuratesimplemethodforgenotyping[J].JournalofVisualizedExperiments:JoVE,2008,11.『201MCKERNAN,KevinJudd,eta1.Sequenceandstructuralvariationinahumangenomeuncoveredbyshort-read,massivelyparallelligationsequencingusingtwo.baseencoding[J].Genomeresearch.2009.19.9:1527.1541.f211RUSK.Nicole.Torrentsofsequence[J].NatureMethods,2010,8.1:44.44.『221PENNISI。Elizabeth.Semiconductorsinspirenewsequencingtechnologies[J].Science.2010.327.5970:1190.f231CHEE—SENG,Ku,eta1.NextGenerationSequencingApplications[J].eLS.Technologiesandsequencing“J]ltTheir[24]Shendure,Jay,andbiotechnology26.10HanleeJi.”Next—generationDNANaturef2008):1135—1145.andgenome[25】Fullwood,Melissa521.532.J.,etaI.”Next-generationDNAsequencingofpaired—endtags(PET)fortranscriptome『26]ERLICH,HenryA.:analyses.[J]ffGenomeresearch19.4(2009):acidHIGUCHI,RussellG.Methodsfornucleicamplification[J1.U.S.PatentNO5,314,809,1994.[27]BENTLEY,DavidreversibleR.,eta1.Accuratewholehumangenomesequencingusingterminatorchemistry[J].Nature.2008.456.7218:53.59.『281Albers,ComelisA.,eta1.”Dindel:accurateindelcallsfromshort—readdata.fJl”Genomeresearch21.6(2011):961.973.R.Next—generationDNAsequencingmethods[J].Annu.Rev.[29]MARDIS,ElaineGenomicsHum.Genet.。2008.9:387.402.『301ROTHBERG,JonathanM.,eta1.Anintegratedsemiconductordeviceenablingnon—opticalgenomesequencing[J].Nature,2011,475.7356:348-352.a『311McKernan,KevinJudd,eta1.”Sequenceandstructuralvariationintwo.baseencoding.fJl”Genomeresearch19.9(2009):1527.1541.humangenomeuncoveredbyshort-read,massivelyparallelligationsequencingusing[32]Zhu,Y.L,eta1.”Single-nucleotidepolymorphismsinSOybearl.fJl”Geneticsl63.3(2003):1123.1134.63参考文献[33]IUCHTERICH,Peter.Estimationoferrorsin“raw”DNAsequences:avalidationstudy[J].GenomeResearch.1998.8.3:251.259.[34]ⅪM,Su479.491.Yeon,eta1.Designofassociationstudieswithpooledsequencingorun—poolednext’generationdata[J].Geneticepidemiology,2010,34.5:[35]LI,Ruiqiang,et[36]LI,Ruiqiang,eta1.SOAP2:animprovedultrafasttoolforshortreadalignment[J].Bioinformatics.2009.25.15:1966.1967.a1.SNPdetectionformassivelyparallelwhole.genomeresequencing[J].Genomeresearch,2009,19.6:1124.1132.[37]‘‘AboutUbuntu.TheUbuntuStory'’[M].CanonicalLtd.Retrieved2012.08.21[38]“OperatingSystemMarketshareforYear2007”[M].MarketShare.NetApplication.19Nov.2007.Retrieved19Nov.2007.[39]Schwartz,Randal,Foy,Brian,Phoenix,Tom.LearningPerl[M].O’ReillyMedia,Inc.16Jun2011.[40]http://www.bioperl.org/wiki/BioPerl[DB][41]http://www.ncbi.nlm.nih.gov/sra/[DB][42]VENTER,J.Craig.ShotgunningtheHuman[43]EWING,Brent,etAccuracya1.Base—callingofGenome:APersonalView[J].eLS.automatedsequencertracesusingPhred.I.callerforSNPassessment[J].Genomeresearch,1998,8.3:175.185.R.,eta1.Pyrobayes:animprovedbase[44]QUINLAN,Aarondiscoveryinpyrosequences[J].Naturemethods,2008,5。2:179.181.Corrada.Intensitymethods.[45]WU,Hao;IRIZAImY,Rafael2010.7.5:336—337.A.;BRAVO,H6ctornormalizationimprovescolorcallinginSOLiDsequencing[J].Nature[46]KAO,Wei—Chun;STEVENS,Kristian;model—basedbase—callingalgorithmSONG,YunS.BayesCall:Ashort.readforhigh.throughputsequencing[J].Genomeresearch。2009.19.10:1884.1895.[47]ⅪRCHER,Martin,et[48]COCK,Petera1.ImprovedbasecallingfortheIlluminaGenomeAnalyzerusingmachinelearningstrategies[J].GenomeBiol,2009,10.8:R83.withacidsJA,eta1.TheSangerthequalityscores,andFASTQfileformatforsequencesSolexa/IlluminaFASTQvariants[J].Nucleicresearch,2010,38.6:1767-1771.[49]CERF,VintonG.ASCIIformatfornetworkinterchange[J].1969.NilsHomer.”Asurveyofsequencealignment[50]Li,Heng,andnext-generation473.483.algorithmsforsequencing.[J]ffBriefingsinbioinformatics11.5(2010):[51]LI,Heng;RUAN,Jue;DURBIN,Richard.MappingshortDNAsequencingreadsandcallingvariantsusingmappingqualityscores[J].Genomeresearch,2008.18.11:1851—1858.[52]BURROWS,Michael;WHEELER,DavidJ.Ablock.sortinglosslessdata参考文献compressionalgorithm[J].1994.f531LANGMEAD,Ben,eta1.Ultrafastandmemory—efficientalignmentofshortDNAsequencestothehumangenome[J].GenomeBiol,2009,1O.3:I毪5.[54]LI,Heng;DURBIN,Richard.FastandBurrows一Ⅵmeeleraccuratelong-readalignmentwitht-cansform[J].Bioinformatics.2010.26.5:589.595.[55]LI,Heng;DUI己BnN,Richard.FastandaccurateshortreadalignmentwimBUlTOWS--meelertransfonIl『J1.Bioinformatics,2009,25.14:1754.1760.f56]NING,Zemin;COX,AnthonyJ.;Ⅳ【ULLIKIN,JamesC.SSAHA:afastsearchmethodforlargeDNAdatabases[J].Genomeresearch.2001.11.10:1725—1729.f57]SMITH,T.F.:BEYER,W.A.M.S.WATER^压ANfJl.1976.『581http://bioinformatics.bc.edu/marthlab/Mosaik[OL/CPl[59]Chepelev,Iouri,etexonsa1.”DetectionofsinglenucleofidevariationsinexpressedofthehumangenomeusingI矾A.Seq.『J1fINucleicnovoacidsresearch37.16(2009):el06.e106.[60]BUTLER,Jonathan,etshotguna1.ALLPATHS:deassemblyofwhole.genomeformatandmicroreads[J].Genomeresearch.2008.18.5:810.820.eta1.The[61]LI,Heng,sequencealignment/mapSAMtools[J].Bioinformatics.2009.25.16:2078.2079.【62]http://picard.sourceforge.net/[OL/CP][63]LI,Ruiqiang,eta1.SOAP2:an[64]Davey,JohnW.,et499.510.improvedultrafasttoolforshortreadalignment[J].BioinformatiCS.2009.25.15:1966.1967.a1.”Genome—widegeneticmarkerdiscoveryandgenotypingusingnext-generationsequencing.[J]”NatureHarold,etReviewsGenetics12.7(2011):ina[651HARDY,Godfreya1.Mendelianproportionsmixedpopulation[J].Science.1908.28.706:49.50.【66]You,Frank,etandcomplexaa1.”Annotation.basedgenome.wideSNPdiscoveryinthelargeAegilopstauschiigenomeusingnext—generationsequencingwithoutreferencegenomesequence.[J]”BMCgenomics12.1(2011):59.[67]DANECEK,Petr,et[68]SHERRY,S.a1.ThevariantcallformatandVCFtools[J].Bioinformatics,databaseofgenetic2011.27.15:2156.2158.T.,eta1.dbSNP:theNCBIvariation[J].Nucleicacidsreseatch.2001.29.1:308—311.[69]ALTSHULER,DavidMatthew,eta1.Amapofhumanpopulationscalegenomevariationfromsequencing[J].2010.a1.Integratingcommonandraregeneticvariationin[70]ALTSHULER,DavidM.,etdiversehumanpopulations[J].Nature.2010.467.7311:52..[71]SERVIN,Bertrand;STEPHENS,Matthew.Imputation.basedanalysisofassociationstudies:candidateregionsandquantitativetraits[J].PLoSgenetics.2007.3.7:el14.65参考文献[72]JOHNSON,PhilipLF;SLATKIN,Montgomery.Accountingsequencingerrorforbiasfrominpopulationgeneticestimates[J].Moleculargenomicsbiologyandevolution.2008.25.1:199.206.[73]ROBINSON,James[74]DEPRJSTO,Mark491.498.T.,eta1.Integrativeviewer[J].Natureandgenotypingbiotechnology.2011.29.1:24.26.A.,eta1.Aframeworkforvariationdiscoveryusingnext-generationDNAsequencingdata[J].Naturegenetics,2011,43.5:[75]McKeuna,Aaron,MaRhewToolkit:asequencingHanna,EricBanks,AndreySivachenko,KristianCibulskis,AndrewKemytsky,KiranGarimellaeta1.”TheGenomeAnalysisDNAMapReduceframeworkforanalyzingnext.generNiondata.[J]”Genomeresearch20,no.9(2010):1297—1303.a1.”AccuracyandqualityofmassivelyparallelDNAGenomebiol[76]Huse,SusanM.,etpyrosequencing.[J]fI8.7(2007):R143.qualityassessmentof454GS.FLXTitanium[77]Gilles,Andr6,eta1.”Accuracyandpyrosequencing.fJl”BmcGenomics12.1(2011):245.[78]JOHNSON,David[79]QUAIL,MichaelcomparisonofS.,eta1.Genome.widemappingofinvivoprotein.DNASignaling.2007.316.5830:1497.interactions[J].ScienceIonA.,eta1.Ataleofthreenextgenerationsequencingplatforms:Torrent,PacificBiosciencesandIlluminaMiSeqsequencers[J].BMCgenomics,2012,13.1:341.[80]NIELSEN,Rasmus,etsequencinga1.GenotypeandSNPcallingfromnext.generationGenetics,2011.12.6:443—451.data[J].NatureReviews附录A附录AriseruOR,fOrHomG。——II_-l图A1不同Homo长度区域发生插入的平均次数Dele螽OnforHomo一卜≥5《40332iv毒鼍盔2王0≥…一…一…一…IJL■…王23456了8謇王0Horn0跨ngtn图A2不同Homo长度区域发生缺失的平均次数67附录AMismatchforH(1l'lO了6S.曼磊也£2_-…■●23I■一~il≤:Homoe7~…_8量iengtr;图A3不同Homo长度区域发生Mismatch的平均次数附录B附录B附录B为插入、缺失和Mismatch错误类型在不同长度Homo的5’和3’端之间的每个位点的出错次数统计,5’端从1开始,至5结束,3’端从一1开始,至一5结束,Homo本身内的位置由两位数表示,第一位为Homo长度,第二位从1开始至其长度为止,方向为5’至3’。以图3.12坐标所示,其5’至3’端的坐标为1,2,3,4,5,61,62,63,64,65,66,.1,一2,.3,.4,.5。无数据的为0。表B1不同长度Homo5’和3’端各5bp内的插入错误次数附录B70附录B7l附录B表B2不同长度Homo5’和3‘端各5bp内的Mismatch错误次数72附录B73附录B74附录B885388899u弱∞,599999%盯咱叫弋之●9399993999“.。叭眈盯%∞q屹●1041表B3不同长度Homo5’和3’端各5bp内的Deletion错误次数216646121684852133079213104521698412q弋之1●216580123161041241274642110269243346524595635扒毖Lo36384343782075附录B76附录B77附录B88818625628899998788—5—4—3—2—115缸碰m9999999勰Ⅲ娩32591979899—2—19旧旧∞101姗揭晡盯铉78