基于二代测序数据的SNP发现策略及其初步应用

2022-06-27 来源：榕意旅游网

学位论文独创性声明学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签字目期：汐‘乡年彩月乙芦一………手写瘸媛辉／学位论文版权使用授权书本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究所和中国学术期刊（光盘版）电子杂志社将本学位论文收录到《中国学位论文全文数据库》和《中国优秀博硕士学位论文全文数据库》中全文发表，并通过网络向社会公众提供信息服务。（保密的学位论文在解密后适用本授权书）学位者手核宵步宵步他形，鉴字一锣作Ａ纱祝于导师签名（手写）：表砂似Ｖ刎／签７厂、／／）污／Ｄ签字目期纱弓年乙月巧日摘要关键字：二代测序；单核苷酸多态性；处理流程为菌种的进化，差异表达，遗传等研究提供材料。信息，我们认为，不同的菌种遗传背景与其功能分类相关，他们的ＳＮＰ信息可个。所有的ＳＮＰ位点中，２０４４０７（５１．４４％）个ＳＮＰ为单菌种特有。综上数据处于内含子区域，２００个位点处于ＵＴＲ区域：造成的非同义ＳＮＰ位点数１１９５３７ＬＯＦ分析可得，３４６６４７（８７．２３％）个ＳＮＰ位点处于外显子区域，４２９１１个位点颠换次数为１２８４６７，Ｔｉ／Ｔｖ值为２．１５６，非常符合全基因组ＳＮＰ类型比例。经步骤后，得到３９７３８２个ＳＮＰ位点，频率为３０ｂｐ／ＳＮＰ，其中转换次数为２７６９２５，ｃａｌｌｉｎｇ和基因分型以及结果筛查过滤（可选）碱基质量校准、区域重比对、ＳＮＰ将２２种酵母菌４５４焦磷酸测序数据（测序深度平均约１８ｘ）经过序列比对、助于达到进一步改善其测序质量的目的。过滤后的Ｍｉｓｍａｔｃｈ的Ｑ值明显低于准确情况下的值等分析结果和趋势均可有器读取信息时的相位错误，测序错误在同聚物边缘发生的概率比其他位置高，Ｔｏｒｒｅｎｔ仪的高错误率的测序碱基可显著提高其整体的测序准确率。因此，Ｉｏｎ６７．９０％。而去除的碱基比例仅占碱基数量的１．１３％，由此可见，去除数量较少０．０５％，错误率均为原来的一半左右，无错误的序列比例从４８．３０％上升为的错误后统计得Ｉｎｓｅｒｔｉｏｎ，Ｄｅｌｅｔｉｏｎ，Ｍｉｓｍａｔｃｈ的错误率分别为０．１３％，０．１２％，考序列互换的情况。在去除同聚核苷酸长度大于２和Ｓｗａｐ型的Ｍｉｓｍａｔｃｈ形成概率随着同聚核苷酸长度的增加而有明显增加的趋势，并且存在测序碱基和参Ｔｏｒｒｅｎｔ重测序数据，经统计分析知其错误针对基因组已知的大肠杆菌ＩｏｎＴｏｒｒｅｎｔ测序质量及其初步改善和讨论。的结果；另外系统的评价了Ｉｏｎ点，利用一套切实可行的处理流程成功应用在酵母全基因组中以及得到了较好的挑战。本文从二代测序测序基本原理出发，结合多态性分析处理的重点，难的大规模并行ＤＮＡ测序手段，也因其产生的海量数据给数据分析带来了很大单一基因到全基因组范围的研究尺度。目前二代测序一方面提供了快速、低廉得到广泛应用，推动了诸如疾病基因定位、作物遗传育种、表观遗传等研究从近期二代测序在生物医学、基因组学、转录组学、系统生物学等多个学科摘要ＡｂｓｔｒａｃｔＡｂｓｔｒａｃｔＮｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ（ＮＧＳ）ｉｓｗｉｄｅｌｙｕｓｅｄｒｅｃｅｎｔｌｙｉｎｔｈｅｆｉｅｌｄｓｏｆｂｉｏｍｅｄｉｃｉｎｅ，ｇｅｎｏｍｉｃｓ，ｔｒａｎｓｃｒｉｐｔｏｍｉｃｓ，ｓｙｓｔｅｍｓｂｉｏｌｏｇｙａｎｄｏｔｈｅｒｄｉｓｃｉｐｌｉｎｅｓ，ｑｕｉｃｋｌｙｐｒｏｍｏｔｅｄｓｕｃｈａｓｌｏｃａｔｉｎｇｏｆｄｉｓｅａｓｅｇｅｎｅ，ｃｒｏｐｇｅｎｅｔｉｃｓａｎｄｂｒｅｅｄｉｎｇ，Ｅｐｉｇｅｎｅｔｉｃｒｅｓｅａｒｃｈｆｒｏｍａｓｉｎｇｌｅｇｅｎｅｔｏｔｈｅｇｅｎｏｍｅ－ｗｉｄｅｒｅｓｅａｒｃｈｅｘｔｅｎｔ．Ｎｏｗ，ＮＧＳｐｒｏｖｉｄｅａｆａｓｔ，ｌｏｗ—ｃｏｓｔｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌＤＮＡｓｅｑｕｅｎｃｉｎｇｍｅｔｈｏｄｓａｓｗｅｌｌａｓａｇｒｅａｔｄｅａｌｏｆｃｈａｌｌｅｎｇｅｆｏｒｄｏｗｎｓｔｒｅａｍｄａｔａａｎａｌｙｓｉｓｃｏｍｅｓｆｒｏｍｔｈｅｈｕｇｅｄａｔａｐｒｏｄｕｃｅｄｂｙＮＧＳ．ＦｒｏｍｔｈｅｂａｓｉｃｐｒｉｎｃｉｐｌｅｏｆＮＧＳ，ｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｆｏｃａｌｐｏｉｎｔａｎｄｄｉｆｆｉｃｕｌｔｉｅｓｉｎｐｏｌｙｍｏｒｐｈｉｓｍｐｒｏｃｅｓｓｉｎｇａｎｄａｎａｌｙｓｉｓｏｆＮＧＳｄａｔａ，ｔｈｉｓｔｈｅｓｉｓｍａｋｅｕｓｅｏｆａｓｅｔｏｆｐｒａｃｔｉｃａｌｐｒｏｃｅｓｓｅｓｔｏｓｕｃｃｅｓｓｆｕｌｌｙａｐｐｌｉｅｄｉｎｔｈｅｙｅａｓｔｇｅｎｏｍｅａｎｄｇｅｔａｒｅａｓｏｎａｂｌｅｒｅｓｕｌｔ．ＴｈｅｎｍａｋｅａｓｙｓｔｅｍａｔｉｃｅｖａｌｕａｔｉｏｎｏｆｔｈｅｑｕａｌｉｔｙｏｆｔｈｅＩｏｎＴｏｒｒｅｎｔｓｅｑｕｅｎｃｉｎｇａｎｄｉｔｓｉｎｉｔｉａｌｉｍｐｒｏｖｅｍｅｎｔａｎｄｓｏｍｅｄｉｓｃｕｓｓｉｏｎｓ．Ａｎａｌｙｚｉｎｇｔｈｅｒｅ—ｓｅｑｕｅｎｃｅｄＩｏｎＴｏｒｒｅｎｔｄａｔａｆｒｏｍａｋｎｏｗｎｇｅｎｏｍｅｏｆＥ．ｃｏｌｉ，ｗｅｆｉｎｄｔｈｅｒｅｉｓａｓｉｇｎｉｆｉｃａｎｔｔｅｎｄｅｎｃｙｔｈａｔｔｈｅｅｒｒｏｒｐｒｏｂａｂｉｌｉｔｙｉｎｃｒｅａｓｅｓｉｎｐａｃｅｗｉｔｈｔｈｅｉｎｃｒｅａｓｅｓｏｆｔｈｅｉｄｅｎｔｉｃａｌｐｏｌｙｎｕｃｌｅｏｔｉｄｅｌｅｎｇｔｈｔｈｒｏｕｇｈｓｔａｔｉｓｔｉｃａｌ．Ａｎｄｔｈｅｒｅｉｓａｃａｓｅｔｈａｔｓｅｑｕｅｎｃｅｄｂａｓｅｓａｎｄｒｅｆｅｒｅｎｃｅｂａｓｅｓａｒｅｓｗａｐｐｅｄｅａｃｈｏｔｈｅｒ．ＡｆｔｅｒｒｅｍｏｖｉｎｇｔｈｅｅｒｒｏｒｓｏｆＨｏｍｏｚｙｇｏｕｓｌｅｎｇｔｈｇｒｅａｔｅｒｔｈａｎ２ａｎｄｔｈｅｓｗａｐ－ｔｙｐｅｍｉｓｍａｔｃｈ，ｔｈｅｅｒｒｏｒｒａｔｅｆｏｒＩｎｓｅｒｔｉｏｎ，Ｄｅｌｅｔｉｏｎ，Ｍｉｓｍａｔｃｈｄｒｏｐｓｔｏ０．１３％，０．１２％，０．０５％ｒｅｓｐｅｃｔｉｖｅｌｙ，ａｂｏｕｔｈａｌｆｏｆｉｔｓｒａｗｅｒｒｏｒｒａｔｅ．Ｔｈｅｐｒｏｐｏｒｔｉｏｎｏｆｆｒｅｅｅｒｒｏｒｒｅａｄｓｒｉｓｅｓｆｒｏｍ４８．３０％ｔｏ６７．９０％．Ｔｈｅｒｅｍｏｖａｌｏｆｂａｓｅｓｉｎｓｅｑｕｅｎｃｉｎｇｅｒｒｏｒｓ’ｒａｔｉｏａｃｃｏｕｎｔｅｄｆｏｒｏｎｌｙ１．１３％ｉｎｄｉｃａｔｅｓｔｈａｔｔｈｅｒｅｍｏｖａｌｏｆａｓｍａｌｌｎｕｍｂｅｒｏｆｂａｓｅｓｉｎｈｉｇｈｓｅｑｕｅｎｃｉｎｇｅｒｒｏｒｒａｔｅｃａｎｓｉｇｎｉｆｉｃａｎｔｌｙｉｍｐｒｏｖｅｉｔｓｏｖｅｒａｌｌｓｅｑｕｅｎｃｉｎｇａｃｃｕｒａｃｙＴｈｅｒｅｆｏｒｅ，ｐｈａｓｅｅｒｒｏｒｓｗｈｅｎＩｏｎＴｏｒｒｅｎｔｒｅａｄｉｎｇｉｎｆｏｒｍａｔｉｏｎｔｏｇｅｔｈｅｒｗｉｔｈｔｈｅｐｒｏｂａｂｉｌｉｔｙｏｆｓｅｑｕｅｎｃｉｎｇｅｒｒｏｒｓａｔｔｈｅｅｄｇｅｏｆＨｏｍｏｚｙｇｏｕｓｉｓｈｉｇｈｅｒｔｈａｎｏｔｈｅｒｐｏｓｉｔｉｏｎｓａｎｄｑｕａｌｉｔｙｖａｌｕｅｓｏｆｍｉｓｍａｔｃｈｅｓａｆｔｅｒｆｉｌｔｅｒｉｓｏｂｖｉｏｕｓｌｙｌｏｗｅｒｔｈａｎｔｈｅｖａｌｕｅｓｏｆｆｒｅｅｅｒｒｏｒｓ’ａｎｄｏｔｈｅｒａｎａｌｙｓｉｓｒｅｓｕｌｔｓｏｒｔｒｅｎｄｓｃａｎｃｏｎｔｒｉｂｕｔｅｔｏｔｈｅｐｕｒｐｏｓｅｏｆｉｍｐｒｏｖｉｎｇｉｔｓｑｕａｌｉｔｙｏｆｓｅｑｕｅｎｃｉｎｇｆｕｒｔｈｅｒ．Ａｆｔｅｒｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔ，ｂａｓｅｃａｌｉｂｒａｔｉｏｎ，ｒｅ—ａｌｉｇｎｍｅｎｔ，ｇｅｎｏｔｙｐｉｎｇａｎｄＳＮＰＡｂｓｔｒａｃｔｃａｌｌｉｎｇａｎｄｆｉｌｔｅｒ（ｏｐｔｉｏｎａｌ）ｓｔｅｐｓ，ｔｈｅＮＧＳ４５４Ｐｙｒｏｓｅｑｕｅｎｃｉｎｇｄａｔａｆｒｏｍ２２ｋｉｎｄｓｏｆＹｅａｓｔ（ａｖｅｒａｇｅｄｅｐｔｈ：１８ｘ）ｗｉｌｌｐｒｏｄｕｃｅ３９７３８２ｌｏｃｉｏｆＳＮＰ，ｉｎｃｌｕｄｉｎｇ２７６９２５Ｔｉａｎｄ１２８４６７ＴｖａｃｃｏｍｐａｎｉｅｄｗｉｔｈｔｈｅＴｉ／Ｔｖｒａｔｉｏｏｆ２．１５６ｃｏｎｓｉｓｔｅｎｔｗｉｔｈｔｈｅｇｅｎｏｍｅｉｓａｂｏｕｔｏｎｅａｎｄｓｕｃｈｐｒｏｐｏｒｔｉｏｎｉｓｏｆｗｈｏｌｅ．ｇｅｎｏｍｅＳＮＰｔｙｐｅ，ｗｈｏｓｅｆｒｅｑｕｅｎｃｙｉｎＹｅａｓｔｃａｌｌ３０ｂｐ／ＳＮＥＡｎａｌｙｓｉｓａｒｅｂｅｏｂｔａｉｎｅｄａｆｔｅｒＬＯＦｔｈａｔ３４６６４７（８７．２３％）ＳＮＰｓｓｉｔｅｓｓｉｔｅｓｉｎｔｈｅＵＴＲｌｏｃａｔｅｄｉｎｔｈｅｅｘｏｎｒｅｇｉｏｎｓ，４２，９１１ｓｉｔｅｓｉｎｔｈｅｉｎｔｒｏｎｒｅｇｉｏｎｓ，２００ｅｘｏｎｒｅｇｉｏｎａｎｄ１１９５３７ｎｏｎ—ｓｙｎｏｎｙｍｏｕｓＳＮＰｓｉｔｅｓｆｒｏｍｔｈｅｏｆａｌｌａｒｅｓｉｎｇｌｅａＳＮＰｓ．２０４，４０７（５１．４４％）ＳＮＰｓｓｐｅｃｉｅｓ－ｓｐｅｃｉｆｉｃ．ｄｉｆｆｅｒｅｎｔｇｅｎｅｔｉｃＣｏｍｐｒｅｈｅｎｓｉｖｅｉｎｆｏｒｍａｔｉｏｎｆｒｏｍｔｈｅｂａｃｋｇｒｏｕｎｄｓｔｒａｉｎｓａｎａｌｙｓｉｓ，ｗｅｂｅｌｉｅｖｅｔｈａｔａｓｓｏｃｉａｔｅｄｗｉｔｈｉｔｓｆｕｎｃｔｉｏｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ，ａｎｄｔｈｅｉｒＳＮＰｍａｔｅｒｉａｌｆｏｒｔ１１ｅｒｅｓｅａｒｃｈｏｆｅｖｏｌｕｔｉｏｎｏｆｓｐｅｃｉｅｓ，ｄｉｆｆｅｒｅｎｔｉａｌｏｔｈｅｒｒｅｓｅａｒｃｈｅｓ．ｉｎｆｏｒｍａｔｉｏｎｃａｎｐｒｏｖｉｄｅｅｘｐｒｅｓｓｉｏｎ，ｇｅｎｅｔｉｃａｎｄＫｅｙＷｏｒｄｓ：Ｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ，ＳＮＰ，ＡｎａｌｙｓｉｓｐｉｐｅＩＶ目录目录摘要……．．．．．……．……．．．．．．．．．．．……．．……．．．．…．…．．ＩＩＡｂｓｔｒａｃｔ．……．．．…．．．．．…………．．．．．．．…………．．．．．…ＩＩＩ第１章引言．………．．．……．．…．．．．．…．．．．．．…．．．．．．．．．……１１．１概述………．．…………．…………………………．．１１．２一代测序（Ｓａｎｇｅｒ测序）．．．．．．．．………．………．………．．２１．２．１１．２．２Ｓａｎｇｅｒ测序原理．．．．．…．．．．．．．．．．．．．．．．．．．．．．．…．．…．２Ｓａｎｇｅｒ测序意义．……．…．．．．．．．…．．…………．．．．．３１．３二代测序（高通量测序，下一代测序）…．……………．……３１．３．１二代测序基本介绍．．……．．．．．．．．．．．．．．．．…．．．．．．．．．…３１．３．２二代测序基本步骤．．．．．．．．．……．．．…．……………．．４１．４Ｒｏｃｈｅ１．４．１４５４测序仪．…．……．………．．…………………４Ｒｏｃｈｅ４５４基本原理…．．………．．…．……．．．．．．．．…４４５４技术特点．．．．．．．．．．……．．．……．．………．６１．４．２Ｒｏｃｈｅ１．５１１ｌｕｍｉｎａ公司Ｓｏｌｅｘａ测序．．．．．．．．．．……．．…．．．．．．……．．．６１．５．１１．５．２Ｓｏｌｅｘａ测序基本原理……．．．．…．…．．……．．．．．．．．…６Ｓｏｌｅｘａ测序技术特点．．．．．．．……．．．……………．．．．．８ＳＯＬＩＤ１．６ＡＢＩＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ１．６．１１．６．２１．７Ｓｙｓｔｅｍ．．．．…………．…．．．．．．８ＳＯＬＩＤ测序基本原理……………．………………．．．８ＳＯＬＩＤ测序的技术特点……．．．．．．．…………．．．．．．．．．１０ＰＧＭ．．…．．．．．．．．．…．……．……．．．……．．．．１１Ｔｏｒｒｅｎｔ测序原理…．．．．．．．．…．．．．．．．．．．．．…．．．．．１ｌＴｏｒｒｅｎｔ测序技术特点．．．．．．．．…．．．……．．．．．．．．．．１３ＮｕｃｌｅｏｔｉｄｅＩｏｎＴｏｒｒｅｎｔ１．７．１Ｉｏｎ１．７．２Ｉｏｎ１．８单核苷酸多态性（ＳｉｎｇｌｅＰｏｌｙｍｏｒｐｈｉｓｍ，ＳＮＰ）．…．．１４１．９本研究的内容、目的和意义…．．．．．．．…．．．．…．．．．．．…．．．…１４第２章材料和方法．．．．．．．．．．．．．．．．．．．．．……．．．．．………．…．．．．１７Ｖ目录２．１ＬｉｎｕｘＵｂｕｎｔｕ操作系统．…………………．．．………．．．．１７２．２计算机硬件．…………．．……………………．．……．．１７２．３Ｐｅｒｌ编程脚本语言．．．．．．．…．．．．．．．………．．．．．……．．．．．１８２．４数据来源…．．．．………．……………．………．…．…．１８２．５二代测序数据格式……………………………………．２０２．５．１Ｂａｓｅｃａｌｌｉｎｇ评价指标：ｑｕａｌｉｔｙｓｃｏｒｅ……．．．……．．．２０２．５．２二代测序原始数据文件：Ｆａｓｔｑ文件…………………．２１２．６二代测序数据处理内容…．．．…………．………．．．．……．２３２．６．１序列比对………．．．．．．．．．………．．．．．．．……．．．．．２３２．６．２ＳＡＭ和ＢＡＭ文件．．．．………．．……．．．．．………．…．２６２．６．３碱基质量校准……．…………．．．……．．……．…．２８２．７二代测序数据分析方法学及发展．……………．．．．．．．……．．３３２．７．１基因分型和ＳＮＰｃａｌｌｉｎｇ的关系．．…．．．．．……．…．…．３３２．７．２基因分型方法及其改进的概率方法学…．………．……．．３３２．７．３连锁不平衡的应用…………………．…．………．．３４２．８二代测序ＳＮＰ结果分析．．………………．．．．………．．．．．３５２．８．１ＳＮＰ２．８．２２．８．３ｃａｌｌｉｎｇ……．．…………．．．．……．．．．．．……３５ＳＮＰ的ＶＣＦ格式…．．…．．．……．…．．．．………．．．．．３６ＳＮＰ结果的过滤和优化…………．…………．……．．３７２．９小结．．…………………．．．．．………．．．．．………．．．．４０第３章结果…………．…．．．……．．．．．…．．…．．．．………．…４２３．１酵母基因组ＳＮＰ图谱构建………．．．…．．…．．．．………．．．．４２３．１．１酵母基因组序列比对．…………．．．．．．．……．．．．．．…４２３．１．２序列比对后续分析．．．．．．．．．．…．．．…．．…．．．．．．．．…．．４３３．１．３Ｔｉ／Ｔｖ……．…．．．．…．……………．．．…．……．．４６ＳＮＰ注释信息……．…………………………．…．４９３．１．４单个ＳＮＰ位点共有菌种个数…．………．．．………．．．．４８３．１．５３．２ＩｏｎＴｏｒｒｅｎｔ测序质量评价………．…．…．．…………．…５０３．２．１编程抽取、处理碱基变异信息……………………．…５０ＶＩ———————————————————————————旦墨．．————————一３·２·２３·２．３３·２．４Ｈｏｍｏｚｙｇｏｕｓ和测序错误之间的关系．．…．．．．．………．．．．５２Ｈｏｍｏｚｙｇｏｕｓ对测序的影响…………………．………５３Ｓｗａｐ型Ｍｉｓｍａｔｃｈ………………………………．．５３Ｔｏｒｒｅｎｔ测序初步评价及初步改善……………．．．．５４ｅｒｒｏｒ质量值的比较……．．．．……．．．．５６３·２．５Ｉｏｎ３·２．６Ｍｉｓｍａｔｃｈ和Ｆｒｅｅ第四章讨论…．．．．…………．…．．．．．．……．．…．…．．．．．．…．．５８４·１二代测序技术的发展…．…．．．．…．．．．．……．．．．．……．．…５８４·２二代测序数据分析发展及建议………．．．．………．……．．．．５９４．３展望………………………………………………．５９致谢……………………………………………………６１参考文献．．．．．…．…．．．．…．．．．……．．．．．．．…．．．．．．．．……．．．．．６２附录Ａ……………………………………………………６７附录Ｂ……………………………………………………６９ＶＩＩ第１章引言第１章引言１．１概述著名的一代Ｓａｎｇｅｒ测序…诞生与上世纪七十年代，是最早也是较成熟的，得到广泛应用的测序技术手段。在它的基础上，人类全基因组计划才能够得以顺利开展。虽然到现在为止，一代测序都仍然有着它不可或缺的位置和作用，但总体而言，一代测序测序时间长，测序通量低，费时费力，已经无法满足如今高速发展的生命科学研究和需求。追求测序速度更快，测序通量更大，测序成本更少，测序操作更方便简单的测序技术就成了科学者的目标。因此，二代测序【２１技术孕育而生。相比与一代Ｓａｎｇｅｒ测序，二代测序提供了成本低廉以及可靠的大规模的ＤＮＡ测序方法。存在己知参考基因组的重测序，未知基因组的重头（ｄｅｎｏｖｏ）测序【３］，全基因组ＧＷＡＳ关联分析疾病基因定位‘４·５１，外显子组测序旧１以及通过ＲＮＡ测序［８。９】对表达水平进行量化以及群体遗传学等研究中［１０１，二代测序都被得以广泛应用。二代测序近年高速发展，得以开展大规模物种测序，已经彻底改变了人们对生命科学研究的认识、看法和研究方式，而且快速的推动了包括诸如基因组学、生物信息学、系统生物学在内的多学科的创立和发展。测序技术革命性的变革使生命研究从单一、具备向基因组方向转变。将眼光投向不远的未来，个人个体化的疾病诊断与治疗或许会由于测序技术的变革和突飞猛进的发展而将向基因分子水平迈进ｕ１｜。但是，伴随着新一代测序技术快速发展的另一方面就是有悖于新技术而带来的种种难题【ｌ２１，比如高通量造成的海量数据如何分析处理，如果没有适当的方法对这些数据进行解释说明，那么这些数据对于研究者而言就没有任何意义。而二代测序其并非完全百分百测序准确的事实情况下，如何评价以及对待这种测序误差造成结果上的差异和影响就显得尤其重要，本文通过从二代测序最基本的原理出发，具体到一般数据分析的各个步骤，详细阐述了理论上的二代测序数据分析和实际操作。第１章引言１．２一代测序（Ｓａｎｇｅｒ测序）１．２．１Ｓａｎｇｅｒ测序原理著名的Ｓａｎｇｅｒ测序又名双脱氧核苷酸（ｄｄＮＴＰ）终止法【Ｉ３１。如图１．１所示，由于ｄｄＮＴＰ缺少３＇－ＯＨ基团，使得其不具有与另一个ｄＮＴＰ反应形成磷酸二酯键的能力。因此，这些ｄｄＮＴＰ会中止ＤＮＡ链的复制延伸。通过设置四个平行的测序反应，ＤＮＡ链将分别在Ａ、Ｔ、Ｇ、Ｃ处反应终止，形成长度相差一个碱基的ＤＮＡ片段，结合诸如凝胶电泳和显影等技术即可确定所测片段的碱基序列。另外，ｄｄＮＴＰ通过一定的技术手段可以连接荧光标记基团或放射性同位素。通过检测连接基团实现的外部反应达到检测合成反应也是测序自动化实现的基础。ｓ■———卜瑚≈霸■■簟＊ＣＴｔｋＡＧＣＴＣＧＡＣＴ◆／／＼＼ｄＣＴＰ．ｄＧＴＰ，ｄＡＴＰ．ｄＴＴＰ专◆毒．ｄｄＷＰ—Ｉ＿｝一（；＾＇’‘ＣＧＡＧＣＴＧｄｄ“ｌ—誉～ｔ：Ａ２”Ｐｒ《：Ａ（；吐ｄ（’Ｄ－～ＧＡＴ＇ＴｒＥ；＾ｆ；毛：．薯畦ｄ娃—ｌ謦一６＾１１ＣＧＡ（；Ｃｄｄｑ－…ＧＡＴＴＣＧｄｄＡ●■警一（；Ａ订ｄｄｆ’Ｉ－ｖｆ；囊ｒ几’ＧＡｄｄ（；Ｉ—｝一（；ＡＴｄｄＴ－（捌吐＾Ｉ－ｆ；Ａ盯（吐烈．ＩＩＤ－－ＧＡｄｄＴ＼＼＼’酣’／’—一—－｛ｉ■■——■。镧—■—謦ｉ●＿＿∥■■■—■擎鼍——一蔫—■——●翊—■■，ｊ●●———－鼍——■—，：ｉ一…。．／ｔ．－．、ｏ二岂：‘Ｌ｝．‘：图１．１ｄｄＮＴＰ终止法测序第１章引言１．２．２Ｓａｎｇｅｒ测序意义Ｓａｎｇｅｒ测序操作简单，应用广泛。Ｓａｎｇｅｒ测序以及基于其技术特点原理衍生出的毛细管电泳技术在上世纪九十年代为生命科学的发展做出了巨大贡献。由Ｓａｎｇｅｒ测序改善发展而来的荧光自动测序技术也成为了ＮＧＳ的基础。Ｓａｎｇｅｒ测序有着其鲜明的特点和优势：它的准确性非常高，一次测序的精确度就能达到９９．９９９％，错误率几乎为零。这也是二代测序目前为止都无法达到的高度；它的测序读长非常长，能达到１０００ｂｐ，这也是相比二代测序的一个巨大优势；但是，它的通量不高，２４ｈ测定的碱基数大约为６００，０００个，测序成本也比较高。因此，Ｓａｎｇｅｒ不适合做大规模高通量的测序。但是由于Ｓａｎｇｅｒ测序测序读长较长，对重复序列和多聚序列的处理较好，在比如生物学途径分析，定量基因的表达，生物标志鉴定等区域性或专向性研究中，仍然会大量的应用Ｓａｎｇｅｒ测序。因此，目前Ｓａｎｇｅｒ测序仍然占有很重要的位置，而且作为能够完成人类基因组的重头测序并组装完成的技术标杆，Ｓａｎｇｅｒ测序的超高精确度也一直是测序技术发展的目标和标准。即使在目前二代测序比较成熟的条件下，也需要一代Ｓａｎｇｅｒ测序进行协助，配合。１．３二代测序（高通量测序，下一代测序）１．３．１二代测序基本介绍由一代Ｓａｎｇｅｒ测序的介绍可知二代测序实际上是基于一代测序的原理，做出了技术变革创新从而达到高通量低成本实现快速测序的目的。其核心原理都是边合成边测序（ＳｅｑｕｅｎｃｉｎｇＢｙＳｙｎｔｈｅｓｉｓ，ＳＢＳ）［１４－１５］。基因组或基因组靶区域被随机片段化成小序列［１６｜，然后片段化的ＤＮＡ样本会根据不同的技术平台做相应的ＰＣＲ高通量扩增【ｌ７｜。扩增完以后的ＤＮＡ片段将被转移到带有ＣＣＤ照相功能处的计算机进行合成测序。测序时，利用ＤＮＡ聚合酶或者连接酶反应合成互补链，合成过程会跟荧光释放偶连起来，或释放出颜色不同的荧光，或者释放出不同强度的荧光，计算机将捕获到的荧光信号经过特殊的计算机软件处理，转换成ＤＮＡ的碱基信息，实现从光信号到碱基信息的转换。目前，市售的二代测序平台主要有不同公司的四种型号。他们是Ｒｏｃｈｅ公司的４５４焦磷第１章引言酸测序仪［１８－１９】；Ｉｌｌｕｍｉｎａ公司的以Ｓｏｌｅｘａ为代表的测序仪；ＡＢＩ公司的ＳｏＬｉＤ４５４测序仪㈣和ＩｏｎＴｏｒｒｅｎｔＰＧＭ（ＰｅｒｓｏｎａｌＧｅｎｏｍｅＭａｃｈｉｎｅ）［２１－２２］。其中，Ｒｏｃｈｅ焦磷酸测序和ＩｌｌｕｍｉｎａＳｏｌｅｘａ测序仪是利用ＤＮＡ聚合酶进行合成测序，而ＡＢＩＳｏＬｉＤ测序系统则是使用连接酶进行连接合成反应来进行合成测序。１．３．２二代测序基本步骤包括Ｒｏｃｈｅ４５４测序仪在内的二代测序仪测序的基本过程由以下几个步骤构成：（ｉ）ＤＮＡ（ＲＮＡ）模板文库的构建：将基因组ＤＮＡ通过超声波等随机打断成长度为数十至数百碱基的小片段，通过变性得到单链模板文库，然后再通过接上相应接头固定在相应的固定相上。（ｉｉ）以上得到的ＤＮＡ片段通过在对应不同平台中利用不同的技术进行ＰＣＲ循环大量扩增，形成ＤＮＡ簇、阵列或微球。（ｉｉｉ）利用ＰＣＲ扩增得到的模板ＤＮＡ链在ＤＮＡ聚合酶或连接酶的条件下进行合成反应，计算机捕获合成反应过程中产生的荧光信号进行分析得到碱基信息。１．４Ｒｏｃｈｅ４５４测序仪１．４．１Ｒｏｃｈｅ４５４基本原理Ｒｏｃｈｅ４５４是二代测序平台中最早（２００５年）应用于商业高通量测序的平台，其核心思想是焦磷酸测序（Ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ）。如图１．２所示，经过片段化的ＤＮＡ短序列文库在４５４中是以一种油包水乳滴结构进行ＰＣＲ扩增的（ｅｍｕｌｓｉｏｎＰＣＲ）［２３］。水溶液和油混合在一起，以油包水的乳滴形式包裹着一个微型磁珠，这种结构构成了一个ＰＣＲ反应的微小型反应器。这个反应器包含着ＰＣＲ反应所需要的各种酶以及其他条件物质。并且保证了单个磁珠之间相互不受影响，让ＰＣＲ能够高效准确的扩增。经过扩增后，每个乳滴内的磁珠都包含了成千上万个ＤＮＡ单一拷贝。这些磁珠后续会被转移到带很多ｄ，ＴＬ的ＰＰＴ板上进行测序，这些小孔每个只能容纳一个磁珠，这也保证了各个磁珠之间反４第１章引言应的独立性，确保了测序的质量和准确性。图１－２４５４焦磷酸测序过程４５４之所以叫做焦磷酸测序，是因为在边合成边测序的过程中，三磷酸核苷酸结合到ＤＮＡ链上时会释放出焦磷酸，反应体系中还存在着其他多种酶，如荧光素酶、ＡＴＰ硫酸化酶等。如图１．３所示【２４】，释放出的焦磷酸在ＡＴＰ硫酸化酶的作用下ＰＰｉ跟反应底物５’．磷酰硫酸（ＡＰＳ）结合形成ＡＴＰ，ＡＴＰ又跟荧光素酶（１ｕｃｉｆｅｒｉｎ）结合形成氧化荧光素，同时释放出荧光。４５４测序仪的计算机的ＣＣＤ光学系统通过捕获所释放出的荧光信号最终计算出碱基信息。这种合成测序体系中通过焦磷酸和其他酶发生一系列的酶促级联反应，最终释放出荧光信号，实现测序的过程就是著名的焦磷酸测序法。Ｔ（；（：蠢￡ＣＴＴＴ／ｋ蕊ＣＴＧＧＣＣ５…●噜一￡ｔＧＡＯＣＧＧｅ…Ｎ曲赫文Ｉ柏辅｝｝犍·里兰ｄＮＴｆ／＂＼、ｌ，｝＿，；弋：……苎…煎篓！，。ｉ７－ｐ＾Ｈ溆ｆ叶泌～。、．｛７７‘ｆ、ｉｅｘｔｂ嚣ｓｅ＾。。。‘’ｉ７ｌ＋’玎、。４，Ｌｉ譬ｈｌ《Ｐ１１ｗ¨‘——／Ｇ：ｉ盘Ｇ；＼＼ｅＴＮｕｃｋ嘲ｔ，＊ｏ洲图１－３焦磷酸测序原理第１章引言１．４．２Ｒｏｃｈｅ４５４技术特点（ｉ）焦磷酸磷酸最大的特点也是最大的优势在于它的测序读长，理论上焦磷酸测序在单末端测序（ｓｉｎｇｌｅ．ｅｎｄ）情况下最高可达到５００ｂｐ的长度，在双末端测序（ｐａｉｒｅｄ—ｅｎｄ，ＰＥ）【２５Ｊ情况下理论上最高可达到１０００ｂｐ，达到了Ｓａｎｇｅｒ测序的长度，这对于序列的拼接组装来说非常重要，长度越长的读长组装拼接所需要的计算量就越小，准确率越高。所以焦磷酸测序非常适合于微生物、细菌、病毒等新的或基因组大小较小的物种测序。（ｉｉ）焦磷酸测序实现了快速、高通量检测测序的目的，相比与一代Ｓａｎｇｅｒ测序，焦磷酸测序一个ｒｕｎ过程中能够产生ＧＢ级的通量，上亿的碱基数量，大大提高的测序通量和测序速度。（ｉｉｉ）焦磷酸测序除了ＤＮＡ聚合酶等反应所需的化合物外，在ＤＮＡ链的合成延伸过程中，并没有其他的化合物参与，它也没有标记基团，缺少反应延伸终止子元件。所以，在同聚核苷酸区域，如ＣＣＣＣＣＣＣ区域，焦磷酸测序无法精确识别反应碱基数量，计算机只能依靠荧光信号强度来推测同聚核苷酸的长度，这就是Ｒｏｃｈｅ４５４误差产生的地方。焦磷酸测序的主要错误也来源于此，很容易造成基因组的插入、缺失：Ｉｎｓｅｒｔｉｏｎ．Ｄｅｌｅｔｉｏｎ（Ｉｎｄｅｌ）错误。（ｉｉｉｉ）焦磷酸测序体系需要依靠一系列的酶进行级联反应，试剂价格相对较高，因此焦磷酸的测序成本是非常昂贵的。１．５Ｉｌｌｕｍｉｎａ公司Ｓｏｌｅｘａ测序１．５．１Ｓｏｌｅｘａ测序基本原理Ｓｏｌｅｘａ测序和４５４测序相似？也是采用的边合成边测序（ＳＢＳ）方法。不同之处在于，Ｓｏｌｅｘａ采用的是桥式ＰＣＲＥ２６１的方式进行ＤＮＡ片段扩增。在完成ＰＣＲ扩增以后，桥式结构打开，单一ＤＮＡ克隆样本形成簇状结构以供测序，如图１—４所示。６第１章引言图１４Ｓｏｌｅｘａ测序过程在Ｓｏｌｅｘａ的测序过程中，如图１．５，Ｓｏｌｅｘａ技术将四种不同核苷酸分别标记不同荧光，且每个核苷酸的３＇－ＯＨ基团经过特殊处理而封闭保护起来的，防止核苷酸进行额外无序的延伸【２７。２引。这样，每一轮聚合合成反应过程中，ＤＮＡ只能延长一个碱基的长度，这很好的解决了４５４焦磷酸测序对于同聚核苷酸长度无法准确测定的问题。下一轮反应中，上一个碱基的３＇－ＯＨ封闭基团打开，下一个碱基才能与上一个碱基结合，同时释放出相应荧光信号，计算机的ＣＣＤ光学系统检测荧光信号从而得到碱基信息，实现测序【２９１。蛰到篆习习网一图１．５Ｓｏｌｅｘａ测序原理第１章引言１．５．２Ｓｏｌｅｘａ测序技术特点（ｉ）在ＤＮＡ聚合反应过程，由于碱基测序依赖于ｄＮＴＰ上标记的荧光，因此记录每个ＤＮＡ簇的荧光信号，保持ＤＮＡ链的合成保持一致性非常重要。但是实际过程中，荧光标记物不能及时的淬灭切掉，或者封闭基团无法正确切除都会导致ＤＮＡ无法正确同步延伸，进而出现信号衰减或者荧光相位移动。因此，Ｓｏｌｅｘａ的主要缺点就是由于光信号衰减以及相位移动造成错误率逐渐积累，即ＤＮＡ片段越长，错误率越高。正是由于这些特点，限制了Ｓｏｌｅｘａ技术的测序读长，它的测序读长很短，早期Ｓｏｌｅｘａ的测序读长为２５ｂｐ左右。发展至今，通过ＰＥ文库技术可实现１５０至２００ｂｐ读长测序。（ｉｉ）虽然Ｓｏｌｅｘａ测序读长比较短，但是它的优点也非常明显，那就是测序通量最高，系统后续升级较为方便，所需要的ＤＮＡ样本量非常小。相比其他平台，Ｓｏｌｅｘａ测序仪本身的价格就比其他的相对低廉，而且测序不依赖于昂贵的酶试剂，测序成本也是最为低廉的，通过提高通量的方法也在一定程度上弥补了测序读长上的不足。（ｉｉｉ）作为二代测序商业市场占有量最大的平台，很多重要研究都是以Ｓｏｌｅｘａ为基础的，因此，除了商业软件，针对Ｉｌｌｕｍｉｎａ也有很多学术软件，如ＢＷＡ，Ｄｉｎｄｅｌ等。这些学术软件都是免费而且高效准确的，在研究过程中都可以找到为相应功能而设计的软件，这也是ｉｌｌｕｍｉｎａ测序一大优势。１．６ＡＢＩＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓＳＯＬＩＤＳｙｓｔｅｍ１．６．１ＳＯＬＩＤ测序基本原理ＳＯＬＩＤ测序的ＰＣＲ过程与４５４类似，也是油包水微乳滴ＰＣＲ（ｅｍＰＣＲ）。但是和以上两种方式截然不同的是，ＳＯＬＩＤ在边合成边测序的过程中采用的是连接反应而不是聚合反应。如图１－６所示，每个连接反应连接的是一个带有荧光标记的八核苷酸探针（图中ＸＹ－ｎｎｎ—ＺＺＺ），其中荧光标记在第八位，第一和第二位碱基（图中ＸＹ位）的序列的排列组合方式和特定的荧光颜色偶联起来（图中ＸＹ双碱基颜色编码），第三、四、五位（ｎｎｎ）是通用碱基位。当发生下一个连接反应的时候，上一个八核苷酸探针就会从第五第六位的中间断开（图中第１章引言Ｐ处），从而留下前面五个碱基（ＸＹ－ｎｎｎ），并且发出不同颜色的荧光。一Ｘ汝虹ｎ乏ＨｌＸ、；ｎ琏亨陀ｐ－■。＝＿１蠢鑫鑫。’●、１：翁●●。≥霹毒ｎ已耵嗽艺一｜｛图１－６ＳｏＬｉＤ连接探针和双碱基颜色序列因此，每一轮探针的连接反应，其获得的真实有效的信息就是前两位碱基排列信息所形成的荧光颜色信号，下一次连接反应的实测信息会比上次的信息增加５个碱基的位置。以３５ｂｐ长度的模板序列为例，经过七次连接反应后，系统会捕获七个荧光颜色信号，分别是第１．２，６．７，１１．１２，１６．１７，２１．２２，２６．２７，３１．３２位上的碱基信息，如图１．７所示。第二轮反应在经过系统重置后，引物的位置会往前移动一位，接下来重复上面的测序步骤，这样又可以得到０．１，５－６，１０．１１……等位置的信息，经过七轮连接反应后，系统再次重置，引物位置再次提前一个，如此反复循环，这样经过五次循环以后，３５ｂｐ的ＤＮＡ片段的所有位置的碱基信息都被测定，而且被测定了两次。９第１章引言图１．７连接法测序原理１．６．２ＳＯＬＩＤ测序的技术特点（ｉ）ＳＯＬＩＤ测序中因为ＤＮＡ片段碱基都被测了两次，有效了减少了碱基因为测序本身的错误而造成的错误率，在测序深度达到１５ｘ的时候单碱基测定的准确率可以达到９９．９９％，因此ＳＯＬＩＤ平台是目前二代测序平台中准确率最高的。（ｉｉ）和其他平台直接获得碱基信息不同，ＳＯＬＩＤ的捕获信息是具有简并性第１章引言的ｃｏｌｏｒｓｐａｃｅ颜色信号，只要知道信号序列中任何一个碱基的信息，就可以根据颜色信号对应的双碱基信息解码成碱基序列。（ｉｉｉ）ＳＯＬＩＤ连接测序法的通量也非常高，一个循环产生的数据量也高达１０ＧＢ，而且其读长也非常短，ｓｉｎｇｅｌｅｎｄ文库的读长仅能达到５０．１００ｂｐ，ＰＥ文库支持下可达到２００ｂｐ左右。此外，ＡＢＩ公司收购合并了其他软件数据处理公司，在初步测序以后可以提供基本的数据处理，因此在数据处理方面ＳｏＬｉＤ平台具有比较好的技术支持，对数据处理要求没有很高的要求情况下，ＳｏＬｉＤ平台自身的软件基本上可以满足普通需求。１．７ＩｏｎＴｏｒｒｅｎｔＰＧＭ１．７．１ＩｏｎＴｏｒｒｅｎｔ测序原理上面章节已经讨论过４５４测序的原理，是合成过程中释放出的焦磷酸发生酶联反应释放荧光从而实现测序目的的【３…。和４５４类似但又不同的是，ＩｏｎＴｏｒｒｅｎｔ并不是利用ＤＮＡ的合成和荧光相偶联，而是在ＤＮＡ链合成延伸的时候，分别循环加入四种脱氧核苷酸，ＤＮＡ片段会在如图１．８中的一个称为微池结构的小室（Ｍｉｃｒｏ—ｍａｃｈｉｎｅｄｗｅｌｌｓ）里进行聚合反应。若发生聚合反应，产生的氢离子会导致微池结构发生ｐｈ值的微小变化，每个微池的临近部位分布着离子敏感层（Ｉｏｎ．ｓｅｎｓｉｔｉｖｅｌａｙｅｒ），离子敏感层紧接着ＩｏｎＴｏｒｒｅｎｔ的场效应晶体管（Ｆｉｅｌｄ．ｅｆｆｅｃｔＴｒａｎｓｉｔｏｒｓ．ＦＥＴＳ）。第１章引言图１－８ＩｏｎＴｏｒｒｅｎｔ测序反应结构通过这种结构，离子敏感层会对微池中ＤＮＡ的聚合反应做出侦测作用，场效应晶体管可以感受到这种高灵敏的ｐＨ微小变化，然后把ｐＨ信号的变化转变成可以记录观测的电压变化信号，从而实现对模板ＤＮＡ序列的测定和记录，如图１－９所示。一繁图１－９ｐＨ值变化转化为电压信号１２第１章引言１．７．２ＩｏｎＴｏｒｒｅｎｔ测序技术特点Ｔｏｒｒｅｎｔ测序反应过程简单，不需要多酶反应环境和特殊修饰处理过（ｉ）Ｉｏｎ的ｄＮＴＰ试剂，跟其他二代测序平台最大的不同之处就在于其完全摆脱了测序所必须的昂贵的光学仪器设备，并不需要荧光捕获辅助测序，因此也称为无光系统，这极大的降低了测序成本以及加快了测序速度。也正是由于彻底摆脱了荧光系统使得它跟其它二代测序截然不同，ＩｏｎＴｏｒｒｅｎｔ也被称为２．５代测序（ｉｉ）ＩｏｎＴｏｒｒｅｎｔ测序技术使用的技术载体是半导体芯片。半导体芯片的制备工艺相对成熟，发展前景也大，升级较快。通过芯片的不断升级，其通量也持续走高，适合高通量测序。ＩｏｎＴｏｒｒｅｎｔＰＧＭ半导体测序所宣称的一天内花费１０００美元完成一个人的基因组测序也体现这个平台的前景以及优势。（ｉｉｉ）ＩｏｎＴｏｒｒｅｎｔ根据ｐＨ变化测定碱基信号，一方面寡聚核苷酸区域出现的信号值并不会真实的反应出同聚物的长度，同聚物区域测序的准确性还有待提高，另一方面，ＩｏｎＴｏｒｒｅｎｔ的测序读长目前在单向测序的情况下大概是在２００ｂｐ左右，对于ｄｅｎｏｖｏ测序而言，读长还需进一步增加。未来，ＩｏｎＴｏｒｒｅｎｔ新一代的测序试剂盒的读长长度将会提高到单向４００ｂｐ。根据以上介绍可以对各种测序做个小结如表１．１。表１．１测序技术对比第１章引言１．８单核苷酸多态性（ＳｉｎｇｌｅＮｕｃｌｅｏｔｉｄｅＰｏｌｙｍｏｒｐｈｉｓｍ，ＳＮＰ）单核苷酸多态性（ＳＮＰ，如表１．２）是基因组同一位置核苷酸水平上的变异引起的ＤＮＡ的序列多态性。狭义上的ＳＮＰ指的是单个碱基水平的转换和颠换，广义上的ＳＮＰ也可指少量碱基的插入和缺失，或者更大的片段性的重复和缺失（ＣｏｐｙＮｕｍｂｅｒＶａｒｉａｎｔ，ＣＮＶ）【３１｜。ＳＮＰ在基因组中分布广泛，以人类为例，ＳＮＰ出现的概率大约为５００—１０００个碱基出现１个，人类基因组大约有３ｅ６个ＳＮＰ的存在。不同于其他遗传标志，ＳＮＰ提供了全基因组范围内的多态信息，它分布广，数量多，易于筛选查找，因此为复杂疾病易感基因的定位分析，农作物的遗传育种【３２１，生物进化起源，药物设计等研究提供了良好的材料。表１．２ＳＮＰ类型ＡＴＧｃＡＴＧ（÷ＡＴＧｃＳＮＰＡＴＧＣＡＴＧＧＡＴＧＣＡＴＧＣＡＴＧ——ＣＡＴＧＣ插入ＡＴＧＣＡＴＧＧＣＡＴＧＣＡＴＧＣＡＴＧＣＡＴＧＣＡＴＧＣＡＴＧＣ—ＴＧＣＡＴＧＣＡ，Ｉ、ＧＣＡＴＧＣＡ‘ｒＧＣＡ’ｒＧＯＡｌＧＣＡＴＧＣＡＴ（；ＣＡＴＧＣ缺失ＣＮｖＡＴＧＣ————————————————————————————————————————————————————————ＡＴＧＣ１．９本研究的内容、目的和意义Ｂａｓｅｃａｌｌｉｎｇ概念：由上面小节介绍可知，ＮＧＳ技术的主要原理是边合成边测序。数以百万计的小的单链ＤＮＡ模板以小序列的形式聚集在一起，同时通过碱基互补配对原则进行合成。合成过程中捕获一系列的荧光或电压图像，二代测序计算机系统的计算方法能够从每个ＤＮＡ模板类别中得到的荧光或电压强度推断出真实的核苷酸碱基信息，这一过程就叫做ｂａｓｅｃａｌｌｉｎｇ。然而，二代测序由于原理所限和实际操作过程存在误差，其测序本身并不是百分之百的准确，所以ｂａｓｅｃａｌｌｉｎｇ本身就有着不确定性【３引。因此，二代测序数据包括ｂａｓｅｃａｌｌｉｎｇ和序列比对在内的很多因素造成其有着比较高的错误率。此外，许多的ＮＧＳ研究都依赖与低覆盖度的测序（平均单个个体的单个位点被１４第１章引言测序５次，即５ｘ），这也造成了很大的概率在二倍体个体中的两条染色体中，只有其中一条染色体的特定位点被测序。在这种环境下进行准确的ＳＮＰｃａｌｌｉｎｇ和基因分型是非常困难的，造成结果往往具有很大的不确定性。量化和评价这种不确定性是很重要的，因为这会直接影响基于ＳＮＰ和基因型的下游分析，例如罕见基因突变的发现，等位基因平率的估计和关联定位。减少这种不确定性的一个方法就是对目标区域进行深度测序（＞２０ｘ），高的测序深度使得每个位点被测的几率增高，这样可以利用每个点重复测序来减少或消除单个碱基的测序错误。但是，对大样本序列日益增长的需求表明，中度测序（５－２０ｘ）和低覆盖度测序在最近几年的ＮＧＳ应用中是最常见和最经济的研究方案。例如千人基因组计划，对大约２００个人的全集因组只在３．５ｘ的平均深度下进行测序。对于低频率变异的鉴定，在少量样本的个体中，这种方案比深度测序更加经济有效。同样，在相关的研究领域中，对多个个体在低深度水平进行测序的效率通常会得到最大化【３４１，而对少量个体进行深度测序的情况却无法达到效率最大化。另一方面，减少和量化ＳＮＰ和基因分型的不确定性可以用一些复杂的算法来完成。因此，这类研究已经成为目前最为广泛研究的课题【３孓３６Ｊ。大多数目前的算法都是引用的数学概率论的框架，即所谓的基因型似然性。似然性包括了ｂａｓｅｃａｌｌｉｎｇ，序列比对和组装步骤在内的可能会出现的错误，再加上其它信息，例如等位基因频率和连锁不平衡模式。利用这种方法计算出来的结果就是ＳＮＰ和基因型以及不确定性的衡量方式（通常被描述为质量分数ｑｕａｌｉｔｙｓｃｏｒｅ）。这两个结果都具有统计学上的解释。本研究将从最原始、最初步的ＮＧＳ平台输出的数据出发，到最后转变成一系列最终的ＳＮＰ和基因型信息。其中需要涉及到一系列的步骤，如图１—１０。这些步骤都对ＳＮＰ和基因分型都有着相应的贡献。我们通过了解各个步骤、流程所涉及的目的、功能、方法和发展来选取适当的算法、软件程序来完成相应的任务，以了解如何解决结果中出现的不确定性，使得能够在后续分析中容纳这种不确定性造成的误差，为ＮＧＳ数据的分析做一般性和经验性的建议。第１章引言蕊基错误率盼篱量方式短序列在参考基因组的定位碱基错误率的优化初步的ＳＮＰ和基因分型结果的假阳性图１．１０二代测序数据处理基本过程１６第２章材料和方法第２章材料和方法２．１ＬｉｎｕｘＵｂｕｎｔｕ操作系统ＧＮＵＵｂｕｎｔｕ是一个以桌面应用为主的基于ＤｅｂｉａｎＬｉｎｕｘ［３７］操作系统的开源系统。虽然在市场环境中ＬｉｎｕｘＵｂｕｎｍ等系统并不多见１３圳，相比Ｗｉｎｄｏｗｓ系统的份额更是微不足道，但是就科学计算研究领域而言，其良好的框架结构，高度可设置性、高效的运算性能以及良好的平台移植性都为科学研究提供了方便和效率。具体Ｎ－代测序研究应用领域中，许多知名软件（如ＧＡＴＫ，ＢＷＡ，ＳＡＭｔｏｏｌｓ等）都是以基于ｌｉｎｕｘ内核多种程序语言发布的，在ｌｉｎｕｘ操作系统中都可以很方便快速无障碍的对这些软件进行应用操作。相反，对于常用的ｗｉｎｄｏｗｓ操作系统，大部分软件都无法或者非常难于运行于ｗｉｎｄｏｗｓ操作系统。而且Ｌｉｎｕｘ系统一般都内置各种程序语言，无需额外的操作就可以轻松实现编程语言的编辑和运行。２．２计算机硬件二代测序又名高通量测序，顾名思义，其产生的数据均是以ＧＢ字节来计算，而诸如千人基因组计划发布的数据动辄上ＴＢ字节。抛开程序、数学算法暂且不谈，其本身的数据量大小就已经超越了普通个人ＰＣ所承受的极限，因此需要有高容量、运算速度快、性能稳定的计算机作为保障。目前实验室条件良好，有浪潮中型服务器，其有１个可用存储矩阵，１个胖节点，４个瘦节点，１２ＧＢ内存，１２核ＣＰＵ。操作系统为ＬｉｎｕｘＲｅｄＨａｔ商业版，能够稳定高效的为计算服务。另有个人ＰＣ联想ＴｈｉｎｋＰａｄＲ４００，搭载双核２．２ＧＨＺＣＰＵ和ＬｉｎｕｘＵｂｕｎｔｕ操作系统，除了大型运算，个人ＰＣ均可完成相关软件安装、调试以及数据处理过程。第２章材料和方法２．３Ｐｅｒｌ编程脚本语言二代测序实质就是对样本ＤＮＡ链进行测定，即得到相应的碱基信息，最后的结果也就是Ａ（腺嘌呤）、Ｔ（胸腺嘧啶）、Ｇ（鸟嘌呤）、Ｃ（胞嘧啶）的排列组合。归根到底就是字符串’ＡＴＧＣ’的信息。而脚本语言Ｐ甜【３９］最大的特点和优势就在于其对字符的操作能力极其高效。另外重要之处在于Ｐｅｒｌ内部集成了正则表达式的功能，以及巨大的第三方代码库ＣＰＡＮ。简单的语法但是却不乏强大齐全的功能使得Ｐｅｒｌ语言在处理字符串相关的工具中非常出色，其巨大的ＣＰＡＮ代码库拥有几乎所有比较常见的任务的相关Ｐｅｒｌ代码，比如生物信息处理中很重要的工具ＢｉｏＰｅｒｌ［４０１。因此，掌握Ｐｅｒｌ编程语言对于本研究而言能够更加高效和流畅的处理相关问题。２．４数据来源本文所使用的二代测序数据是以不同种类的酵母为基础。在ＮＣＢＩ二代数据库ＳＲＡ（ＳｅｑｕｅｎｃｅＲｅａｄＡｒｃｈｉｅｖｅ）［４１】上，上传着来源与世界各地的不同种类的二代测序数据，我们查询了所有酵母菌种的二代数据。根据酵母菌种的种类、、｛＠桑地、用途、性状等特点，我们最终选取并下载了如表２．１所示的约３０个种类的Ｒｏｃｈｅ４５４数据为参考研究数据。这些数据中包含了不同技术的文库构建，包括ｓｉｎｇｌｅｅｎｄ文库和ｐａｉｒｅｄｅｎｄ文库，文件大小也从单个１００Ｍ到１Ｇ以上范围。此数据主要是用来分析基于二代测序的ＳＮＰ图谱构建流程。表２．１研究所使用酵母菌数据ＳＲＸ０１９５６７ＳＲＸＯ１９５６８ＳＲＸＯＯＯ１７３ＳＲＸ０３７４Ｏ６ＳＲＸ０４Ｏ４２３ＳＲＸＯ４Ｏ４２２ＳＲＸ０３９４５１ＳＲＸＯ３９４５０１６９６７２９６３９６．０１２９２．０３７２３．８ｌ２７８．６６１３１６．２３３７５．７９６９５．５３２９．６２１３．９３９．７５２５．５３１１．５４１１８３—０８８８８７一一心ｍ舭舭胎ｍｍⅢ雕嬲ｍⅢＭ肺３１０３７４２９６ｌ４Ｏ３２１Ｏ７８３Ｏ９６８９１４９Ｏ６２４５５９４３．６８１５．６８２５．０５１３．９２１口ＪＯ４Ｐ３６５６ｌＩ。１６９２３一ｂ０６０第２章材料和方法第二个数据分析目的是ＩｏｎＴｏｒｒｅｎｔ测序质量初步评价。其使用的数据的一个基因组已知的大肠杆菌的ＩｏｎＴｏｒｒｅｎｔ重测序数据。已知基因的大肠杆菌经过ＩｏｎＴｏｒｒｅｎｔ重测序过后，可以直接将测序数据经过序列比对后寻找其跟已知的参考基因所形成的差异位点，分析这些差异位点的特征，可以寻找出差异位点形成的规律以及特征，然后根据这些规律以及特征可以设计或借用某些数学方法来评价测序出错的概率和特征，最终应用与实际未知基因组的测序，消除或者减少由于测序本身带来的错误。第２章材料和方法２．５二代测序数据格式ｃａｌｌｉｎｇ评价指标：ｑｕａｌｉｔｙ２．５．１Ｂａｓｅｓｃｏｒｅ因为在目前所有的二代测序平台中，系统的ｂａｓｅｃａｌｌｉｎｇ并不是百分百准确的。作为最底层也是最重要，最直接的结果，这种测序的不确定性将或多或少的影响测序质量以及分析结果，在分析过程中，如何评价以及量化这种不确定性就非常重要了。另一方面，ｂａｓｅｃａｌｌｉｎｇ的程序会因为测序平台的不同而有变化，这很容易产生各种不同类型的错误。以４５４平台为例，ｂａｓｅｃａｌｌｉｎｇ会从观测到的荧光强度来推断出寡聚核苷酸的长度。事实上主要的挑战以及问题是，由于某种特定的聚合物的信号强度的变化是很大的，这也造成了插入和缺失会出现很高的错误率。而对于ｉｌｌｕｍｉｎａ平台，因其测序原理有很好的终止和启动机制，插入和缺失的错误就很少见，但总体上的错误率通常仍有１％左右。这里的主要问题来自于同一个类别中的不同ＤＮＡ样本的拷贝在合成过程中会变得不一致。每个测序周期中，这种不一致的程度会加剧，这也造成了ｂａｓｅｃａｌｌｉｎｇ会变的越来越不准确。ＳＯＬＩＤ平台采用的是双碱基编码的方案，即每种荧光染料的颜色能代表四种核苷酸间的组合方式。在这个系统中，ＤＮＡ样本中的每个碱基都会被测序两遍，一个长度为Ｍ的核苷酸序列会被表示为一个长度为Ｍ．１长度的颜色序列。ｃｏｌｏｒｃａｌｌｉｎｇ中出现的一个主要疑难问题会随着后续机器周期中出现的荧光强度误差而变得越来越困难。在这种背景下，就出现了需要对ｂａｓｅｃａｌｌｉｎｇ不确定性进行评价和量化的需求［４２１。因此，除了确定核苷酸的信息，ｂａｓｅｃａｌｌｉｎｇ的计算方法通过图像分析，使用噪音评估建立单个碱基的质量分数，这个碱基的质量分数就是测序中碱基测序信息的错误率概率。一些测序平台采用了这些质量分数，并且专门以这个分数来定义他们的平台，但是这些质量分数可以很容易的转变成标准的Ｐｈｒｅｄ质量分数［４３］，计算方程是：Ｏ（ｐｈｒｅｄ）＝一１０１０９１０Ｐ‘ＥＲＲｏＲ’例如，Ｑ２０的Ｐｈｒｅｄ值相应的就等于在ｂａｓｅｃａｌｌｉｎｇ中有着ｐ（ｅｒｒｏｒ）＝１％的错误率，因此Ｑ值越大代表其出错的概率越小，ｂａｓｅｃａｌｌｉｎｇ越可信。根据不同的平台，ＮＧＳ数据的大致错误率在百分之零点几至百分之几。减少ｂａｓｅｃａｌｌｉｎｇ的误差率以及提高每个碱基质量分数的准确性对组装、ＳＮＰｃａｌｌｉｎｇ、和下游的基因组分析都具有很重大的影响。因此，有许多ｂａｓｅｃａｌｌｉｎｇ第２章材料和方法常是核苷酸序列）和相对应的测序质量信息的标准格式。第一行以’＠’开头后接序列有关的通道、流动槽、名字、坐标轴、序列标号等序列有关的标识以及描述信息；第二行就是测序结果；第三行以’＋’号开头，后面可以空白，也可以跟第一行一样的信息；第四行是跟第二行测序结果相对应的质量信息，其长度必须跟第二行测序结果相等。如此循环，整个文库序列就以这样的结果储存在ｆａｓｔｑ标准格式文件中，以供后续分析。表２－２Ｆａｓｔｑ格式实例值得注意的是，第四行的碱基质量信息是其符号所对应的ＡＳＣＩＩ［４９】码的十进制值做相应的数学运算的值。比如符号５所对应的ＡＳＣＩＩ码十进制数字是５３，而标准的ＳａｎｇｅｒＰｈｒｅｄ质量值范围是一般从０到９２，ＡＳＣＩＩ码对应的十进制数字范围是从３３到１２６，那么从ＡＳＣＩＩ码到真实情况的Ｐｈｒｅｄ值的运算则为ＡＳＣＩＩ码值减去３３，所以符号’５’对应的Ｐｈｒｅｄ值就等于５３减去３３，等于２０，根据公式可得这个碱基的错误概率为Ｏ．０１，如表２．３。不同的平台，其ｆａｓｔｑ格式中的质量分数计算方法和取值范围均不同，在数据分析时一定要弄清为何种平台，其运算方式。目前Ｓａｎｇｅｒ的Ｐｈｒｅｄ质量值在不同平台中都比较通用，也有相应的程序可以方便的对不同算法的质量值的Ｆａｓｔｑ文件进行转换标准化。比对。ＭＡＯ【５１｜，最开始没有考虑ｇａｐ因素，只计算出两两序列之间的全局中，ＬＬ女．ｕ它们或存在不匹配（ｍｉｓｍａｔｃｈ），或存在ｇａｐ（插入、缺失）。在早期的比对软件比对，实际过程中，比对的序列很多都不会找到跟参考序列完全一致的片段，段的类似片段，这一过程也叫ｍａｐｐｉｎｇ。值得注意的是图中所示为比较理想的过类似ＢＬＡＳＴ、ＢＬＡＴ同参考序列的同源查找后，可以在参考序列中找Ｎｄ，片序（ｒｅ—ｓｅｑｕｅｎｃｉｎ９１。如图２．２，此为单末端测序情况下的比对，ＤＮＡ短序列在经比对［５０１。当然序列比对的前提条件是有参考序列可比较，这种测序也叫做重测序列在未打断之前在原参考基因组的位置。完成这一任务的过程就叫做序列的所以，我们需要知道这些ＤＮＡ短序列到底是基因组中哪个位置的序列，即短及能够为我们所分析，那么找回这些短序列其原有的信息就变得不可或缺了。后测序完成的，因此其具体信息已经丢失，若想让这些测序结果变得有意义以信息以及对应的碱基质量分数。这些大量短的序列是经过ＤＮＡ组打碎成片断由上节可知，二代测序的原始结果为一些短的序列的集合，其只包含碱基２．６．１序列比对２．６二代测序数据处理内容化有着非常重要的作用和意义。台中的原始输出测序数据的标准格式，对二代测序数据处理形成标准化和规模二代测序有着通量非常高的特点和优势，因此，Ｆａｓｔｑ格式作为二代测序平Ｆａｓｔｑ文件中的质量信息表２－３第２章材料和方法第２章材料和方法Ｇ？ＴＧＡＧＧ０：：ＧＣＧＴＴ０００ＧＧ：Ａ０００ｆ０ＳＡ０７ＴＴＧ！ＧＴＡ０７０Ｇ００００７ＧＯＧ：？ＧＡＧＧＣ？雾Ｓ００Ｔ：：、？！‘０Ｇ：ｔＴＯＳ？Ａ￡Ｓ￡？ＳＳ五０了！’？ＧＴＡＧ０置？Ａ０００丁：ｉ３ｆ譬ＴＳＣｇ，？？置ＴＯＧ？ＡＣ０：｛１００ＡＣＴＴＴＯＴＡ０嚣Ａ！‘Ａ０００篁誊００ＧＴ堂霉Ａ２Ｇｇ？Ａｅｏｅ譬ＧｇＡＣＯＴ｜！ｔＧ望ＡＧＳＡ篁ＡｅＴＩ’Ｇ｛：：，ｇ？雪！曼ＴＧＧＵ’Ａｅ００７ＳＧ＿Ａｅ０７，｛：；ＴＡ００Ａ？Ａｅｅ００ＧＴ？＝置？ＧＧ：ＡＣ嚣０７００ＡＣ了？丁ＧＴＡＧＯＡＴＡ￡００要ＧＡＧＧ￡雪？ＳｅＳＴ０：’置ＴＧＧＴＡＣ３Ｃ＝０舀ＡＣ？？：‘ＧＴＡＧＳＧＣＧＴ？０ＡＧＳ０警＝Ｓ００Ｔ？？；．？Ｓ０７ＡＯＳ０７３Ｓ曼：￡￡；？ＴＴＡＴＧＧＴＡＣ０：？∞Ａ０７１’？ＧＴＡＧＳＡ＝ＡＯＣＯＴＣ五了’ＧＧ：ＡＣＧＣＴＧＧＡ０７７ＴＳＴＡＧＧＡＴＡ￡００１ｒＣＧ：？？：Ｇ丁？：－盖ＴＧＧＴＡＣＧＣＴＳＳＡＯＴ署ＴＧｒＩ＿ＡＧ０鼻＝Ａ￡００丁ｅＧＴＣＴＣＧ？ＧＣ？ＣＯＴｅＧＣＴＧＣＧ０７０ＡＧ鑫￡篁２嚣￡Ｇ０，＝蔓ＴＧ￡謇０ＳＴｅ尝ｅＴＧＣ＝３７ＴＳＡＧ３０警譬００Ｓ？Ｔ＝Ａ？ＧＧ．ｒＡ（；０７ｅＧ竺ｅ３０ＴＧＣ０：ＴＳＡＧＳ０７坌０００警掣０Ａ？ｊｓ０：。Ａ０＝五？０Ｇ＝Ａ００：堂ｇＳＡＯＴＴＴＧ！＆ＧＯＡ＝Ａｅ００ｆＣＧ０：．丁ＴＯＧＴＧＣ？ＣＧ？０ＧＯＴＧ００７７ＧＡＧＧ０７Ｔ０００Ｔ：？？０Ｇ：ＧＯＣＧＣＴＧＣＧ：０ＧＡＧＧＯＴ？０￡０＝Ｔ＝互ＴＧＧＯＡＣ００＝ＧＴＴＧＡＧ００：．等０ｅＧ０：！置！ＧＧ：Ａ０３０Ｔ００Ｇ００Ｔ？Ｔ：善挈ＧｅＧ＾？ＧＧ？Ａ０嚣０７ＧＳＡＣｍ？？Ｇ＝’ＡＧＯＡ？盎０００＝‘０丁ＣＯＴ－：；Ｃ？ｅＧＴＯＧｅｊＧＣＧ＝？（：；ＡＧ０：Ｔ零Ｇ０￥ＴＴ：文个．３０１ＡＯＳＯＴＧＧＡＣ！‘ＴＴ６冒ＡＳ§Ａ＝Ａ００ＣＴｅＧ０７７Ｔ（图２－２序列比对１（单末端）除了单末端测序，ＰＥ文库构建也是测序过程中经常使用的，如图２．３。ＰＥ序列存在两端实际存在的片段以及文库构建过程中两段片段中间的空格，空格长度内的序列信息是未知的。因此，ＰＥ序列比对过程需要参考的是文库中两段序列和其长度的总因素。囊唾礴黼鞠奠和一…一————————————哪ｌ豳嘲疆豳函睦囊唾螽晶鞠奠参一…一———————————ｑ瞄穗黼豳妇蘸、＼＼‘＼＼／，／一，／。／一，／／，一，一，＼＼、＼ｉ麓江；：瓤弩：｛鬻嚣。＿Ｆ，≮。ｒ嘲。聪÷ｌ曩∞袋氅蹴｝图２－３序列比对２（双末端）另外，如果不存在参考基因，完成新的基因组的测序叫做ｄｅｎｏｖｏ测序。２４第２章材料和方法Ｄｅｎｏｖｏ测序在得到测序结果后会应用不同的算法，利用各个序列之间的重叠信息拼接成长的序列，然后将长序列又拼接成更大的片段，各片段再拼接成完整的基因组。这里，本文只针对重测序的序列比对。序列比对的准确性在变异发现中起着关键的因素作用。类似于ＢＬＡＳＴ、ＢＬＡＴ，序列比对其实就是在参考基因组中寻找与测序序列两两的同源序列的信息。但是，样本ＤＮＡ序列由于本身序列与参考序列有着多态性，以及测序结果的不准确性，错误的比对序列可能导致ＳＮＰｃａｌｌｉｎｇ和基因分型中出现错误，所以在处理测序错误以及潜在的参考基因组和测序基因组之间由于多态性造成的两者间的差异（包括点突变和插入缺失）的比对算法是非常重要的。此外，比对软件产生一个准确性高的校准比对质量分数也是很重要的，因为突变寻找和他们的后验概率都依赖于这些质量分数。短序列和参考序列之间序列同源性的程度是由准确性和测序深度权衡的。不同的生物体之间可选择的允许错配个数会有所不同。例如果蝇的错配个数就比人类的更具有变化性，如果将分析人类序列的标准用与果蝇可能会导致严重损失果蝇的测序深度，相应的，这可能会导致下游分析中存在潜在的误差，那些可能存在真实ＳＮＰ位点的区域将会被忽略。同样，将用于果蝇的标准用于人类可能会导致大量的不正确的比对序列。大多数ＮＧＳ数据的比对算法都是基于哈希（ｈａｓｈｉｎｇ）算法或者被叫做“Ｂｕｒｒｏｗｓ．Ｗｈｅｅｌｅｒｔｒａｎｓｆｏｒｍ”（ＢＷＴ）ｐ２Ｊ的有效数据压缩算法。基于ＢＷＴ的算法（如Ｂｏｗｔｉｅ［５３１，ＳＯＡＰ２和ＢＷＡ［５４－５５１）速度快，内存使用效率高，并且尤其使用与重复序列比对，但是他们的灵敏性要低于基于哈希的算法（如ＭＡＱ，ＳＳＡＨＡ２ｐ６Ｊ）。对于不同的平台，其测序读长也差异较大，从５０ｂｐ可变化至５００ｂｐ。当然，读长越长，其序列比对或拼接所需的计算量越小，结果也更精确。‘其次，读长的差异也必然导致序列比对算法针对的实际情况有所不同，以ＢＷＡ为例，其默认设置是针对长度比较短的序列比对，但是对于读长比较长的序列，它还有专门针对长读长的比对算法和相应设置。目前，基于ＢＷＴ算法的ＢＷＡ软件在比对算法中运用了Ｓｍｉｔｈ．Ｗａｔｅｒｍａｎ（ＳＷ）［５７】算法，该算法先用迭代方法计算出两个序列的所有可能相似性比较的分值，构建打分矩阵，然后通过动态规划的方法在得分矩阵中回溯寻找最优相似性比较。ＳＷ算法很好的处理了比对过程中出现的空位以及插入的情况，因此，ＳＷ算法能够在比对序列中寻找出局部比对的最优解，相对于ＭＡＱ软件不能支持空位查找，仅能进行全局第２章材料和方法比对搜寻同源序列的缺陷而言，重测序的序列比对更适合运用基于ＳＷ算法的局部比对算法。结合使用经验以及文献报道，对于ＩｌｌｕｍｉｎａＳｏｌｅｘａ，ＳｏＬｉＤ测序等短读长而言，本文推荐的比对软件为ＢＷＡ和ＭＯＳＡＩＫ［５８】；对于４５４平台等较长的序列读长而言，本文推荐ＳＭＡＬＴ（ＳＳＡＨＡ２的改进版本）和ＢＷＡ．ＳＷ，对于可变剪切情况的序列比对推荐用Ｂｏｗｔｉｅ／Ｔｏｐｈａｔ。以上软件均能在个人ＰＣ上较快较高效的完成较大测序数据（小于１０ＧＢ）的比对工作。序列比对一般过程为：苗‘先用软件将参考基因组进行ｈａｓｈ分组，得到参考基因组的搜索索引，然后将测序ｆａｓｔｑ文件输入软件设置相应参数进行计算，寻找序列在索引中的位置，得出最后结果。表２—４序列比对软件属性一般而言，参考基因组和测序基因组差异性较高区域的比对是比较困难的。这种情况可以用长读长和配对末端读长（ｐａｉｒｅｄ—ｅｎｄ）改善。但是，组装比如ＭＨＣ（ＭａｊａｒＨｉｓｔｏｃｏｍｐａｔｉｂｉｌｉｔｙＣｏｍｐｌｅｘ）这种高度差异性的区域仍然是个挑战。可以利用一种基于图像论的新的组装算法【６０１，利用序列的重叠信息把这些序列拼接成连续的序列，这也为这个挑战提供了一个可行的方案。结合这些比对方法来研究复杂区域的遗传变异将事最近几年的热点研究领域。２．６．２ＳＡＭ和ＢＡＭ文件在完成比对软件对测序原始测序结果ｆａｓｔｑ文件的比对工作后，大部分软件都提供了产出ＳＡＭ（ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔＭａｐ）［６１１或者ＢＡＭ格式的结果文件。ＢＡＭ格式是ＳＡＭ格式的二进制格式。二进制格式在保证信息完整的前提下可２８原始碱基质量分数的真实性和准确性。可以重新调整到相应的准确的位置上，这说明后续的质量校准可以有效的提高值分别下降到０．１８６和Ｏ．０８９，由上部分图也可知０到４０值之内的质量分数均量分数的ＲＭＳＥ值分别为２．２０７和２．６０９，但是经过碱基质量校准以后，两者的图２．５下部分两张图可看出，机器循环造成的原始碱基质量分数和实际经验质错概率，因此对于质量分数的优化是完成对二代测序不确定性评价的完善。由量分数，二代测序的不确定性的一个重要评价参数就是使用质量分数来评估出ｃａｌｌｉｎｇ及其质重要的，因为ＳＮＰ和基因分型都要依赖于特定位点上序列的ｂａｓｅ始的质量分数就需要进行重新调整，获得一个良好的调整后的质量分数是非常种情况下，为了让Ｐｈｒｅｄ的Ｑ值能够更正确的和误差概率１０。Ｑ／１０对应起来，原有较大差异，原始质量分数均偏离了４５。直线代表的实际的质量分数值。在这上部分的ＧＡ和Ｈｉｓｅｑ２０００，原始的碱基质量分数均和实际的经验性的质量分数ｂａｓｅ—ｃａｌｌｉｎｇ的误差概率【６引。如图２．７所示，以Ｉｌｌｕｍｉｎａ公司的两种型号为例，但是，由ｂａｓｅ．ｃａｌｌｉｎｇ算法产生的原始的Ｐｈｒｅｄ质量分数可能不会如实的反映出经过序列比对后，可得到序列在参考基因组上的位置信息以及其质量分数。２．６．３碱基质量校准标识缺失，则必须由Ｐｉｃａｒｄ进行添加相关信息。ｇｒｏｕｐ）另外一个软件套装Ｐｌｃａｒｄ［６２）完成，比如若果ＢＡＭ文件的序列集合（ｒｅａｄ另外，有些ＳＡＭｔｏｏｌｓ暂时无法完成的功能或者某些可以完成的功能同样可以由等任务，这些操作对于ＳＡＭ／ＢＡＭ文件的流程化的标准操作而言是非常重要的。第２章材料和方法詈霉．｛．一。ｆ：：量ｓ。１萋茎ｊ詈２｛。一‘：ｌ：ｒ，ｒ，．。。耋曷ｊｕｍｉｎａ／ＧｅｎｏｍｅＡｎａｌｙｚｅｒ…Ｉ第２章材料和方法ｏ蛐１’嚣｛Ｂ，。２０００ｌｕｍｉｎａ／ＨｉＳｅｑ非多态性位点。如果某种物种在一个综合ＳＮＰ数据库中没有数据，那么首先可上下环境对测序造成的误差。如上所述，这个碱基校准的算法使用了一系列的加接近与真实的经验值，比如原始的报告Ｑ值，机器周期误差，以及二核苷酸的不同型号的二代测序仪，经过碱基质量校准以后，原始的碱基质量值会跟更得到应用，它也能使用与各种不同的测序平台，如图２－６所示，对于不同平台差异来评估调整后的质量分数。这种重新调整的算法已经在千人基因组计划里在原始质量分数的基础上，结合经验分数和原始质量分数表示的错配率的残余个计算算法通过利用和参考基因组的非匹配的个数来评估它的经验分数。然后ｇｒｏｕｐ）。对于每一个类别，这序列中位置，上下相邻核苷酸和序列组别（ｒｅａｄｃａｌｌｉｎｇ产生），在据以下特征分成不同的类别，如：原始的质量分数（由ｂａｓｅ期、上下相关核苷酸。对于所有的非多态性位点，比对到这些位点的碱基会根对校准的算法已经在ＧＡＴＫ中得到应用，它也考虑了几个变动参数，如机器周过比较测序基因组和参考基因组的位点来进行重新调整的。一个相关的基于比在另一软件ＳＯＡＰｓｎｐ中，那些不存在真正ＳＮＰ的位点上的质量分数是通ｎｌｕｍｉｎａ碱基Ｑ值比较图２－５．一‘荨一·Ｒｅｃ，ａｌｔ勺ｔａｔ酣ＲＭＳＥ－Ｏｎｇｌｒｌａ；ＲＭＳＥ：２２０７ＲｅｐｅｎａｄＣｙ。Ｉｅｆ，＾ａｃｈｍｅ３５２５１５１５０一５０一１００ｒｅａｄｓｐａｉｒｏｌＦｉｒｓｔＳｅｃｏｎｄ·Ｒ∞ａｌｉｂ堪∞．ＲＭＳＥ＝０Ｑｕａｌ竹Ｒｅｐｏｒｔｅｄ４０３０２０ＣｖｄｅＭａｃｈｉｎｅ１０００ｒ＿————————————————Ｔ＿——————————ｒ．，．二：ｌ·ｌ：ｌ：｝，（‘’。一．二：。ｉｔ：＝＂ｌ：ｌ：！：‘ｐ｛“ｒ————————————————————ｒ—————————？—第２章材料和方法一一———————————————————————————————————————∑——一以找出那些极有可能是真实的候选ＳＮＰ的位点，然后对剩余的位点进行重新调整。在这种情况下，后续的ＳＮＰｃａｌｌｉｎｇ就应在进行重新调整质量分数的情况下进行。ｉ罐；≤ｉ≤≤呈一二～一一一。一一图２－６各平台经过碱基质量校准后的效果除了正常的碱基质量校准之外，另一方面，对于出现的插入、缺失（Ｉｎｄｅｌ）也存在着许多错误，如图２－７，对于同一流动槽（ｆｌｏｗｃｅｌｌ）内的两个通道（１ａｎｅ）中，在３６ｂｐ处均可以观察到明显的ｉｎｄｅｌ错配，因此对于这个区域内出现的插入、缺失而言，显然是不可信的。第２章材料和方法．盯ａｎ“删～奴№一栅伯体３雕ｍ州蜘眦她蒯眄～一～一～一Ⅵｎ址ａ＝ｔ＿ｍ÷既如ｃ鸭神嶂一：盼∞ｎｏ（＋ａａｌ图２．７二代测序中明显的Ｉｎｄｅｌ错误另外，碱基的上下文环境也影响着造成插入、缺失的概率，如图２．８所示，ＡＡＴＣＧ序列接后面不同的三核苷酸的情形和ＡＡＡＡＡ接相同三核苷酸的情况造成的Ｉｎｄｅｌ进行比较，ＡＡＡＡＡ情况下所形成的Ｉｎｄｅｌ概率就要比ＡＡＴＣＧ情况显著升高。这是因为在不同的核苷酸环境中，就像图２．５形容的碱基质量其实也是存在一个经验性和报告性的质量分数差异的情况，比如不同的二核苷酸上下文环境会对碱基质量分数造成影响，同样，对于Ｉｎｄｅｌ，不同的核苷酸环境中，二代测序仪由于无法避免其计算方法所造成的局限，而形成某种情况会误认为Ｉｎｄｅｌ，造成有些类别情况会有很高的概率被计算出本身实际不存在的插入、缺失情况。第２章材料和方法；ｉ；至置ｉ｝墨；；§§卺暑耋兰ｉ；§呈；§ｉ墨ｉ￡§§至ｉｉ兰；ｉ；’量；ｉ；！；ｇ§￡害：ｉ墨三宴ｉ三；要｝三；ｉｉ；ｉｉ未三ｓｕｆｆｉｘ跚；渊；ｍ毋：ｇ吨难三；：＿三兰：．÷．：二；：；三圭三｝ｊ；：。：ｊ二．？：：ｉ＝＝。ｊ鎏≥：≥ｊ≥：！三：’Ｊ：二；；：三ｉ≥｝；手，ｉ三ｊＩｊ二ｉ｝；：三三三三图２．８不同核苷酸序列对Ｉｎｄｅｌ的影响因此，除了碱基的质量值，目前最新的办法是对插入、缺失也引入质量Ｏ值的方法来评价插入、缺失的可信度。如图２．９，从左至右为不同时期基因分型的三种计算工具：ＵｎｉｆｉｅｄＧｅｎｏｔｙｐｅｒ；ＨａｐｌｏｔｙｐｅＣａｌｌｅｒ；ＨａｐｌｏｔｙｐｅＣａｌｌｅｒＣａｌｉｂｒａｔｅｄ。前者是早期的基因分型工具，第二个是改进过的工具，从图可看出，引入插入、缺失质量值后，其对基因分型的实际经验性的质量和准确性都有较为显著的提高。，≯，７，７≮图２－９引入插入、缺失质量值对基因分型的影响第２章材料和方法２．７二代测序数据分析方法学及发展２．７．１基因分型和ＳＮＰｃａｌｌｉｎｇ的关系由ｂａｓｅｃａｌｌｉｎｇ和其质量分数到基因分型的过程通常有两个步骤：ｇｅｎｏｔｙｐｅｃａｌｌｉｎｇ和ＳＮＰｃａｌｌｉｎｇ［“］。ＳＮＰ的目的是确定哪些位点存在多态性或者是哪些位点至少存在一个碱基和参考序列不一致，也通常又被成为ｖａｒｉａｎｔｃａｌｌｉｎｇ。基因分型是确定每个个体基因型的过程，它通常发生在那些已经被确定存在ＳＮＰ或变异位点上。用ｃａｌｌｉｎｇ这个词来象征一个独特的ＳＮＰ或ｇｅｎｏｔｙｐｅ的估计。在早期的研究中，ｇｅｎｏｔｙｐｅ和ＳＮＰｃａｌｌｉｎｇ在进行ｃａｌｌＳＮＰ和ｇｅｎｏｔｙｐｅ时可以通过使用简单的截止规则在每个位点上计算等位基因频率。最近更多的方法将这种不确定性纳入了概率统计的框架。在这个概率流程中，是完全有可能将有关等位基因频率和连锁不平衡的模式的有关信息进行进一步整合的１６川。２．７．２基因分型方法及其改进的概率方法学早期的ＮＧＳ研究对每个个体样本数据的分析，ＳＮＰ和基因分型是单独进行的。通常情况下，分析过程将会涉及到一个过滤过程，它只会将那些高程度可靠的分数保留下来。最常见的质量截值为Ｐｈｒｅｄ＝２０。然后通过计算使用这个截值后观测到的等位基因的次数来进行基因分型。基于这些被推断出的基因型，然后就能进行ＳＮＰｃａｌｌｉｎｇ。例如，当使用Ｑ２０截值时，如果非参考位点的比例在２０％至８０％，就认为是杂合子基因型，这个位点也是ＳＮＰ位点，不然就认为是纯合子。当测序深度大于２０ｘ时，这种程序是非常标准的，且运作的很好。因为这种情况下个体间杂合子落在２０．８０％之外的区域的概率是很小的。这种用于基因分型的相关方法构成了市售软件的基础，如Ｒｏｃｈｅ’ＳＧＳＭａｐｐｅｒ；ＣＬＣＧｅｎｏｍｉｃｗｏｒｋｂｅｎｃｈ；ＤＮＳＴＡＲＬａｓｅｒｇｅｎｅ等。这些方法通过使用更多的经验性的临界Ｑ值可以得到更好的改善。相比于早期的方法，简单的使用经验性的截值进行基因分型计算，其在测序深度大于２０ｘ时运作很好而言，若中度和低度测序也进行基于改进截值的基因分型将会导致杂合子基因型的概率被低估，另外，低覆盖度测序基于质量分数的简单过滤也可能会导致丢失本来信息量就不够大的相关个体序列质量的信第２章材料和方法息。这种类型基因分型的另一个不足之处在于，它通常没有提供推断基因型不确定性的措施和方法。出于这个原因，使用质量分数来为每个基因型提供后验概率的几种概率学方法就被开发出来了。比如先简单的假设计算一个基因型为Ｇ的似然性Ｐ（ＸｔＧ）。符号ｘ表示特定个体的特定位点上的所有的序列数据信息。结合基因型先验概率Ｐ（Ｇ），利用贝叶斯公式来计算Ｐ（ＧＩＸ），这就是基因型Ｇ在特定序列信息情况下的后验概率。最高的后验概率的基因型通常会被挑选出来，这个最高的概率或者最高和第二高之间的比率通常被用于检验可靠程度的方法。这种概率法的优点在于，在基因分型的时候它提供了统计不确定性的方法，它使得基因分型更加准确，以及在整合相关等位基因频率以及连锁不平衡模式信息的时候，提供了一个可行的模式框架。２．７．３连锁不平衡的应用目前讨论的方法都是假设基因分型是在单个位点单独完成的。但是，在附近的位点上。很多都能通过连锁不平衡【６６］的模式来得到不少的提升。几种不同的群体遗传学方法因ＳＮＰ数据的丢失的归集而被开发出。简之，这些方法通过在位点上使用连锁不平横的模式来推断基因型。举个例子，一个个体被观测到的三个位点是ＴＡＴ和ＧＣＧ，如果个体的第一个位点是Ｔ或Ｃ，那么第三个位点也是Ｔ或Ｇ，但是第二个是未知的，我们可能会认为未知的基因型是Ａ或Ｃ。这些算法的简单应用使得他们能够利用ＮＧＳ数据。连锁不平衡模式的使用就是千人基因组计划的基石，它也让基因分型的准确性有了明显的改善。图２．１０对比了三种基因分型方法的准确性：单个个体单独进行计算（图中蓝色线段）；对所有个体一起进行计算且不使用连锁不平衡分析（图中红色线段）和对所有个体一起计算并且使用连锁不平衡分析（图中黑色线段）。从图可知，对于蓝色和红色线段而言，使用多个个体导致了在基因分型时比单个样本的准确性有了大幅提高。从红色和黑色线段而言，连锁不平衡信息的使用在准确性方面提供了甚至更大的改善作用：大约能达到９６％的准确性。获得相同水平准确性而不使用连锁不平衡信息的情况下大约需要而外４０％的ｎｏｎ．ｃａｌｌｓ（非准确性的基因分型结果）基因型，也就是说，这些ｎｏｎ．ｃａｌｌｓ就成为了缺失数据。显然，当多个样本测序时，连锁不平衡模式的使用能大幅改善基因分型。当有一第２章材料和方法个高质量的参考数据时甚至可以得到更多的好处，例如当Ｈａｐｍａｐ或ｄｂＳＮＰ数据存在时准确性的增益主要是从中等或高等位基因频率多态性中获得的。但是，罕见的基因突变的ＳＮＰ和基因分型在使用连锁不平衡信息时也无法改善很多。这还需要进一步的发展和研究。１。ＯＯＯ．９５０。９０Ｏ．８５。三—Ｏ。８０ＯＰｒｏｐｏｒｔｉｏｎｏｆｎｏｎ—ｃａｌｌｓ图２．１０不同基因型方法的比较２．８二代测序ＳＮＰ结果分析２．８．１ＳＮＰｃａｌｌｉｎｇ到现在为止，我们只考虑了基因分型。这个问题和怎样ｃａｌｌＳＮＰ略有不同。在早期ＮＧＳ文献中，只分析了单个基因组，ＳＮＰｃａｌｌｉｎｇ和ｇｅｎｏｔｙｐｅｃａｌｌｉｎｇ或多或少都是一样的，作为推断出的杂合子或纯合子，非参考的基因型将意味着一个ＳＮＰ的发现。但是，这可能不是最佳方式，因为假阳性比率会随着样本量而直线上升。此外，多个个体的信息在使用基因型时并没有最好的结合。理想情况下，后验概率的结合将被用来确定所有基因型对照参考序列是纯合子的概率，产生的结果就是ＳＮＰ和一个相关的信赖分数。第２章材料和方法２．８．２ＳＮＰ的ＶＣＦ格式从最原始的Ｆａｓｔｑ文件，经过和参考序列的序列比对，以及质量校准重排，ＳＮＰｃａｌｌｉｎｇ后就可以计算出相应的ＳＮＰ位点信息。由于二代测序数据量极其庞大，其ＳＮＰ的结果的个数也非常之多，因此，如何可以方便、批量、高效、安全的储存以及适合生物信息分析操作这些结果也是需要解决的问题。面对这一需求，千人基因组计划在完成ＳＮＰｃａｌｌｉｎｇ之后发展了一种方便保存这种结果的文件格式，为ＶＣＦ（ＶａｒｉａｎｔＣａｌｌＦｏｒｍａｔ）［６７］格式，这种格式其实质上是由ＧＶＦ（ＧｅｎｏｍｅⅧｅｎｔＦｏｒｍａｔ）改进而来。其中一段例子为图２．１１所示。其中主要包含一些注释信息的头文件（Ｈｅａｄｅｒ）以及储存ＳＮＰ信息的正文（Ｂｏｄｙ）部分。头文件包含了所使用样本的名称；参考序列名称；默认或者可选参数的设置数值选项以及对正文部分的部分解释等内容。正文部分第一列是染色体编号，第二列是染色体位置坐标，第三列是突变的ＩＤ号（若存在ｄｂＳＮＰ［６８】参考结果）；第四列是参考基因组序列，第五列是突变信息，第六列是突变质量分数，第七列是过滤信息，第八列是其他信息，第九列是基因型信息格式，往后就是单个样本的具体基因型信息。以第四个ＳＮＰ为例，其含义为：在１号染色体的第五个碱基上有着Ａ／Ｇ多台位点，样本的基因型和基因型质量分数分别为，第一个样本１ｍ０意为杂合基因型Ｇ／Ａ（０代表参考基因组序列，１代表突变序列中的第一个），其质量值为７７：同理，第二个样本的基因型为纯合Ｇ／Ｇ，质量值是９５。在实际计算过程还有许多其他有用的参数，每项参数的具体含义请参考ＶＣＦ文献或者干人基因组网站的相关介绍。一ｎｔｐ…４一ｄｋ一…ｏｗ｜篓麓蒜吼。瑟÷Ｃｈ，ｅｃ／／ｌｉＩ牌＆ＩＯＤｔｉｏｒｍ，ｈｅａｄｅｒ№。。ｍｅｔａ。：鞭蘸鬻薰囊ＴｖＤｅ黧＝］．ｅ。ＦＯＲＮｔ；＃＃＃Ｇ嘲Ａ１＝心０口∞Ｋ“脯ｅ，＝ｉ０批ｕ砒跨’＝７．：尊＃＃Ｊ豫Ｍ＾Ｔ２ｄＤ＝ＯＰ‰ｏｍｏ？ｒ＝１ｌ砧矗ｔ下＊ｔｊ【瑞０５：，００ｓ＝ｒｌｐ＝１０ｎ＃”｝｝鲁、ｅｔｊＤｐ”≥；＃爹Ｉ｝｛＃必ｃｉ轻巧ＶｏＹ艇，Ｎｕｎ，ｂｅ悻：了ｖ＃ｅ＝；Ｉ－＇－ｌｎｇ，ｂｅｓ：一』ｏ：。∽１Ｔｙ：，ｅ＝ｆ冀ＤｅｓＤｅｓ嚣篆；嚣警≥泛娑‘誊篓耋一。一．＝．Ｆｅｑ｝“．融ｓ：’蟑：ｊｏＰ．℃：ｖ，‘一ｒ／ｏ鼯Ｒｈ舡ｏｅ７；：ｊ＝ｒｊ’：二ｏｎ；一＝ｏ—ｕ’？：ｔ二。Ｌ；？ｊⅣ：１；．∥ｔ［。＝ｎ‘ｒ：…ｅ＿＝．！：ｏ’￡ｏ释ｊ汴＝‘１１。２０＋ＳＡＭＲ旺己，一Ｒｅｆｅ障ｎｃｅＬ韶７……………喜｛；，≥涉霉≤渣＼粱％黜瑚㈢６Ｔ：Ｄ缈Ｐ毫器一然抛ｌ确∞７ＳＮＰ／｛＼ｎｓｅ嚏ｍ眦№。ｅｖｅｎ’ｐｈａ二ｄ。ｔａ（６ａｎｄ：ａ。。∞图２．１１ＶＣＦ格式第２章材料和方法２．８．３ＳＮＰ结果的过滤和优化如果每个位点的后验概率都计算正确，而且考虑了所有于错误相关的信息，也就没有理由添加额外的过滤或对数据进行额外的操作。但是，对于很多真实数据，情况并非如此，如图２．１２，以已经测得的实际的ＳＮＰ结果作为训练集进行机器学习计算其高斯混合模型，如图２．１４Ａ，可得杂合子和纯合子突变的一些图形规律，黄色部分为错误所在区域，将同样的方法用于新计算出的ＳＮＰ结果中可以得出类似的图像Ｂ，图形规律同Ａ中类似的区域（画椭圆区域）为可能真实准确的ＳＮＰ结果。而图中紫色部分则可能为不准确的假阳性结果。所以，经过以上完整流程的来的ＳＮＰ结果中，仍有相当一部分是不可靠的，这时使用一系列的过滤步骤可以很大程度上改善基因分型和ＳＮＰｃａｌｌｓ。例如，千人基因组计划【５４】就把那些和已知的Ｈａｐｍａｐ［６９】数据中的基因型差异过大的需类集给淘汰掉。这种类型的过滤只适用于那些已经存在基因组范围内的ＳＮＰ分型信息个体的重测序情况。那些其它非人类的物种，或是人类中没有基因型数据的ＮＧＳ，都将比千人基因组中观测的数据有着较高的错误率。ＨｉＳｅｑ：ｔｒａｉｎｉｎｇｏｎＨａｐＭａｐＬＩ№打ｄ０ＳＮｒ＇ｅＶａａ伟／”一竺墨竺羔御’“州‘。神辄‘吣赣ｅ■■匿■—醪№纛纛孙瑟¨《ｋ～黟一。～瑟篓。ｌｏ蜘船一ＦＢｉａｓ。：扣■＾ｏ■ｄｈ图２．１２ＳＮＰ结果评价其他基于ＨＷＥ偏差的过滤，通常有着较低的质量分数，以质量分数系统地识别主要和次等位基因。异常的连锁不平衡模式，如极端的序列深度，链偏差以及其他偶能有助于改善基因分型和ＳＮＰ．ｃａｌｌｉｎｇ。如何使用适当的过滤方法需要依赖于测序方法和上游分析。比如，一个有着链误差的位点（正负链不成比例）可能会容易出错，应该被过滤掉。但是，如果序列是用于捕获序列的，比如那些用于外显子捕获的序列，那么这种偏差可能就不是意味着一个有问题第２章材料和方法的位点而是捕获阵列中的一个人工错误。针对原始的ＳＮＰ结果，有许多经验性的参数都影响着ＳＮＰ最后的准确性，这些参数有ＱＤ，ＭＱ，ＨａｐｌｏｔｙｐｅＳｃｏｒｅ，和ＲｅａｄＰｏｓＲａｎｋＳｕｍ等。这些参数对ＳＮＰ准确性的影响如图所２．１３，１４示。利用不同的参数来评价所有的ＳＮＰ位点的信息，那些符合实际经验性存在的ＳＮＰ位点信息规律的ＳＮＰ才能认为是计算过程中寻找到的真实ＳＮＰ位点。＿一图２．１３极端违反ＨＷ平衡近亲系数的点（红色）为假阳性Ｉｏｄ隧一鬈０ＤＱＤ图２—１４ｑＤ（Ｑｕａｌｉｔｙ／Ｄｅｐｔｈ）值和Ｈａｐｌｏｔｙｐｅ值对ＳＮＰ筛选的情况第２章材料和方法还有一种比较常见的情况，就是在比对过程中，那些比对在插入缺失边缘处的序列更容易出现看起来像ＳＮＰ位点的不匹配位点，但是，实际上其中很大一部分是错误的ＳＮＰ，如图２．１５，红色代表假阳性的ＳＮＰ位点，大部分位于ＤＮＡ片段序列造成的插入、缺失处，在间隔处尤为明显。ｒ２，３ｒｌｄ已ｒ¨】１睁ｆ：＋ｆ档ｎｓ譬１ｓ１．ｈｄｅｉＬ—ＦｉｌｔｅｒｅｄｉｎＶＱＳＲ．Ｃａｉｌｅｄｉｎ２，§ＣａｉｌｅｄｉｎＶＱＳＲ．ｆｉｌｌｅｒｅｄ２／５图２—１５处于Ｉｎｄｅｌ边缘处的碱基更容易形成假阳性的ＳＮＰ因此，在插入缺失边缘处的序列，需要对序列重新进行比对，即ｌｏｃａｌｒｅａｌｉｇｎｍｅｎｔ，以消除或减少这部分造成的误差。图２．１６显示了一个经过比对后的片段经过ｌｏｃａｌｒｅａｌｉｇｎｍｅｎｔ后，那些很明显并不是真实的ＳＮＰ结果大量减少，有效的提高了ＳＮＰｃａｌｌｉｎｇ的准确性。最后，高度重复的序列也不应该成为查找变异位点的因素，将那些高度重复的序列在文件中进行特殊标记可以使计算算法对这些序列进行忽略。第２章材料和方法ｅｆＤｅ，～～～吲ｗ引酬难～ｍ时～铋引廿．ｍ．∞一一．眵论琢伦阡～｜喜）裂黔～ｍⅢ陀蚓洲一～州撤削舶№～Ｏｎ０汁ａ～ｂ当唧ｍ～图２—１６Ｌｏｃａｌ黧篓州删删献＿．墓。一～～一一～一～．曙。讲邓．ｍｍ～Ｍ协…域训竺ｒｅａｌｉｇｎｍｅｎｔ对序列比对ＳＮＰ结果的影响效果２．９小结ＮＧＳ基因分型方法的选择最终和数据的后续分析有关。不同的应用方法需要不同的基因分型方法。对于低度或中度测序的数据的基因分型过程会带来不确定性，在很多的应用上，考虑这些不确定性是尤其重要的。ＮＧＳ最重要的应用之一就是关联定位分析。在目前基因分型不确定性中，使用等位基因测试取得的Ｐ值的标准方法是无效的，因为存在潜在的纯合子或杂合子被高估了。但是，如果错误结构在实际组和对照组是一致的，说明很大程度上违背ＨＷＥ并不会导致过多的假阳性。尽管如此，他们可能还会遭受到效率上的衰减。甚至低水平的基因分型错误也会导致效率强劲的衰弱。这种效率的减少并不能通过增加过滤步骤来避免，因为过滤是基于基因型的质量分数的，这种过滤通常只能导致效率的进一步衰减。第２章材料和方法但是，基因型后验概率的使用允许有效检验的结构能够结合所有个体的概率，以及有效的总结了所有可能的基因型。对于测序数据，这种方法已被描述为等位基因测试和用与单体性数据的方法，比如得分统计和Ｂａｙｅｓ模型【７…，是很有吸引力的方法。类似这种方法导致关联定位有效统计检验以及提高定位的能力。对于基于连锁不平衡的方法，这意味着进行多重计算，获得多个可能推断出的数据的样本以及根据相关概率对每个进行加权处理。大多数用与基因分型的基于连锁不平衡的方法都是为了这个目的而研发的，它也很容易能够应用于多个样本中。基因分型的不确定性同样是人类遗传研究中的一个重要的考虑因素。在这种研究中，许多推论都是基于等位基因频率而忽略了不确定性会导致估计出现偏差。等位基因频率的分布将会有偏差【７１ｌ，在应用与群体遗传学的大部分常见的统计方法会导致偏差。有参考文献【７２Ｊ中提到解决这个问题的一个方法涉及到了计算每个位点的等位基因的后验概率。用于估计变异，检测选择，量化人口亚种的群体遗传学方法可以通过总结这些后验概率而进行。４１第３章结果第３章结果３．１酵母基因组ＳＮＰ图谱构建３．１．１酵母基因组序列比对酵母基因组二代测序数据选用的图２．１内的数据，测序平台是Ｒｏｃｈｅ４５４。４５４焦磷酸测序的测序读长比较长，但是所有这些类别的数据分布于不同国家、不同地区、不同时期，菌种种类也不同，各个实验室的测序技术手段，测序一致性也不一样，因此，虽然４５４其测序的读长比较长，但是考虑到这些很多因素会造成很多不一致性，测序读长就是其中之一。虽然同为４５４测序，但是基于不同文库构建的手段不同，测序读长也不同，比如单末端测序读长有的为１００到２００ｂｐ，有些除掉测序质量非常差的碱基后甚至只有几十ｂＤ，但是基于双末端（ｐａｉｒｅｄｅｎｄ，ＰＥ）文库构建的测序读长却可以达到４００—５００ｂｐ。原始的测序读长相差较大，而测序读长又在序列比对步骤中影响较大，不同的比对软件对不同的读长序列的比对效果有着较大差异，因此选取一款合适的软件保证能够既对较长读长有比较良好的比对支持和效率，同时也能兼顾相对较短读长的比对效果。另外一方面，在这些酵母４５４测序中，存在着单末端测序和双末端测序，因此，比对软件也需要对不同文库构建技术的读长也需有良好的支持。综上，本文选取了ＳＭＡＬＴ作为这些数据的比对软件。ＳＭＡＬＴ是Ｓａｎｇｅｒ实验室基于ＳＳＡＨＡ２的一个改进版本，它对三种平台的不同读长的数据都能支持，也能支持ＰＥ序列的比对，而且相比ＳＳＡＨＡ２，它的计算速度更快，计算要求更低，计算准确率更高，使用起来更加简单方便，它也能产生ＳＡＭ标准比对格式最为结果输出。ＳＭＡＬＴ操作简单，首先将酵母参考基因组（￥２８８ＣＲ６４版本）进行哈希计算，计算出一个被索引过的ｓｍｉ文件，这个索引文件将用于ｆａｓｔｑ文件中的序列比对。然后将单末端数据或者双末端数据的两部分文件和索引过的文件进行比对计算，计算的结果就是最终一个比对结果。第３章结果一个类似的计算机指令如图３．１，．ｆ指定输出格式，一Ｏ指定输出内容，后面的路径参数为输入序列参数。图３－１ＳＭＡＬＴ序列比对参考命令序列比对完成以后可以利用基因组可视化工具ＩＧＶ（ＩｎｔｅｇｒａｔｉｖｅＧｅｎｏｍｉｃｓＶｉｅｗｅｒ）［７３１观察比对情况，如图３．２。灰色条状为实际的测序短序列，下方为参考基因组序列，灰色条状中若出现ＡＴＧＣ字样则为该位点出现跟参考序列碱基不一致的情形，其上方的柱状图是每个位点的测序深度。利用ＩＧＶ可以快速的定位到研究者个人感兴趣的区域。川ｒ－＝ｆｌＮ：００５．ｉ三＿｝【二５ｅ．Ｃ１≠昔Ｉ田５１嘶’＂卿坤，∞蜥坤１∞舢扫。图３－２ＩＧＶ可视化基因组酵母４５４测序数据包括２２个样本在内的８８个文件，总共大小约为１２ＧＢ。在个人ＰＣ上，通过Ｐｅｒｌ的程序化处理可以在１天内完成所有原始文件的比对工作。这与酵母基因组较小，４５４测序平台的读长较长有关。３．１．２序列比对后续分析在完成序列比对后，按照第二章的讨论，参照ＳＮＰｃａｌｌｉｎｇ过程一般会出现４３第３章结果对结果产生影响的因素，需要对比对文件ＢＡＭ进行质量重新校准等一系列操作，这里，本文借鉴了千人基因组计划的基因组分析工具ＧＡＴＫ套装［７４－７５】里的一些计算软件。对于二代测序，包含的大致的处理过程为三部分，如图３．１。第一：原始数据的初步处理，包括序列比对、碱基质量校准、Ｌｏｃａｌｒｅａｌｉｇｎｍｅｎｔ等，这一部分的目的主要是完成原始数据的校准化处理，为后续分析提供标准的文件。第二：利用突变查找计算工具计算比较初级原始的突变信息，包括ＳＮＰ、Ｉｎｄｅｌ、ＣＮＶ等。第三：就是在条件允许的情况下（能提供图中橙色部分数据），针对原始的突变信息，利用额外的信息对原始突变信息进行分析、筛选和优化，得到的最后结果就是认为比较可信的变异信息。二代测序数据分析处理步骤又因研究目的、方案、手段条件不同而不同，根据自身的研究实际情况，结合其他重要软件（如ＳＡＭｔｏｏｌｓ、Ｐｉｃａｒｄ等）设计出符合自身数据处理特点条件的方案是尤其重要的。瓣∽瓣鼹瀚饕蔫黪麟嘲糍蕊每毋搿戮豁㈣ｊ徽ｉ错！；嘲黼、蠲ｉ鹕鼎辩聱ｌ嚣臻㈧馨羞猢㈣ｇ曼曼曼曲标准化§㈣渗一；序列比对＃＃∞ｄ黜８９＃黼８＃《描※ｇ§§※≮‘≈《《ｘｓ￡窬■》《爨ｇ二§蹿ｚ“，。一；ｔ。＊ｊ》一｛掰㈣糍蘸黼嚣蟪；端４麓《㈣女‰Ｅ女￥≯。强栈》话≤质量校准；ｓ＊》一；区域重比对多态性变异标准化ＢＡＭ２；；６盯ｒ７基［司分型、触崩蔫ｉ点二…誓二竹～插入、缺失ｉｊ原始结果ｔ黑＝：？。。，。。，ｉ；；萋。《；蓦袅．嚣耋篓＃、＿＿。哗ｘ心，薯＊．蕊＝７；｝；蔓。黔∞”“∞‰掰；；；｝Ｙｊ蔷童黧∞ｉｉ辩’群；臻大片殷变异ｉ“嚣！ｇ删曩￡ｉｉｉ；耋乏∞《§！ｉ糍｝。已知多态性已知基因型结果筛查过滤最终结果；后续分析二。信息图３－３二代测序数据处理一般过程处理过程的每一步骤的含义及其操作过程如表３．１。４５这种方法对于前期参考数据匮乏的数据而言比较有效，但是因为高通量数ｃａｌｌｉｎｇ参考命令ＳＮＰ图３－４请参考ＧＡＴＫ说明文档详细信息。ｃｏｎｆ分别指定突变位点符合要求和过滤质量阈值，其他具体指令ｅｍｉｔ和．ｓｔａｎｄｃｏｎｆｃａｌｌ的工具方法，一Ｉ指定输入ＢＡＮ文件数据信息，．Ｏ指定输出文件，．ｓｔａｎｄｃａｌｌｉｎｇｃａｌｌｉｎｇ的参考命令如图３．４所示。．Ｔ指定ＳＮＰ～个ＧＡＴＫ的ＳＮＰ部分质量分数高、可信度大的位点。如此往复循环，一直到结果收敛。得到第二次的运算结果，将第一次的结果和第二次的结果进行比较，选取重叠文件。然后返回重头开始运行处理，利用上回的结果作为参数进行质量校准，批量选择质量参数大，可信度高的位点，人为的构造相当于ｄｂＳＮＰ功能的突变校准的部分，以原始数据完成ＳＮＰ图谱的构建，然后在原始ＳＮＰ数据中人工必须采取迂回绕道的办法实现这一目的。具体可采用的方法是：首先跳过质量准部分而言，这一环节就无法顺利的应用于酵母基因组的ＳＮＰ图谱构建。因此，所以其ｄｂＳＮＰ数据库非常匮乏，对于非常依赖于有先验概率情况而言的质量校首先，作为重要模式生物的一种，暂时还未有酵母的全基因组ＳＮＰ图谱发表，情况而言，酵母基因组ＳＮＰ图谱构建又跟理论上的方法学有着很大的不同点。能够实现具体的每一个步骤，自然是能够产生足够准确的结果，但是根据实际具体到本文酵母基因组的构建而言，对于第二章节详细的理论介绍，如果ＳＮＰ构建流程框架表３．１第３章结果～一＝一…‘ｏ：｜¨“‘”““Ｆ誓鬻？第３章结果ｆ一｛篷一一￡Ｃｊ簿戆图…、奠……＿：…～＝＝＋∑：。·。，…。……囊爱一一…４８行后续验证是否这些ＳＮＰ是不同菌种差异形成的差异以及其他感兴趣的研究。具有比较高的遗传信息和背景。因此，可以利用这些单菌种特有的ＳＮＰ位点进ＳＮＰ。我们猜想单菌种特有的ＳＮＰ很大程度上是形成特有酵母菌种的一个因素，数，如图３—８所示。大约超过２０００００个位点（约为５０％）是单菌种所特有的由ＶＣＦ文件经注释信息统计计算得出每个ＳＮＰ位点发生多态性的菌种个３．１．４单个ＳＮＰ位点共有菌种个数表３－２本文ＳＮＰ结果以及Ｔｉ厂ｒｖ值和假阳性关系套流程在酵母４５４焦磷酸测序全基因组多样本分析中起到了相应的作用。Ｔｉ／Ｔ、，：２７６９２５／１２８４６７＝２．１５６。非常符合全基因组ＳＮＰ类型比概率特点。说明此ＳＮＰ位点，其中转换（Ｔｉ）类型有２７６９２５个，颠换（Ｔｖ）类型共有１２８４６７个，本文酵母全基因组ＳＮＰ构建结果（表３．２）统计计算得其共有３９７３８２个Ｔｉ厂ｒｖ比对ＳＮＰ的影响ｕｍｕｉａｆｌｖｅ：。羔鹜薹篓！釜二要。蠢遵ｉ羞篓嚣醚ｉｉ誊篓三三．ｉ黧＿３．７ＴＰｓ篷鎏鋈耋鎏粪鋈鎏ｉ羔：ｉ譬ｘ∞§一塞乱ＴｒｅⅢｎｃｈ’黑ｓｐｅｃＩ酰ｈｃ．弛一：。一三Ｔ油ｒａｒｌｃ∞ｈ－叶ｓｔ’一ｅｃｉｈｃＦ印ＳＮＰ与菌种关系第３章结果瑚也是不同菌种表达差异的原因之一。了解其对不同菌种间的差异影响。外显子中的非同义突变比率接近５０％，也许大的影响，处于其他区域（如内含子，ｎｃＲＮＡ）的ＳＮＰ也需进一步进行研究，在的特定区域有关，大量处于外显子区域的ＳＮＰ对不同菌种的形状或许有比较消失１３９６次。ＳＮＰ的ＬＯＦ分析结构表明，不同菌种间的差异形成或许跟其所位点可能发生多种突变）。非同义突变中形成新的终止子２７６１次，原有终止子子区域内的ＳＮＰ位点中，有１３８１２６次同义突变，１１９５３７次非同义突变（一个为ｎｃＲＮＡ区域，而处于ＵＴＲ５和ＵＴＲ３区域的位点数量明显较少。其中，外显６４．２１％的ＳＮＰ位点位于外显子区域，１０．８０％位于内含子区域，１４．７７％位点ＳＮＰ结果进行统计，部分结果如表３．３。释程序对所得ＶＣＦＦｕｎｃｔｉｏｎ）注Ｒ６４基因组注释信息利用ＬＯＦ（Ｌｏｓｓ根据酵母基因组￥２８８ＣＳＮＰ共有菌种个数图３－８ＳＮＰ注释信息３．１．５∞渤｜兰｜｜４９Ｏｆ洲Ｐ共有菌种藏ｐ位点敏５０如图３－９所示。们利用Ｐｅｒｌ语言进行编程智能化、批量化的进行数据抽取。部分Ｐｅｒｌ程序代码格式文件抽取相关信息。而Ｐｅｒｌ语言是进行文本操作的最优秀的语言，因此我法进行打开或编辑操作，但ＳＡＭ格式为纯文本格式，所以，我们可以利用ＳＡＭ应的比对错误区域。又ＢＡＭ格式是ＳＡＭ格式的二进制文件，普通编辑软件无参考基因序列的比对情况，所以，我们可以从ＳＡＭ／ＢＡＭ文件中提取计算出相ＳＡＭ和ＢＡＭ文件可知，ＳＡＭ／ＢＡＭ格式文件储存着测序和由章节２．４．２因序列不一致的位点或区域，则为测序错误。已知的大肠杆菌测序样本作为研究对象。因此，若测序样本中存在着与参考基台，其测序质量应该是被广大研究者关注的焦点。本文选取一标准化基因序列须依靠荧光的检测才能实现测序的目的。因此，作为一种新技术代表的测序平致的ｐＨ值微量变化跟合成测序偶联起来进行测序，取代了以往测序过程中必ＰＧＭ测序出现时间比较晚，它创造性的将测序过程中氢离子导ＴｏｒｒｅｎｔＩｏｎ３．２．１编程抽取、处理碱基变异信息Ｔｏｒｒｅｎｔ测序质量评价Ｉｏｎ３．２第３章结果第３章结果３．２．２Ｈｏｍｏｚｙｇｏｕｓ和测序错误之间的关系由第一章可知，ＩｏｎＴｏｒｒｅｎｔ测序原理可能导致在同聚物区域，即Ｈｏｍｏｚｙｇｏｕｓ（以下简称ＨＯＭＯ）区域出现错误的概率较大。现将所测大肠杆菌的基因组序列变化成Ｈｏｍｏ形式，如表３．４所示，参考基因组中相邻碱基若相等则转化为其相等的个数，如６－９位碱基为连续四个相同的碱基，其余则为相邻互不相同的碱基。将图３－９所示所有信息结合基因组不同Ｈｏｍｏ长度信息进行归类计算。表３４参考基因组的Ｈｏｍｏ形式ＲｅｆＨｏｍｏＡ１Ｇ１Ａ２Ａ２Ｃ１ＧＧＧＧ４Ａ１４４４部分分类结果如图３．１１所示（其余见附录Ａ）。横坐标为不同Ｈｏｍｏ长度，纵坐标为缺失出现的次数。可明显看出，随着同聚物长度的增加，其区域内或临近处发生缺失的概率明显增大。我们认为发生在同聚长度较长区域内的不匹配将很大程度上是机器测序本身的错误。这一趋势也可被后续分析所借鉴。ＤｅｌｅｔｉｏｎｆｏｒＨｏｍｏ５０．．。—。。．．．．。．—．。。。。．—。。。——。．．．．—。、４５４０—３５３０·２５２０点七５０一一二－２一ＩＩ１￡—Ｉ～／…Ｉｅ５ｈｏｒｎ０ｇｌ｜■●－ｇ■●强ｂｅｎｇｔｒ：图３．１１不同Ｈｏｍｏ长度区域发生缺失的平均次数第３章结果３．２．３Ｈｏｍｏｚｙｇｏｕｓ对测序的影响同样利用图３．１０所示文件中的信息，结合参考基因组的Ｈｏｍｏ信息，定义一个Ｈｏｍｏ为一个整体，其左右各５ｂｐ为研究位点，研究对象为发生在Ｈｏｍｏ两边５ｂｐ和其自身坐标上的测序错误的统计，图３．１２为长度为６的Ｈｏｍｏ其左右各５ｂｐ发生插入的次数统计。可明显看出，处于Ｈｏｍｏ边缘上的碱基其发生插入的概率要比远离Ｈｏｍｏ的位点的概率大（所有数据见附录Ｂ）。因此，我们认为，若测序错误发生在寡聚核苷酸的附近，其可信度不高。ｌｅＲ５ｈＯｍ０６ｒｉａ睫５３．２．４Ｓｗａｐ型Ｍｉｓｍａｔｃｈ经过序列比对后，我们发现存在实测序列和参考基因组序列相互倒置的情况，如图３．１３，为两个碱基相互倒置，我们定义为二连体倒置或二连体互换（Ｓｗａｐ）。发生这种情况的原因可能是计算机在处理由ｐＨ值转换的电信号时发生读取紊乱或相位移动。对于此情况的测序ｍｉｓｍａｔｃｈ，我们也定义为不可信的结果。第３章结果！Ｃ！Ｔ１．．一ｃ”Ｆ一！一彳＿一彳一了一一■“ｉ………’ｉ＿－ｉ’—一一１Ｆ一一＿图３－１３二连体碱基互换此外，还存在连续三个碱基倒置互换的情况，如图３．１４。定义为三连体互换。经计算得，实测大肠杆菌中，有２３４４９对二连体互换，共４６８９８ｂｐ，８８５对三联体互换，共２６５５ｂｐ。碱基互换错误占原始ｍｉｓｍａｔｃｈ比率为１３．１５％。说明在测序中，由于测序仪本身在测序时读取信息时的相位错误占有很大的比重。此种情况也可被利用与改善测序仪的测序质量。：：：■Ｔ………上Ｃｊ～二一量一一一Ｃ图３．１４三连体碱基互换３．２．５ＩｏｎＴｏｒｒｅｎｔ测序初步评价及初步改善在能够获取所有测序错误信息的前提下，对这些信息进行统计分类分析可以了解其测序技术所造成错误的大概分布情形。同样利用编程，将上小节的所有碱基变异结果进行分类统计可得表３．５上部分。５４第３章结果从表可知，ＩｏｎＴｏｒｒｅｎｔ的总体错误率在０．６１％，单片段测序的准确率高达９９．４％，这是一个很高的准确率了，因为如果考虑到测序深度，以及错误识别算法等因素，其总体的准确率应该可以达到９９．９％以上。但是相比不匹配造成的ＳＮＰ错误率，插入、缺失的错误概率要比替换高处３．４倍的比率，也就是说，ＩｏｎＴｏｒｒｅｎｔ对于插入、缺失的准确率并没有单碱基情况那么高。对比４５４测序的错误率［７６。７７］，发现ＩｏｎＴｏｒｒｅｎｔ错误类型及其概率都和４５４相类似，图３—１５中上半部分是针对４５４序列的前１０１个碱基，下部分是所有碱基。对于Ｍｉｓｍａｔｃｈ情况，ＩｏｎＴｏｒｒｅｎｔ的出错概率为０．０８％，４５４则为Ｏ．０９％，两者相当，说明对于碱基的替换错误，两者均控制在了比较低的水平。但是对于插入、缺失的情况，ＩｏｎＴｏｒｒｅｎｔ和４５４一样，Ｉｎｄｅｌ错误明显的要高于ＳＮＰ错误。‘∞二：１引昕；■’一蛳菩ｊ要蔓‘６３妊麓二∞。：：一竺。窭∞：飘铡ｊ：ｉｊ‘＿二●》００曼００慨：二》：ｊ氆∞７％一剧叫州一ｆ二ｊ托一ｆ‘１３｛。坼；引瓤薹ｘ？３托０ｉ燕辨：ｚ：～∞巍０：溉！嚣ｊｊ：：煞＾。。一：图３．１５４５４焦磷酸测序错误率对于一些我们认为很明显的测序错误，如３．２２至３．２４小节所述，定义Ｍｉｓｍａｔｃｈ发生在实测序列跟参考基因组形成大于等于三个同聚核苷酸的时候，则认为这个ｍｉｓｍａｔｃｈ是测序错误，另外ｓｗａｐ型的ｍｉｓｍａｔｃｈ也认为是纯粹的机器错误。经过这样简单的过滤后，可得表３．２下部分的结果。过滤掉仅仅１．１３％第３章结果的测序碱基后，完全准确的测序序列由４８．３０％的比例提高到６７．８６％，插入和缺失的错误个数均降为原来的一半左右，ｍｉｓｍａｔｃｈ则减少了３６．５７％，总体的错误率由０．６１％下降到０．３０。由此可见，我们利用的过滤方法可以牺牲少量的测序数据从而大大提高其测序质量。３．２．６Ｍｉｓｍａｔｃｈ和Ｆｒｅｅｅｒｒｏｒ质量值的比较由表３．２得，原始３７６８３３个ＳＮＰ位点在经过比对Ｈｏｍｏ信息和Ｓｗａｐ信息筛选过滤后，剩下２３９０３５个认为暂时难以解释原因的ＳＮＰ位点。将这些位点处于原始序列位置和Ｑ值的信息与ｆｒｅｅｅｒｒｏｒ序列坐标和Ｑ值进行比较，结果如图３．１６。横坐标为序列中碱基的实际坐标（５’＝＞３’），纵坐标为Ｑ值。由图可知，对于测序良好没有错误的序列，其在５’端的２５０ｂｐ内Ｑ值都比较平稳，均在２０附近，而出现ｍｉｓｍａｔｃｈ情况下，其Ｑ值明显低于ｆｒｅｅｅｒｒｏｒ的情况，且波动比较大。这种测序质量的不同趋势也可被后续统计分析改良所借鉴从而达到进一步改善其测序质量的目的。薹三≮＝一原始捌序序列碱基坐标图３．１６过滤以后的Ｍｉｓｍａｔｃｈ和Ｆｒｅｅｅｒｒｏｒ质量值的比较了解ＩｏｎＴｏｒｒｅｎｔ测序错误形成的方式、类别、因素、概率等原因，可以针对特定的原因借鉴或发展相关数学算法来优化测序结果，如第二章，针对荧光信号检测的ｂａｓｅｃａｌｌｉｎｇ的校准优化以及突变优化等。如何从这些看似随机无序的因素中找出其中的规律加以应用是目前二代测序数据处理的难题，同时也第３章结果是机遇。５７第４章讨论第四章讨论４．１二代测序技术的发展二代测序从２００５年左右开始进入人们的视野，高通量测序的概念提出，到２０１０年高通量测序技术走向成熟，二代测序开始迅猛发展，全面的深入生命科学的研究领域，带来了一场具有里程碑意义的技术革命。从最开始人类基因组计划花费三十亿美金完成人类基因组的草图，到如今二代测序提出一千美元为目标的基因组测序计划，成本低廉的测序技术使得研究者可以实施更多物种的基因组计划，从而解密更多生物的生命遗传生命密码。由二代测序衍生而来的外显子组测序、ＤＮＡ甲基化测序、Ｃｈｉｐ．Ｓｅｑ测序【７法。虽然二代高通量测序已经得到了很好的发展以及应用，但是作为有着居安思危，永不止步精神的科学研究者又把眼光投向了未来的三代测序技术上。目８１、ｍｉｃｒｏＲＮＡ测序等测序手段更是极大丰富和扩宽了科学研究者的研究手段和方前的二代测序由于技术原理本身的局限或实际操作的不确定性，其准确性最高也只能达到９９．９９％，虽然从数字上来看很接近百分百的准确率，但是对于基因组动辄几十亿上百亿的碱基数量而言，微小的哪怕是这万分之一的错误率都会造成数量极其庞大的测序错误。而就是因为目前这微小的错误率，科学家们还得通过发展各种不同的方法来达到消除或者减小错误的目的。因此，追求更准确、成本更低、操作更简单的新一代技术就成了科学家们的追求。目前，比较为人熟悉的三代测序是Ｈｅｌｉｃｏ和ＰａｃｉｆｉｃＥ７９Ｊ公司的单分子测序技术和纳米孔测序技术。此外还有诸如磁极测序类的新一代测序方法也被提出来。目前三代测序由于技术上不够成熟，测序准确率只有百分之八十几，和二代测序相比还有很大一段距离，而且其及其售价高昂，普通实验室无力承担，但是就算如此，我们也有理由对三代新测序技术持有乐观、期望和谨慎的态度。第４章讨论４．２二代测序数据分析发展及建议ＮＧＳ涉及的领域较广，研究的对象也较多，而且ＮＧＳ目前还处于高速发展成熟和完善中，ＮＧＳ数据的处理也日新月异，新的分析处理方法一致在源源不断的研发出来和改善中［８０】。ＮＧＳ数据由于其庞大的体积和晦涩的内容，使得针对它的处理过程显得较为复杂。明确自己的研究方案会大大降低ＮＧＳ数据处理的难度。以本文处理内容的过程经验为例，ＮＧＳ基因分型和ＳＮＰｃａｌｌｉｎｇ可以由以下步骤完成。首先要清楚本人研究的内容、背景、目的。最重要的是明确所使用的ＮＧＳ数据的ｂａｓｅｃａｌｌｉｎｇ和质量分数的计算方式、类别，虽然目前大部分平台都是使用已经彻底测试和基准过的方法进行，但是仍有不少数据和标准的格式不同。短序列的比对可以根据ＮＧＳ数据的类型选用，目前最常使用也比较权威的软件有ＳＭＡＬＴ、ＢＷＡ和ＢＯＷＴＩＥ等。ＳＡＭＬＴ操作简单方便，适用基本所有平台，但是格式自定义设置性不强，对于４５４和ＳｏＬｉＤ数据可以选用ＳＭＡＬＴ；ＢＷＡ使用领域广，认知度高，速度快，自定义设置性强，但软件使用较复杂，上手难度较大，类似Ｉｌｌｕｍｉｎａ的短序列可以选用ＢＷＡ；ＢＯＷＴＩＥ运算结果比较精确，但运行速度较慢，也适用于Ｉｌｌｕｍｉｎａ。序列比对完之后建议用ＧＡＴＫ或ＳＯＡＰｓｎｐ进行碱基的重新调整。ＳＮＰｃａｌｌｉｎｇ和基因分型应该使用能够同时纳入所有个体数据以及使用似然比率检验或贝叶斯程序的方法进行。如果条件存在，应该使用基于连锁不平衡的方法，以用来提高基因分型和ＳＮＰｃａｌｌｓ的准确性。还有其它几种额外的步骤可以采取来改善基因分型，比如Ｌｏｃａｌｒｅａｌｉｇｎｍｅｎｔ，将结果和多个ＳＮＰ和基因分型的算法结合，然后再根据质量分数值进行过滤。最后，后续的统计过程中也需要纳入不确定性的分析。尤其是基于低度和中度测序数据的关联定位研究，应该使用基于所有可能基因型的总结和由各自相应概率权重的关联检验。４．３展望对于本文的酵母全基因组ＳＮＰ图谱构建，因为不像人类测序数据拥有比较良好的研究背景，导致在处理过程中有个别比较重要的步骤比如Ｌｏｃａｌｒｅａｌｉｇｎｍｅｎｔ，质量校准等因为缺乏先验数据而无法直接运行，只能通过运行流第４章讨论程获得初步结果再返回重新完成未完成的步骤而获得收敛结果，这样的步骤对于工作量的需求非常大，精确度也要求高，不大适合基于以ＳＮＰ结果和分型数据信息的下游分析。因为这样的过程可能会遗弃本来真实存在的ＳＮＰ位点。但是对于像人类的数据，其分析过程对于目前而言是比较可靠准确的。以千人基因组计划的ＳＮＰ数据、人类ＨａｐＭａｐ单体型数据、人类ＳＮＰｄｂＳＮＰ数据库信息等提供的ＳＮＰ先验信息将对人类测序数据的ＳＮＰ信息提供良好的环境信息以及数学算法支持。因此，随着研究的深入和延伸，相信更多物种的ＳＮＰ信息将会得到验证，届时对于ＮＧＳ的基因分型和ＳＮＰ分析而言将是极大的方便和精确。但是像人类这种数据量特别大的研究，其计算对计算机要求也特别高，普通个人ＰＣ甚至无法完成序列比对环节。另一方面，进行数据流程处理的软件比如ＧＡＴＫ随着ＮＧＳ分析的发展也在迅速升级。本文作者在阅读和使用当时最新版本的套装时，距离本文完成不过半年的时间，但是其版本已经经历了很多次大的改变。当时的基因分型工具是ＵｎｉｆｉｅｄＧｅｎｏｔｙｐｅ，如今已经升级成更为复杂和准确的ＨａｐｌｏｔｙｐｅＣａｌｌｅｒ，因此保持对最新研究进展和相关计算方法的关注是不断发展的ＮＧＳ分析的重要过程。ＮＧＳ数据的基因分型和ＳＮＰｃａｌｌｉｎｇ已经从简单的基于计算等位基因的方法向着能够计算不确定性的复杂方法逐渐成熟，这些方法现在也能够纳入多个个体和连锁位点的信息。依赖与基因型似然性计算准确度的概率法能够整合有关与比对或组装的不确定性和ｂａｓｅｃａｌｌｉｎｇ的不确定性信息。所以，在计算基因型似然性的准确性、改善基因型似然性计算方法以及基于连锁不平衡方法的发展都有希望能够让ＮＧＳ的数据分析更加成熟可靠。另一方面，多学科的不断发展也促进了ＮＧＳ数据分析，例如计算机领域的ＧＰＵ并行编程的逐步实现使得在计算领域内超越了ＣＰＵ的限制，从而转移到速度更快的ＧＰＵ上，这在应用于比如序列比对的过程中尤其有效，高通量的测序数据带来的计算上的复杂性通过快速的计算方法可以减少人们对硬件的需求，这也提高了序列比对结果的准确性。致谢致谢研究生阶段即将成为往事，在此毕业之际感谢我的研究生导师毛理凯副教授。是毛老师带我走进了我挚爱的生物信息领域，毛老师渊博的编程知识一直是我追求的榜样。毛老师手把手的指点我编程的画面至今犹在。毛老师严谨的科研态度，精益求精的工作态度，诲人不倦的职业精神都会使我终身受教。感谢南昌大学转化医学院邓立彬副教授。邓立彬老师亦师亦友的教学方式让我对科研产生了极大的兴趣。邓老师扎实博大的专业知识是我学习的目标。在我很多不了解的知识点上，邓老师都能亲自详细的描述解决。在我不清楚的领域上，邓老师都能亲自寻找并提供相应的资料供我学习。感谢邓立彬老师对我硕士学习阶段的帮助，使我在医学院度过了充实丰富的两年。感谢大连理工大学钟世钧教授。感谢钟老师跟我亲切详细的交流以及学习方面上的帮助，让我在硕士毕业以后有了更高的目标和追求。另外我要诚挚的向我的父母表示感谢。他们的支持和鼓励是我前进的动力，他们的慈爱和关怀是我进步的源泉。从呱呱坠地、嗷嗷待哺，到现在风华正茂、胸怀大志，我的成长是父母倾注毕生心血的结果。如今的我朝气蓬勃，意气风发，而父母却早己银丝素裹，两鬓霜白。再次感谢一直在我身后遮风挡雨的父母，没有他们含辛茹苦的栽培，就没有我的茁壮成长。感谢我的同窗们，张君慧、何娜、谢琳、胡明华、钟丽梅、陈凯、曾芳发、吴新贵、杨小强等，感谢我的师兄，曾欣、乐小兵、胡超，林家日等，感谢你们陪我度过了快乐、充实、难忘的研究生生涯。再次对所有人表示感谢！衷心祝各位老师身体健康，工作顺利；祝同学们一帆风顺，前程似锦。高或辉２０１３年５月２４日参考文献参考文献［１］ＳＡＮＧＥＲ，Ｆｒｅｄ；ＣＯＵＬＳＯＮ，Ａｌａｎｂｉｏｌｏｇｙ，１９７５，９４．３：４４１－４４８．Ｒ．ＡｒａｐｉｄｍｅｔｈｏｄｆｏｒｄｅｔｅｒｍｉｎｉｎｇｓｅｑｕｅｎｃｅｓｉｎＤＮＡｂｙｐｒｉｍｅｄｓｙｎｔｈｅｓｉｓｗｉｔｈＤＮＡｐｏｌｙｍｅｒａｓｅ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍｏｌｅｃｕｌａｒ［２］ＭＥＴＺＫＥＲ，Ｍｉｃｈａｅｌ［３］Ｍｅｙｅｒ，Ｅｌｉ，ｅｔ［４］ＮＧ，ＳａｒａｈＬ．Ｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓ－－ｔｈｅｎｅｘｔａｎｄｄｅｎｏｖｏｇｅｎｅｒａｔｉｏｎ［Ｊ］．ＮａｔｕｒｅｏｆｃｏｒａｌｌａｒｖａｌＲｅｖｉｅｗｓＧｅｎｅｔｉｃｓ，２００９，１１．１：３１．４６．ａ１．”Ｓｅｑｕｅｎｃｉｎｇａｎａｌｙｓｉｓａｔｒａｎｓｃｒｉｐｔｏｍｅｕｓｉｎｇ４５４ＧＳＦｌｘ［Ｊ］．”ＢＭＣｇｅｎｏｍｉｃｓ１０．１（２００９）：２１９．ｃａｕｓｅＢ．，ｅｔａ１．Ｅｘｏｍｅｓｅｑｕｅｎｃｉｎｇｉｄｅｎｔｉｆｉｅｓｔｈｅｏｆａｍｅｎｄｅｌｉａｎｄｉｓｏｒｄｅｒ［Ｊ］．Ｎａｔｕｒｅｇｅｎｅｔｉｃｓ，２００９，４２．１：３０．３５［５］Ｗａｌｓｈ，Ｔｏｍ，ｅｔｃａｎｃｅｒａ１．”ＤｅｔｅｃｔｉｏｎｏｆｉｎｈｅｒｉｔｅｄｍｕｔａｔｉｏｎｓｆｏｒｂｒｅａｓｔａｎｄｏｖａｒｉａｎｇｅｎｏｍｉｃｏｆｃａｐｔｕｒｅＮａｔｉｏｎａｌａｎｄｍａｓｓｉｖｅｌｙｏｆｐａｒａｌｌｅｌｓｅｑｕｅｎｃｉｎｇ．ｆ２０１０）：ｕｓｉｎｇ【Ｊ］”Ｐｒｏｃｅｅｄｉｎｇｓ１２６２９．１２６３３．ｔｈｅＡｃａｄｅｍｙＳｃｉｅｎｃｅｓ１０７．２８［６］Ｏ’Ｒｏａｋ，Ｂｒｉａｎ５８５．５８９．Ｊ．，ｅｔａ１．”Ｅｘｏｍｅｓｅｑｕｅｎｃｉｎｇｉｎｓｅｖｅｒｅｓｐｏｒａｄｉｃａｕｔｉｓｍｓｐｅｃｔｒｕｍｄｉｓｏｒｄｅｒｓｉｄｅｎｔｉｆｉｅｓｄｅｎｏｖｏｍｕｔａｔｉｏｎｓ．［Ｊ］ｆＩＮａｔｕｒｅｇｅｎｅｔｉｃｓ４３．６（２０１１）：［７］Ｙａｈ，Ｘｉａｏ—Ｊｉｎｇ，ｅｔｍｅｔｈｙｌｔｒａｎｓｆｅｒａｓｅａ１．”ＥｘｏｍｅｓｅｑｕｅｎｃｉｎｇｉｄｅｎｔｉｆｉｅｓｓｏｍａｔｉｃｍｕｔａｔｉｏｎｓｏｆＤＮＡｇｅｎｅＤＮＭＴ３Ａｉｎａｃｕｔｅｍｏｎｏｃｙｔｉｃｌｅｕｋｅｍｉａ．［Ｊ］ｔ’Ｎａｔｕｒｅｏｆｔｈｅｙｅａｓｔｇｅｎｅｔｉｃｓ４３．４（２０１１）：３０９－３１５．［８］ＮＡＧＡＬＡＫＳＨＭＩ，Ｕｇｒａｐｐａ，ｅｔａ１．ＴｈｅｔｒａｎｓｃｒｉｐｔｉｏｎａｌｌａｎｄｓｃａｐｅｇｅｎｏｍｅｄｅｆｉｎｅｄｂｙＲＮＡｓｅｑｕｅｎｃｉｎｇ［Ｊ］．Ｓｃｉｅｎｃｅ，２００８，３２０．５８８１：１３４４—１３４９．［９］ＴＲＡＰＮＥＬＬ，Ｃｏｌｅ，ｅｔａ１．Ｔｒａｎｓｃｒｉｐｔｒｅｖｅａｌｓｕｎａｎｎｏｔａｔｅｄｔｒａｎｓｃｒｉｐｔｓａｓｓｅｍｂｌｙａｎｄｑｕａｎｔｉｆｉｃａｔｉｏｎｓｗｉｔｃｈｉｎｇ１—５１５．ｂｙＲＮＡ—Ｓｅｑｄｕｒｉｎｇｃｅｌｌａｎｄｉｓｏｆｏｒｍｄｉｆｆｅｒｅｎｔｉａｔｉｏｎ［Ｊ］．Ｎａｔｕｒｅｂｉｏｔｅｃｈｎｏｌｏｇｙ，２０１０．２８．５：５１［１０］ＡＬＴＳＨＵＬＥＲ，ＤａｖｉｄＭａｔｔｈｅｗ，ｅｔ［１１］Ｖｏｅｌｋｅｒｄｉｎｇ，ＫａｒｌＶ．，Ｓｈａｌｅｓｅｑｕｅｎｃｉｎｇ：ｆｒｏｍｂａｓｉｃａ１．Ａｍａｐｏｆｈｕｍａｎｇｅｎｏｍｅｖａｒｉａｔｉｏｎｆｒｏｍｐｏｐｕｌａｔｉｏｎｓｃａｌｅｓｅｑｕｅｎｃｉｎｇ［Ｊ］．２０１０．Ａ．Ｄａｍｅｓ，ａｎｄＪａｃｏｂＤ．Ｄｕｒｔｓｃｈｉ．”Ｎｅｘｔ—ｇｅｎｅｒａｔｉｏｎｔｏｒｅｓｅａｒｃｈｄｉａｇｎｏｓｔｉｃｓ．［Ｊ］”Ｃｌｉｎｉｃａｌｃｈｅｍｉｓｔｒｙ５５．４（２００９）：６４１—６５８．［１２］Ｒｏｗｅｎ，Ｌｅｅ，ＧｒｅｇｏｒｙＭａｈａｉｒａｓ，ａｎｄＬｅｒｏｙＨｏｏｄ．”Ｓｅｑｕｅｎｃｉｎｇｔｈｅｈｕｍａｎｇｅｎｏｍｅ．［Ｊ］”Ｓｃｉｅｎｃｅ２７８．５３３８（１９９７）：６０５—６０７．［１３］ＳＡＮＧＥＲ，Ｆｒｅｄｅｒｉｃｋ；ＮＩＣＫＬＥＮ，Ｓｔｅｖｅｎ；ＣＯＵＬＳＯＮ，ＡｌａｎＲ．ＤＮＡＳｃｉｅｎｃｅｓ，１９７７，７４．１２：５４６３—５４６７．ｓｅｑｕｅｎｃｉｎｇｗｉｔｈｃｈａｉｎ－ｔｅｒｍｉｎａｔｉｎｇｉｎｈｉｂｉｔｏｒｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆ［１４］ＬＩＵ，Ｌｉｎ，ｅｔａ１．Ｃｏｍｐａｒｉｓｏｎｏｆｎｅｘｔ—ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｓｙｓｔｅｍｓ［Ｊ］．ＢｉｏＭｅｄ参考文献ＲｅｓｅａｒｃｈＩｎｔｅｒｎａｔｉｏｎａｌ．２０１２．２０１２．［１５］ＱＵＡＩＬ，ＭｉｃｈａｅｌｃｏｍｐａｒｉｓｏｎｏｆＡ．，ｅｔａ１．Ａｔａｌｅｏｆｔｈｒｅｅｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｐｌａｔｆｏｒｍｓ：ＩｏｎＴｏｒｒｅｎｔ．ＰａｃｉｆｉＣＢｉｏｓｃｉｅｎｃｅｓａｎｄＩｌｌｕｍｉｎａＭｉＳｅｑｓｅｑｕｅｎｃｅｒｓ［Ｊ］．ＢＭＣｇｅｎｏｍｉｃｓ．２０１２．１３．１：３４１．［１６］ＳＴＡＤＥＮ，Ｒ．ＡｓｔｒａｔｅｇｙｏｆＤＮＡｓｅｑｕｅｎｃｉｎｇｅｍｐｌｏｙｉｎｇｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｓ［Ｊ］．Ｎｕｃｌｅｉｃａｃｉｄｓｒｅｓｅａｒｃｈ．１９７９．６．７：２６０１．２６１０．『１７１ＢＡＲＴＬＥＴＴ，ＪｏｈｎＭＳ：ＳＴ取ＬＩＮＧ，Ｄａｖｉｄ．ＡＨｉｓｔｏｒｙｏｆｓｈｏｒｔｈｉｓｔｏｒｙｏｆｔｈｅｐｏｌｙｍｅｒａｓｅｃｈａｉｎｒｅａｃｔｉｏｎ．Ｉｎ：ＰＣＲｐｒｏｔｏｃｏｌｓ［Ｊ］．ＨｕｍａｎａＰｒｅｓｓ．２００３．Ｐ．３—６．［１８］ＮＹＲＥＮ，Ｐａｌ．ＴｈｅＰｙｒｏｓｅｑｕｅｎｃｉｎｇ⑧．Ｉｎ：Ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ⑧Ｐｒｏｔｏｃｏｌｓ［Ｊ］．ＨｕｍａｎａＰｒｅｓｓ．２００７．Ｐ．１．１３．［１９］ＫＩＮＧ，Ｃｒｉｓｔｉ；ＳＣＯＴＴ－ＨＯＲＴＯＮ，Ｔｉｆｆａｎｙ．Ｐｙｒｏｓｅｑｕｅｎｃｉｎｇ：ａａｃｃｕｒａｔｅｓｉｍｐｌｅｍｅｔｈｏｄｆｏｒｇｅｎｏｔｙｐｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＶｉｓｕａｌｉｚｅｄＥｘｐｅｒｉｍｅｎｔｓ：ＪｏＶＥ，２００８，１１．『２０１ＭＣＫＥＲＮＡＮ，ＫｅｖｉｎＪｕｄｄ，ｅｔａ１．Ｓｅｑｕｅｎｃｅａｎｄｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎｉｎａｈｕｍａｎｇｅｎｏｍｅｕｎｃｏｖｅｒｅｄｂｙｓｈｏｒｔ－ｒｅａｄ，ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｌｉｇａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｔｗｏ．ｂａｓｅｅｎｃｏｄｉｎｇ［Ｊ］．Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ．２００９．１９．９：１５２７．１５４１．ｆ２１１ＲＵＳＫ．Ｎｉｃｏｌｅ．Ｔｏｒｒｅｎｔｓｏｆｓｅｑｕｅｎｃｅ［Ｊ］．ＮａｔｕｒｅＭｅｔｈｏｄｓ，２０１０，８．１：４４．４４．『２２１ＰＥＮＮＩＳＩ。Ｅｌｉｚａｂｅｔｈ．Ｓｅｍｉｃｏｎｄｕｃｔｏｒｓｉｎｓｐｉｒｅｎｅｗｓｅｑｕｅｎｃｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓ［Ｊ］．Ｓｃｉｅｎｃｅ．２０１０．３２７．５９７０：１１９０．ｆ２３１ＣＨＥＥ—ＳＥＮＧ，Ｋｕ，ｅｔａ１．ＮｅｘｔＧｅｎｅｒａｔｉｏｎＳｅｑｕｅｎｃｉｎｇＡｐｐｌｉｃａｔｉｏｎｓ［Ｊ］．ｅＬＳ．Ｔｅｃｈｎｏｌｏｇｉｅｓａｎｄｓｅｑｕｅｎｃｉｎｇ“Ｊ］ｌｔＴｈｅｉｒ［２４］Ｓｈｅｎｄｕｒｅ，Ｊａｙ，ａｎｄｂｉｏｔｅｃｈｎｏｌｏｇｙ２６．１０ＨａｎｌｅｅＪｉ．”Ｎｅｘｔ—ｇｅｎｅｒａｔｉｏｎＤＮＡＮａｔｕｒｅｆ２００８）：１１３５—１１４５．ａｎｄｇｅｎｏｍｅ［２５】Ｆｕｌｌｗｏｏｄ，Ｍｅｌｉｓｓａ５２１．５３２．Ｊ．，ｅｔａＩ．”Ｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇｏｆｐａｉｒｅｄ—ｅｎｄｔａｇｓ（ＰＥＴ）ｆｏｒｔｒａｎｓｃｒｉｐｔｏｍｅ『２６］ＥＲＬＩＣＨ，ＨｅｎｒｙＡ．：ａｎａｌｙｓｅｓ．［Ｊ］ｆｆＧｅｎｏｍｅｒｅｓｅａｒｃｈ１９．４（２００９）：ａｃｉｄＨＩＧＵＣＨＩ，ＲｕｓｓｅｌｌＧ．Ｍｅｔｈｏｄｓｆｏｒｎｕｃｌｅｉｃａｍｐｌｉｆｉｃａｔｉｏｎ［Ｊ１．Ｕ．Ｓ．ＰａｔｅｎｔＮＯ５，３１４，８０９，１９９４．［２７］ＢＥＮＴＬＥＹ，ＤａｖｉｄｒｅｖｅｒｓｉｂｌｅＲ．，ｅｔａ１．Ａｃｃｕｒａｔｅｗｈｏｌｅｈｕｍａｎｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｔｅｒｍｉｎａｔｏｒｃｈｅｍｉｓｔｒｙ［Ｊ］．Ｎａｔｕｒｅ．２００８．４５６．７２１８：５３．５９．『２８１Ａｌｂｅｒｓ，ＣｏｍｅｌｉｓＡ．，ｅｔａ１．”Ｄｉｎｄｅｌ：ａｃｃｕｒａｔｅｉｎｄｅｌｃａｌｌｓｆｒｏｍｓｈｏｒｔ—ｒｅａｄｄａｔａ．ｆＪｌ”Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ２１．６（２０１１）：９６１．９７３．Ｒ．Ｎｅｘｔ—ｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇｍｅｔｈｏｄｓ［Ｊ］．Ａｎｎｕ．Ｒｅｖ．［２９］ＭＡＲＤＩＳ，ＥｌａｉｎｅＧｅｎｏｍｉｃｓＨｕｍ．Ｇｅｎｅｔ．。２００８．９：３８７．４０２．『３０１ＲＯＴＨＢＥＲＧ，ＪｏｎａｔｈａｎＭ．，ｅｔａ１．Ａｎｉｎｔｅｇｒａｔｅｄｓｅｍｉｃｏｎｄｕｃｔｏｒｄｅｖｉｃｅｅｎａｂｌｉｎｇｎｏｎ—ｏｐｔｉｃａｌｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１１，４７５．７３５６：３４８－３５２．ａ『３１１ＭｃＫｅｒｎａｎ，ＫｅｖｉｎＪｕｄｄ，ｅｔａ１．”Ｓｅｑｕｅｎｃｅａｎｄｓｔｒｕｃｔｕｒａｌｖａｒｉａｔｉｏｎｉｎｔｗｏ．ｂａｓｅｅｎｃｏｄｉｎｇ．ｆＪｌ”Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ１９．９（２００９）：１５２７．１５４１．ｈｕｍａｎｇｅｎｏｍｅｕｎｃｏｖｅｒｅｄｂｙｓｈｏｒｔ－ｒｅａｄ，ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｌｉｇａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇ［３２］Ｚｈｕ，Ｙ．Ｌ，ｅｔａ１．”Ｓｉｎｇｌｅ－ｎｕｃｌｅｏｔｉｄｅｐｏｌｙｍｏｒｐｈｉｓｍｓｉｎＳＯｙｂｅａｒｌ．ｆＪｌ”Ｇｅｎｅｔｉｃｓｌ６３．３（２００３）：１１２３．１１３４．６３参考文献［３３］ＩＵＣＨＴＥＲＩＣＨ，Ｐｅｔｅｒ．Ｅｓｔｉｍａｔｉｏｎｏｆｅｒｒｏｒｓｉｎ“ｒａｗ”ＤＮＡｓｅｑｕｅｎｃｅｓ：ａｖａｌｉｄａｔｉｏｎｓｔｕｄｙ［Ｊ］．ＧｅｎｏｍｅＲｅｓｅａｒｃｈ．１９９８．８．３：２５１．２５９．［３４］ⅪＭ，Ｓｕ４７９．４９１．Ｙｅｏｎ，ｅｔａ１．Ｄｅｓｉｇｎｏｆａｓｓｏｃｉａｔｉｏｎｓｔｕｄｉｅｓｗｉｔｈｐｏｏｌｅｄｓｅｑｕｅｎｃｉｎｇｏｒｕｎ—ｐｏｏｌｅｄｎｅｘｔ’ｇｅｎｅｒａｔｉｏｎｄａｔａ［Ｊ］．Ｇｅｎｅｔｉｃｅｐｉｄｅｍｉｏｌｏｇｙ，２０１０，３４．５：［３５］ＬＩ，Ｒｕｉｑｉａｎｇ，ｅｔ［３６］ＬＩ，Ｒｕｉｑｉａｎｇ，ｅｔａ１．ＳＯＡＰ２：ａｎｉｍｐｒｏｖｅｄｕｌｔｒａｆａｓｔｔｏｏｌｆｏｒｓｈｏｒｔｒｅａｄａｌｉｇｎｍｅｎｔ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９．２５．１５：１９６６．１９６７．ａ１．ＳＮＰｄｅｔｅｃｔｉｏｎｆｏｒｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｗｈｏｌｅ．ｇｅｎｏｍｅｒｅｓｅｑｕｅｎｃｉｎｇ［Ｊ］．Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ，２００９，１９．６：１１２４．１１３２．［３７］‘‘ＡｂｏｕｔＵｂｕｎｔｕ．ＴｈｅＵｂｕｎｔｕＳｔｏｒｙ＇’［Ｍ］．ＣａｎｏｎｉｃａｌＬｔｄ．Ｒｅｔｒｉｅｖｅｄ２０１２．０８．２１［３８］“ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍＭａｒｋｅｔｓｈａｒｅｆｏｒＹｅａｒ２００７”［Ｍ］．ＭａｒｋｅｔＳｈａｒｅ．ＮｅｔＡｐｐｌｉｃａｔｉｏｎ．１９Ｎｏｖ．２００７．Ｒｅｔｒｉｅｖｅｄ１９Ｎｏｖ．２００７．［３９］Ｓｃｈｗａｒｔｚ，Ｒａｎｄａｌ，Ｆｏｙ，Ｂｒｉａｎ，Ｐｈｏｅｎｉｘ，Ｔｏｍ．ＬｅａｒｎｉｎｇＰｅｒｌ［Ｍ］．Ｏ’ＲｅｉｌｌｙＭｅｄｉａ，Ｉｎｃ．１６Ｊｕｎ２０１１．［４０］ｈｔｔｐ：／／ｗｗｗ．ｂｉｏｐｅｒｌ．ｏｒｇ／ｗｉｋｉ／ＢｉｏＰｅｒｌ［ＤＢ］［４１］ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｓｒａ／［ＤＢ］［４２］ＶＥＮＴＥＲ，Ｊ．Ｃｒａｉｇ．ＳｈｏｔｇｕｎｎｉｎｇｔｈｅＨｕｍａｎ［４３］ＥＷＩＮＧ，Ｂｒｅｎｔ，ｅｔＡｃｃｕｒａｃｙａ１．Ｂａｓｅ—ｃａｌｌｉｎｇｏｆＧｅｎｏｍｅ：ＡＰｅｒｓｏｎａｌＶｉｅｗ［Ｊ］．ｅＬＳ．ａｕｔｏｍａｔｅｄｓｅｑｕｅｎｃｅｒｔｒａｃｅｓｕｓｉｎｇＰｈｒｅｄ．Ｉ．ｃａｌｌｅｒｆｏｒＳＮＰａｓｓｅｓｓｍｅｎｔ［Ｊ］．Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ，１９９８，８．３：１７５．１８５．Ｒ．，ｅｔａ１．Ｐｙｒｏｂａｙｅｓ：ａｎｉｍｐｒｏｖｅｄｂａｓｅ［４４］ＱＵＩＮＬＡＮ，Ａａｒｏｎｄｉｓｃｏｖｅｒｙｉｎｐｙｒｏｓｅｑｕｅｎｃｅｓ［Ｊ］．Ｎａｔｕｒｅｍｅｔｈｏｄｓ，２００８，５。２：１７９．１８１．Ｃｏｒｒａｄａ．Ｉｎｔｅｎｓｉｔｙｍｅｔｈｏｄｓ．［４５］ＷＵ，Ｈａｏ；ＩＲＩＺＡＩｍＹ，Ｒａｆａｅｌ２０１０．７．５：３３６—３３７．Ａ．；ＢＲＡＶＯ，Ｈ６ｃｔｏｒｎｏｒｍａｌｉｚａｔｉｏｎｉｍｐｒｏｖｅｓｃｏｌｏｒｃａｌｌｉｎｇｉｎＳＯＬｉＤｓｅｑｕｅｎｃｉｎｇ［Ｊ］．Ｎａｔｕｒｅ［４６］ＫＡＯ，Ｗｅｉ—Ｃｈｕｎ；ＳＴＥＶＥＮＳ，Ｋｒｉｓｔｉａｎ；ｍｏｄｅｌ—ｂａｓｅｄｂａｓｅ—ｃａｌｌｉｎｇａｌｇｏｒｉｔｈｍＳＯＮＧ，ＹｕｎＳ．ＢａｙｅｓＣａｌｌ：Ａｓｈｏｒｔ．ｒｅａｄｆｏｒｈｉｇｈ．ｔｈｒｏｕｇｈｐｕｔｓｅｑｕｅｎｃｉｎｇ［Ｊ］．Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ。２００９．１９．１０：１８８４．１８９５．［４７］ⅪＲＣＨＥＲ，Ｍａｒｔｉｎ，ｅｔ［４８］ＣＯＣＫ，Ｐｅｔｅｒａ１．ＩｍｐｒｏｖｅｄｂａｓｅｃａｌｌｉｎｇｆｏｒｔｈｅＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇｓｔｒａｔｅｇｉｅｓ［Ｊ］．ＧｅｎｏｍｅＢｉｏｌ，２００９，１０．８：Ｒ８３．ｗｉｔｈａｃｉｄｓＪＡ，ｅｔａ１．ＴｈｅＳａｎｇｅｒｔｈｅｑｕａｌｉｔｙｓｃｏｒｅｓ，ａｎｄＦＡＳＴＱｆｉｌｅｆｏｒｍａｔｆｏｒｓｅｑｕｅｎｃｅｓＳｏｌｅｘａ／ＩｌｌｕｍｉｎａＦＡＳＴＱｖａｒｉａｎｔｓ［Ｊ］．Ｎｕｃｌｅｉｃｒｅｓｅａｒｃｈ，２０１０，３８．６：１７６７－１７７１．［４９］ＣＥＲＦ，ＶｉｎｔｏｎＧ．ＡＳＣＩＩｆｏｒｍａｔｆｏｒｎｅｔｗｏｒｋｉｎｔｅｒｃｈａｎｇｅ［Ｊ］．１９６９．ＮｉｌｓＨｏｍｅｒ．”Ａｓｕｒｖｅｙｏｆｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔ［５０］Ｌｉ，Ｈｅｎｇ，ａｎｄｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎ４７３．４８３．ａｌｇｏｒｉｔｈｍｓｆｏｒｓｅｑｕｅｎｃｉｎｇ．［Ｊ］ｆｆＢｒｉｅｆｉｎｇｓｉｎｂｉｏｉｎｆｏｒｍａｔｉｃｓ１１．５（２０１０）：［５１］ＬＩ，Ｈｅｎｇ；ＲＵＡＮ，Ｊｕｅ；ＤＵＲＢＩＮ，Ｒｉｃｈａｒｄ．ＭａｐｐｉｎｇｓｈｏｒｔＤＮＡｓｅｑｕｅｎｃｉｎｇｒｅａｄｓａｎｄｃａｌｌｉｎｇｖａｒｉａｎｔｓｕｓｉｎｇｍａｐｐｉｎｇｑｕａｌｉｔｙｓｃｏｒｅｓ［Ｊ］．Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ，２００８．１８．１１：１８５１—１８５８．［５２］ＢＵＲＲＯＷＳ，Ｍｉｃｈａｅｌ；ＷＨＥＥＬＥＲ，ＤａｖｉｄＪ．Ａｂｌｏｃｋ．ｓｏｒｔｉｎｇｌｏｓｓｌｅｓｓｄａｔａ参考文献ｃｏｍｐｒｅｓｓｉｏｎａｌｇｏｒｉｔｈｍ［Ｊ］．１９９４．ｆ５３１ＬＡＮＧＭＥＡＤ，Ｂｅｎ，ｅｔａ１．Ｕｌｔｒａｆａｓｔａｎｄｍｅｍｏｒｙ—ｅｆｆｉｃｉｅｎｔａｌｉｇｎｍｅｎｔｏｆｓｈｏｒｔＤＮＡｓｅｑｕｅｎｃｅｓｔｏｔｈｅｈｕｍａｎｇｅｎｏｍｅ［Ｊ］．ＧｅｎｏｍｅＢｉｏｌ，２００９，１Ｏ．３：Ｉ毪５．［５４］ＬＩ，Ｈｅｎｇ；ＤＵＲＢＩＮ，Ｒｉｃｈａｒｄ．ＦａｓｔａｎｄＢｕｒｒｏｗｓ一Ⅵｍｅｅｌｅｒａｃｃｕｒａｔｅｌｏｎｇ－ｒｅａｄａｌｉｇｎｍｅｎｔｗｉｔｈｔ－ｃａｎｓｆｏｒｍ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１０．２６．５：５８９．５９５．［５５］ＬＩ，Ｈｅｎｇ；ＤＵＩ己ＢｎＮ，Ｒｉｃｈａｒｄ．ＦａｓｔａｎｄａｃｃｕｒａｔｅｓｈｏｒｔｒｅａｄａｌｉｇｎｍｅｎｔｗｉｍＢＵｌＴＯＷＳ－－ｍｅｅｌｅｒｔｒａｎｓｆｏｎＩｌ『Ｊ１．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００９，２５．１４：１７５４．１７６０．ｆ５６］ＮＩＮＧ，Ｚｅｍｉｎ；ＣＯＸ，ＡｎｔｈｏｎｙＪ．；Ⅳ【ＵＬＬＩＫＩＮ，ＪａｍｅｓＣ．ＳＳＡＨＡ：ａｆａｓｔｓｅａｒｃｈｍｅｔｈｏｄｆｏｒｌａｒｇｅＤＮＡｄａｔａｂａｓｅｓ［Ｊ］．Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ．２００１．１１．１０：１７２５—１７２９．ｆ５７］ＳＭＩＴＨ，Ｔ．Ｆ．：ＢＥＹＥＲ，Ｗ．Ａ．Ｍ．Ｓ．ＷＡＴＥＲ＾压ＡＮｆＪｌ．１９７６．『５８１ｈｔｔｐ：／／ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．ｂｃ．ｅｄｕ／ｍａｒｔｈｌａｂ／Ｍｏｓａｉｋ［ＯＬ／ＣＰｌ［５９］Ｃｈｅｐｅｌｅｖ，Ｉｏｕｒｉ，ｅｔｅｘｏｎｓａ１．”ＤｅｔｅｃｔｉｏｎｏｆｓｉｎｇｌｅｎｕｃｌｅｏｆｉｄｅｖａｒｉａｔｉｏｎｓｉｎｅｘｐｒｅｓｓｅｄｏｆｔｈｅｈｕｍａｎｇｅｎｏｍｅｕｓｉｎｇＩ矾Ａ．Ｓｅｑ．『Ｊ１ｆＩＮｕｃｌｅｉｃｎｏｖｏａｃｉｄｓｒｅｓｅａｒｃｈ３７．１６（２００９）：ｅｌ０６．ｅ１０６．［６０］ＢＵＴＬＥＲ，Ｊｏｎａｔｈａｎ，ｅｔｓｈｏｔｇｕｎａ１．ＡＬＬＰＡＴＨＳ：ｄｅａｓｓｅｍｂｌｙｏｆｗｈｏｌｅ．ｇｅｎｏｍｅｆｏｒｍａｔａｎｄｍｉｃｒｏｒｅａｄｓ［Ｊ］．Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ．２００８．１８．５：８１０．８２０．ｅｔａ１．Ｔｈｅ［６１］ＬＩ，Ｈｅｎｇ，ｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔ／ｍａｐＳＡＭｔｏｏｌｓ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２００９．２５．１６：２０７８．２０７９．【６２］ｈｔｔｐ：／／ｐｉｃａｒｄ．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／［ＯＬ／ＣＰ］［６３］ＬＩ，Ｒｕｉｑｉａｎｇ，ｅｔａ１．ＳＯＡＰ２：ａｎ［６４］Ｄａｖｅｙ，ＪｏｈｎＷ．，ｅｔ４９９．５１０．ｉｍｐｒｏｖｅｄｕｌｔｒａｆａｓｔｔｏｏｌｆｏｒｓｈｏｒｔｒｅａｄａｌｉｇｎｍｅｎｔ［Ｊ］．ＢｉｏｉｎｆｏｒｍａｔｉＣＳ．２００９．２５．１５：１９６６．１９６７．ａ１．”Ｇｅｎｏｍｅ—ｗｉｄｅｇｅｎｅｔｉｃｍａｒｋｅｒｄｉｓｃｏｖｅｒｙａｎｄｇｅｎｏｔｙｐｉｎｇｕｓｉｎｇｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇ．［Ｊ］”ＮａｔｕｒｅＨａｒｏｌｄ，ｅｔＲｅｖｉｅｗｓＧｅｎｅｔｉｃｓ１２．７（２０１１）：ｉｎａ［６５１ＨＡＲＤＹ，Ｇｏｄｆｒｅｙａ１．Ｍｅｎｄｅｌｉａｎｐｒｏｐｏｒｔｉｏｎｓｍｉｘｅｄｐｏｐｕｌａｔｉｏｎ［Ｊ］．Ｓｃｉｅｎｃｅ．１９０８．２８．７０６：４９．５０．【６６］Ｙｏｕ，Ｆｒａｎｋ，ｅｔａｎｄｃｏｍｐｌｅｘａａ１．”Ａｎｎｏｔａｔｉｏｎ．ｂａｓｅｄｇｅｎｏｍｅ．ｗｉｄｅＳＮＰｄｉｓｃｏｖｅｒｙｉｎｔｈｅｌａｒｇｅＡｅｇｉｌｏｐｓｔａｕｓｃｈｉｉｇｅｎｏｍｅｕｓｉｎｇｎｅｘｔ—ｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｗｉｔｈｏｕｔｒｅｆｅｒｅｎｃｅｇｅｎｏｍｅｓｅｑｕｅｎｃｅ．［Ｊ］”ＢＭＣｇｅｎｏｍｉｃｓ１２．１（２０１１）：５９．［６７］ＤＡＮＥＣＥＫ，Ｐｅｔｒ，ｅｔ［６８］ＳＨＥＲＲＹ，Ｓ．ａ１．ＴｈｅｖａｒｉａｎｔｃａｌｌｆｏｒｍａｔａｎｄＶＣＦｔｏｏｌｓ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，ｄａｔａｂａｓｅｏｆｇｅｎｅｔｉｃ２０１１．２７．１５：２１５６．２１５８．Ｔ．，ｅｔａ１．ｄｂＳＮＰ：ｔｈｅＮＣＢＩｖａｒｉａｔｉｏｎ［Ｊ］．Ｎｕｃｌｅｉｃａｃｉｄｓｒｅｓｅａｔｃｈ．２００１．２９．１：３０８—３１１．［６９］ＡＬＴＳＨＵＬＥＲ，ＤａｖｉｄＭａｔｔｈｅｗ，ｅｔａ１．Ａｍａｐｏｆｈｕｍａｎｐｏｐｕｌａｔｉｏｎｓｃａｌｅｇｅｎｏｍｅｖａｒｉａｔｉｏｎｆｒｏｍｓｅｑｕｅｎｃｉｎｇ［Ｊ］．２０１０．ａ１．Ｉｎｔｅｇｒａｔｉｎｇｃｏｍｍｏｎａｎｄｒａｒｅｇｅｎｅｔｉｃｖａｒｉａｔｉｏｎｉｎ［７０］ＡＬＴＳＨＵＬＥＲ，ＤａｖｉｄＭ．，ｅｔｄｉｖｅｒｓｅｈｕｍａｎｐｏｐｕｌａｔｉｏｎｓ［Ｊ］．Ｎａｔｕｒｅ．２０１０．４６７．７３１１：５２．．［７１］ＳＥＲＶＩＮ，Ｂｅｒｔｒａｎｄ；ＳＴＥＰＨＥＮＳ，Ｍａｔｔｈｅｗ．Ｉｍｐｕｔａｔｉｏｎ．ｂａｓｅｄａｎａｌｙｓｉｓｏｆａｓｓｏｃｉａｔｉｏｎｓｔｕｄｉｅｓ：ｃａｎｄｉｄａｔｅｒｅｇｉｏｎｓａｎｄｑｕａｎｔｉｔａｔｉｖｅｔｒａｉｔｓ［Ｊ］．ＰＬｏＳｇｅｎｅｔｉｃｓ．２００７．３．７：ｅｌ１４．６５参考文献［７２］ＪＯＨＮＳＯＮ，ＰｈｉｌｉｐＬＦ；ＳＬＡＴＫＩＮ，Ｍｏｎｔｇｏｍｅｒｙ．Ａｃｃｏｕｎｔｉｎｇｓｅｑｕｅｎｃｉｎｇｅｒｒｏｒｆｏｒｂｉａｓｆｒｏｍｉｎｐｏｐｕｌａｔｉｏｎｇｅｎｅｔｉｃｅｓｔｉｍａｔｅｓ［Ｊ］．Ｍｏｌｅｃｕｌａｒｇｅｎｏｍｉｃｓｂｉｏｌｏｇｙａｎｄｅｖｏｌｕｔｉｏｎ．２００８．２５．１：１９９．２０６．［７３］ＲＯＢＩＮＳＯＮ，Ｊａｍｅｓ［７４］ＤＥＰＲＪＳＴＯ，Ｍａｒｋ４９１．４９８．Ｔ．，ｅｔａ１．Ｉｎｔｅｇｒａｔｉｖｅｖｉｅｗｅｒ［Ｊ］．Ｎａｔｕｒｅａｎｄｇｅｎｏｔｙｐｉｎｇｂｉｏｔｅｃｈｎｏｌｏｇｙ．２０１１．２９．１：２４．２６．Ａ．，ｅｔａ１．Ａｆｒａｍｅｗｏｒｋｆｏｒｖａｒｉａｔｉｏｎｄｉｓｃｏｖｅｒｙｕｓｉｎｇｎｅｘｔ－ｇｅｎｅｒａｔｉｏｎＤＮＡｓｅｑｕｅｎｃｉｎｇｄａｔａ［Ｊ］．Ｎａｔｕｒｅｇｅｎｅｔｉｃｓ，２０１１，４３．５：［７５］ＭｃＫｅｕｎａ，Ａａｒｏｎ，ＭａＲｈｅｗＴｏｏｌｋｉｔ：ａｓｅｑｕｅｎｃｉｎｇＨａｎｎａ，ＥｒｉｃＢａｎｋｓ，ＡｎｄｒｅｙＳｉｖａｃｈｅｎｋｏ，ＫｒｉｓｔｉａｎＣｉｂｕｌｓｋｉｓ，ＡｎｄｒｅｗＫｅｍｙｔｓｋｙ，ＫｉｒａｎＧａｒｉｍｅｌｌａｅｔａ１．”ＴｈｅＧｅｎｏｍｅＡｎａｌｙｓｉｓＤＮＡＭａｐＲｅｄｕｃｅｆｒａｍｅｗｏｒｋｆｏｒａｎａｌｙｚｉｎｇｎｅｘｔ．ｇｅｎｅｒＮｉｏｎｄａｔａ．［Ｊ］”Ｇｅｎｏｍｅｒｅｓｅａｒｃｈ２０，ｎｏ．９（２０１０）：１２９７—１３０３．ａ１．”ＡｃｃｕｒａｃｙａｎｄｑｕａｌｉｔｙｏｆｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌＤＮＡＧｅｎｏｍｅｂｉｏｌ［７６］Ｈｕｓｅ，ＳｕｓａｎＭ．，ｅｔｐｙｒｏｓｅｑｕｅｎｃｉｎｇ．［Ｊ］ｆＩ８．７（２００７）：Ｒ１４３．ｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｏｆ４５４ＧＳ．ＦＬＸＴｉｔａｎｉｕｍ［７７］Ｇｉｌｌｅｓ，Ａｎｄｒ６，ｅｔａ１．”Ａｃｃｕｒａｃｙａｎｄｐｙｒｏｓｅｑｕｅｎｃｉｎｇ．ｆＪｌ”ＢｍｃＧｅｎｏｍｉｃｓ１２．１（２０１１）：２４５．［７８］ＪＯＨＮＳＯＮ，Ｄａｖｉｄ［７９］ＱＵＡＩＬ，ＭｉｃｈａｅｌｃｏｍｐａｒｉｓｏｎｏｆＳ．，ｅｔａ１．Ｇｅｎｏｍｅ．ｗｉｄｅｍａｐｐｉｎｇｏｆｉｎｖｉｖｏｐｒｏｔｅｉｎ．ＤＮＡＳｉｇｎａｌｉｎｇ．２００７．３１６．５８３０：１４９７．ｉｎｔｅｒａｃｔｉｏｎｓ［Ｊ］．ＳｃｉｅｎｃｅＩｏｎＡ．，ｅｔａ１．Ａｔａｌｅｏｆｔｈｒｅｅｎｅｘｔｇｅｎｅｒａｔｉｏｎｓｅｑｕｅｎｃｉｎｇｐｌａｔｆｏｒｍｓ：Ｔｏｒｒｅｎｔ，ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓａｎｄＩｌｌｕｍｉｎａＭｉＳｅｑｓｅｑｕｅｎｃｅｒｓ［Ｊ］．ＢＭＣｇｅｎｏｍｉｃｓ，２０１２，１３．１：３４１．［８０］ＮＩＥＬＳＥＮ，Ｒａｓｍｕｓ，ｅｔｓｅｑｕｅｎｃｉｎｇａ１．ＧｅｎｏｔｙｐｅａｎｄＳＮＰｃａｌｌｉｎｇｆｒｏｍｎｅｘｔ．ｇｅｎｅｒａｔｉｏｎＧｅｎｅｔｉｃｓ，２０１１．１２．６：４４３—４５１．ｄａｔａ［Ｊ］．ＮａｔｕｒｅＲｅｖｉｅｗｓ附录Ａ附录ＡｒｉｓｅｒｕＯＲ，ｆＯｒＨｏｍＧ。——ＩＩ＿－ｌ图Ａ１不同Ｈｏｍｏ长度区域发生插入的平均次数Ｄｅｌｅ螽ＯｎｆｏｒＨｏｍｏ一卜≥５《４０３３２ｉｖ毒鼍盔２王０≥…一…一…一…ＩＪＬ■…王２３４５６了８謇王０Ｈｏｒｎ０跨ｎｇｔｎ图Ａ２不同Ｈｏｍｏ长度区域发生缺失的平均次数６７附录ＡＭｉｓｍａｔｃｈｆｏｒＨ（１ｌ＇ｌＯ了６Ｓ．曼磊也￡２＿－…■●２３Ｉ■一～ｉｌ≤：Ｈｏｍｏｅ７～…＿８量ｉｅｎｇｔｒ；图Ａ３不同Ｈｏｍｏ长度区域发生Ｍｉｓｍａｔｃｈ的平均次数附录Ｂ附录Ｂ附录Ｂ为插入、缺失和Ｍｉｓｍａｔｃｈ错误类型在不同长度Ｈｏｍｏ的５’和３’端之间的每个位点的出错次数统计，５’端从１开始，至５结束，３’端从一１开始，至一５结束，Ｈｏｍｏ本身内的位置由两位数表示，第一位为Ｈｏｍｏ长度，第二位从１开始至其长度为止，方向为５’至３’。以图３．１２坐标所示，其５’至３’端的坐标为１，２，３，４，５，６１，６２，６３，６４，６５，６６，．１，一２，．３，．４，．５。无数据的为０。表Ｂ１不同长度Ｈｏｍｏ５’和３’端各５ｂｐ内的插入错误次数附录Ｂ７０附录Ｂ７ｌ附录Ｂ表Ｂ２不同长度Ｈｏｍｏ５’和３‘端各５ｂｐ内的Ｍｉｓｍａｔｃｈ错误次数７２附录Ｂ７３附录Ｂ７４附录Ｂ８８５３８８８９９ｕ弱∞，５９９９９９％盯咱叫弋之●９３９９９９３９９９“．。叭眈盯％∞ｑ屹●１０４１表Ｂ３不同长度Ｈｏｍｏ５’和３’端各５ｂｐ内的Ｄｅｌｅｔｉｏｎ错误次数２１６６４６１２１６８４８５２１３３０７９２１３１０４５２１６９８４１２ｑ弋之１●２１６５８０１２３１６１０４１２４１２７４６４２１１０２６９２４３３４６５２４５９５６３５扒毖Ｌｏ３６３８４３４３７８２０７５附录Ｂ７６附录Ｂ７７附录Ｂ８８８１８６２５６２８８９９９９８７８８—５—４—３—２—１１５缸碰ｍ９９９９９９９勰Ⅲ娩３２５９１９７９８９９—２—１９旧旧∞１０１姗揭晡盯铉７８

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于二代测序数据的SNP发现策略及其初步应用