“HapMap五周年回顾”的版本间的差异

2017年4月20日 (四) 09:23的版本

　　作者简介：曾长青，中国科学院北京基因组所研究员，博士生导师。CUSBEA奖学金、百人计划、杰出青年基金、首批新世纪百千万人才工程国家级人选获得者。作为“十五”重大攻关项目课题组长、国际HapMap计划Steering Committee Member和 “中华单体型图协作组”召集人，负责HapMap“中国卷”的实施。主要从事疾病相关基因定位、群体遗传学和基因组多态研究，部分成果在Nature,Nature Genetics, PNAS等杂志发表。

　　今年10月，是人类基因组国际HapMap计划启动8周年和这一重大国际合作的主要任务完成5周年。几年间，全球范围的基因组特别是人类基因组的研究，已经成为生命科学的最前沿学科，HapMap也成为应用最为广泛、深入并不断完善更新的人类最大数据库。本文回顾性介绍HapMap计划及其近年来在基因组学和人类健康领域的重要作用。

人类基因组的HapMap和国际HapMap计划

何谓HapMap

　　HapMap是Haplotype Map 的简称，Haplo意为单一，在基因组中专指来自父母的一对染色体中的一条。Haplotype就是单条染色体中的一段，译作单体型(有人译作单倍型)，是描述遗传差异的一种主要方式。DNA作为遗传物质，不但编码了物种间的差异，物种内不同个体之间的差异也含在其中，均表现为基因组之间的DNA序列差异，也就是基因组的多态性上。

　　DNA由四种核苷酸单个连接而成，基因组最常见的多态就是单核苷酸多态(single nucleotide polymorphism)，简写为SNP或SNPs(复数)，指在群体中染色体的某一位点上由不同的核苷酸构成(图1)。

　　目前发现的人类基因组中的SNP位点已经超过一千万。在人群中，染色体上每一二百个核苷酸就有一个SNP位点。单体型描述的是一段单条染色体上的序列差异，就是由SNP位点的顺序排列组成。因此也可以说单体型是分别来自父母的单条染色体上SNP的分布和传递模式。根据邻近SNP的连锁特性(即连锁不平衡)，单体型上的多个SNPs还可以由少数几个tag即标签SNP代表。Haplotype Map是单体型图谱，就是全基因组上所有DNA序列的SNP分布和人群频率、标签SNPs、连锁性质与规律等。

HapMap的内容

　　HapMap的内容是一个巨大的“人类遗传用表”。遗传学研究的本质在于解析变异及其传递规律。对于人类基因组中的千百万个SNPs来说，尽管很多SNPs对于表现型可能并没有贡献，个体的性状差异，也就是任意两个人之间的遗传差别，就蕴藏在这些SNPs和单体型之中。如果说人类基因组测序计划打开了我们自身的遗传密码这本天书，那么地球上每个人的天书都是一种版本，HapMap揭示的就是不同天书版本之间的差别与规律。从个体的基因组测序到全基因组SNPs在人群中的分布和单体型的构建，HapMap计划标志着群体基因组学研究的开始，旨在通过对于海量SNPs的人群检测及其计算分析，构建全人类的遗传用表，从而研究者可以从中查到基因组中各种位置的SNP以及在主要人群中的组成、频率和单体型与标签SNP情况。

HapMap的重要价值

　　HapMap的重要价值在于揭示复杂性疾病的遗传因素。复杂性疾病是相对于单基因病(如血友病等)而言，也是常见疾病，如高血压、肿瘤、精神性疾病、糖尿病等。其发生往往是遗传和环境因素共同作用的结果，遗传因素涉及多个基因和分子通路，而不表现为单基因的孟德尔遗传。因此罹患这类疾病的易感性，包括对不同环境或药物的敏感性等，都隐匿在多个基因的微效变异即SNP和单体型及其组合中，并且有很大的个体差异。因此，揭示这类疾病的遗传模式需要大量的群体样本和发现与检测极多的SNPs进行关联分析，这在HapMap构建之前几乎是不可能的。国际单体型图计划(TheInternational HapMap Project)的主要目的就是构建不同人群的高密度SNP图谱，通过分析计算确立单体型及其中SNPs的连锁性质和标签SNPs，从而使研究人员可以根据这一巨大的遗传图表和所揭示的人类群体的分子遗传机制，为发现复杂性疾病的相关易感基因确定研究方案和选择需要进行分析的标签SNPs。

HapMap计划的启动和主要任务的完成

　　国际单体型图计划经过3年的筹划，于2002年10月29日在华盛顿召开由加拿大、中国、日本、尼日利亚、英国和美国6个参加国代表出席的第一次战略会议。会后协作组(Consortium)召开新闻发布会向全球宣布这一计划的正式启动。HapMap计划参加国中加、中、日、英和美国分别承担全基因组10%，10%，25%，24%和31％的SNP分型任务。尼日利亚提供非裔样品，中国和日本共同提供亚裔样品，美国提供了欧裔样品。第一次战略会议上决定了HapMap两阶段的战略。第一阶段是针对非、亚、欧裔的270个DNA样品在全基因组范围以平均每5 000个核苷酸(5 kb)一个SNP的密度进行大规模SNP分型鉴定，构建5 kb单体型图。第二阶段是将HapMap的分型密度增至2kb左右。HapMap计划的运作由各国代表组成的Steering Committee及其下属的若干工作小组负责执行实施。

　　3年后的2005年10月26日，由国际协作组总负责人，现任美国NIH负责人Francis Collins向全世界宣布了一个拥有数亿数据的人类基因组单体型图的成功构建，以及一个更精细的遗传图谱即将完成。

　　各中心的巨大努力使分型密度比预计提高了近40％，共针对一百多万SNPs构建了密度约3.6kb的数据库和HapMap。美国卫生和公共服务部部长Mike Leavitt在会上评价和描述了HapMap计划的意义和前景。新闻发布会上还发行了载有HapMap及其长文“人类基因组的单体型图谱”的Nature杂志。HapMap这一任务的完成，也标志着这个巨大项目的“中国卷”的完成。中国科学家为这一计划做出了10％的贡献。

HapMap计划的后期工作和进展

　　HapMap计划的第一阶段任务完成后，国际协作组委托Perlegen Sciences 完成第二阶段扩大SNP分型密度的任务。2007年10月18日，国际协作组在Nature上发表了根据第二阶段数据构建的人类基因组的第二代HapMap。至HapMap 二期共发现了超过一千万的人类基因组的SNPs，完成了约310万SNPs(≥5％)在270个样品中的分型反应。这些SNPs约占预测的遗传变异的25%~35%，并使第二代HapMap的分辨率达到平均不到1kb一个SNP，比预定计划超过100％，准确度达到99.8%。

　　为使HapMap具有更大参考性，在前两个阶段近10亿SNP数据的基础上，一个新的人群分析HapMap 3启动并于2010年9月在Nature上发表了新的海量数据。与前两期内容不同的是，HapMap 3旨在大量扩充人群样本和发现低频率SNPs。共160万的常见SNPs在来自全球11个人群的1 184个体中进行了分型反应，使HapMap具有更广泛的代表性。同时，还在其中692样品中进行了1Mb区域(10kb×10)的重测序，以发现新的低频率SNPs。显然，随着更多数据的产生，人类基因组的HapMap将不断更新使之涵盖更多人群特异数据和具有更为精细的分辨率。

“HapMap五周年回顾”的版本间的差异

2017年4月20日 (四) 09:23的版本

目录

人类基因组的HapMap和国际HapMap计划

何谓HapMap

HapMap的内容

HapMap的重要价值

HapMap计划的启动和主要任务的完成

HapMap计划的后期工作和进展

导航菜单

个人工具

名字空间

变种

视图

更多

搜索

导航

工具

编辑帮助

友情链接

@@ 第1行： / 第1行： @@
 　　作者简介：曾长青，中国科学院北京基因组所研究员，博士生导师。CUSBEA奖学金、百人计划、杰出青年基金、首批新世纪百千万人才工程国家级人选获得者。作为“十五”重大攻关项目课题组长、国际HapMap计划Steering Committee Member和 “中华单体型图协作组”召集人，负责HapMap“中国卷”的实施。主要从事疾病相关基因定位、群体遗传学和基因组多态研究，部分成果在Nature,Nature Genetics, PNAS等杂志发表。
+　　今年10月，是人类基因组国际HapMap计划启动8周年和这一重大国际合作的主要任务完成5周年。几年间，全球范围的基因组特别是人类基因组的研究，已经成为生命科学的最前沿学科，HapMap也成为应用最为广泛、深入并不断完善更新的人类最大数据库。本文回顾性介绍HapMap计划及其近年来在基因组学和人类健康领域的重要作用。
+==人类基因组的HapMap和国际HapMap计划==
+===何谓HapMap===
+　　HapMap是Haplotype Map 的简称，Haplo意为单一，在基因组中专指来自父母的一对染色体中的一条。Haplotype就是单条染色体中的一段，译作单体型(有人译作单倍型)，是描述遗传差异的一种主要方式。DNA作为遗传物质，不但编码了物种间的差异，物种内不同个体之间的差异也含在其中，均表现为基因组之间的DNA序列差异，也就是基因组的多态性上。
+　　DNA由四种核苷酸单个连接而成，基因组最常见的多态就是单核苷酸多态(single nucleotide polymorphism)，简写为SNP或SNPs(复数)，指在群体中染色体的某一位点上由不同的核苷酸构成(图1)。
+　　目前发现的人类基因组中的SNP位点已经超过一千万。在人群中，染色体上每一二百个核苷酸就有一个SNP位点。单体型描述的是一段单条染色体上的序列差异，就是由SNP位点的顺序排列组成。因此也可以说单体型是分别来自父母的单条染色体上SNP的分布和传递模式。根据邻近SNP的连锁特性(即连锁不平衡)，单体型上的多个SNPs还可以由少数几个tag即标签SNP代表。Haplotype Map是单体型图谱，就是全基因组上所有DNA序列的SNP分布和人群频率、标签SNPs、连锁性质与规律等。
+===HapMap的内容===
+　　HapMap的内容是一个巨大的“人类遗传用表”。遗传学研究的本质在于解析变异及其传递规律。对于人类基因组中的千百万个SNPs来说，尽管很多SNPs对于表现型可能并没有贡献，个体的性状差异，也就是任意两个人之间的遗传差别，就蕴藏在这些SNPs和单体型之中。如果说人类基因组测序计划打开了我们自身的遗传密码这本天书，那么地球上每个人的天书都是一种版本，HapMap揭示的就是不同天书版本之间的差别与规律。从个体的基因组测序到全基因组SNPs在人群中的分布和单体型的构建，HapMap计划标志着群体基因组学研究的开始，旨在通过对于海量SNPs的人群检测及其计算分析，构建全人类的遗传用表，从而研究者可以从中查到基因组中各种位置的SNP以及在主要人群中的组成、频率和单体型与标签SNP情况。
+===HapMap的重要价值===
+　　HapMap的重要价值在于揭示复杂性疾病的遗传因素。复杂性疾病是相对于单基因病(如血友病等)而言，也是常见疾病，如高血压、肿瘤、精神性疾病、糖尿病等。其发生往往是遗传和环境因素共同作用的结果，遗传因素涉及多个基因和分子通路，而不表现为单基因的孟德尔遗传。因此罹患这类疾病的易感性，包括对不同环境或药物的敏感性等，都隐匿在多个基因的微效变异即SNP和单体型及其组合中，并且有很大的个体差异。因此，揭示这类疾病的遗传模式需要大量的群体样本和发现与检测极多的SNPs进行关联分析，这在HapMap构建之前几乎是不可能的。国际单体型图计划(TheInternational HapMap Project)的主要目的就是构建不同人群的高密度SNP图谱，通过分析计算确立单体型及其中SNPs的连锁性质和标签SNPs，从而使研究人员可以根据这一巨大的遗传图表和所揭示的人类群体的分子遗传机制，为发现复杂性疾病的相关易感基因确定研究方案和选择需要进行分析的标签SNPs。
+===HapMap计划的启动和主要任务的完成===
+　　国际单体型图计划经过3年的筹划，于2002年10月29日在华盛顿召开由加拿大、中国、日本、尼日利亚、英国和美国6个参加国代表出席的第一次战略会议。会后协作组(Consortium)召开新闻发布会向全球宣布这一计划的正式启动。HapMap计划参加国中加、中、日、英和美国分别承担全基因组10%，10%，25%，24%和31％的SNP分型任务。尼日利亚提供非裔样品，中国和日本共同提供亚裔样品，美国提供了欧裔样品。第一次战略会议上决定了HapMap两阶段的战略。第一阶段是针对非、亚、欧裔的270个DNA样品在全基因组范围以平均每5 000个核苷酸(5 kb)一个SNP的密度进行大规模SNP分型鉴定，构建5 kb单体型图。第二阶段是将HapMap的分型密度增至2kb左右。HapMap计划的运作由各国代表组成的Steering Committee及其下属的若干工作小组负责执行实施。
+年后的2005年10月26日，由国际协作组总负责人，现任美国NIH负责人Francis Collins向全世界宣布了一个拥有数亿数据的人类基因组单体型图的成功构建，以及一个更精细的遗传图谱即将完成。
+　　各中心的巨大努力使分型密度比预计提高了近40％，共针对一百多万SNPs构建了密度约3.6kb的数据库和HapMap。美国卫生和公共服务部部长Mike Leavitt在会上评价和描述了HapMap计划的意义和前景。新闻发布会上还发行了载有HapMap及其长文“人类基因组的单体型图谱”的Nature杂志。HapMap这一任务的完成，也标志着这个巨大项目的“中国卷”的完成。中国科学家为这一计划做出了10％的贡献。
+===HapMap计划的后期工作和进展===
+　　HapMap计划的第一阶段任务完成后，国际协作组委托Perlegen Sciences 完成第二阶段扩大SNP分型密度的任务。2007年10月18日，国际协作组在Nature上发表了根据第二阶段数据构建的人类基因组的第二代HapMap。至HapMap 二期共发现了超过一千万的人类基因组的SNPs，完成了约310万SNPs(≥5％)在270个样品中的分型反应。这些SNPs约占预测的遗传变异的25%~35%，并使第二代HapMap的分辨率达到平均不到1kb一个SNP，比预定计划超过100％，准确度达到99.8%。
+　　为使HapMap具有更大参考性，在前两个阶段近10亿SNP数据的基础上，一个新的人群分析HapMap 3启动并于2010年9月在Nature上发表了新的海量数据。与前两期内容不同的是，HapMap 3旨在大量扩充人群样本和发现低频率SNPs。共160万的常见SNPs在来自全球11个人群的1 184个体中进行了分型反应，使HapMap具有更广泛的代表性。同时，还在其中692样品中进行了1Mb区域(10kb×10)的重测序，以发现新的低频率SNPs。显然，随着更多数据的产生，人类基因组的HapMap将不断更新使之涵盖更多人群特异数据和具有更为精细的分辨率。