图说:中国不同地域和民族人群的成分聚类分析 采访对象供图
中国人的疾病,不适合用外国人的基因数据来做研究。这是由于不同地域人群和种族之间的历史渊源和遗传背景存在着巨大差异,如果把具有其他人群偏向性的知识和结论直接拿来做为中国人的疾病风险评估、遗传咨询或诊断治疗依据,是并不完善和可靠的。
因此,国家代谢性疾病临床医学研究中心(上海)基于上海交通大学医学院附属瑞金医院牵头开展的多项覆盖全国的队列研究,依托转化医学国家重大科技基础设施(上海)和医学基因组学国家重点实验室,实施了中国代谢解析计划ChinaMAP (China Metabolic Analytics Project)。
2020年4月30日,ChinaMAP联盟携全国29家研究机构和医院,在中科院上海生命科学研究院主办的Cell Research杂志发表了长文章“The ChinaMAP analytics of deep whole genome sequences in 10,588 individuals”,首次报道了ChinaMAP一期研究对覆盖全国27个省份和直辖市,8个民族,超过1万人的高深度(40´)全基因组测序数据和表型的系统性分析。上海交通大学医学院附属瑞金医院王卫庆教授和毕宇芳教授等是论文的共同通讯作者,曹亚南研究员,李林研究员和徐敏研究员等为共同第一作者。
图说:华法林和氯吡格雷药物基因组学分析
首次打造大规模中国人自有的基因组数据库
大规模人群队列的基因组学和多组学大数据正在重大慢病、肿瘤和遗传病的预防、诊断和新药研发中发挥引领作用,推动个体化精准健康管理和疾病诊疗的变革。在这个赛道上,美国和欧洲已实施多项以大规模队列的基因分型、基因组测序数据为基础的医学研究计划,包括著名的英国生物样本库(UK Biobank),美国肿瘤基因组图谱(TCGA)计划和多组学精准医学研究计划(TOPMed)等,产生了一系列具有深远影响的里程碑式成果。对于我国的未来医学发展,不太适合直接应用美国、欧洲人群研究主导形成的数据和结论。因此,基于大规模具有代表性和全面性的中国人群队列研究,形成独立自主和高质量的中国人群特异性数据和研究体系,将是我国精准医学发展的重要基础。
曹亚南说,此次发表意味着,通过中国人自己的仪器、平台、分析方法,对中国人的基因组特征进行研究,具有前所未有的意义。
王卫庆教授解释,该项研究中,研究团队对队列中代表中国不同地区和民族的10588人DNA样本,使用华大基因-华大智造的国产自主高通量测序平台进行了40´深度全基因组测序,完成了高质量的中国人群遗传变异数据构建、中国人群体结构分析、基因组特征比较以及变异频谱和致病性变异解析。在ChinaMAP一期数据库中,包含1.36亿个基因多态性位点(SNP)和1千万个插入或缺失位点(INDEL),其中一半是在国际通用的dbSNP、千人基因组、gnomAD和TOPMed数据库中均没有的新位点。ChinaMAP数据库中所有变异的位置、注释、频率和数据质量等信息,可在国家代谢性疾病临床医学研究中心的www.mBiobank.com网站搜索,为我国的医学和生命科学研究提供服务。在科技部人类遗传资源管理条例的管理和批准下,研究者可以与ChinaMAP研究团队进一步开展合作。
ChinaMAP一期研究覆盖中国七大地理区域,包括了人口排名前十的汉族、壮族、回族、满族、苗族、彝族、藏族和蒙古族,显示了中华民族跨地理区域人群遗传背景的多样性和复杂性。研究团队首次揭示了汉族人群可显著分成七个亚群:北方汉族(北京、天津、河南、河北、山东、辽宁、吉林、黑龙江、山西),西北汉族(甘肃、陕西),东部汉族(江苏、浙江、上海、安徽),中部汉族(湖北),南方汉族(贵州、四川、重庆、湖南、云南、江西),东南汉族(福建)和岭南汉族(广东、广西)。少数民族中,藏族、彝族、蒙古族、苗族和壮族都有着独特的人群聚类,而满族和北方汉族相近,回族和西北、北方汉族相近。不同地域人群的变异特征也与中国历史上的人口迁徙和变迁相关,例如河西走廊是丝绸之路中不同民族迁徙的交通要道,历史上包括粟特人等许多民族曾在此经商生活。ChinaMAP研究揭示,现代河西走廊地区的人们具有的基因多态性位点数量更多更复杂。与全世界其他人群相比,中国人的遗传特征与欧洲、非洲、南亚和拉丁美洲人群之间存在着巨大差异,与非洲人群差距最大,而与东亚人群非常相似。研究者在成分分析中发现,日本人群与中国北方汉族人群聚类完全重叠。
图说:ChinaMAP 10588人的餐后血糖遗传风险的多基因评分
中国人常患什么病?
ChinaMAP对中国人群的遗传性疾病相关变异位点进行了全面分析。研究团队发现,中国人群中先天性甲状腺功能减低症、慢性胰腺炎、遗传性掌跖角化症等疾病的致病基因变异携带者较欧美人群显著更多,且具有地域分布特征,这些结果对我国重点遗传性疾病的筛查和防控具有参考价值。例如,中国人和日本人高发的长岛型掌跖角化症相关SERPINB7基因致病位点rs142859678在中国人群中的等位基因频率超过百分之一,是欧美人群的约20倍。与甲状腺功能减退发生相关的一些致病变异频率在中国人群中比欧美人群高10倍以上。疾病相关变异位点在中国人群与欧美人群中的频率差异,说明我国的遗传咨询和解读,对重要性不确定的基因变异(VUS)的研究,以及相关临床指南和路径制定,需要依据中国人自己的大样本和高质量数据。
“中国特色”的代谢能力需重视
ChinaMAP对中国人的营养代谢和药物代谢相关遗传特征也进行了分析比较。对受到广泛关注的酒精代谢能力,从总体上看,北方人比南方人酒量相对更好,藏族、蒙古族、彝族人民和河南人酒量居于全国前列,山东人酒量并不突出,福建人和广东人排在最后。ChinaMAP证实,导致喝酒脸红和酒精代谢能力差的乙醛脱氢酶2 基因rs671变异是东亚人特异性的,在中国人群中的携带者(纯合子比例4.50%,杂合子比例34.27%)远高于全球其他人群。rs671变异也是诱发食管癌发生的重要风险因素,所以喝酒脸红还应少喝酒。
另外,研究团队也对抗凝药华法林的减量使用,抗血小板药物氯吡格雷的适用人群分类,他汀类降脂药副作用风险人群进行了分析。例如,对于高脂血症常用的降脂药辛伐他汀,中国人中有超过20%的个体存在横纹肌溶解这一不良反应的风险,提示了针对我国人群特征的药物基因组研究和药物基因检测的重要性。
单个基因突变影响不大,多个突变有大影响
代谢性疾病,特别是2型糖尿病和肥胖,已成为中国和世界范围内发病率最高的重大慢病。在复杂疾病的遗传因素中,很多效应较强的基因变异大多存在于在特定的地理区域和种族群体中,只有基于特定人群完善的数据分析才有可能对这个人群的疾病的遗传风险进行精准评估。例如,欧洲人群中最显著的2型糖尿病遗传风险TCF7L2基因变异(如rs7903146)在中国人中的频率很低,并不重要。在代谢特征和疾病研究中仅参考和验证欧美人群的结果是不行的。另外,一个人携带的某个基因变异产生的疾病风险可能并不大,但综合多个基因变异的作用后对个体特征有重大影响。因此,基于特定人群的大规模基因型和表型数据库,通过多基因风险评分(PRS)评估个体的疾病风险是一种比较准确的方法。在ChinaMAP研究中,研究者对2型糖尿病遗传风险进行了多基因风险评分,以量化评分、年龄和血糖值的排序三维显示了每个人在整个群体中的精确位置。多基因风险评分排名显示了2型糖尿病高风险和低风险的个体之间存在非常显著的血糖差异,高风险个体随着年龄的增加,空腹和餐后2小时血糖都显著高于中风险和低风险者。另外对比证实,基于东亚人群的基础数据比基因欧洲人群的数据的结果更加准确。这些结果提示基于中国人群基础数据对2型糖尿病及其他代谢性疾病进行精确风险评估的重要性,对重大慢病的预防、个体化健康管理和公共卫生决策具有价值。
图说:BMI,空腹血糖,餐后2小时血糖的全基因组关联分析
中国人群代谢性疾病风险基因与欧美也有不同
ChinaMAP研究也通过全基因组关联分析探索了中国人群中2型糖尿病和肥胖遗传相关因素。在体重指数BMI相关分析中,研究团队发现了新的东亚人群特异性CADM2基因位点,CADM2在动物研究中已证实参与调节体重和能量稳态。FTO等在欧美人群中发现的重要肥胖相关基因位点,在ChinaMAP研究结果中并不显著。这些发现提示,对大规模中国人群特异性的基因组学的研究,对分子机制和个体化诊治的精准医学体系建立很重要。
ChinaMAP以覆盖中国各地区的研究队列为基础建立了高质量中国人群数据库,通过高深度全基因组数据和精细表型分析,可为疾病机制研究、预防、遗传咨询和公共卫生管理提供依据。例如ChinaMAP在2月下旬报道的新冠病毒受体ACE2相关变异在全球不同人群中的比较分析成果在Cell Discovery发表4,已被访问下载超过20万次。ChinaMAP对汉族和少数民族群体的精确遗传结构分析也为中国人群的精准基因组学研究提供了参考数据。