基因解读——基因产业链的下一个重点

2017-06-15 08:39:36华大基因

每个人体内都含有30亿个DNA碱基对，组成碱基对的四种碱基A、T、C、G经过30亿次排列组合，加上不同的基因结构、甲基化、蛋白质修饰导致各式各样的基因表达，最终形成了一个蕴含人体无穷奥秘的奇妙世界。

如何解读基因的奥秘，成为当代生命科学界的一大难题；如何通过解读基因大数据，获取与疾病相关的变异，找到致病基因，制定靶向治疗方案，也是精准医疗领域中的核心环节。

随着基因测序成本大幅度降低，基因分析平台与技术日益成熟，基因解读成为现阶段决定测序产业链发展的关键。那么，影响基因解读的环节有哪些？哪些技术在背后支撑着基因解读的发展？

大规模数据库建立

如果要让解读结果更精确可信，首先需要丰富的数据资源。测序技术的不断发展，使得基因数据的获取不再是问题。基因数据库的建成作为目前解读工作最重要的环节之一，不仅仅包括基因数据的积累，还包括相对应的临床数据的整合。

如何进行准确有效的解读与整合，转化成能够具体临床应用的有效信息是精准医疗中的一个关键环节。当我们建立了大规模的基因组数据库和知识库后，就可以将基因变异信息、疾病临床表型、诊疗方案、药物治疗等数据结合起来，从而建立特定基因与疾病的关联。

近年来，世界各国为解读基因组数据做了很多工作。2008年，华大基因与英国桑格研究所以及美国国立人类基因组研究所（NHGRI）等多家机构共同发起了国际“千人基因组计划”；2012年，英格兰提出了十万人基因组计划；2015年，美国提出了百万人基因组和精准医学计划，中国十三五规划准备投资600亿做精准医学......

2016上半年，美国食品药品监督管理局FDA、中国抗癌协会临床肿瘤学协作专业委员会CSCO纷纷推出指南，明确指出需要通过循证的遗传变异知识库对测序分析结果进行临床注释解读来出具报告；同年8月，中国食品药品检定研究院发布了《第二代测序技术检测试剂质量评价通用技术指导原则》，把数据库列入二代测序的原材料中。

2016年9月22日，我国唯一获批筹建的国家基因库——深圳国家基因库正式运营，其数据库目前已建成60PB的数据可访问能力，并规划在二期完成500PB的可访问能力，能力上超越国际三大基因数据中心。

基因组学研究

现阶段，真正被人类所理解的基因组信息仅占总体的2%，基因解读之路任重而道远。数据库和知识库的建立让解读工作得以顺利进行，但解读工作中最根本的问题还是人们对基因组信息的研究与认知不够。只有对基因组信息有了更深刻的认识，科研医者才能更好地挖掘变异信息与疾病之间的联系，推动精准医疗临床决策。

标准管理体制

在解读工作中，相关的标准条例和指南也在规范、指导着科研人员进行临床研究和交流。

HPO（Human Phenotype Ontology）项目即提供了一套描述人类疾病所致的异常表型的标准词语集。2016年初，在中国科学院院士、华大基因理事长杨焕明与HPO创始人Peter Robinson 教授的推动下，成立了中文人类表型标准用语联盟（CHPO）。该联盟旨在为临床与科研人员提供人类表型的中文标准术语和高效的中文人类表型搜索引擎，并让其指导、服务于疾病研究和数据挖掘工作。

2015年3月，美国医学遗传学与基因组学学院（ACMG）发布新版基因变异解读标准和指南，这份指南对于想要确认患者中鉴定出的遗传变异是否与疾病相关的科研人员来说，也是非常重要的指南。