什么是基因大数据？为什么需要基因大数据？

2017-06-30 08:47:38基因空间

文丨陈卫华

基因大数据，简单来说，就是大量的基因数据和相关的分析方法。基因大数据的“大”可以理解为“宽度”和“深度”，即“横”和“纵”。

所谓的“横”，是指个体数量的多少。就如我们平时所提到的，在解析疾病相关的基因、揭示基因突变之间以及和环境变量相互作用关系的时候，需要许多个体的基因组数据、表型数据（健康状态和疾病进展程度）以及描述其生活状态的“元”数据（meta-data）。这些数据和分析它们的方法，就是基因大数据。而所谓“纵”，则是指单个个体的多种数据类型的组合。比如一个人的基因组、蛋白质组、基因表达组、甲基化组等等。这些数据的整合分析，也是基因大数据。

当然，更复杂一些，也可以把“纵”和“横”结合起来，把个人多种数据与多人单种数据的整合分析相结合，从而挖掘出更多更有意义的内容。

为什么需要基因大数据呢？这是因为，横向的比对可以帮助我们解析出关于疾病的许多奥秘，不仅仅是哪些基因突变会造成什么疾病这么简单。以因安吉丽娜朱莉而在媒体上有很多曝光的乳腺癌来说，研究人员发现，基因突变一致的情况下，发病的年龄也很关键，对后来病情的走势有很大的影响。那些40岁前发病的患者一般病情较重，容易进展为晚期癌症，导致治疗效果较差，存活率也较低。研究人员认为，这可能与更年期有关，即：可以根据乳腺癌的发病年龄不同划分为两大类，然后对这两类患者区别对待，分别采用不同的治疗方案。

而分析单个患者的数据，则可以在分子水平上了解发生了什么。比如有什么基因突变，这个突变是影响基因的功能和基因的表达丰度，是影响一个基因还是多个基因，是调控水平的影响还是表观遗传学的影响等等。

将上面的纵横数据结合起来，就可以根据年龄把患者的表达数据等分为若干组，以分析各组间基因的表达差异，鉴定出可能用于诊断或治疗的目标基因，以便对症下药。

除了上述原因，癌症的复杂性也需要基因大数据。对于癌症，科学家们达成的一个共识就是：没有两个人的癌症是一样的。因此，（在条件允许的情况下）尽可能获得并分析个人详细的、各个组学水平上的基因数据，才能对症下药。最理想的情况，当然是所谓的“个性化医疗”了，即根据每人的情况定制一套治疗方案；甚至随着治疗的进展和患者的反应对治疗方案随时调整。而现有情况下，我们能大规模实践的只能是“有限度的定制”，即所谓的“精准医疗”：首先根据患者的分子数据将其分为亚型，然后根据制定好的、针对这种亚型的治疗方案展开治疗。

癌症复杂性的表现之一，就是所谓的“长尾现象”。我们知道，在一些研究比较透彻的癌症当中，科学家们已经发现一些称之为“驱动基因”（ driver gene）或者“驱动突变”（ drivermutation）的东西，也就是说，有相当一部分的癌症患者带有此突变，相应的，带有此突变的人也有很大部分是癌症患者。这些基因或突变被认为是导致癌症的原因，因此被称为“驱动突变”。比如，安吉丽娜朱莉携带有基因BRCA1的突变，其患病的概率就高达87%。但是，几乎每一个癌症，都会有一些患者并不携带所谓的“驱动突变”或者“驱动基因”，但其表型和其它患者是一样的，这就是癌症的“长尾现象”。长尾现象意味着，这些患者并不能按照典型的病人进行治疗，而必须根据其具体的突变情况采取灵活多变的措施。

因此，基因大数据是解析人类疾病的重要手段，也是实现“精准医疗”和“个性化医疗”不可或缺的重要手段。

（本文节选自《互联网+基因空间）

解码生命守护健康