解码生命 守护健康

什么是基因大数据?为什么需要基因大数据?

2017-06-30 08:47:38基因空间

文丨陈卫华

基因大数据,简单来说,就是大量的基因数据和相关的分析方法。基因大数据的“大”可以理解为“宽度”和“深度”,即“横”和“纵”。

所谓的“横”,是指个体数量的多少。就如我们平时所提到的,在解析疾病相关的基因、揭示基因突变之间以及和环境变量相互作用关系的时候,需要许多个体的基因组数据、表型数据(健康状态和疾病进展程度)以及描述其生活状态的“元”数据(meta-data)。这些数据和分析它们的方法,就是基因大数据。而所谓“纵”,则是指单个个体的多种数据类型的组合。比如一个人的基因组、蛋白质组、基因表达组、甲基化组等等。这些数据的整合分析,也是基因大数据。

当然,更复杂一些,也可以把“纵”和“横”结合起来,把个人多种数据与多人单种数据的整合分析相结合,从而挖掘出更多更有意义的内容。

为什么需要基因大数据呢?这是因为,横向的比对可以帮助我们解析出关于疾病的许多奥秘,不仅仅是哪些基因突变会造成什么疾病这么简单。以因安吉丽娜朱莉而在媒体上有很多曝光的乳腺癌来说,研究人员发现,基因突变一致的情况下,发病的年龄也很关键,对后来病情的走势有很大的影响。那些40岁前发病的患者一般病情较重,容易进展为晚期癌症,导致治疗效果较差,存活率也较低。研究人员认为,这可能与更年期有关,即:可以根据乳腺癌的发病年龄不同划分为两大类,然后对这两类患者区别对待,分别采用不同的治疗方案。

 

而分析单个患者的数据,则可以在分子水平上了解发生了什么。比如有什么基因突变,这个突变是影响基因的功能和基因的表达丰度,是影响一个基因还是多个基因,是调控水平的影响还是表观遗传学的影响等等。

将上面的纵横数据结合起来,就可以根据年龄把患者的表达数据等分为若干组,以分析各组间基因的表达差异,鉴定出可能用于诊断或治疗的目标基因,以便对症下药。

除了上述原因, 癌症的复杂性也需要基因大数据。对于癌症,科学家们达成的一个共识就是:没有两个人的癌症是一样的。因此,(在条件允许的情况下)尽可能获得并分析个人详细的、各个组学水平上的基因数据,才能对症下药。最理想的情况,当然是所谓的“个性化医疗”了,即根据每人的情况定制一套治疗方案;甚至随着治疗的进展和患者的反应对治疗方案随时调整。而现有情况下,我们能大规模实践的只能是“有限度的定制”,即所谓的“精准医疗”:首先根据患者的分子数据将其分为亚型,然后根据制定好的、针对这种亚型的治疗方案展开治疗。

 

癌症复杂性的表现之一,就是所谓的“长尾现象”。我们知道,在一些研究比较透彻的癌症当中,科学家们已经发现一些称之为“驱动基因”( driver gene)或者“驱动突变”( drivermutation)的东西 ,也就是说,有相当一部分的癌症患者带有此突变,相应的,带有此突变的人也有很大部分是癌症患者。这些基因或突变被认为是导致癌症的原因,因此被称为“驱动突变”。比如,安吉丽娜朱莉携带有基因BRCA1的突变,其患病的概率就高达87%。但是,几乎每一个癌症,都会有一些患者并不携带所谓的“驱动突变”或者“驱动基因”,但其表型和其它患者是一样的,这就是癌症的“长尾现象”。长尾现象意味着,这些患者并不能按照典型的病人进行治疗,而必须根据其具体的突变情况采取灵活多变的措施。

因此,基因大数据是解析人类疾病的重要手段,也是实现“精准医疗”和“个性化医疗”不可或缺的重要手段。

(本文节选自《互联网+基因空间