解码生命 守护健康

肿瘤基因检测数据分析与解读全流程简要介绍

2017-09-15 08:00:03生信之光

大家好,我是阿尔的太阳

随着测序成本的下降

和人类医药研究对肿瘤的不断进步

会有越来越多的普通肿瘤患者告别盲目的治疗

并大大受益于肿瘤基因检测


无论是取组织测序

还是无创液态活检去检测血液中的ctDNA

数据下机以后需要专业的生信部门进行分析

本文将要对数据分析与解读全流程进行简要介绍




肿瘤基因检测数据分析与解读全流程大概分为以下几个步骤

1.初步分析

2.后续过滤

3.下游解读

这一个整体过程中都需要进行严格的系统性的质量控制

因为医疗应用关乎生命健康

 

1.初步分析

NGS数据初步分析基本是四个数据流 :fq-bam-vcf-anno

fq     是原始的下机数据

bam 是比对的情况

vcf    存贮着原始突变信息

anno 则是注释的信息



        fastq文件目前大部分是 illumina机器的数据,肿瘤基因检测涉及到应用的话大部分都是 drugable position in the ref genome 就是已经有了明确目标的基因位点了知道在参考基因组的哪个位置,因此大部分都是 panel [目的捕获测序],也有WES全外显子测序,WGS比较少,毕竟成本太高了,数据不是一个量级。


        fq会被过滤掉低质量的reads得到 clean data ,后续会使用比对软件比如BWA比对到参考基因组,然后经过去除PCR重复,得到可以用于下一个步骤的bam文件


        bam是二进制的Sam文件里面存储着比对的情况,经过突变寻找软件比如GATK会找到突变,注意样本不一定有配对就是有可能只是肿瘤的单样本


        突变vcf文件经过注释软件注释以后,会知道其具体在参考基因组哪个位置,有没有在某个数据库中出现过,到这里,初步分析就已经完成了




2.后续过滤

        这一步骤就非常重要,比如过滤掉一些低质量的不可信的突变以及一些和基线Baseline 数据库相比较的很可能是正常突变的基因突变。

最终得到很少的高可信的SOMATIC MUTATION。

 


3.下游解读

        这个步骤会涉及到很多的数据库和医学知识,对突变进行解读

比如FDA NCCN ClinicalTrials Drugbank Clvic 等等

        最终给予患者和医生一个参考决策

        指导具体使用哪种药物会有更好的效果

        除了FDA批准的成熟上市药物,还可以尝试临床试验的新药

 

最后用一张图片来做总结

这一个整体数据分析过程中都需要进行严格的系统性的质量控制

因为医疗应用关乎生命健康

 

以上便是肿瘤数据分析与解读全流程的简要介绍