肿瘤基因检测数据分析与解读全流程简要介绍

2017-09-15 08:00:03生信之光

大家好，我是阿尔的太阳

随着测序成本的下降

和人类医药研究对肿瘤的不断进步

会有越来越多的普通肿瘤患者告别盲目的治疗

并大大受益于肿瘤基因检测

无论是取组织测序

还是无创液态活检去检测血液中的ctDNA

数据下机以后需要专业的生信部门进行分析

本文将要对数据分析与解读全流程进行简要介绍

肿瘤基因检测数据分析与解读全流程大概分为以下几个步骤

1.初步分析

2.后续过滤

3.下游解读

这一个整体过程中都需要进行严格的系统性的质量控制

因为医疗应用关乎生命健康

1.初步分析

NGS数据初步分析基本是四个数据流：fq-bam-vcf-anno

fq 是原始的下机数据

bam 是比对的情况

vcf 存贮着原始突变信息

anno 则是注释的信息

fastq文件目前大部分是 illumina机器的数据，肿瘤基因检测涉及到应用的话大部分都是 drugable position in the ref genome 就是已经有了明确目标的基因位点了知道在参考基因组的哪个位置，因此大部分都是 panel [目的捕获测序]，也有WES全外显子测序，WGS比较少，毕竟成本太高了，数据不是一个量级。

fq会被过滤掉低质量的reads得到 clean data ，后续会使用比对软件比如BWA比对到参考基因组，然后经过去除PCR重复，得到可以用于下一个步骤的bam文件

bam是二进制的Sam文件里面存储着比对的情况，经过突变寻找软件比如GATK会找到突变，注意样本不一定有配对就是有可能只是肿瘤的单样本

突变vcf文件经过注释软件注释以后，会知道其具体在参考基因组哪个位置，有没有在某个数据库中出现过，到这里，初步分析就已经完成了