解码生命 守护健康

这些基因ID我完全看不懂怎么办?

2017-06-22 11:01:06小张聊科研

人可能会有许多名字,比如曾用名、小名、昵称、外号等等,举个栗子吧~김정은=Kim Jong-un=金正银=金正恩=金三胖=鑫胖

基因也一样,基因ID就相当于人的名字,目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,所以一个会出现N个ID。但是基因的ID就没有人的名字看上去那么直观,它们只是冰冷的代号而已。举个p53的栗子,P53 =TP53= BCC7 =ENSG00000141510 =OTTHUMG00000162125。前三个还能接受,看到后面的两个是不是头大的不行?

一般来说,还是Official Gene Symbol(比如TP53)的接受程度最高,看上去最为直观,但是不同的基因ID可能适用于不同的地方,所以今天本宫就给大家推荐两款Gene ID的转换工具(测试了十来款,选了这两款!)。


 

第一款是就是大名鼎鼎的DAVID (https://david.ncifcrf.gov/)。

DAVID我们之前介绍过它的GO和KEGG分析功能,这里介绍一下它的基因ID转换功能。


 

我们来测试一组比较高难度的数据

(相信你们是猜不出这是什么ID的~~)


 

可以在菜单栏直接打开基因ID转换工具

也可以直接输入Gene List,将Selected Identifier设置成Not Sure就能自动跳转基因ID转换工具

打开基因ID转换工具之后,选择输出的ID类型为Official Gene Symbol

提交后我们可以看到转换结果,是Affymetrix的外显子芯片结果(咳咳,素质~~~),300个结果只能转换出192个。
 

选择Convert All之后我们看到还有37个可以转换成Entrez Gene ID

二次转换结果如下
 


 

两次转换之后,还是有大几十个基因漏掉了,不过这样的结果已经算不错了,毕竟芯片测序结果中也就只有197个基因有Official Gene Symbol。


 

总的来说,DAVID的转换效率还是比较高的,不过当基因数量较大(超过2000)的时候,DAVID的运行速度可能会比较捉急,另外,DAVID数据库一般一年更新一次(上次更新是2016年10月),导致有些数据不是最新的。


 


 


 

机智的分割线

 


 


 


 

接下来再推荐一款比较傻瓜的——

Absolute Gene ID Conversion Tools(http://bioinformatics.louisville.edu/abid/)

一般我们只需要用到红框所示的两个工具,第一个用于检测输入的基因ID类型(如果你已经知道基因ID类型,直接用第二个工具即可),第二个用于基因ID转化
 

同样的还是用之前的数据


 

结果~~~就是没有结果。。。看来这个数据的段数可能太高了。。。

那我们换一组稍微简单点的

(呃~相信你们还是不能知道是些什么鬼)

先检测一下是什么数据类型,原来是illuminaProbesAlign~
 

然后选第二个工具,运行格式如下图所示。提交后点右边的Process Input。

点击Gene Symbol即可查看转换结果

结果如下图,点击保存按钮即可保存该表
 

这个工具可能不及DAVID全面,但绝大多数情况下还是够用的,并且更加快速和简便。


 

好了~今天就介绍到这里了,希望大家用了这两款神器之后,看到基因ID不再茫然不知所措!