分享

【基因ID转换】工具大测评,给你最好的选择

 昵称69125444 2020-10-20

好久不写推文,小猎豹再次回归!今天,我们来讲一个大家在科研过程中都会遇到的一个问题。

不管是基础实验还是数据分析中,我们经常会遇到这样一个问题。别人告诉你一个基因的名字或者编号,又或者你从文献当中看到一个基因的编号,你想要进一步了解这些基因的染色体定位、功能、编码的蛋白等等信息,于是乎你就去各式各样的数据库里面进行查询。

比如,最简单的,就说是最直接的基因名字(gene symbol)吧,我们已TP53基因为例,当你拿到这个基因的名字时,你想要去不同数据库里面检索TP53的信息,你一定会发现,在不同数据库中,存在着多个TP53。比如在NCBI的entrez数据库,他的编号ID就是7157,然后在著名的ENSEMBL数据库中,他的编号又变了,变成了ENSG00000141510;而在最知名的蛋白数据库Uniprot中,他的编号又变成了K7PPA8,虽然同是一个人,但名字总是变来变去,也是够烦了;烦也就算了,关键是很多时候,我们不知道他的另外一个名字!

总而言之,目前存在着大量的生物信息数据库,每个数据库都有自己定义的ID命名规则,转换起来实在是一个很大的工作,给我们的研究工作带来巨大的困扰,遇到这样的问题,我们该怎么办?如果是你遇到这样的问题,你平时又是怎么操作的呢?

在这里,我们给大家介绍几个好用的基因ID转换工具:

BioDBnet

网址: 

https://biodbnet-abcc./db/db2db.php

我们以单个基因TP53为例,进行了测试。测试结果:网站打开速度中等,支持的ID种类较多,支持多物种,多ID类型同时转换,运行速度较慢。结果页面如下:

可以看出,结果页面的可读性一般,没有比较好的表格输出。

Retrieve/ID mapping(Uniprot)

网址: 

https://www./uploadlists/

由知名蛋白数据库Uniprot官方出品,页面如下:

首先,页面给人的感觉比上一个要好得多,美观,加分!其次,页面打开速度较慢,可能是跟国内的网速有关,等了1分钟,浏览器一直在转圈圈,options选项这里,长时间无法显示,焦急等待数分钟才显示出来,差点放弃。毕竟时间就是生命。在options选项中,可用的选项很多,大致数了一下,不低于50种(见下图),毕竟是大数据库,数据质量和规模上还是很让人放心的。

DAVID 

The Database for Annotation, Visualization and Integrated Discover

网址:

http://david.abcc./conversion.jsp 


挺强大的一个工具,之前教大家做功能富集分析的时候推荐的网站,不过可能就是速度非常慢,而且经常打不开,个人认为是国内的网络连接问题。页面整体上给人的感觉介于第一个工具和第二个工具之间,比较平庸,没有眼前一亮,但是也还能用的感觉。使用方法很简单,三步走:1.输入基因名称;2.选择输入的名称类型;3.点击提交即可。整体来说,如果满分5分,DAVID只能打2.5分。因为它还有一个最大的缺点,那就是数据不能及时更新。据我所知,DAVID数据库的数据已经多年没有更新了,要知道,几乎每天各大数据库都在更新,诸如Genbank, Ensembl, UCSC, Uniprot等,更不要说几年了,一年都要变一个样儿!所以,DAVID输出的结果很多时候是不准确,且不可信的。

Biomart

网址:

http://asia./info/data/biomart/index.html

也是大厂出品,Ensembl数据库官方推出。这是一个绝对不错的工具,定期发布新版本,而且可以将数据下载到本地进行操作,非常值得推荐。而且,由于Ensembl 在全世界各地都有镜像站,访问起来的速度稍微要快上那么一些。

使用方法也比较简单,首先是在左边栏(标注1)的地方选择你想要的ID,右边(2)中就会进行展示,不过用户体验上来说,这种操作方式不如前面几个好。不过好的一点是,Biomart对程序员的支持是非常不错的,通过编程的方式,我们可以选择R包、Perl语言的API或者RESTful接口进行调用,非常方便进行批量操作。

Hyperlink Management System (HMS)

网址:

http:///

这是一个神奇的网站,各个物种,各个数据库都糅杂在一起了,可以进行全库的搜索。不过界面上给人比较杂乱的感觉,对于一个只想赶紧把基因名称进行转换的人儿来说,不够直接,不够简洁。

BridgeDB

网址: 

http://www./

结果不理想,测评进行不顺利,网站直接没打开,所以这里就暂且不讲了。如果需要进一步了解的,可以参考发表的文献:

http://www./1471-2105/11/5 

小结

以上的这些工具中,各有优缺,有的页面设计比较丑,有的网页反应慢,有的数据库万年不更新。如果说非要排个序,那就推荐第1和第2个工具吧,毕竟还是可以用的。

还有更好的?

本文讲到这里,好像还没有出现一个又好看,又好用,而且功能强大、转换精准的全能工具,嘿嘿,当然有,来看这里:

  • https:///advance/gene-ids

Hiplot平台的基因ID conversion转换工具,由核心开发人员苗奔奔大神开发,基于R的shiny响应式框架,支持多大20多个物种和20多种基因ID编号。先来看下界面:

一个词形容:简洁明了!上面是ID,下面是表格。上传数据后,自动根据选择的ID类型进行数据库比对,同步更新表格,所有变化都是实时更新,用起来就是一个字,爽!下面给大家看看教程:

点击Browse按钮,上传你自己的基因ID文件,行数不限,然后选择读取的ID类型,默认是读取Gene symbol。然后就很简单了,你需要什么ID就在蓝色复选框中选择对应的ID类型就好了。唯一的要求就是,需要大家对不同数据库的ID有一定的初步了解。比如NCBI Genbank编号对应的是ENTREZID,Uniprot数据对应的UNIGENE和UNIPROT,还有GO功能数据库,PFAM二级结构数据库,OMIM遗传突变数据库,REFSEQ序列数据库,ENSEMBL整合数据库等等。看下支持的物种:

基本涵盖了所有模式生物,你想要的这里都有。只需要上传ID,选择物种,下面的事情,交给程序去做就可以了,而且结果用表格展示,也可以直接Download table,下载到excel中使用。总结一下使用体验就是:简洁,高效,全面,快捷。满足基因ID转换的所有需求。最后,留下开发者-奔奔大神的个人主页:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多