通常蛋白质组数据可以覆盖几千到上万个蛋白,而其中的差异蛋白可能也会有几百甚至上千个,虽然筛选到差异蛋白后,我们会通过功能分析从中找出主要影响的通路或者功能变化,缩小目标范围,但是具体要将研究重点放在哪个蛋白上,还需要我们对这些蛋白进行功能和文章的查询,因此蛋白质数据库的灵活使用是组学研究非常必备的技能,可以帮助大家提升查询的效率。 蛋白质组常用数据库——UniProt数据库,是信息最丰富、资源最广的蛋白质数据库。它由Swiss-Prot、 TrEMBL 和PIR-PSD三大数据库的数据而成,数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列,并包含了大量来自文献的蛋白质生物功能的信息。一般蛋白质组搜库首选数据库也是UniProt,所以对于通过UniProt库搜库的组学数据,可以在此网站中进行蛋白功能查询。 首先在地址栏中输入网址https://www./,跳转后页面显示如下,在UniProtKB栏输入蛋白ID或Accession Number以查询蛋白功能。 例如,当我们拿到的是差异蛋白的Accession Number:WIPI4_HUMAN,我们将此ID输入功能栏后回车,界面将跳转如下: 当我们选择显示Entry模式的时候,数据库可以提供的信息包括蛋白功能描述、GO条目、细胞定位、组织特异性表达情况、生理病理情况描述、互作蛋白、Domain、翻译后修饰位点等信息。蛋白的信息描述段落均会标出引用文章,并且可以跳转到PubMed界面进行浏览。 另外,当选择显示Publications模式的时候,数据库可以罗列出蛋白所涉及的所有文章。 以上我们所涉及的是单个蛋白功能的查询方式,当我们拿到的是一个一百多个蛋白的差异列表,我们想对其功能进行快速浏览、筛选的话,应该怎样做呢?UniProt数据库同样具有相对应的批量处理方法。 首先,打开网站后,点击“Retrieve/ID mapping”。 在编辑栏中输入蛋白Accession Number,点击search按钮。编辑栏中也可以识别其他格式的ID号,请参考其中的举例。另外,此界面还提供ID转换功能,支持多种数据库间的ID转换。 界面跳转后,将会显示蛋白对应的基因名、蛋白描述、序列长度等信息,点击“Column”按钮,可以选择希望数据库呈现的信息,比如选择“Function [CC]”、GO以及KEGG等信息,可以使得蛋白功能信息批量呈现。选中所有的蛋白,可以Download到本地,用Excel查看。 本期UniProt数据库的使用方法就介绍到这里,希望对大家有所帮助! 北京博奥麦斯生物技术有限公司是一家专业从事蛋白质及代谢组学外包服务的公司。 我们拥有目前最先进的高分辨及高精度的质谱设备。研发团队在生命科学、农学及医学领域具有丰富的多组学研究经验,可提供专业的数据分析方案。 |
|