小张最近与大家交流的时候发现一个现象甚是奇特:大家常常问比较类似的问题,比如前几天写过的为什么lncRNA总是干扰不掉,如何通过疾病查信号通路,如何通过信号通路和疾病查microRNA和靶基因等等,再比如今天这个怎么查lncRNA的序列? 这些应该都是常遇到的问题,所以欢迎大家提问,小张把问题整理后单独写文章来解答。 我们以前介绍过lncRNA的命名方式((策略篇)lncRNA命名的五种方式),我们知道lncRNA的命名方式比较多,所以lncRNA会以各种名字出现,我们也可能用到各种数据库。 我们先从最简单的开始,比如我们从文献里面看到的lncRNA名字:
点击search,选择ANRIL: 在结果里面最下面: 单击show sequence: 就可以了。 当然,有很多lncRNA在这个数据库中没有收录,所以一般我们用来查用的最多的lncRNA。 比如lncRNA AF147447就是一条相对很新的lncRNA: 我们在用lncRNAdb查的时候是没有收录的: 那我们考虑用UCSC:https://genome./cgi-bin/hgTracks 输入AF147447后单击后面的go就出来下面的信息了: 这里我们单击红框里面的信息: 再单击红框: 在下面的信息里面我们看到 AF147447与RP11-361L15.3、ENST00000623356.1是同一条lncRNA,染色体上位于:chr16:66,944,660-66,945,我们点击红色箭头处可获取AF147447序列: UCSC是一个很强大的数据库,我们以前介绍过(这是一个神奇的网站:UCSC Genome Brower)。 补充一下:我们看到使用UCSC可以查询lncRNA的形式包括: AF147447; RP11-361L15.3; ENST00000623356.1等等,甚至可以直接根据染色体位置检索: 这里需要注意的是UCSC检索的基因组版本与lncRNA来源标注的基因组版本需要一致,当然,像ANRIL这种也是可以的: 这里再说明下,上次有位同学留言问一条linc0949说找不到,我们用pubmed检索了下: 发现linc0949与ENST00000500949 是一条lncRNA,然后用ENST00000500949 来检索: 点开后发现ENST00000500949 又叫OIP5-AS1, 而OIP5-AS1还是有两篇文章的: 因此,lncRNA可能以各种形式出现,你用一个名字可能检索不到,换个名字可能就行了。总之是上穷碧落下黄泉,哪里找到都可以。 That's all. Thank you! |
|