motif :基序,也有译为“模替符”,蛋白质分子的不同区域或称motif,有的在维持特定 空间结构中起着关键作用(Structuralmotif),有的则与蛋白质的生物 功能密切相关(Functional motif)。 profile:在生物信息学上一般翻译为“表达谱”。 block在生物信息学上应该翻译为“模块”。 motif motif与domain等概念易混,以下是几个关于它的定义 www.vbi.vt.edu/pr/glossary.htm A conserved element of a protein sequence alignment that usually correlates wi th a particular function. Motifs are generated from a local multiple protein s equence alignment corresponding to a region whose function or structure is kno wn. It is sufficient that it is conserved, and is hence likely to be predictiv e of any subsequent occurrence of such a structural/functional region in any o ther novel protein sequence. mRNA ? See messenger RNA Mutagen ? An agent that increases the rate of mutations in an organism. Mutation ? An inheritable chan ge of a gene, which includes genetic (point or single base) changes, from one allelic form to another; or larger scale alterations such as chromosomal delet ions or rearrangements. www.biol.lu.se/mibiol/research/wachen/glossary.htm A short conserved region in a protein sequence. Motifs frequently form a recog nition sequence or are highly conserved parts of domains. Motif is sometimes u sed in a broder sense for all localized homology regions, independent of their size. profile 我不太同意ssmuajyy君关于profile的解释,以下是从google中搜索到的我认为比较准确的 几种定义 bioinf.uta.fi/xml/courses/glossary/glossary-items.xml A position-specific scoring table for sequence information within complete ali gnments. Profiles define which residues are allowed at given positions; which positions are conserved and which degenerate. calliope.gs.washington.edu/software/bonsaiWebDocs/Glossary.html a set of aligned sequences, possibly with associated information such as a tre e. The alignment itself is a set of lines of characters, one line for each ali gned sequence. The residues in the sequence are represnted by standard 1-lette r codes and gaps are represented by '-'. www.genomicglossaries.com/CONTENT/ex_bio.asp A table that lists the frequencies of each amino acid in each position of prot ein sequence. Frequencies are calculated from multiple alignments of sequences containing a domain of interest [NCBI Bioinformatics] How does this relate to the other profiling terms? www.cogsci.princeton.edu/cgi-bin/webwn an analysis (often in graphical form) representing the extent to which somethi ng exhibits various characteristics; "a biochemical profile of blood"; "a psyc hological profile of serial killers" 至于block,则纯粹是从模式识别的角度进行定义的,而没有考虑其生物学背景。 我知道的是这样的: BLOCK:a block is an ungapped multiple alignment of highly similar fragments of protein sequences. A block represents a motif with some structural or functio nal significance. quote from<<eDictionary-Bioinformatics>> MOTIF :是一段在结构和功能上保守的序列。正如天天说的,是否也包括核酸序列吧? PROFILE:a matrix representation of a conserved region in a multiple sequence alignment that allows for gaps in the alignment.the rows include scores for ma tching sequential columns of alignment to a text sequence.the columns include substitution scores for amino acids and gap penalties.profile是指有gap的BLOCK吗 ?quote from <<bioinformatics-sequence and genome analysis>> PATTERN的定义我还不清楚?能告之吗? 它们有什么联系?这些词汇没有一个统一的准确定义吗?非常感谢楼上的回复! 有需要<<eDictionary-Bioinformatics>>的PM给我。 关于motif的含义,请允许我先自引一下,呵呵 (http://www./modules.php?name=Forums&file=viewtopic&t=406) 关于motif,顺带还有一个domain,这两个概念,书上写的糊涂,paper中用的糊涂,大家 看的更糊涂。很多论坛上都有关于他们的讨论,也可以算一个经典“坑”了,我这里稍微 小结一下,当然不是定论,也欢迎大家继续补充,同时也要注意,这些概念也还在进一步 的发展之中。 MOTIF:中文的翻译没有,以前也有人叫基序,不合适,所以扔掉,后来大家都直接叫moti f不翻译了,谁都知道说的是什么。 motif的概念有几个层次或者说范畴。 1、sequence motif。一般指蛋白质序列上4-15个连续的氨基酸残基,具有很强的保守性 ,具有一定的生物学功能,比如一些蛋白质特异性修饰位点(糖基话磷酸化等等),或者 一些蛋白酶等等的识别位点。对于核酸序列,本来是没有motif这个概念的,但是后来用着 用着不知道怎么就糊涂了,现在,对于一些核酸序列上的functional element比如cis-ac ting element有时也被称为motif,也是一些序列保守的功能区。这些motif的概念基本算 一维结构上的(当然也不绝对) 2、structure motif。MCB和instant notes里面提到的主要是这个概念了。相对于1,这个 概念主要针对结构上的保守性,也就是正如acorn所说的具有一定的pattern,这样的patt ern一般是由一些二级结构组合而成,所以Instant Notes中称之为超二级结构是有一定道 理的,比如最常见的motif就是一些转录因子中的DNA结合区,bHLH啦,L-zip啦,zc-fing er啦等等,但是也有一些比较复杂的情况,在PFam数据库中就有一些比较大的motif达到5 0多甚至100多个氨基酸残基,他们结构上的pattern比较复杂,可能超出超二级结构的范畴 ,有些目前研究的也不是很清楚,只能从一级序列去做判断。 3、network motif。这是新提出的一个概念,我在今年的几篇nature和PNAS的文献上看到 的,主要是用来表述protein interaction network里面蛋白之间一些连接和互作的模式。 和前两个相比,概念上已经有不小的变化了。 最后说说motif(第二类)和domain的差异。其实这两个词在文献中被混用的很频繁,搞到 最后他们之间的界限也就越发的模糊了。我个人倾向于从序列的长度来区别它们,短一点 的形成“超二级结构”的叫做motif,大一点的接近于形成三级结构的称作domain。当然, 这只是我个人的看法,呵呵,大家可以不必理睬。 注: From MCB5, Particular combinations of secondary structures, called motifs or folds, build up the tertiary structure of a protein. (Forever大哥摘录) From MOBC4, Motif: Element of structure or pattern that recurs in many contexts. Specifica lly, a small structural domain that can be recognized in a variety of proteins . (acorn网友提供) "motif is a very small sequence region. It is only an element of structure or pattern, instead of structure itself. E.g., a glycosylation site may be regard ed as a motif, however, it is usually consisted of only 4 amino acids, far fro m enough to create a predictable structure. Most of the time it is a more func tional than structural concept."(引自acorn网友) 至于BLOCK的概念,他的老家Blocks WWW Server (http://blocks./blocks/)上 是这么解释的: “Blocks are multiply aligned ungapped segments corresponding to the most high ly conserved regions of proteins.” 对照<eDictionary-Bioinformatics>中的定义,可以看出,其实BLOCK和MOTIF是非常相关 的两个概念,存在很细微的差别。我个人的理解是,Block是由多序列无空比对而产生的那 个“同源框”(大家可以想象一下由ClustaW或者HMMer比对后生成的那些个保守的框框 ) 这也是为什么起名叫Block的原因了,很形象的。相对于Block来自计算的结果,Motif则更 多的是来自实验的结果了,因此也就带有更多功能相关的信息了。 Pattern和Profile是两个“玄”且“泛”的概念。前者翻译成“模式”,后者翻译成“谱 ”,呵呵,也是同样的“玄”。这两个概念涉及的范围都很广,基本一千个人就有一千种 理解了,所以很难有精确的定义了。“Pattern”还好一点,是从AI中的模式识别理论中借 用过来的,主要指从大量数据中抽象出来的具有的特殊性的范式,是具有特定结构的信息 集合。比如,可以说原核生物的操纵子模型是一种pattern,典型的启动子结构是一种pat tern,而具有HLH结构的DNA binding motif也是一种pattern。bioinfor的一项重要任务就 是识别并推广这些pattern。 Profile和pattern一样,是一个很抽象的概念,从一维到N维。LaughCry朋友给出的定义主 要是指一维谱中的序列谱的概念。具体就是指利用多序列比对结果的全部信息构造每一个 位点的残基替代、插入、删除分数表。从序列谱可以看出,哪些残基可以出现在某个特定 位点,哪些位点是高度保守的,哪些是位点突变可能性较大,哪些位点或区域可以插入空 位,等等。 或者,表示为一条根据匹配、缺失或插入状态之间发生转换概率的链,来检测序列比对结 果中的保守区。序列比对结果中的每一个保守残基可以用一个匹配状态来描述(这我们称 之为HMM Profiles)。根据序列谱,同样可以获得类似BLOCK那样的结果,但是区别于Blo ck所使用的模式识别方法。 但是Profiles的范畴还远远不只这些。序列谱,表达谱,结构谱,系统发育谱,相互作用 谱等等等等,尤其是表达谱,几乎是bioinfor领域中出现频率最高的名词了,呵呵。在这 些不同的概念中,“profiles”都和特定的多元矩阵以及打分函数相关联。其实说白了, profiles就是一张多元/N维的数据表! BTW,基因表达谱是由Okubo等(1991)倡导的人体基因图(body map of expressed human g enes)计划时提出的。通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规 模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或 组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱,从 mRNA水平反映了细胞或组织特异性的Pattern。 |
|