不同细胞器基因组转录的ncRNA的序列特征分析和识别

统计分析了不同细胞器基因组转录的非编码RNAs(non-coding RNAs,ncRNAs)的kmer频数、约化后的碱基组分、结构-序列模式中三联体偏好.并以上述三种特征提取方法分别构成特征向量表示ncRNA序列,利用支持向量机,对四类细胞器基因组转录的ncRNAs的序列进行识别.分析两种不同的碱基约化方式发现,嘌呤/嘧啶约化(MN约化)更能反应不同细胞器基因组转录的ncRNAs的序列信息;考虑结构和碱基种类的结构-序列模式(stru-seq mode)中的三联体短片段(k=3),揭示出ncRNA与编码蛋白质的mRNA或蛋白质相互作用可能存在局域结构三联体偏好.在Jackknife检验下,预测总精度最高达到83.10%.采用不同参数的预测结果表明,结构-序列模式(stru-seq mode)中的短片段(k=3)结构有助于不同细胞器基因组转录的ncRNAs区别.

国家自然科学基金(No.31460234和No.61361015);

细胞器基因组; 非编码RNA; k-mer频数; 二级结构参数; 支持向量机;

10.13484/j.nmgdxxbzk.20150511

Q811.4;TP391.41

92512-51981230K
在线咨询 用户反馈