DOMINO: 用机器学习判断基因遗传模式 好的工具,让复杂遗传病易于被诊断 如果觉得内容对您有用,欢迎分享 如果有不同观点或建议,欢迎留言 本期参考文献 0 简要背景 目前和疾病表型关系明确的基因, 数量大约为4000多个, 而外显子测序覆盖的基因数量为2w+, 因此多数基因与表型的关系并不清楚, 这意味着大多数变异的致病性分析并不容易。 1 DOMINO是什么 DOMINO是一个预测基因遗传方式的软件, 通过机器学习的过程(LDA模型), 可以预测一个基因对应疾病为 显性(AD)遗传的概率, 如我们熟悉的 显性基因SCN1A与隐性基因PAH 图中可以看出DOMINO的预测结果, 符合对应基因的遗传方式, 对于目前遗传方式未知的基因, DOMINO也可以给出显性遗传的概率。 2 DOMINO有什么用 目前的预测软件, 多数是预测变异的有害性, 这些预测软件可以有效辅助遗传解读, 但预测变异有害性的一个缺陷是: 当基因遗传方式未知时 无法有效判断杂合状态变异的致病性 由于WES中存在大量杂合性变异, 不能判断基因对应遗传模式时, 无法有效对这类变异进行进一步筛选。 如图所示, 如果基因对应遗传方式明确时, 可以通过变异信息进行筛选, 如当隐性遗传基因 只发现一个罕见杂合变异时, 无论有害性再强, 理论上也不致病, 当基因对应遗传方式不明确时, 无法对这类变异进行有效筛选。 DOMINO如何使用 通过AD遗传的预测可能性, 可以进一步 对存在杂合变异的基因进行过滤, 一个外显子测序通常有 300-400个基因存在罕见杂合变异, 可以通过设置AD遗传的cutoff, 来过滤DOMINO低AD可能性的基因。 同时对于表型尚未明确的基因, 也可以参考其遗传模式的预测值。 3 DOMINO的原理 DOMINO首先收集基因对应的各种信息: 变异耐受性 特定基因的蛋白护作信息 mRNA半衰期 等432个相关特征 用数据库中遗传方式明确的基因 作为训练数据, 通过机器学习的LDA模型, 训练如何利用这些特征 判断AD遗传的可能性。 训练的细节就不详细介绍了, 就提几个重要信息: 432个相关特征中 最终只选择了8个作为关键特征 只训练了常染色体的基因 判断AD/AR的LDA cutoff值为0.225 不区分gain-of-function与 haploinsufficiency的AD机制 4 验证模型有效性 DOMINO选择了denovo-db数据库中, 存在智力障碍(ID)/癫痫患者 和正常对照的数据, 通过分析发现患者组中, de novo变异对应基因的AD遗传概率, 显著高于正常对照组。 5 注意问题 要注意的问题有: 特征信息不全的基因无法预测 (目前基因数19345) 预测模型不代表对应机理, 会有假阳性和假阴性 (例如OVOL2基因的AD遗传机理为非编码区变异,但DOMINO预测为隐性遗传) 不区分GOF和HI机理, 可以同时参考上一期的o/e值 cutoff交界区基因, 可能同时存在AD/AR遗传模式 如果对文章内容有评价或不同看法, 欢迎到行业大咖顾大夫创建的论坛中讨论 NGS基因诊断率能力提高之路径 多维度、多学科、多角度,合共同之力解决问题。 『广告时间』 bpvast(上海幂普智能科技有限公司)的基因检测智能操作系统(g-TIES),是由多年单基因遗传病领域的资深从业人士领衔,整合国内最优秀的生物信息学和生产运营管理团队,并与业内专家反复沟通交流,最终开发出的适合大规模应用的单基因遗传病检测支持系统。详细请见:基因检测智能操作系统(g-TIES) 上海瀚垚生物全国独家代理,如有试用和购买需要请联系 info@56dna.cn,或在公众号留言。 上海瀚垚生物 (www.56dna.cn) 我们为您提供优质的基因检测服务: A、低成本即可获得最高质量的基因测序和数据解读服务,对于初期客户,可以提供低成本的试错机会,未来业务证明可以做大,可以无缝衔接到Turn key服务模块。 B、团队多年从事遗传类疾病检测服务,可以帮客户完成最复杂的数据解读环节,客户可以做到零参与或只参与审核。 C、快速的实验周期,大部分项目20个工作日可完成报告。 感谢CHPO组织及各位专家在HPO工具汉化和应用中所做的卓越贡献,为下游应用和开发工具提供了很好的基础设施! 赶紧关注,让我们与您一起对话基因 |
|