免费注册智慧芽新药情报库

助力药物研发决策,实时跟踪竞争对手

免费使用
澳门正版图库
当前位置: 首页 > 关于智慧芽 > 最新动态

Nature Methods - 核苷酸转换模型:开启基因组预测新时代

新药情报编辑 | 2024-12-02 |

点击本文中加粗蓝色字体即可一键直达新药情报库免费查阅文章里提到的药物、机构、靶点、适应症的最新研发进展。

在生命科学领域,DNA是生命奥秘的密码书,蕴含着生物体所有的遗传信息。解读这本密码书以获取重要的生物学信息,一直是科学界的重大挑战。从基因表达到增强子活性,再到与疾病相关的遗传变异,都隐藏了复杂的分子表型和规律。然而,标注数据稀缺和传统方法的局限性,使得基因组学在精准预测和任务迁移上面临瓶颈。

近几年,人工智能(AI)领域的基础模型为这一难题带来了新曙光。通过从文本中学习语言规则,这些模型(如BERTGPT)在自然语言处理上实现了巨大的认知突破。受到启发,研究人员将这一技术应用于基因组学,开发出了专门用于DNA序列分析的核苷酸转换模型(Nucleotide Transformer, NT)。该模型不仅如同阅读文本般解读DNA序列,还能预测基因组中的关键功能区域。

NT模型在跨物种的数据训练中展示了强大适应性和功能泛化能力。不论是准确定位剪接位点,还是预测复杂的增强子活性,这一模型突破了传统方法的限制,为基因组学研究开拓了新的视野。

NT模型的诞生:深度学习与大数据的结合

NT模型的成功依赖于其庞大的数据基础。研究团队从三种数据集中提取序列信息,为模型提供丰富的训练资源:人类参考基因组、1000基因组计划数据和850个物种基因组。这些数据集的多样性不仅极大提升了模型的泛化能力,使其在跨物种任务中表现优异。

自监督学习:揭示基因组中的奥秘

NT模型采用掩码语言建模(Masked Language Modeling, MLM)作为训练方法。类似于NLP中的BERT模型,NT通过随机遮盖DNA序列中的某些核苷酸并让模型根据上下文推测,这种训练方式无需大量人工标注数据,却能从未标注序列中提取深层模式。

核苷酸转换模型(Nucleotide Transformer, NT)的核心方法

NT模型通过自监督学习在数万亿个核苷酸中发现了DNA语言规则,并提炼出通用特征表示,使得后续多任务预测有了坚实的基础。

NT模型的多任务能力:解码DNA的多样化功能

研究团队应用NT模型于核心基因组学任务中,包括剪接位点预测、启动子识别、增强子活性分析等。实验表明,NT在大多数任务中优于传统模型,其在剪接位点预测、启动子定位和增强子活性判断上都有卓越表现。

模型解析:NT如何读懂”DNA的语言?

NT模型运用层级注意力机制,使其能够精准聚焦基因组的关键区域。此外,NT还具备零样本学习能力,能够在无标签数据中推测DNA变异的功能。

NT-v2优化版本:更高效的NT模型

为了提高效率,研究团队开发了NT的优化版本NT-v2,减少了计算资源需求,但保持了高性能。这一版本具有更小的参数规模和更长的上下文长度,适应不同的应用场景。

应用前景:赋能精准医学和多组学研究

NT模型的潜在应用范围广泛,包括疾病预测、致病变异筛选、跨物种基因功能研究和多组学数据整合。随着技术的进一步发展,NT模型有望在精准医学和基础科学领域得到不断应用,助力基因组学研究迈入新阶段。

核苷酸转换模型(Nucleotide Transformer, NT)的出现,为基因组学研究注入了新的活力。未来,随着NT模型的进一步优化和探索,它将在精准医学、多组学整合和基础生命科学研究中发挥重要作用,开启基因组研究的智能化新时代。


免责声明:新药情报内容编辑团队专注于介绍全球生物医药健康研究的最新进展,本文旨在提供信息交流,不代表任何立场或治疗方案推荐。如需专业医疗建议,请咨询正规医疗机构。

申请试用

澳门正版图库

AI助手