MIT设计深度学习框架登Nature封面，预测非编码区DNA突变

作者：曾经的诺系列 | 来源：互联网 | 2023-10-12 15:29

来源：ScienceAI作者：RaleighMcElvery编辑：小舟、张倩来自MIT和哈佛大学博德研究所等机构的一项研究刚刚登上了Nat

来源&＃xff1a;ScienceAI

作者&＃xff1a;Raleigh McElvery

编辑&＃xff1a;小舟、张倩

来自 MIT 和哈佛大学博德研究所等机构的一项研究刚刚登上了 Nature 封面。他们创建了一个数学框架来预测基因组中非编码序列的突变及其对基因表达的影响。研究人员将能够利用这些模型来设计细胞、研发新药、寻找包括癌症和自身免疫性疾病在内的疾病新疗法。

尽管每个人类细胞都包含大量基因&＃xff0c;但所谓的「编码」DNA 序列仅占人类整个基因组的 1%。剩下的 99% 由「非编码」DNA 组成&＃xff0c;非编码 DNA 不携带构建蛋白质的指令。

这种非编码 DNA&＃xff08;也称为调控 DNA&＃xff09;的一个重要功能是帮助打开和关闭基因&＃xff0c;控制蛋白质的合成量。随着时间的推移&＃xff0c;细胞复制它们的 DNA 以生长和分裂&＃xff0c;这些非编码区域经常会出现突变——有时会调整它们的功能并改变它们控制基因表达的方式。这些突变大多是微不足道的&＃xff0c;但有时可能会增加一些疾病风险&＃xff0c;包括癌症。

为了更好地了解此类突变的影响&＃xff0c;研究人员一直在努力研究数学图谱&＃xff0c;这些图谱使他们能够查看生物体的基因组&＃xff0c;预测哪些基因将被表达&＃xff0c;并确定该表达将如何影响生物体的可观察特征。在生物学中&＃xff0c;这些图谱被称为「适应度地形&＃xff08;fitness landscape&＃xff09;」&＃xff0c;大约在一个世纪前被概念化&＃xff0c;以了解基因构成如何影响一种常见的有机体适应度&＃xff0c;特别是繁殖成功率。

早期的适应度地形非常简单&＃xff0c;通常只关注有限数量的突变。现在有更丰富的数据集可以使用&＃xff0c;但研究人员仍然需要额外的工具来表征和可视化这些复杂的数据。这种能力不仅有助于更好地理解单个基因如何随着时间的推移而进化&＃xff0c;而且还有助于预测未来可能发生的序列和表达变化。

近日&＃xff0c;来自麻省理工学院和哈佛大学博德研究所等机构的研究者开发了一种新框架来研究调控 DNA 的适应度地形。该研究利用在数亿次实验测量结果上进行训练的神经网络模型&＃xff0c;预测酵母菌 DNA 中非编码序列的变化及其对基因表达的影响&＃xff0c;登上了最新一期《自然》杂志的封面。

论文地址&＃xff1a;https://www.nature.com/articles/s41586-022-04506-6

该研究还设计了一种以二维方式表示适应度地形的独特方式&＃xff0c;使其对于酵母以外的其他生物也能够理解已有的实验结果并预测非编码序列的未来演变&＃xff0c;甚至有望为基因治疗和工业应用设计自定义的基因表达模式。

该研究的主要作者之一、MIT 生物学教授 Aviv Regev 说&＃xff1a;「科学家们现在可以使用该模型解决一些进化问题或完成一些设想&＃xff0c;例如以所需方式制作控制基因表达的序列。」

Aviv Regev

在这项研究之前&＃xff0c;许多研究人员只是简单地在自然界存在的已知突变上训练他们的模型。然而&＃xff0c;Regev 的团队想要更进一步。他们建立了自己的无偏模型&＃xff0c;该模型能够基于任何可能的 DNA 序列&＃xff0c;甚至是以前从未见过的序列&＃xff0c;预测生物体的适应度和基因表达。研究人员将能够利用这些模型来设计细胞&＃xff0c;研发新药&＃xff0c;寻找包括癌症和自身免疫性疾病在内的疾病新疗法。

为了实现这一目标&＃xff0c;麻省理工学院研究生 Eeshit Dhaval Vaishnav、哥伦比亚大学助理教授 Carl de Boer&＃xff08;论文共同一作&＃xff09;等人创建了一个神经网络模型来预测基因表达。他们在一个数据集上训练模型&＃xff0c;并观察每个随机序列如何影响基因表达&＃xff0c;该数据集是通过将数百万个完全随机的非编码 DNA 序列插入酵母菌中生成的。他们专注于非编码 DNA 序列的一个特定子集——启动子&＃xff0c;它是蛋白质的结合位点&＃xff0c;可以打开或关闭附近的基因。

Regev 说&＃xff0c;「这项工作表明&＃xff0c;当我们设计新的实验来生成正确的数据以训练模型时&＃xff0c;将会出现什么样的可能性。从更广泛的意义上说&＃xff0c;我相信这些方法对许多问题都很重要&＃xff0c;比如理解人类基因组中带来疾病风险的调控区域的遗传变异&＃xff0c;以及预测突变组合的影响&＃xff0c;或设计新的分子。」

Regev、Vaishnav、de Boer 和他们的合著者继续以各种方式测试他们的模型的预测能力。「创建一个准确的模型当然是一项成就&＃xff0c;但对我来说&＃xff0c;这只是一个起点&＃xff0c;」Vaishnav 解释道。

首先&＃xff0c;为了确定他们的模型是否有助于合成生物学应用&＃xff0c;如生产抗生素、酶和食物&＃xff0c;研究人员使用它来设计能够为任何感兴趣的基因产生所需表达水平的启动子。然后&＃xff0c;他们查阅了其他的科学论文&＃xff0c;以确定基本的演化问题&＃xff0c;看看他们的模型能否帮助解答这些问题。该团队甚至还从一项现有研究中获取了真实世界的种群数据集&＃xff0c;其中包含了世界各地酵母菌株的遗传信息。通过这些方法&＃xff0c;他们能够描绘出过去数千年的选择压力&＃xff0c;这种压力塑造了今天的酵母基因组。

但是&＃xff0c;为了创造一个可以探测所有基因组的强大工具&＃xff0c;研究人员需要找到一种方法&＃xff0c;在没有这样一个全面的种群数据集的情况下预测非编码序列的进化。为了实现这一目标&＃xff0c;Vaishnav 和他的同事们设计了一种计算方法&＃xff0c;允许他们将来自框架的预测绘制到二维图上。这帮助他们以非常简单的方式展示了任何非编码 DNA 序列如何影响基因表达和适应度&＃xff0c;而无需在实验室工作台进行任何耗时的实验。

Vaishnav 解释说&＃xff1a;「之前&＃xff0c;适应度地形中有一个未解决的问题&＃xff0c;即没有一种方法可以以一种有意义地捕捉序列进化特性的方式将它们可视化。我真的很想找到一种方法来填补这一空白&＃xff0c;并为创造一个完整的适应度环境的长期愿景做出贡献。」

爱丁堡大学医学研究委员会人类遗传学部门的遗传学教授 Martin Taylor 表示&＃xff0c;这项研究表明&＃xff0c;人工智能不仅可以预测调控 DNA 变化的影响&＃xff0c;还可以揭示支配数百万年进化的潜在原则。

尽管该模型只在少数几种生长条件下的一小部分酵母调节 DNA 上进行了训练&＃xff0c;但让他印象深刻的是&＃xff0c;这个模型竟然能够对哺乳动物基因调控的进化做出如此有用的预测。

这项研究因其在设计生物 DNA 序列方面的重要影响而受到诸多关注&＃xff0c;甚至在该研究正式发表之前&＃xff0c;Vaishnav 就已经收到了一些研究人员的询问&＃xff0c;希望将该模型设计用于基因治疗的非编码 DNA 序列。

这项工作近期已经有了一些具体的应用&＃xff0c;包括在酿造、烘焙和生物技术中为酵母自定义设计调控 DNA。

Martin Taylor 还评价称&＃xff1a;「这项工作未来有望帮助识别人类调控 DNA 中的疾病突变&＃xff0c;这些突变目前在临床上很难找到并且在很大程度上被忽视了。这项工作表明&＃xff0c;在更丰富、更复杂和更多样化的数据集上训练的基因调控 AI 模型有着光明的未来。」

原文链接&＃xff1a;

https://news.mit.edu/2022/oracle-predicting-evolution-gene-regulation-0311

未来智能实验室的主要工作包括&＃xff1a;建立AI智能系统智商评测体系&＃xff0c;开展世界人工智能智商评测&＃xff1b;开展互联网&＃xff08;城市&＃xff09;大脑研究计划&＃xff0c;构建互联网&＃xff08;城市&＃xff09;大脑技术和企业图谱&＃xff0c;为提升企业&＃xff0c;行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣&＃xff0c;欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

推荐阅读

go
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
go
对MariaDB未来发展的思考与担忧

本文探讨了MariaDB在当前数据库市场中的地位和挑战，分析其可能面临的困境，并提出了对未来发展的几点看法。 ... [详细]

蜡笔小新 2024-12-25 18:20:32
go
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
jar
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
go
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
go
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
go
双路径GAN实现侧脸到正面人脸图像的高保真合成

由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络（TP-GAN），该技术能通过单一侧面照片生成逼真的正面人脸图像，显著提升了不同姿态下的人脸识别效果。 ... [详细]

蜡笔小新 2024-12-20 17:34:05
go
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
go
游戏开发中的人工智能复习指南

本文档旨在帮助开发者回顾游戏开发中的人工智能技术，涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]

蜡笔小新 2024-12-16 10:01:32
go
亚马逊Go：无人零售的创新与挑战

本文探讨了亚马逊Go如何通过技术创新推动零售业的发展，以及面临的市场和隐私挑战。同时，介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]

蜡笔小新 2024-12-13 11:39:37
bit
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
java
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
md5
Linux 透明防火墙（网桥模式）的部署与配置

本文介绍如何在现有网络中部署基于Linux系统的透明防火墙（网桥模式），以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明，确保内部网络的安全性和稳定性。 ... [详细]

蜡笔小新 2024-12-25 13:17:38
go
2016年10月25日数学考试：斐波那契数列与矩阵快速幂的应用

本次考试于2016年10月25日上午7:50至11:15举行，主要涉及数学专题，特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目，并提供解题思路和代码实现。 ... [详细]

蜡笔小新 2024-12-25 13:08:21
go
卷积神经网络（CNN）基础理论与架构解析

本文介绍了卷积神经网络（CNN）的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型，并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]

蜡笔小新 2024-12-24 18:58:11

曾经的诺系列

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章