热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Briefingsinbioinformatics2022|基于神经网络的分子性质预测通用优化策略

Briefingsinbioinformatics2022|基于神经网络的分子性质预测通用优化策略-原文标题:Ageneraloptimizationprotocolformo

原文标题:A general optimization protocol for molecular property prediction using a deep learning network

代码:GitHub - titanda/Learn-it-all at ready_classification_feature

一、问题提出

虽然个别优化方法都成功地提高了模型的性能,但当这些方法和实践的具体组合应用时,可能会获得更好的改进。

比如:集成模型、数据增强、超参数优化、迁移学习

二、论文讨论

1、ConvS2S model

将输入分子编码,并利用解码器的注意机制。该模型完全基于CNN。该模型只有上面第一个分支,提取SMILES特征。

Dynamic batch size

默认batch-size设置4000 token。对于t时刻的权重wt,学习率η, batch-size b,M个实例(通过transforms Ti对同一个输入产生),权重更新为:

将枚举比率变成10倍、100倍,batch-size token分别为8000和16 000,因此可将更新规则改为:

R是SMILES枚举比率,R是批大小增强比率,k(t)在这里是从增强数据集中采样的。每一步的批大小使用较大的rlog R·B。

Bayesian optimization

使用Hyperopt Python库。具体来说,对10个随机种子进行20次贝叶斯优化,以确定最佳超参数,并根据验证集的性能选择超参数。

目标函数【expected improvement (EI)】为:

y *是发现的最佳值:y * = min {f(xi),1≤i≤n}, pM是H的后验模型,使用树结构Parzen估计器,Parzen estimator model p(x|y):

l(x)是使用与最小损失函数值相关的超参数值集形成的密度,g(x)是由剩余超参数值形成的密度:

最佳embedding_dim、convolution size、编码器层数和解码器层数:

Hybrid representation

如模型图1,在第二个分支添加其他的特征,来融合不同表示的信息。修改了CNN模型的readout阶段,将全连接网络f应用于学习到的分子特征向量h与计算出的分子特征hf: y = f (concatenate (h, hf))的拼接。

分析了MACC指纹与RDKit计算的200个分子特征的混合表示。通过分位数信息变换特征【sklearn.preprocessing.quantile_transform函数】,以确保不同特征的大小不同不会导致某些范围大的特征支配较小范围的特征,并将所有特征放在同一个分布中。

Experimental procedure

组合测试:

三、实验

使用PyTorch1.8.1、Nesterov优化器进行early stopping,并置学习率收缩因子为0.1,学习率为0.25,最小学习率为10−5。经过10次训练,经t检验以95%置信区间报告。

1、dataset

MoleculeNet

采用过采样方法,在每次数据集拆分时增加少数数据量,使少数数据量与多数数据量相等。为了保持少数类的分布,对化合物进行了同样的过采样。

The best SMILES enumeration ratios are different in regression and classification datasets

Dynamic batch size has to be carefully configured

Bayesian optimization must be performed on the same enumerated dataset

The effects of hybrid representation are dataset dependent

Enumeration cannot be replaced by an optimization technique

消融实验:

Molecular features benefit the model in certain situations

The model employing the best optimization methods achieved the best performance compared to related work


推荐阅读
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 关于如何快速定义自己的数据集,可以参考我的前一篇文章PyTorch中快速加载自定义数据(入门)_晨曦473的博客-CSDN博客刚开始学习P ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • 本文介绍了腾讯最近开源的BERT推理模型TurboTransformers,该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想,通过简化问题和加速开发,实现了快速推理能力。同时,文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题,并提出了合并计算的解决方案。 ... [详细]
  • IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]
  • iOS Swift中如何实现自动登录?
    本文介绍了在iOS Swift中如何实现自动登录的方法,包括使用故事板、SWRevealViewController等技术,以及解决用户注销后重新登录自动跳转到主页的问题。 ... [详细]
  • 本文介绍了在iOS开发中使用UITextField实现字符限制的方法,包括利用代理方法和使用BNTextField-Limit库的实现策略。通过这些方法,开发者可以方便地限制UITextField的字符个数和输入规则。 ... [详细]
  • IOS开发之短信发送与拨打电话的方法详解
    本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式,一种是使用系统底层发送,虽然无法自定义短信内容和返回原应用,但是简单方便;另一种是使用第三方框架发送,需要导入MessageUI头文件,并遵守MFMessageComposeViewControllerDelegate协议,可以实现自定义短信内容和返回原应用的功能。 ... [详细]
  • 本文介绍了使用readlink命令获取文件的完整路径的简单方法,并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]
  • 本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算,然后根据这些系数的性质选择适当的ARMA模型进行拟合,并估计模型中的位置参数。接着进行模型的有效性检验,如果不通过则重新选择模型再拟合,如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]
  • Non-ASCIIhelponitsownisOK: ... [详细]
author-avatar
mobiledu2502860911
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有