AI开源TexarPyTorch：卡内基梅隆大学的研究者开源的通用机器学习框架

作者：丶玛骝 | 来源：互联网 | 2023-07-18 17:49

TensorFlow和PyTorch的框架之争愈演愈烈。二者各有优缺点，选择起来需要费一番脑筋。但是，有句话说得好，「小孩子才做选择&#x

TensorFlow 和 PyTorch 的框架之争愈演愈烈。二者各有优缺点&＃xff0c;选择起来需要费一番脑筋。但是&＃xff0c;有句话说得好&＃xff0c;「小孩子才做选择&＃xff0c;成年人全都要」。为此&＃xff0c;来自Petuum Inc 和卡内基梅隆大学的研究者开源了一个通用机器学习包——Texar-PyTorch&＃xff0c;结合了 TensorFlow 和 PyTorch 中的许多实用功能与特性。

项目地址&＃xff1a;https://github.com/asyml/texar

Texar-PyTorch 对各类不同的机器学习任务有着广泛的支持&＃xff0c;尤其是自然语言处理&＃xff08;NLP&＃xff09;和文本生成任务。

基于其已有的 TensorFlow 版本&＃xff0c;Texar-PyTorch 结合了 TensorFlow 和 PyTorch 中的许多实用功能与特性。同时&＃xff0c;Texar-PyTorch 具有高度可定制性&＃xff0c;提供了不同抽象层级的 API&＃xff0c;以方便新手和经验丰富的用户。

Texar-PyTorch 将实用的 TensorFlow (TF) 模块融合进了 PyTorch&＃xff0c;显著增强了 PyTorch 现有的功能。这些模块包括&＃xff1a;

数据&＃xff1a;内置常用的预处理、创建批次&＃xff08;batching&＃xff09;、迭代、随机打乱方法。所有方法均采取最佳实践&＃xff0c;并可以结合缓存与惰性加载达到高效率。该项目也实现了类似 TFRecord 的模块&＃xff0c;以支持复杂类型的大型数据集。

模型模块&＃xff1a;丰富的功能和完美的模块化的机器学习&＃xff08;ML&＃xff09;模型&＃xff0c;比如统一接口的序列模型&＃xff0c;包括用于文本生成的解码器、注意力机制&＃xff08;attention&＃xff09;和 RNN 等。

训练&＃xff1a;开发者基于 TF Estimator 和 keras.Model 的高级 API&＃xff0c;设计了更加灵活的训练模块。该模块集模型训练、评估、预测、TensorBoard 可视化于一体&＃xff0c;并能与第三方的超参数调优工具完美结合。

Texar-PyTorch 功能

通过结合 TF 中的最佳特性与 PyTorch 的直观编程模型&＃xff0c;Texar-Pytorch 为构建 ML 应用提供全面支持&＃xff1a;

最先进的模型构建模块—搭建 ML 模型就和搭积木一样&＃xff0c;你可以随心所欲地替换模型模块。

简单而高效的数据处理—丰富的内置数据处理模块&＃xff0c;适用于常见类型的数据集。用户可以利用简单的接口实现自定义数据处理模块&＃xff0c;而无需担心性能问题。

一体化的自定义模型训练模块—不用再写千篇一律的训练代码&＃xff0c;也不用为了简洁而牺牲可拓展性。

代码示例 1 演示了使用 Texar-PyTorch 搭建并训练用于摘要生成或机器翻译的条件GPT-2 模型的完整代码。

代码示例 1&＃xff1a;使用 Texar-PyTorch 搭建并训练条件 GPT-2 模型 (用于摘要生成等任务)。

为何选择 Texar?

同时支持 TensorFlow & PyTorch。有时&＃xff0c;你无法选择使用哪个底层框架&＃xff0c;而学习新的工具包就和自己编写一样费时。现在&＃xff0c;使用 Texar&＃xff0c;你可以在这两个框架中使用几乎相同的接口&＃xff0c;只需对代码进行最小限度的更改。两个版本的工具包还能共享下载的预训练模型权重。

一个工具包&＃xff0c;覆盖所有自然语言处理任务。Texar 提供了自然语言处理任务&＃xff08;尤其是文本生成任务&＃xff09;中常用的大多数神经网络模型。图 1 给出了 Texar 各模块的简介。Texar 内置了最先进的预训练模型&＃xff0c;同时还包括了数据处理、建模、训练和评估所需的各类实用方法。一切尽在 Texar 掌握中。

方便新手和行家。无论你是刚刚入门深度学习&＃xff0c;还是一名经验丰富的研究员&＃xff0c;Texar 都适合你。Texar 提供最先进的内置组件&＃xff0c;同时具有足够的灵活性可以自定义。

图 1&＃xff1a;Texar 为数据处理、模型架构、损失函数、训练、评估以及一系列先进的预训练 ML/NLP 模型 (例如&＃xff0c;BERT, GPT-2 等) 提供了全套的模块。

接下来将更详细地介绍 Texar-PyTorch 中建模、数据处理和模型训练这三个关键部分。

建模模块

如图 1 所示&＃xff0c;Texar-Pytorch 提供了全套的 ML 模块集。通过精心设计的界面&＃xff0c;用户可以通过组合模块自由地构建任意模型。

下面的实例展示了如何灵活运用模块接口&＃xff0c;以满足不同的机器学习算法的需要&＃xff0c;如最大似然学习和对抗性学习。此外&＃xff0c;Texar 为具有不同专业知识的用户提供多个抽象层级的接口。例如:

通过简单地设置解码器参数 decoding_strategy&＃61;「train_greedy」&＃xff0c;就可以方便地调用常用的解码策略&＃xff0c;例如&＃xff0c;teacher-forcing 方法。

另一方面&＃xff0c;用户可以使用 Helper 类进行更复杂的解码策略&＃xff0c;例如&＃xff0c;用 GumbelSoftmaxHelper 在对抗学习中使用 Gumbel softmax 解码。经验丰富的用户可以进一步定义新的 Helper 类来定制任意解码策略。

代码示例 2:构建预训练的 GPT-2 语言模型&＃xff0c;使用最大似然学习和对抗学习 (使用 BERT 作为判别器) 进行微调。

总之&＃xff0c;使用 Texar-PyTorch 建模具有以下主要优势:

完美的模块化—通过简单地插入/交换几个模块&＃xff0c;就可以在不同的使用场景之间进行切换。

多层级的接口—为新手用户提供高层级的简单 API&＃xff0c;为专家用户提供底层级的自定义 API。

内置最先进的预训练模块—BERT, GPT-2, RoBERTa, XLNet 等&＃xff0c;用于文本编码、分类、序列标记和生成等任务。

数据

Texar-Pytorch 的数据模块旨在为任意 ML 和 NLP 任务提供简单、高效和可自定义的数据处理。结合 Tensorflow tf.data 中的最佳实践&＃xff0c;这些模块极大地增强了 Pytorch 内置的 DataLoader 模块&＃xff1a;

解耦单个实例预处理和批次构建 – 以获得更清晰的程序逻辑和更简便的自定义。
基于缓冲区的随机打乱、缓存和惰性加载 – 以提高效率。
通用的数据集迭代器 – 无需额外的用户配置。
更直观的 APIs – 在项目中获得最佳实践不需要任何专业知识。

Texar-PyTorch 内置数据模块

对于常见类型的数据集&＃xff0c;Texar-Pytorch 已经包含了可以使用的模块&＃xff0c;如下图 2 所示。

图 2&＃xff1a;Texar-Pytorch 内置大量 ML 和 NLP 任务的数据模块。

特别的是&＃xff0c;RecordData 相当于 TensorFlow 著名的 TFRecordData&＃xff0c;后者以二进制格式读取文件&＃xff0c;从而允许从文本到图像的任意数据类型。太酷了&＃xff0c;不是吗&＃xff1f;更重要的是 – 它的使用方式与 TFRecordData 类似。下面的例子说明了一切。

假设你想运行一个图像描述模型。每个数据示例通常包含一个图像、一个描述和其他元信息。如何使用 Texar-Pytorch 如下。

代码示例 3&＃xff1a;使用 Texar-Pytorch RecordData 加载复杂的图像标题数据。

创建自定义数据集

用户可以自定义如何处理数据实例和创建批次&＃xff0c;而 Texar 将为你处理缓存、惰性处理和迭代。下面的示例说明了这一点。

代码示例 4&＃xff1a;对输入文本执行 BPE 分词的自定义数据集。

训练器

每当开始一个新的项目时&＃xff0c;你是否厌烦了一次又一次地编写训练和评估代码&＃xff1f;你是否需要一个 API 来实现自动化训练&＃xff0c;并配备日志记录、保存中间模型、可视化和超参数调优功能? 你是否希望 API 灵活适应你的非传统算法&＃xff0c;例如&＃xff0c;在对抗学习中交替优化多个损失函数&＃xff1f;Texar 训练器&＃xff08;Executor&＃xff09;是你的不二选择。

Executor 与广泛使用的 TF Estimator 和 tf.keras.Model 类似&＃xff0c;但是更加轻量级&＃xff0c;更易自定义。

为了演示 Executor 的功能&＃xff0c;开发者展示了一般的训练代码&＃xff0c;并与 Executor 作对比&＃xff1a;

假设我们希望在项目中具有以下功能&＃xff1a;

每隔 logging_step 次迭代&＃xff0c;在命令行、日志文件和 Tensorboard 上记录进度。

每隔&＃96;validate_steps&＃96;次迭代在验证集上评估模型&＃xff0c;使用 BLEU 来评估模型性能。

如果验证结果有所改善&＃xff0c;保存当前模型权重。如果连续&＃96;patience&＃96;次验证结果都没有改善&＃xff0c;那么载入之前存储的模型权重&＃xff0c;并调整学习率。

上面的步骤描述了一个很常见的训练循环。以下是一般的训练循环的实例&＃xff1a;

代码示例 5&＃xff1a;典型的手写 train-eval 循环。

代码非常冗长。当你需要添加或更改一些功能时&＃xff0c;事情会变得更加复杂。现在&＃xff0c;如果使用 Executors&＃xff0c;该代码将是什么样子&＃xff1f;

代码示例 6&＃xff1a;使用 Executor 的相同 train-eval 循环。

Executor 在命令行的输出如下&＃xff1a;

在这里&＃xff0c;你可以看到验证 BLEU 分数是根据已有结果不断更新的。这要归功于 Executor 流处理度量&＃xff0c;它允许对度量值进行增量计算。无需等到最后才能看到验证集的结果&＃xff01;

正如我们所见&＃xff0c;使用 Executor 的代码结构化更强&＃xff0c;可读性更高。它还具有更强的可扩展性&＃xff1a;

问&＃xff1a;如果我们还想在每个周期结束后在验证集上评估呢&＃xff1f;

答&＃xff1a;只需将&＃96; validate_every&＃96; 更改为&＃xff1a;

问&＃xff1a;如果我们想在调整学习率&＃96;early_stop_patience&＃96;次后提前停止训练呢&＃xff1f;

答&＃xff1a;只需将&＃96;action_on_plateau&＃96;改为&＃xff1a;

问&＃xff1a;如果我们还想测量单词级别的损失呢&＃xff1f;

答&＃xff1a;只需在&＃96;valid_metrics&＃96;中添加一个新的度量即可&＃xff1a;

问&＃xff1a;如果我们想要进行超参数调优并多次训练模型&＃xff0c;该怎么办&＃xff1f;

答&＃xff1a;只需为你想要测试的每一组超参数创建 Executor。由于 Executor 负责模型创建之外的所有进程&＃xff0c;所以不需要担心消耗额外的内存或意外地保留以前运行的对象。这是一个在 Hyperopt 中使用 Executor 的示例。

问&＃xff1a;如果在每个周期结束后&＃xff0c;我们想把当前的模型权重上传到服务器&＃xff0c;发送一封电子邮件汇报进度&＃xff0c;然后出门去遛狗&＃xff0c;该如何操作&＃xff1f;

答&＃xff1a;很奇怪&＃xff0c;但没问题。只需在你选择的条件下注册一个自定义操作&＃xff0c;并做你想做的任何事情&＃xff1a;

Texar-TF 与 Texar-PyTorch 互相切换

如果你是 Texar-TF 用户&＃xff0c;毫不费力就可切换到 Texar-PyTorch。相比 Texar TensorFlow&＃xff0c;Texar PyTorch 具有几乎相同的接口&＃xff0c;可以轻松切换底层框架。

尽管有类似的接口&＃xff0c;但开发者也遵循每个框架的编码风格&＃xff0c;这样你无需学习一种新的子语言。为此&＃xff0c;他们更改了一些较低层级的可扩展接口&＃xff0c;以便紧密匹配对应框架的原生设计。大多数更改都在数据和训练器模块中&＃xff0c;但正如你所见&＃xff0c;它们非常容易上手。

开始使用 Texar-PyTorch

请访问该项目的 GitHub repository&＃xff0c;并按照安装说明进行操作。实用的资源包括&＃xff1a;

文档&＃xff1a;该项目对每个模块和功能都有详细的文档。

链接&＃xff1a;https://texar-pytorch.readthedocs.io/en/latest/

示例&＃xff1a;开发者强烈建议我们查看项目中的示例&＃xff0c;以了解在实践中如何使用 Texar。这些示例都有明确的文档记录&＃xff0c;涵盖了丰富的用例。

链接&＃xff1a;https://github.com/asyml/texar-pytorch/blob/master/examples/README.md

ASYML 工具库&＃xff1a;查找到所有 Texar 资源的快速链接。

链接&＃xff1a;https://asyml.io/

推荐阅读

go
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
go
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
python
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
python
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
python
高清图解：神经网络、机器学习、数据科学一网打尽

|导|读BY：AI-Beetle完全图解人工智能、NLP、机器学习、深度学习、大数据！这份备忘单涵盖了上述领域几乎全部的知识点，并使用信息图、脑图等多种可视化方式呈现，设计精美，实 ... [详细]

蜡笔小新 2024-10-09 13:33:56
go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
go
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
go
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
go
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
blob
如何在jieba分词中加自定义词典_常见中文分词包比较

1jiebajieba.cut方法接受三个输入参数:需要分词的字符串；cut_all参数用来控制是否采用全模式；HMM参数用来控制是否使用HMM模型ji ... [详细]

蜡笔小新 2024-10-11 12:27:39
blob
Bidirectional LSTMCNNsCRF

上期使用LSTM做短文本分类效果不如CNN，或许有朋友会问什么场景下LSTM能体现出序列性的优势，本期使用双向LSTM-CNNs-CRF实现SequenceLabeling。CRF ... [详细]

蜡笔小新 2024-10-09 21:44:26
python
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59
go
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
function
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
function
NLP篇【01】tfidf与bm25介绍与对比

上一篇：自然语言处理【NLP】遇上电商——专栏导读下一篇：NLP篇【02】白话Word2vec原理以及层softmax、负采样的实现一、tfidf介 ... [详细]

蜡笔小新 2024-10-13 12:46:48

丶玛骝

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章