热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

5分钟NLP:HuggingFace内置数据集的使用教程

对于NLP爱好者来说HuggingFace肯定不会陌生,因为现在几乎一提到NLP就会有HuggingFace的名字出现,HuggingFace为NLP任务提供了维护了一系列开源库的

对于NLP 爱好者来说HuggingFace肯定不会陌生,因为现在几乎一提到NLP就会有HuggingFace的名字出现,HuggingFace为NLP任务提供了维护了一系列开源库的应用和实现,虽然效率不是最高的,但是它为我们入门和学习提供了非常好的帮助,今天我们来看一下用于NLP任务的数据集总结。


安装

这一步非常简单,我们将使用两个开源库。



  1. pip install transformers datasets


数据集提供的方法

通过文档我们看到了一些主要方法。第一个是数据集的列表,可以看到HuggingFace提供了 3500 个可用数据集



  1. from datasets import list_datasets, load_dataset, list_metrics, load_metric


  2. # Print all the available datasets

  3. print(list_datasets())

要实际使用数据集时可以使用 load_dataset 方法进行加载



  1. dataset = load_dataset('acronym_identification')

加载数据集后会返回一个数据集对象。


使用数据集对象

这里的数据集并不是使用传统的 csv 或 excel 格式,而是使用对象形式,该对象以某种结构存储数据集的元数据。当打印数据集时,可以看到:

内置的数据集已经被拆分好了相应的数据阶段。在 features 和 num_rows 键中说明了列及样本数量。

完整文章:

https://www.overfit.cn/post/aac850c9aefd4b7e9543356b383fdb5f



推荐阅读
author-avatar
mobiledu2502918033
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有