针对科技文章的多标签分类

作者：冷嘲热讽714 | 来源：互联网 | 2023-08-18 18:58

0.起最近没有更新。暑假之后学的东西也比较杂，看了一下基于DL的智能美颜，感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等，调代码巴拉巴拉几个星期就这么过了。前几天看ACM的bes

0. 起

　　最近没有更新。暑假之后学的东西也比较杂，看了一下基于DL的智能美颜，感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等，调代码巴拉巴拉几个星期就这么过了。前几天看ACM的best paper也觉得很有意思，两个步骤：1）给图片打标题，属于多媒体计算和NLP的结合 2）由标题生成诗歌。感觉这里面可以学的东西也有很多。等项目结束论文写完一定好好的顺着学一遍，看京都大学团队说近期会公布数据集，不错不错。

　　最近是在看论文和弄实验室的项目。之前的短评预测预订明年的一个项目，而今年的题目是：新知识抽取与发现。主要是针对科技文章的，也就是知网文章。我在想怎么做这个题目的时候也是百般思考（因为这个题目是去年订的，没有经过我的手），如何体现新知识？抽取与发现在NLP倒是老生常谈，提取主题、摘要、关键字，发现无非也就是分类或者打标签。

　　之前已经毕业的师兄是有一套完整的单标签代码的，包含他的毕业论文一同给了我参考。这里也可以简单说一下打标签和分类的区别，也方便捋清思路。好比你在淘票票上买电影票，点进电影介绍，它会告诉你这是一部18R/成人向/.../的电影，这就是一个分类；而电影的类型是Comedy/Tragedy/.../Family and Comedy，这就是多标签，即可以存在交叉项或是合并项。所以我合计着师兄的单标签其实也就是分类....

　　为什么我不用师兄的呢，可以省很多事情，连答辩PPT都有改一改去糊弄一下甲方就完事。在我的理解里面，交叉学科最容易产生新知识，甚至是新科学。计算机+智能形成了近年来很火的人工智能领域，金融+数学的结合成为了金融工程，这都是新知识新领域的诞生。IG进入S赛决赛，那提及一下传媒+电竞+主持等等你能想到什么呢，不仅是新知识，新岗位也出现了。所以，从多标签的角度去阐述新知识更有意义。

1. 承

　　前面废话了很多，其实也就是想说明白我这个伪逻辑。既然针对知网文章，那么如何爬取一个文本--多标签对的数据集就尤为关键了。在这里我们也想了很多办法，包括知网本身也有一些奇奇怪怪的反爬机制，这一块我交给学弟去做了，也是煞费时间。

　　知网本身没有明显的多标签痕迹，它把文章的分类放在一个动态加载frame里面。我们按照高级检索栏的10来个大类*10来个子栏进行爬取，选取每篇文章的标题、摘要、多标签。目前进展有10W+数据，数据还在更新中。（用的学校的公网ip，似乎没有被封）为什么要按照这种方式爬取呢，主要是为了各个类别标签下的文章数量分布均匀。不然训练出某些词向量会导致比重失衡。

图1 按知网的分类进行爬取

　　然后具体每篇文章的爬取内容如下，多标签可以爬取一级、二级甚至三级标签。我们爬取了一级和二级。主要是防止三级标签太多导致稀疏问题，训练时难以收敛，测试时结果可以也会和预期相去甚远。当然具体的选择可以根据自己的项目来做决定。

图2 爬取内容

　　存放呢。所有数据先写入excel之后再进行整理。第一列设定一个ID，第二列标题，第三列摘要，第四列一级标签，第五列二级标签。然后将按文章，将题目和摘要整理到一个txt，标题一行摘要一行；将label整理到一个txt。这两个文件按id命名，只是后缀不同。最后再将所有的标签汇总到一个文件方便读写，一个标签一行。目前为止我们总共收集了120+标签。

2. 转

10.29写完上面的。直到现在还是没时间更新后面的。项目结项了，然后施工论文ing。累。先贴几张图吧，之后有时间再继续更，大概过年的时候了吧。

2018.12.10 16：53 更新

To be continue

推荐阅读

uri
深入浅出解读奇异值分解，助你轻松掌握核心概念

深入浅出解读奇异值分解，助你轻松掌握核心概念 ... [详细]

蜡笔小新 2024-11-03 15:12:45
java
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
char
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
get
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
get
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
c语言
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
char
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
get
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
数组
Matlab学以致用模拟os任务装载情况

2012-06-0821:26:42 用matlab来建模，仿真不同时刻ostask在队列中的装载情况。输入参数如下作为初学者，M文件写的有点长。能实现功能就算学以致用了。cle ... [详细]

蜡笔小新 2024-11-12 19:40:34
get
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新 2024-11-12 16:31:32
get
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
char
利用 Delphi 中的 IdTCPServer 和 IdTCPClient 实现高效文件传输

本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式，并且服务器端已经集成了多线程处理，能够支持任意大小的文件传输，无需担心数据包大小的限制。与传统的 ClientSocket 相比，Indy 控件提供了更为简洁和可靠的解决方案，特别适用于开发高性能的网络文件传输应用程序。 ... [详细]

蜡笔小新 2024-11-08 16:34:23
search
使用Python编写自动化脚本实现文件的全量与增量备份

本文探讨了利用Python编程语言开发自动化脚本来实现文件的全量和增量备份方法。通过详细分析不同备份策略的特点，文章介绍了如何使用Python标准库中的os和shutil模块来高效地管理和执行备份任务。此外，还提供了示例代码和最佳实践，帮助读者快速掌握自动化备份技术，确保数据的安全性和完整性。 ... [详细]

蜡笔小新 2024-11-05 09:50:57
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12

冷嘲热讽714

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章