热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

针对科技文章的多标签分类

0.起最近没有更新。暑假之后学的东西也比较杂,看了一下基于DL的智能美颜,感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等,调代码巴拉巴拉几个星期就这么过了。前几天看ACM的bes

0. 起

  最近没有更新。暑假之后学的东西也比较杂,看了一下基于DL的智能美颜,感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等,调代码巴拉巴拉几个星期就这么过了。前几天看ACM的best paper也觉得很有意思,两个步骤:1)给图片打标题,属于多媒体计算和NLP的结合 2)由标题生成诗歌。感觉这里面可以学的东西也有很多。等项目结束论文写完一定好好的顺着学一遍,看京都大学团队说近期会公布数据集,不错不错。

  最近是在看论文和弄实验室的项目。之前的短评预测预订明年的一个项目,而今年的题目是:新知识抽取与发现。主要是针对科技文章的,也就是知网文章。我在想怎么做这个题目的时候也是百般思考(因为这个题目是去年订的,没有经过我的手),如何体现新知识?抽取与发现在NLP倒是老生常谈,提取主题、摘要、关键字,发现无非也就是分类或者打标签。

  之前已经毕业的师兄是有一套完整的单标签代码的,包含他的毕业论文一同给了我参考。这里也可以简单说一下打标签和分类的区别,也方便捋清思路。好比你在淘票票上买电影票,点进电影介绍,它会告诉你这是一部18R/成人向/.../的电影,这就是一个分类;而电影的类型是Comedy/Tragedy/.../Family and Comedy,这就是多标签,即可以存在交叉项或是合并项。所以我合计着师兄的单标签其实也就是分类....

  为什么我不用师兄的呢,可以省很多事情,连答辩PPT都有改一改去糊弄一下甲方就完事。在我的理解里面,交叉学科最容易产生新知识,甚至是新科学。计算机+智能形成了近年来很火的人工智能领域,金融+数学的结合成为了金融工程,这都是新知识新领域的诞生。IG进入S赛决赛,那提及一下传媒+电竞+主持等等你能想到什么呢,不仅是新知识,新岗位也出现了。所以,从多标签的角度去阐述新知识更有意义

1. 承

  前面废话了很多,其实也就是想说明白我这个伪逻辑。既然针对知网文章,那么如何爬取一个文本--多标签对的数据集就尤为关键了。在这里我们也想了很多办法,包括知网本身也有一些奇奇怪怪的反爬机制,这一块我交给学弟去做了,也是煞费时间。

  知网本身没有明显的多标签痕迹,它把文章的分类放在一个动态加载frame里面。我们按照高级检索栏的10来个大类*10来个子栏进行爬取,选取每篇文章的标题、摘要、多标签。目前进展有10W+数据,数据还在更新中。(用的学校的公网ip,似乎没有被封)为什么要按照这种方式爬取呢,主要是为了各个类别标签下的文章数量分布均匀。不然训练出某些词向量会导致比重失衡。

图1 按知网的分类进行爬取

  然后具体每篇文章的爬取内容如下,多标签可以爬取一级、二级甚至三级标签。我们爬取了一级和二级。主要是防止三级标签太多导致稀疏问题,训练时难以收敛,测试时结果可以也会和预期相去甚远。当然具体的选择可以根据自己的项目来做决定。

图2 爬取内容

  存放呢。所有数据先写入excel之后再进行整理。第一列设定一个ID,第二列标题,第三列摘要,第四列一级标签,第五列二级标签。然后将按文章,将题目和摘要整理到一个txt,标题一行摘要一行;将label整理到一个txt。这两个文件按id命名,只是后缀不同。最后再将所有的标签汇总到一个文件方便读写,一个标签一行。目前为止我们总共收集了120+标签。

2. 转

10.29写完上面的。直到现在还是没时间更新后面的。项目结项了,然后施工论文ing。累。先贴几张图吧,之后有时间再继续更,大概过年的时候了吧。


2018.12.10 16:53 更新

To be continue


 

 


推荐阅读
  • 深入浅出解读奇异值分解,助你轻松掌握核心概念 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 深入解析HTML5字符集属性:charset与defaultCharset
    本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset,帮助开发者更好地理解和应用这些属性,以确保网页在不同环境下的正确显示。 ... [详细]
  • Python 序列图分割与可视化编程入门教程
    本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例,详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表,帮助非编程背景的用户也能轻松上手。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 三角测量计算三维坐标的代码_双目三维重建——层次化重建思考
    双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记,本文从宏观的角度阐 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 2012-06-0821:26:42  用matlab来建模,仿真不同时刻ostask在队列中的装载情况。输入参数如下作为初学者,M文件写的有点长。能实现功能就算学以致用了。cle ... [详细]
  • 微信公众号推送模板40036问题
    返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式,并且服务器端已经集成了多线程处理,能够支持任意大小的文件传输,无需担心数据包大小的限制。与传统的 ClientSocket 相比,Indy 控件提供了更为简洁和可靠的解决方案,特别适用于开发高性能的网络文件传输应用程序。 ... [详细]
  • 本文探讨了利用Python编程语言开发自动化脚本来实现文件的全量和增量备份方法。通过详细分析不同备份策略的特点,文章介绍了如何使用Python标准库中的os和shutil模块来高效地管理和执行备份任务。此外,还提供了示例代码和最佳实践,帮助读者快速掌握自动化备份技术,确保数据的安全性和完整性。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
author-avatar
冷嘲热讽714
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有