热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python3_Python3做采集

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python3做采集相关的知识,希望对你有一定的参考价值。出于某些目的,需要在网上爬一些数据。考虑

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python3做采集相关的知识,希望对你有一定的参考价值。



出于某些目的,需要在网上爬一些数据。考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了。首先翻完《深入Python3》这本书,了解了它的语法之类的。下面就以下载http://www.meinv68.com/为例子开始干活了:



  1. Http协议的实现。那本书里有介绍一个叫httplib2的库,看起来挺好。就用这个库把网页内容抓下来先。

  2. Html解析。之前有用过一些解析xml的库,但是想着html代码可能不会太严禁,就找到了一个传说中对html容错度很高的库:BeautifulSoup。Python3得用这个库的第四版,导入时也是要导「bs4」库。解析挺简单,我用的基本还是xml那一套。

  3. 数据保存。呃,没啥说的,就是用内建方法open()打开一个文件,会返回一个文件对象,然后调用它的各种方法就可以了。

采集的有点慢。需要采集的数据有三十多万条。但是一个页面只有十条数据,而且每三四秒左右才能从服务器抓到一个页面。刚开始想着用多线程之类的加速,但想着抓一次就好了,而且有人鄙视说,抓太快对服务器负担太大,就让它跑了个通宵。只抓了十万条数据,而且还有漏的。

 

然后就找到另外一个网站,继续抓。这个时候蛋疼了,那网页里的内容大部分都是js之类生成的。第一反应就是看看有没人用Python实现一个js的解释器。结果发现这个工具量太大,很多库都必须依靠浏览器来解析,太重量级。先放一放,就先看看这个js里有些啥,会不会直接有需要的数据。

以前没有网页开发的经验,只是问过同学什么js,asp语言是干嘛用的。但是Firefox很久之前就装了FireBug这个插件,就拿出来随便点点。很容易看到了加载的js,但是看了半天没发现有想要的东西。然后继续随便点点,发现加载的不只一个脚本,最后在控制台里,发现Get了一个aspx文件,里面就有想要的数据。

QQ截图20130731143612

 

下面继续是Python的事了:



  1. 瞄了下那个url里,有关于日期的参数。首先很纯洁的想到我需要一个能处理日期的类。嗯,我也找到了,datetime。这货能很方便的处理关于 「时间」的功能,比如一个时间的前一天,前一秒是什么时候,计算两个时间相差多少等等,而完全不用考虑类似润年哇,加了几小时后就成了另外一天之类的问题。也能很方便的把日期用字符串按指定的格式打印出来。

  2. 抓到这里面的文件后,需要进行分析。就简单的用正则表达式了。用到的库是re。呃,用法也很简单,可以先用编译一个正则表达式,然后可以查看一个字符串能不能被这个正则表达式匹配,返回匹配部分等等。

因为这个脚本很小,比起抓整个网页来说,效率好太多了,一秒钟左右抓一个页面,而且一个页面大概有170条数据。跑了二十分钟左右就抓完了。

 

后:

以前用C++这样的静态类型语言,一个表达式的值,一个函数的返回值只能是一种类型。但是Python则不同,比如open()会根据你打开模式返回不同的类型的对象。虽然说C++的parser做起来很难,但是只要做出来,就能很容器确定一个变量的类型(模板中的除外,所以C++11放弃Concept的时候还是略让人蛋疼的),然后IDE就能进行很好的自动补全建议。但是动态类型语言这方面则略为蛋疼了,对IDE要求高了一点。好处则是很方便灵活,写函数里也不怎么纠结参数的实际类型,全特么是模板参数……好在PyCharm能根据一个函数的docstring判断参数的类型。

还有就是Python里对机器的控制弱了点。因为数据量有点大,所以不得不关心了下list的实现。它类似C++ stl里的vector,但是又没有提供设置容量的方法。现在就用collection.deque将就了一下。

 



推荐阅读
  • 本文探讨了领域驱动设计(DDD)的核心概念、应用场景及其实现方式,详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型,展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]
  • 并发编程:深入理解设计原理与优化
    本文探讨了并发编程中的关键设计原则,特别是Java内存模型(JMM)的happens-before规则及其对多线程编程的影响。文章详细介绍了DCL双重检查锁定模式的问题及解决方案,并总结了不同处理器和内存模型之间的关系,旨在为程序员提供更深入的理解和最佳实践。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 根据最新发布的《互联网人才趋势报告》,尽管大量IT从业者已转向Python开发,但随着人工智能和大数据领域的迅猛发展,仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序,并提供完整的代码示例。 ... [详细]
  • 本文介绍如何使用Python进行文本处理,包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图,展示文本数据的可视化分析方法。 ... [详细]
  • 本文介绍如何在Linux服务器之间使用SCP命令进行文件传输。SCP(Secure Copy Protocol)是一种基于SSH的安全文件传输协议,支持从远程机器复制文件到本地服务器或反之。示例包括从192.168.45.147复制tomcat目录到本地/home路径。 ... [详细]
  • 使用GDI的一些AIP函数我们可以轻易的绘制出简 ... [详细]
  • 本文介绍了如何利用npm脚本和concurrently工具,实现本地开发环境中多个监听服务的同时启动,包括HTTP服务、自动刷新、Sass和ES6支持。 ... [详细]
  • 深入解析JMeter中的JSON提取器及其应用
    本文详细介绍了如何在JMeter中使用JSON提取器来获取和处理API响应中的数据。特别是在需要将一个接口返回的数据作为下一个接口的输入时,JSON提取器是一个非常有用的工具。 ... [详细]
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 本文详细介绍了如何在 Windows 环境下使用 node-gyp 工具进行 Node.js 本地扩展的编译和配置,涵盖从环境搭建到代码实现的全过程。 ... [详细]
  • Python入门:第一天准备与安装
    本文详细介绍了Python编程语言的基础知识和安装步骤,帮助初学者快速上手。涵盖Python的特点、应用场景以及Windows环境下Python和PyCharm的安装方法。 ... [详细]
  • 本文详细介绍了 React 中的两个重要 Hook 函数:useState 和 useEffect。通过具体示例,解释了如何使用它们来管理组件状态和处理副作用。 ... [详细]
  • 本文介绍如何在Java项目中使用Log4j库进行日志记录。我们将详细说明Log4j库的引入、配置及简单应用,帮助开发者快速上手。 ... [详细]
  • 本文详细介绍了如何使用jQuery防止事件冒泡,确保子元素的点击事件不会触发父元素或祖先元素的相应事件。通过具体的代码示例和解释,帮助开发者更好地理解和应用这一技术。 ... [详细]
author-avatar
爱笑的美美6_833
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有