当前位置: 开发笔记 > 编程语言 > 正文

python爬虫进阶（一）：静态网页爬取

作者：黑痣佬 | 来源：互联网 | 2023-09-07 12:22

python爬虫进阶（一）：静态网页爬取,Go语言社区,Golang程序员人脉社

一、文章说明

本文是在学习过程中的笔记分享，开发环境是win7，Python3，编辑器pycharm，文章中若有错误欢迎指出、积极讨论。

另外，推荐一个比较好的爬虫教程

二、课程基础

1、HTML和CSS

爬虫和网页内容处处打交道，首先要掌握一部分前端内容。参考教程：W3school在线教程

2、xpath解析网页

掌握了上面的知识，下面就可以开始下一步学习了。如何解析网页？这里我推荐BeautifulSoup和xpath，掌握了这两种解析方法基本上就够了，当然，还有一种必须掌握：正则表达式，有点简单粗暴，但屡试不爽吐舌头

3、http响应状态

2xx：成功

3xx：调转

4xx：客户端错误

5xx：服务器错误

三、爬取过程的选择策略

一般我们爬取都有一个明确的目标，如知道要爬那些网页、网页上的那些内容、需要爬多少等。但是当我们要对一个网站进行无脑爬取时，应综合考虑如下策略：

1、重要的网页距离种子站点比较近

2、深度有限，一般17层，再往深处爬无意义

3、宽度优先有利于多爬虫并行爬取

4、深度限制与宽度优先相结合

四、如何记录爬取历史，不重复抓取？

1、将URL经过MD5或SHA-1等单向哈希后再保存到hashset或数据库，这样每一个URL保存下来就只占16个字节。

2、Bit-Map方法。建立一个BitSet，将每个URL经过一个哈希函数映射到某一位，只占1字节。

技巧：看一个站点有多少信息，以便于我们估计内存消耗

百度：site：www.mafengwo.cn

我们可以看到蚂蜂窝有多少个网页。

同样，Google： site：www.mafengwo.cn ，更厉害的是Google能看到种子站点下一个站点的网页信息：

site：www.mafengwo.cn/gonglve/

3、BitMap方式记录

pip install bitarray

pip install mmh3

>>> from bitarray import bitarray
>>> import mmh3
>>> a = 2**31
>>> a
2147483648
>>> offset = 2147483647
>>> offset = 2147483647//2**31-1
>>> bit_array = bitarray(4*1024*1024*1023)
>>> #分配4G内存
>>> bit_array.setall(0)		#内存位置初始化为0
>>> b1 = mmh3.hash('www.baidu.com',42)+offset		#42是固定设置，offset将偏置设为0，索引从0开始，b1返回int类型
>>> bit_array[b1] = 1		#值为0或1，如果该位置没有占用，就按照默认0，如果占用就是1

4、Bloom Filter 算法

参考教程：Bloom Filter 算法

pip install pybloom

>>> import pybloom
>>> fruit = pybloom.BloomFilter(100000,0.1)		#0.1 容错率
>>> fruit.update('apple')
Traceback (most recent call last):
  File "", line 1, in 
    fruit.update('apple')
AttributeError: 'BloomFilter' object has no attribute 'update'
>>> fruit.add('apple')
False
>>> len(fruit)		#fruit包含的元素个数
1
>>> fruit.add('pear','orange','apple')
Traceback (most recent call last):
  File "", line 1, in 
    fruit.add('pear','orange','apple')
TypeError: add() takes from 2 to 3 positional arguments but 4 were given
>>> fruit.union('pear','orange','apple')
Traceback (most recent call last):
  File "", line 1, in 
    fruit.union('pear','orange','apple')
TypeError: union() takes 2 positional arguments but 4 were given
>>> fruit.add('pear')		#只能添加一个？？如果fruit内不包含返回False，反之，True
False
>>> fruit.add('orange')
False
>>> fruit.add('apple')
True
>>> len(fruit)
3
>>> 'mike' in fruit
False
>>> 'apple' in fruit
True
>>>

技巧：在某些网站robots.txt页面下有该网站的所有网页信息 www.xxxxxxxxx.xml

sitemap:

五、实战案例

仅做测试：

获取蚂蜂窝城市游记

代码：

环境：win7，Python3，pycharm

import urllib.request
import http.client
import re
from pybloom import BloomFilter
import os

request_headers = {
    'host': "www.mafengwo.cn",
    'connection': "keep-alive",
    'cache-control': "no-cache",
    'upgrade-insecure-requests': "1",
    'user-agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36",
    'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    'accept-language': "zh-CN,en-US;q=0.8,en;q=0.6"
}

def get_html(url):
    req = urllib.request.Request(url, headers=request_headers)
    respOnse= urllib.request.urlopen(req)
    html = response.read()
    
    return html


def download_city_notes(id):
    for i in range(1, 999):
        url = 'http://www.mafengwo.cn/yj/%s/1-0-%d.html' % (id, i)
        if url in download_bf:
            continue
        print ('open url %s' %url)
        download_bf.add(url)
        html = get_html(url)
        htmlcOntent= html.decode('utf-8')

        city_notes = re.findall('href="/i/d{7}.html', htmlcontent)

        # 如果导航页错误，该页的游记数为0，则意味着 1-0-xxx.html 已经遍历完，结束这个城市
        if len(city_notes) == 0:
            return
        for city_note in city_notes:
            try:
                city_url = 'http://www.mafengwo.cn%s' % (city_note[6:])
                if city_url in download_bf:
                    continue
                print ('download %s' % (city_url))
                html = get_html(city_url)
                filename = city_url[7:].replace('/', '_')
                fo = open("%s%s" % (dirname, filename), 'wb+')
                fo.write(html)
                fo.close()
                download_bf.add(city_url)
            except Exception as Arguments:
                print (Arguments)
                continue


#global

city_home_pages = []
city_ids = []
dirname = 'mafengwo_notes/'

# 创建 Bloom Filter
download_bf = BloomFilter(1024 * 1024 * 16, 0.01)


def main():
    # 检查用于存储网页文件夹是否存在，不存在则创建
    if not os.path.exists(dirname):
        os.makedirs(dirname)

    try:
        # 下载目的地的首页
        mdd_url = 'http://www.mafengwo.cn/mdd/'
        html = get_html(mdd_url)
        htmlcOntent= html.decode('utf-8')       #正则表达式匹配时需要解码

        # 利用正则表达式，找出所有的城市主页
        city_home_pages = re.findall('/travel-scenic-spot/mafengwo/d{5}.html', htmlcontent)
        # 通过循环，依次下载每个城市下的所有游记
        for city in city_home_pages:
            city_ids.append(city[29:34])
            download_city_notes(city[29:34])
    except urllib.request.HTTPError as Arguments:
        print (Arguments)
    except http.client.BadStatusLine:
        print ('BadStatusLine')
    except Exception as Arguments:
        print (Arguments)



if __name__ == '__main__':
    main()

好的！！暂时就这么多了

第一次将笔记写在CSDN上，太难写了，主要太浪费时间还要写得好看吐舌头

希望坚持，将整个课程写完

推荐阅读

int
二维码的实现与应用

本文介绍了二维码的基本概念、分类及其优缺点，并详细描述了如何使用Java编程语言结合第三方库（如ZXing和qrcode.jar）来实现二维码的生成与解析。 ... [详细]

蜡笔小新 2024-11-21 17:10:15
spring
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
int
Nginx 配置下 Chrome 和 Firefox 对静态资源缓存处理差异

在使用 Nginx 作为服务器时，发现 Chrome 能正确从缓存中读取 CSS 和 JS 文件，而 Firefox 却无法有效利用缓存，导致加载速度显著变慢。 ... [详细]

蜡笔小新 2024-11-21 19:57:43
get
如何在Ember.js中使用HBS模板

本文介绍了.hbs文件作为Ember.js项目中的视图层，类似于HTML文件的功能，并详细讲解了如何在Ember.js应用中集成Bootstrap框架及其相关组件的方法。 ... [详细]

蜡笔小新 2024-11-21 18:50:46
int
UVALive 8201 - BBP 公式计算圆周率

在1995年，Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后，Bailey 和 Borwein 在他们的论文中发表了这一发现，这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]

蜡笔小新 2024-11-21 18:32:57
int
SIP基础概览

本文介绍了SIP（Session Initiation Protocol，会话发起协议）的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]

蜡笔小新 2024-11-21 17:42:08
int
Struts2 + json+ jquery 实现三级联动action和jsp代码竟然有小红叉，提示缺双引号，检查了转义符号也没缺啊，求解

publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]

蜡笔小新 2024-11-21 16:25:41
int
IC卡操作功能实现

本文介绍了如何通过C#语言调用动态链接库（DLL）中的函数来实现IC卡的基本操作，包括初始化设备、设置密码模式、获取设备状态等，并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]

蜡笔小新 2024-11-21 11:02:19
int
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
get
理解浏览器历史记录（2）hashchange、pushState

阅读目录1.hashchange2.pushState本文也是一篇基础文章。继上文之后，本打算去研究pushState，偶然在一些信息中发现了锚点变 ... [详细]

蜡笔小新 2024-11-20 20:05:37
rsa
利用Windows EFS实现文件夹加密

Windows操作系统提供了Encrypting File System (EFS)作为内置的数据加密工具，特别适用于对NTFS分区上的文件和文件夹进行加密处理。本文将详细介绍如何使用EFS加密文件夹，以及加密过程中的注意事项。 ... [详细]

蜡笔小新 2024-11-20 18:57:46
rsa
探索AI智能机器人自动盈利系统的构建

用户可通过支付198元押金及30元设备维护费租赁AI智能机器人，推荐他人加入可获得相应佣金。随着推荐人数的增加，用户将逐步解锁更高版本，享受更多收益。 ... [详细]

蜡笔小新 2024-11-20 19:37:48
int
深入解析SpringMVC中的HandlerMapping机制

本文将从基础概念入手，详细探讨SpringMVC框架中DispatcherServlet如何通过HandlerMapping进行请求分发，以及其背后的源码实现细节。 ... [详细]

蜡笔小新 2024-11-20 19:24:42
java
Android应用开发案例分享：春节假期个人项目

回顾两年前春节期间的一个个人项目，该项目原本计划参加竞赛，但最终作为练习项目完成。独自完成了从编码到UI设计的全部工作，尽管代码量不大，但仍有一定的参考价值。本文将详细介绍该项目的背景、功能及技术实现。 ... [详细]

蜡笔小新 2024-11-20 18:42:22
get
如何在PHP中安装Xdebug扩展

本文介绍了如何从PECL下载并编译安装Xdebug扩展，以及如何配置PHP和PHPStorm以启用调试功能。 ... [详细]

蜡笔小新 2024-11-20 18:31:50

黑痣佬

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章