我的第一个Python爬虫

作者：wuyanting67412 | 来源：互联网 | 2023-05-18 01:32

一、一些基本的库1、requests库：requests是用python语言基于urllib编写的，采用的是Apache2Licensed开源协议的HTTP库，默认安装好python之后，

一、一些基本的库

1、requests 库：

requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，默认安装好python之后，是没有安装requests模块的，需要单独通过pip安装。

2、requests 库的一些基本函数：

requests 库的网页请求函数

函数	说明
get(url [, timeout=n])	对应HTTP的GET方式，设定请求超时时间为n秒
post(url, data={'key':'value'})	对应HTTP的POST方式，字典用于传输客户数据
delete(url)	对应HTTP的DELETE方式
head(url)	对应HTTP的HEAD方式
options(url)	对应HTTP的OPTIONS方式
put(url, data={'key':'value'})	对应HTTP的PUT方式，字典用于传输客户数据

get方法，它能够获得url的请求，并返回一个response对象作为响应。

response对象的属性

属性	说明
status_code	HTTP请求的返回状态
encoding	HTTP响应内容的编码方式
text	HTTP响应内容的字符串形式
content	HTTP响应内容的二进制形式

response对象的方法

方法

说明

json()

若http响应内容中包含json格式数据, 则解析json数据

r aise_for_status()

若http返回的状态码不是200, 则产生异常

（常见的HTTP状态码：200 - 请求成功，301 - 资源（网页等）被永久转移到其它URL，404 - 请求的资源（网页等）不存在，500 - 内部服务器错误)。

3、BeautifulSoup 库：

Beautiful Soup是python的一个HTML或XML的解析库，我们可以用它来方便的从网页中提取数据，它拥有强大的API和多样的解析方式。

二、我的第一个Python爬虫

1、运用 requests 库的 get() 函数访问 360搜索主页并打印相应的属性：

import requests
for i in range(20):
    r=requests.get("https://hao.360.com/")
    r.encoding='utf-8'
    print("第{}次爬取".format(i+1))
    print("返回状态：{}".format(r.status_code))
    print("网页内容的长度：{}".format(len(r.text)))
    print("text 的内容：{}".format(r.text))
    print("content 属性所返回的网页长度:{}".format(len(r.content)))

运行结果如下图：

2、利用 BeautifulSoup 对一个简单的 HTML 页面保存为字符串进行操作：

html 文本为：

html='''






    我得第一个标题
    我得第一个段落。

        
    
        row 1, cell 1
        row 1, cell 2
    
    
        row 2, cell 1
        row 2, cell 2
    

'''

从html文本中获取soup：

from bs4 import BeautifulSoup
# 这里指定解析器为html.parser（python默认的解析器)
soup = BeautifulSoup(html,'html.parser')
printf(type(soup))
# 输出：

获取 head 内容：

print("head 标签内容和学号 后两位：",html.head,'学号后两位 18 ')

输出为：

获取 body 标签内容：

print("body 标签的内容：",soup.body)

输出为：

获取 id 为 frist 的标签对象：

first=soup.select('#first')
print("first 标签的内容：{}".format(first))
print(type(first))

输出为：

获取 html 页面的中文字符（采用正则表达式）：

import re
pat=re.compile(r'[\u4e00-\u9fa5]+')
result=pat.findall(html)

输出为：

以上就是我的第一个python爬虫程序。

推荐阅读

key
iOS超签签名服务器搭建及其优劣势

本文介绍了搭建iOS超签签名服务器的原因和优势，包括不掉签、用户可以直接安装不需要信任、体验好等。同时也提到了超签的劣势，即一个证书只能安装100个，成本较高。文章还详细介绍了超签的实现原理，包括用户请求服务器安装mobileconfig文件、服务器调用苹果接口添加udid等步骤。最后，还提到了生成mobileconfig文件和导出AppleWorldwideDeveloperRelationsCertificationAuthority证书的方法。 ... [详细]

蜡笔小新 2023-12-11 20:23:23
key
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新 2023-12-14 00:31:35
perl
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
perl
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
blob
Android 7自学笔记总结、移动架构视频、安卓面试真题、项目实战源码讲义

本文介绍了Android 7的学习笔记总结，包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容，并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同，否则会出现问题。 ... [详细]

蜡笔小新 2023-12-13 10:06:58
hash
开发笔记:Java是如何读取和写入浏览器Cookies的

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Java是如何读取和写入浏览器Cookies的相关的知识，希望对你有一定的参考价值。首先我 ... [详细]

蜡笔小新 2023-12-12 20:18:02
main
在Kubernetes上部署JupyterHub的步骤和实验依赖

本文介绍了在Kubernetes上部署JupyterHub的步骤和实验所需的依赖，包括安装Docker和K8s，使用kubeadm进行安装，以及更新下载的镜像等。 ... [详细]

蜡笔小新 2023-12-14 20:27:14
main
kotlin动画实现上下移动、放大缩小、旋转功能

本文介绍了使用kotlin实现动画效果的方法，包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果，并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例，可以用来实现放大缩小的效果。 ... [详细]

蜡笔小新 2023-12-14 17:29:08
main
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
main
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
import
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
fetch
游标的使用笔记

本文介绍了游标的使用方法，并以一个水果供应商数据库为例进行了说明。首先创建了一个名为fruits的表，包含了水果的id、供应商id、名称和价格等字段。然后使用游标查询了水果的名称和价格，并将结果输出。最后对游标进行了关闭操作。通过本文可以了解到游标在数据库操作中的应用。 ... [详细]

蜡笔小新 2023-12-13 15:24:30
input
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
import
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
spring
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40

wuyanting67412

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章