爬虫技术初探：requests库基础教程第二部分

作者：邹飞邹飞邹飞 | 来源：互联网 | 2024-10-23 10:44

（1）搜狗搜索人物实战importrequestsurlhttps:www.sogou.comweb?query李荣浩#首先我们需要观察在搜狗输入李

&＃xff08;1&＃xff09;搜狗搜索人物实战

import requestsurl &＃61; &＃39;https://www.sogou.com/web?query&＃61;李荣浩&＃39;
# 首先我们需要观察在搜狗输入李荣浩会发现他的Url 有上面这一长串的字符
# https://www.sogou.com/web?query&＃61;李荣浩&_asf&＃61;www.sogou.com&_ast&＃61;&w&＃61;01019900&p&＃61;40040100&ie&＃61;utf8&from&＃61;index-nologin&s_from&＃61;index&sut&＃61;1372&sst0&＃61;1649923016205&lkt&＃61;0%2C0%2C0&sugsuv&＃61;1649923012240390&sugtime&＃61;1649923016205
# 但是实际上我们观察一下真正有用的就是这个 query&＃61;李荣浩后面的字符我们可以不用管删去
# 所以在构建要爬取的url的时候我们使用前面的 https://www.sogou.com/web?query&＃61;李荣浩就可以了# 这个是搜狗可以可能是看 query后面这个就够了后面的其他字符可以删除header &＃61; {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}# 这个是打开f12 然后在请求头中找到 user-agent 这个就是网页判断你是用什么机器登入的网页判断你是不是人在操作还是说你是个程序
# 这一步和前面有点像新加的这个headers 就是属性就是你登入网页的属性模仿成正常的人登入进去req &＃61; requests.get(url&＃61;url,headers&＃61;header)print(req.text)
# 这个就是打印你爬取的网页的文本

附上源代码

import requestsurl &＃61; &＃39;https://www.sogou.com/web?query&＃61;李荣浩&＃39;header &＃61; {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36" }req &＃61; requests.get(url&＃61;url,headers&＃61;header)print(req.text)

&＃xff08;2&＃xff09;升级代码练习

通过在键盘输入你想要找的人然后让程序自动爬取

import requests# 这一步中的input就是通过键盘输入的函数
query &＃61; input("输入你想找的人&＃xff1a;")# 这一步中的 format函数在入门基础&＃xff08;一&＃xff09;中讲到了是相当于替换{}中的字符所以就是把键盘输入的来替换query&＃61;后面的字符来实现搜索目的
url &＃61; &＃39;https://www.sogou.com/web?query&＃61;{}&＃39;.format(query)header &＃61; {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36"
}req &＃61; requests.get(url&＃61;url,headers&＃61;header)print(req.text)

附上源码

import requestsquery &＃61; input("输入你想找的人&＃xff1a;")url &＃61; &＃39;https://www.sogou.com/web?query&＃61;{}&＃39;.format(query)header &＃61; {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36" }req &＃61; requests.get(url&＃61;url,headers&＃61;header)print(req.text)

多多学习理解可以进行其他的代码扩展爬虫的学习并不难用心学你也会变成爬虫高手&＃xff01;&＃xff01;

推荐阅读

settings
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
web
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
settings
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
web
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
web
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
web
Web前端开发中的HTML与CSS命名规范

作为一名专业的Web前端工程师，掌握HTML和CSS的命名规范是至关重要的。良好的命名习惯不仅有助于提高代码的可读性和维护性，还能促进团队协作。本文将详细介绍Web前端开发中常用的HTML和CSS命名规范，并提供实用的建议。 ... [详细]

蜡笔小新 2024-12-25 11:06:17
jsp
深入理解网易NEC CSS框架：规范、应用与学习心得

本文将介绍网易NEC CSS框架的规范及其在实际项目中的应用。通过详细解析其分类和命名规则，探讨如何编写高效、可维护的CSS代码，并分享一些实用的学习心得。 ... [详细]

蜡笔小新 2024-12-24 18:08:51
jsp
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
main
Dockerfile 编写与 Docker 网络配置详解

本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用，涵盖基础指令、镜像构建与发布流程，并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]

蜡笔小新 2024-12-27 17:31:41
eval
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
web
ImmutableX Poised to Pioneer Web3 Gaming Revolution

ImmutableX is set to spearhead the evolution of Web3 gaming, with its innovative technologies and strategic partnerships driving significant advancements in the industry. ... [详细]

蜡笔小新 2024-12-27 08:55:17
web
如何高效创建和使用字体图标

在Web和移动开发中，为什么选择字体图标？主要原因是其卓越的性能，可以显著减少HTTP请求并优化页面加载速度。本文详细介绍了从设计到应用的字体图标制作流程，并提供了专业建议。 ... [详细]

蜡笔小新 2024-12-26 20:48:44
web
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
web
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
main
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15

邹飞邹飞邹飞

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章