当前位置: 开发笔记 > 编程语言 > 正文

多少_8个常用爬虫技巧盘点，看看你知道多少？

作者：ruanbaoshuijingkou | 来源：互联网 | 2023-07-13 11:44

本文由编程笔记#小编为大家整理，主要介绍了8个常用爬虫技巧盘点，看看你知道多少？相关的知识，希望对你有一定的参考价值。

python入门时

用得最多的还是各类爬虫脚本，

写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本

写过自动收邮件的脚本、写过简单的验证码识别的脚本。

这些脚本有一个共性，都是和web相关的，

总要用到获取链接的一些方法，故累积了不少爬虫抓站的经验，

在此总结一下，那么以后做东西也就不用重复劳动了。

学习Python中有不明白推荐加入交流裙
号：735934841
群里有志同道合的小伙伴，互帮互助，
群里有免费的视频学习教程和PDF！

1、基本抓取网页
get方法

post方法

2.使用代理服务器
这在某些情况下比较有用，
比如IP被封了，或者比如IP访问的次数受到限制等等。

3.COOKIEs处理

是的没错，如果想同时用代理和COOKIE，
那就加入proxy_support然后operner改为，如下：

4.伪装成浏览器访问
某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。
这时候我们需要伪装成浏览器，
这可以通过修改http包中的header来实现：

5、页面解析
对于页面解析最强大的当然是正则表达式，
这个对于不同网站不同的使用者都不一样，就不用过多的说明。

其次就是解析库了，常用的有两个lxml和BeautifulSoup。
对于这两个库，我的评价是，
都是html/XML的处理库，Beautifulsoup纯python实现，效率低，
但是功能实用，比如能用通过结果搜索获得某个HTML节点的源码；
lxmlC语言编码，高效，支持Xpath。

6.验证码的处理
碰到验证码咋办？
这里分两种情况处理：
google那种验证码，没办法。
简单的验证码：字符个数有限，只使用了简单的平移或旋转加噪音而没有扭曲的，
这种还是有可能可以处理的，一般思路是旋转的转回来，噪音去掉，
然后划分单个字符，划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库，
然后把验证码和特征库进行比较。
这个比较复杂，这里就不展开了，
具体做法请弄本相关教科书好好研究一下。

7. gzip/deflate支持
现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，
以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。
这就意味着抓取速度会快5倍。
然而python的urllib/urllib2默认都不支持压缩
要返回压缩格式，必须在request的header里面写明’accept-encoding’，
然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码，很繁琐琐碎。
如何让urllib2自动支持gzip, defalte呢？
其实可以继承BaseHanlder类，
然后build_opener的方式来处理：

8、多线程并发抓取
单线程太慢的话，就需要多线程了，
这里给个简单的线程池模板这个程序只是简单地打印了1-10，
但是可以看出是并发的。
虽然说Python的多线程很鸡肋
但是对于爬虫这种网络频繁型，
还是能一定程度提高效率的。

9. 总结
阅读Python编写的代码感觉像在阅读英语一样，这让使用者可以专注于解决问题而不是去搞明白语言本身。
Python虽然是基于C语言编写，但是摒弃了C中复杂的指针，使其变得简明易学。
并且作为开源软件，Python允许对代码进行阅读，拷贝甚至改进。
这些性能成就了Python的高效率，有“人生苦短，我用Python”之说，是一种十分精彩又强大的语言。
总而言之，开始学Python一定要注意这4点：
1.代码规范，这本身就是一个非常好的习惯，如果开始不养好好的代码规划，以后会很痛苦。
2.多动手，少看书，很多人学Python就一味的看书，这不是学数学物理，你看例题可能就会了，学习Python主要是学习编程思想。
3.勤练习，学完新的知识点，一定要记得如何去应用，不然学完就会忘，学我们这行主要都是实际操作。
4.学习要有效率，如果自己都觉得效率非常低，那就停不停，找一下原因，去问问过来人这是为什么。
小编推荐大家可以加我的扣扣群 735934841 。
里面有海量视频教程和学习资料免费领取，
不失为是一个学习的好地方，欢迎你的到来。
一起交流学习！共同进步！！

推荐阅读

ip
VS Code 中的 Jupyter Notebook 插件

本文介绍如何在 Visual Studio Code 中使用 Jupyter Notebook 插件，包括创建、编辑和运行笔记本的基本操作。 ... [详细]

蜡笔小新 2024-12-19 19:59:43
perl
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
ip
JavaScript 实战与基础案例解析

本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例，涵盖从入门到进阶的各个阶段，帮助读者全面提升JavaScript编程能力。 ... [详细]

蜡笔小新 2024-12-24 16:36:52
ip
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
ip
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
ip
ABBYY FineReader：高效PDF转换、精准OCR识别与文档对比工具

在处理PDF转换和OCR识别时，您是否遇到过格式混乱、识别率低或图表无法正常识别的问题？ABBYY FineReader以其强大的功能和高精度的识别技术，完美解决这些问题，帮助您轻松找到最终版文档。 ... [详细]

蜡笔小新 2024-12-21 23:24:02
cookie
配置PHPStudy环境并使用DVWA进行Web安全测试

本文详细介绍了如何在PHPStudy环境下配置DVWA（ Damn Vulnerable Web Application ），并利用该平台进行SQL注入和XSS攻击的练习。通过此过程，读者可以熟悉常见的Web漏洞及其利用方法。 ... [详细]

蜡笔小新 2024-12-20 18:22:20
int
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
ip
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
perl
开源软件：新时代的商业机遇与挑战

在哈佛大学商学院举行的Cyberposium大会上，专家们深入探讨了开源软件的崛起及其对企业市场的影响。会议指出，开源软件不仅为企业提供了新的增长机会，还促进了软件质量的提升和创新。 ... [详细]

蜡笔小新 2024-12-27 14:49:56
ip
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
ip
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
ip
Ulysses Mac v29：革新文本编辑与写作体验

探索Ulysses Mac v29，这款先进的纯文本编辑器为Mac用户带来了全新的写作和编辑环境。它不仅具备简洁直观的界面，还融合了Markdown等标记语言的最佳特性，支持多种格式导出，并提供强大的组织和同步功能。 ... [详细]

蜡笔小新 2024-12-22 14:26:49
main
ML学习笔记20210824分类算法模型选择与调优

3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]

蜡笔小新 2024-12-19 09:10:33
ip
使用WebBrowser控件实现点击输入框显示图片验证码的方法

本文探讨了如何通过WebBrowser控件在用户点击输入框时自动显示图片验证码。该过程可能涉及JavaScript事件的触发与响应。 ... [详细]

蜡笔小新 2024-12-17 18:28:07