当前位置: 开发笔记 > 编程语言 > 正文

爬虫之Re库入门

作者：shi6321 | 来源：互联网 | 2023-09-17 18:10

学习地址：https:www.icourse163.orglearnBIT-1001870001?tid1003245012#正则表达式正则表达式的常用操作符匹配I

学习地址&＃xff1a;https://www.icourse163.org/learn/BIT-1001870001?tid&＃61;1003245012#/

正则表达式

正则表达式的常用操作符

匹配IP地址的正则表达式

IP地址分四段&＃xff0c;每段0-255

Re库的基本使用

正则表达式的表示类型

raw string类型&＃xff08;原生字符串类型&＃xff09;

string类型&＃xff0c;更繁琐

Re库主要功能函数

1.re.search(pattern, string, flags&＃61;0)

在一个字符串中搜索匹配正则表达式的第一个位置&＃xff0c;返回match对象。

pattern:正则表达式的字符串或原生字符串表示
string:待匹配字符串
flags:正则表达式使用时的控制标记

2.re.match(pattern, string, flags&＃61;0)

从一个字符串的开始位置起匹配正则表达式&＃xff0c;返回match对象。

3.findall(pattern, string, flags&＃61;0)

搜索字符串&＃xff0c;以列表类型返回全部能匹配的子串。

4.re.split(pattern, string, maxsplit&＃61;0, flags&＃61;0)

将一个字符串按照正则表达式匹配结果进行分割&＃xff0c;返回列表类型。

maxsplit:最大分割数&＃xff0c;剩余部分作为最后一个元素输出

5.re.finditer(pattern, string, flags&＃61;0)

搜索字符串&＃xff0c;返回一个匹配结果的迭代类型&＃xff0c;每个迭代元素是match对象。

6.re.sub(pattern, repl, string, count&＃61;0, flags&＃61;0)

在一个字符串中替换所有匹配正则表达式的子串&＃xff0c;返回替换后的字符串。

repl:替换匹配字符串的字符串
count:匹配的最大替换次数

Re库的面向对象用法

7.regex &＃61; re.compile(pattern, flags&＃61;0)

将正则表达式的字符串形式编译成正则表达式对象。

等价用法&＃xff1a;

Re库的match对象

match对象的属性

Re库的贪婪匹配和最小匹配

贪婪匹配&＃xff1a;Re库默认采用贪婪匹配&＃xff0c;即输出匹配最长的子串。

最小匹配&＃xff1a;

最小匹配操作符

淘宝商品比价定向爬虫

功能描述&＃xff1a;

目标&＃xff1a;获取淘宝搜索页面的信息&＃xff0c;提取其中的商品名称和价格。
理解&＃xff1a;淘宝的搜索接口&＃xff0c;翻页的处理。
技术路线&＃xff1a;requests-re

程序的结构设计&＃xff1a;

提交商品搜索请求&＃xff0c;循环获取页面
对于每个页面&＃xff0c;提取商品名称和价格信息
将信息输出到屏幕上

import requests import redef getHTMLText(url):try:r &＃61; requests.get(url, timeout&＃61;30)r.raise_for_status()r.encoding &＃61; r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt, html):try:plt &＃61; re.findall(r&＃39;\"view_price\"\:\"[\d\.]*\"&＃39;,html)tlt &＃61; re.findall(r&＃39;\"raw_title\"\:\".*?\"&＃39;,html)for i in range(len(plt)):price &＃61; eval(plt[i].split(&＃39;:&＃39;)[1])title &＃61; eval(tlt[i].split(&＃39;:&＃39;)[1])ilt.append([price , title])except:print("")def printGoodsList(ilt):tplt &＃61; "{:4}\t{:8}\t{:16}"print(tplt.format("序号", "价格", "商品名称"))count &＃61; 0for g in ilt:count &＃61; count &＃43; 1print(tplt.format(count, g[0], g[1]))def main():goods &＃61; &＃39;书包&＃39;depth &＃61; 3start_url &＃61; &＃39;https://s.taobao.com/search?q&＃61;&＃39; &＃43; goodsinfoList &＃61; []for i in range(depth):try:url &＃61; start_url &＃43; &＃39;&s&＃61;&＃39; &＃43; str(44*i)html &＃61; getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()

推荐阅读

window
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
int
深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例

深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例 ... [详细]

蜡笔小新 2024-11-07 20:50:46
range
Python正则表达式详解：掌握数量词用法轻松上手

Python正则表达式详解：掌握数量词用法轻松上手 ... [详细]

蜡笔小新 2024-10-28 09:12:57
ip
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
ip
javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例

javax.mail.search.BodyTerm.matchPart()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 15:24:50
ip
开发笔记：JavaScript 正则表达式

本文记录了 JavaScript 中正则表达式的使用方法和常见操作，包括匹配、替换、搜索等。 ... [详细]

蜡笔小新 2024-11-12 11:48:21
ip
Python内置模块详解：正则表达式re模块的应用与解析

正则表达式是一种强大的文本处理工具，通过特定的字符序列来定义搜索模式。本文详细介绍了Python内置的`re`模块，探讨了其在字符串匹配、验证和提取中的应用。例如，可以通过正则表达式验证电子邮件地址、电话号码、QQ号、密码、URL和IP地址等。此外，文章还深入解析了`re`模块的各种函数和方法，提供了丰富的示例代码，帮助读者更好地理解和使用这一工具。 ... [详细]

蜡笔小新 2024-11-07 17:25:01
ip
计算机视觉领域介绍 | 自然语言驱动的跨模态行人重识别前沿技术综述（上篇）

本文介绍了计算机视觉领域的最新进展，特别是自然语言驱动的跨模态行人重识别技术。上篇内容详细探讨了该领域的基础理论、关键技术及当前的研究热点，为读者提供了全面的概述。 ... [详细]

蜡笔小新 2024-11-07 12:41:08
ip
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
byte
利用Java开发功能完备的电话簿应用程序，支持添加、查询与删除操作

本研究基于Java语言开发了一款功能全面的电话簿应用程序，实现了与数据库的高效连接。该应用不仅支持添加、查询和删除联系人信息，还具备输出最大和最小ID号的功能，并能够对用户输入的ID号进行有效性验证，确保数据的准确性和完整性。详细实现方法可参阅相关文档。 ... [详细]

蜡笔小新 2024-11-02 08:49:17
export
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
ip
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
ip
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
int
开发技巧：在Interface Builder中实现UIButton文本居中对齐的方法与步骤

开发技巧：在Interface Builder中实现UIButton文本居中对齐的方法与步骤 ... [详细]

蜡笔小新 2024-11-11 17:13:04
ip
ESP8266 01S Web 服务器成功启动：详细解决方案与实践指南

本文详细介绍了一种利用 ESP8266 01S 模块构建 Web 服务器的成功实践方案。通过具体的代码示例和详细的步骤说明，帮助读者快速掌握该模块的使用方法。在疫情期间，作者重新审视并研究了这一未被充分利用的模块，最终成功实现了 Web 服务器的功能。本文不仅提供了完整的代码实现，还涵盖了调试过程中遇到的常见问题及其解决方法，为初学者提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-08 19:12:49

shi6321

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

爬虫之Re库入门

正则表达式

Re库的基本使用

Re库的match对象

Re库的贪婪匹配和最小匹配

淘宝商品比价定向爬虫