python使用beautifulsoup中select方法爬虫时使用join和split方法配合处理特殊字符

作者：QJ974 | 来源：互联网 | 2023-09-24 11:08

问题参考python如何去掉字符串‘\xa0’Pythonsplit()方法Pythonjoin()方法python中join()函数的使用方法问题背景使用python对百

问题参考

python如何去掉字符串‘\xa0’
Python split()方法

Python join()方法
python中join()函数的使用方法

问题背景

使用python对百度网页进行爬取时&＃xff0c;爬取的摘要标签中&＃xff0c;时间和文章内容在同一标签下&＃xff0c;但属于同一标签&＃xff0c;抓取的数据本身如果有空格&＃xff0c;在编译的时候会输出字符\xa0 &＃xff0c;使用join和split的组合方法去掉

想要爬取目标数据&＃xff1a;
在这里插入图片描述
使用beautifulsoup的select方法爬取出来的效果如下&＃xff1a;

想要的输出的结果&＃xff1a;

问题解决

使用join和split的组合方法去掉

split() 通过指定分隔符对字符串进行切片&＃xff0c;如果参数 num 有指定值&＃xff0c;则分隔 num&＃43;1 个子字符串
参考网址Python split()方法
split()方法输出的是列表

a &＃61; &＃39;abcv &＃39; a.split() # split方法输出的是列表

在这里插入图片描述

join方法输出的是字符串&＃xff0c;刚好配合起来

&＃39;&＃39;.join(i.get_text().split()) # split方法输出的是列表 # join方法输出的是字符串&＃xff0c;刚好配合起来

在这里插入图片描述
实际代码效果&＃xff0c;只截取了片段

# 2 匹配摘要date &＃61; soup.select(&＃39;.c-abstract&＃39;) # print(len(date)) # print(date) # 摘要部分包含了时间&＃xff0c;但时间后面带了一个空格&＃xff0c; # 在编译的时候会输出字符\xa0 &＃xff0c;使用join和split的组合方法去掉dict[&＃39;date&＃39;] &＃61; [&＃39;&＃39;.join(i.get_text().split()) for i in date] # print(dict[&＃39;date&＃39;])print(&＃39;摘要个数&＃xff1a;&＃39;,len(dict[&＃39;date&＃39;]))# 3 匹配时间t &＃61; soup.select(&＃39;span[class&＃61;"newTimeFactor_before_abs c-color-gray2 m"]&＃39;) # print(t)dict[&＃39;time&＃39;] &＃61; [&＃39;&＃39;.join(i.get_text().split()) for i in t] # print(dict[&＃39;time&＃39;])print(&＃39;时间个数&＃xff1a;&＃39;,len(dict[&＃39;time&＃39;]))

得到想要的在这里插入图片描述
效果

推荐阅读

window
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
int
网页数据抓取与解析入门指南

本指南介绍了 `requests` 库的基本使用方法，详细解释了其七个主要函数。其中，`requests.request()` 是构建请求的基础方法，支持其他高级功能的实现。此外，我们还重点介绍了如何使用 `requests.get()` 方法来获取 HTML 网页内容，这是进行网页数据抓取和解析的重要步骤。通过这些基础方法，读者可以轻松上手并掌握网页数据抓取的核心技巧。 ... [详细]

蜡笔小新 2024-11-08 17:56:30
range
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
substring
JavaScript核心知识点与实用技巧汇总

本文总结了JavaScript的核心知识点和实用技巧，涵盖了变量声明、DOM操作、事件处理等重要方面。例如，通过`event.srcElement`获取触发事件的元素，并使用`alert`显示其HTML结构；利用`innerText`和`innerHTML`属性分别设置和获取文本内容及HTML内容。此外，还介绍了如何在表单中动态生成和操作``元素，以便更好地处理用户输入。这些技巧对于提升前端开发效率和代码质量具有重要意义。 ... [详细]

蜡笔小新 2024-11-06 20:14:58
int
在Android 4.4中从相册选择图片并获取其路径的方法详解

在Android 4.4系统中，通过使用 `Intent` 对象并设置动作 `ACTION_GET_CONTENT` 或 `ACTION_OPEN_DOCUMENT`，可以从相册中选择图片并获取其路径。具体实现时，需要为 `Intent` 添加相应的类别，并处理返回的 Uri 以提取图片的文件路径。此方法适用于需要从用户相册中选择图片的应用场景，能够确保兼容性和用户体验。 ... [详细]

蜡笔小新 2024-11-06 11:02:36
int
Python 字符串处理全解：常用操作与技巧汇总

本文全面解析了 Python 中字符串处理的常用操作与技巧。首先介绍了如何通过 `s.strip()`, `s.lstrip()` 和 `s.rstrip()` 方法去除字符串中的空格和特殊符号。接着，详细讲解了字符串复制的方法，包括使用 `sStr1 = sStr2` 进行简单的赋值复制。此外，还探讨了字符串连接、分割、替换等高级操作，并提供了丰富的示例代码，帮助读者深入理解和掌握这些实用技巧。 ... [详细]

蜡笔小新 2024-11-10 09:01:29
int
Linux 环境下多线程编程实战案例分析

在 Linux 环境下，多线程编程是实现高效并发处理的重要技术。本文通过具体的实战案例，详细分析了多线程编程的关键技术和常见问题。文章首先介绍了多线程的基本概念和创建方法，然后通过实例代码展示了如何使用 pthreads 库进行线程同步和通信。此外，还探讨了多线程程序中的性能优化技巧和调试方法，为开发者提供了宝贵的实践经验。 ... [详细]

蜡笔小新 2024-11-08 13:02:21
int
深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例

深入解析 Android 中 EditText 的 getLayoutParams 方法及其代码应用实例 ... [详细]

蜡笔小新 2024-11-07 20:50:46
range
如何在C#中通过选择ComboBox项从MySQL数据库中检索数据值

本文探讨了如何在C#应用程序中通过选择ComboBox项从MySQL数据库中检索数据值。具体介绍了在事件处理方法 `comboBox2_SelectedIndexChanged` 中可能出现的常见错误，并提供了详细的解决方案和优化建议，以确保数据能够正确且高效地从数据库中读取并显示在界面上。此外，还讨论了连接字符串的配置、SQL查询语句的编写以及异常处理的最佳实践，帮助开发者避免常见的陷阱并提高代码的健壮性。 ... [详细]

蜡笔小新 2024-11-07 19:18:29
substring
详解Android连接MySQL数据库的操作流程及技术要点

在Android应用开发中，实现与MySQL数据库的连接是一项重要的技术任务。本文详细介绍了Android连接MySQL数据库的操作流程和技术要点。首先，Android平台提供了SQLiteOpenHelper类作为数据库辅助工具，用于创建或打开数据库。开发者可以通过继承并扩展该类，实现对数据库的初始化和版本管理。此外，文章还探讨了使用第三方库如Retrofit或Volley进行网络请求，以及如何通过JSON格式交换数据，确保与MySQL服务器的高效通信。 ... [详细]

蜡笔小新 2024-11-07 19:11:13
range
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
window
深入解析Ajax的工作机制及其在现代Web开发中的应用

本文深入探讨了Ajax的工作机制及其在现代Web开发中的应用。Ajax作为一种异步通信技术，改变了传统的客户端与服务器直接交互的模式。通过引入Ajax，客户端与服务器之间的通信变得更加高效和灵活。文章详细分析了Ajax的核心原理，包括XMLHttpRequest对象的使用、数据传输格式（如JSON和XML）以及事件处理机制。此外，还介绍了Ajax在提升用户体验、实现动态页面更新等方面的具体应用，并讨论了其在当前Web开发中的重要性和未来发展趋势。 ... [详细]

蜡笔小新 2024-11-07 14:11:10
int
并发编程入门：初探多任务处理技术

并发编程入门：探索多任务处理技术并发编程是指在单个处理器上高效地管理多个任务的执行过程。其核心在于通过合理分配和协调任务，提高系统的整体性能。主要应用场景包括：1) 将复杂任务分解为多个子任务，并分配给不同的线程，实现并行处理；2) 通过同步机制确保线程间协调一致，避免资源竞争和数据不一致问题。此外，理解并发编程还涉及锁机制、线程池和异步编程等关键技术。 ... [详细]

蜡笔小新 2024-11-06 15:23:50
int
Python 字符串处理技巧：查找、复制、替换、删除、截取、连接、比较、包含及大小写转换

本文详细介绍了 Python 中字符串处理的各种技巧，包括查找、复制、替换、删除、截取、连接、比较、包含检测及大小写转换等操作。特别强调了如何使用 `strip()`、`lstrip()` 和 `rstrip()` 方法去除字符串中的空格和特殊符号，以及如何通过简单的赋值语句实现字符串的复制。此外，还提供了丰富的示例代码，帮助读者更好地理解和应用这些技巧。 ... [详细]

蜡笔小新 2024-11-06 11:19:34
substring
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54

QJ974

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章