当前位置: 开发笔记 > 编程语言 > 正文

python爬取数据写入文件_使用Python爬取网页数据，并写入Excel文件

作者：wuyanting67412 | 来源：互联网 | 2023-06-24 01:33

自学Python的时候,在网上看见一篇比较简单的爬虫小项目,于是自己便也想跟着别人的代码来学一下.看着这位博主的代码敲的以下代码,基本上都一致.源代码网站:https:blog.c

自学Python的时候,在网上看见一篇比较简单的爬虫小项目,于是自己便也想跟着别人的代码来学一下.

看着这位博主的代码敲的以下代码,基本上都一致.

源代码网站: https://blog.csdn.net/markleacode/article/details/65639947

第一部分:根据URL进行数据的爬取

# -*-coding:utf-8-*-

import urllib2

import sys

from bs4 import BeautifulSoup

# 写入Excel表需要使用的库

from openpyxl import Workbook

reload(sys)

sys.setdefaultencoding(&＃39;utf-8&＃39;) # 设置系统默认编码

print sys.version # 打印当前版本信息

sys.setdefaultencoding(&＃39;utf-8&＃39;)

# 为了方便翻页将网址代码分成两部分

urlstart &＃61; &＃39;http://my.yingjiesheng.com/index.php/personal/xjhinfo.htm/?page&＃61;&＃39;

urlend &＃61; &＃39;&cid&＃61;&city&＃61;21&word&＃61;&province&＃61;0&schoolid&＃61;&sdate&＃61;&hyid&＃61;0&＃39;

setSQLData &＃61; []

# 爬取数据总页数64,为了练习,就取20页

for i in range(1, 11):

url &＃61; urlstart &＃43; str(i) &＃43; urlend

print &＃39;正在打印:&＃39; &＃43; url;

request &＃61; urllib2.urlopen(url)

html &＃61; request.read()

bs &＃61; BeautifulSoup(html, &＃39;html.parser&＃39;, from_encoding&＃61;&＃39;utf-8&＃39;)

alllist1 &＃61; bs.find_all(&＃39;tr&＃39;, class_&＃61;&＃39;bg0&＃39;)

alllist2 &＃61; bs.find_all(&＃39;tr&＃39;, class_&＃61;&＃39;bg1&＃39;)

alllist &＃61; alllist1 &＃43; alllist2

# 对数据进行处理筛选

for contenttd in alllist:

month &＃61; contenttd.find(&＃39;td&＃39;, width&＃61;&＃39;120&＃39;).text

companyweb &＃61; contenttd.find(&＃39;td&＃39;, width&＃61;&＃39;250&＃39;).find(&＃39;a&＃39;).get(&＃39;href&＃39;)

if &＃39;http&＃39; not in companyweb:

companyweb &＃61; &＃39;http://my.yingjiesheng.com/&＃39; &＃43; str(companyweb)

companyName &＃61; contenttd.find(&＃39;td&＃39;, width&＃61;&＃39;250&＃39;).find(&＃39;a&＃39;).text

school &＃61; contenttd.find(&＃39;td&＃39;, width&＃61;&＃39;250&＃39;).next_sibling.next_sibling.text

classRoom &＃61; contenttd.find(&＃39;td&＃39;, width&＃61;&＃39;250&＃39;).next_sibling.next_sibling.next_sibling.next_sibling.text

row &＃61; [month, companyweb, companyName, school, classRoom]

setSQLData.append(row)#将每条数据再次写入列表

关于爬取数据这一块的代码的书写以及格式和逻辑都还需要继续优化,后边会边学边进行优化.

代码还有很多可优化之处.只做自己学习记录,大神请忽略(如果有可优化的地方,欢迎提出以方便新手的我学习)

第二部分:将爬取到的代码写入Excel文件

# 将数据写入Excel

wb &＃61; Workbook()

# 设置Excel文件名

dest_filename &＃61; &＃39;UserInfoFile.xlsx&＃39;

# 新建一个表

ws1 &＃61; wb.active

# 设置表头

titleList &＃61; [&＃39;时间&＃39;, &＃39;网址&＃39;, &＃39;招聘企业&＃39;, &＃39;学校&＃39;, &＃39;地址&＃39;]

for row in range(len(titleList)):

c &＃61; row &＃43; 1

ws1.cell(row&＃61;1, column&＃61;c, value&＃61;titleList[row])

# 填写表内容

for listIndex in range(len(setSQLData)):

ws1.append(setSQLData[listIndex])

wb.save(filename&＃61;dest_filename)

以上便是本次的代码和输出结果,有很多需要优化的地方,进行简单罗列一下

针对URL的请求,数据的获取,以及获取到数据之后的数据处理筛选,使用Python类库进行优化

以这些方法的功能进行函数封装,创建不用功能的函数进行相互调用来实现.和主函数调用,不同文件调用

Excel文件在写入的时候使用Python进行排版美化展示

推荐阅读

text
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
replace
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
text
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
io
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
plugins
Eclipse 开发环境配置与插件安装指南

本文详细介绍了如何准备和安装 Eclipse 开发环境及其相关插件，包括 JDK、Tomcat、Struts 等组件的安装步骤及配置方法。 ... [详细]

蜡笔小新 2024-12-24 19:47:22
io
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
io
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
io
QBlog开源博客系统：Page_Load生命周期与参数传递优化（第四部分）

本教程将深入探讨QBlog开源博客系统的Page_Load生命周期，并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-28 10:39:53
version
Navicat Premium 15 安装指南及数据库连接配置

本文详细介绍 Navicat Premium 15 的安装步骤及其对多种数据库（如 MySQL 和 Oracle）的支持，帮助用户顺利完成软件的安装与激活。 ... [详细]

蜡笔小新 2024-12-28 10:12:05
io
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
io
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
io
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
io
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
io
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
io
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24

wuyanting67412

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章