当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:Python网络爬虫与信息提取（中国大学mooc）

作者：落单鸟人 | 来源：互联网 | 2023-09-13 19:33

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python网络爬虫与信息提取（中国大学mooc）相关的知识，希望对你有一定的参考价值。目录

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python网络爬虫与信息提取（中国大学mooc）相关的知识，希望对你有一定的参考价值。

目录

目录

Python网络爬虫与信息提取

淘宝商品比价定向爬虫

目标获取淘宝搜索页面的信息

理解淘宝的搜索接口翻页的处理

技术路线requests-refootnote

代码如下

股票数据定向爬虫

列表内容

爬取网站原则

代码如下

代码优化

Python网络爬虫与信息提取

淘宝商品比价定向爬虫

股票数据定向爬虫

1. 淘宝商品比价定向爬虫

功能描述

目标：获取淘宝搜索页面的信息

理解：淘宝的搜索接口翻页的处理

技术路线：requests-re[^footnote].

代码如下：

#CrowTaobaoPrice.py
import requests
import re
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def parsePage(ilt, html):
try:
plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html)
tlt = re.findall(r‘\"raw_title\"\:\".*?\"‘,html)
for i in range(len(plt)):
price = eval(plt[i].split(‘:‘)[1])
title = eval(tlt[i].split(‘:‘)[1])
ilt.append([price , title])
except:
print("")
def printGoodsList(ilt):
tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("序号", "价格", "商品名称"))
count = 0
for g in ilt:
count = count + 1
print(tplt.format(count, g[0], g[1]))
def main():
goods = ‘书包‘
depth = 3
start_url = ‘https://s.taobao.com/search?q=‘ + goods
infoList = []
for i in range(depth):
try:
url = start_url + ‘&s=‘ + str(44*i)
html = getHTMLText(url)
parsePage(infoList, html)
except:
continue
printGoodsList(infoList)
main()

流程图：
步骤1：提交商品搜索请求，循环获取页面
步骤2：对于每个页面，提取商品名称和价格信息
步骤3：将信息输出到屏幕上

开始提交商品搜索请求，循环获取页面对于每个页面，提取商品名称和价格信息将信息输出到屏幕上结束

2. 股票数据定向爬虫

技术分享

1. 列表内容

功能描述
目标：获取上交所和深交所所有股票的名称和交易信息
输出：保存到文件中
技术路线：requests-bs4-re

新浪股票：http://finance.sina.com.cn/stock/
百度股票：https://gupiao.baidu.com/stock/

2.爬取网站原则

选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有Robots协议限制
选取方法：浏览器F12，源代码查看等
选取心态：不要纠结于某个网站，多找信息源尝试

程序结构如下

开始步骤1：从东方财富网获取股票列表步骤2：根据股票列表逐个到百度股票获取个股信息步骤3：将结果存储到文件结束

代码如下

#CrawBaiduStocksA.py
import requests
from bs4 import BeautifulSoup
import traceback
import re
def getHTMLText(url):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def getStockList(lst, stockURL):
html = getHTMLText(stockURL)
soup = BeautifulSoup(html, ‘html.parser‘)
a = soup.find_all(‘a‘)
for i in a:
try:
href = i.attrs[‘href‘]
lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
except:
continue
def getStockInfo(lst, stockURL, fpath):
for stock in lst:
url = stockURL + stock + ".html"
html = getHTMLText(url)
try:
if html=="":
continue
infoDict = {}
soup = BeautifulSoup(html, ‘html.parser‘)
stockInfo = soup.find(‘div‘,attrs={‘class‘:‘stock-bets‘})
name = stockInfo.find_all(attrs={‘class‘:‘bets-name‘})[0]
infoDict.update({‘股票名称‘: name.text.split()[0]})
keyList = stockInfo.find_all(‘dt‘)
valueList = stockInfo.find_all(‘dd‘)
for i in range(len(keyList)):
key = keyList[i].text
val = valueList[i].text
infoDict[key] = val
with open(fpath, ‘a‘, encoding=‘utf-8‘) as f:
f.write( str(infoDict) + ‘\n‘ )
except:
traceback.print_exc()
continue
def main():
stock_list_url = ‘http://quote.eastmoney.com/stocklist.html‘
stock_info_url = ‘https://gupiao.baidu.com/stock/‘
output_file = ‘D:/BaiduStockInfo.txt‘
slist=[]
getStockList(slist, stock_list_url)
getStockInfo(slist, stock_info_url, output_file)
main()

代码优化

1.编码识别优化
2.增加动态进度显示

优化后代码如下

import requests
from bs4 import BeautifulSoup
import traceback
import re
def getHTMLText(url, code="utf-8"):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = code
return r.text
except:
return ""
def getStockList(lst, stockURL):
html = getHTMLText(stockURL, "GB2312")
soup = BeautifulSoup(html, ‘html.parser‘)
a = soup.find_all(‘a‘)
for i in a:
try:
href = i.attrs[‘href‘]
lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
except:
continue
def getStockInfo(lst, stockURL, fpath):
count = 0
for stock in lst:
url = stockURL + stock + ".html"
html = getHTMLText(url)
try:
if html=="":
continue
infoDict = {}
soup = BeautifulSoup(html, ‘html.parser‘)
stockInfo = soup.find(‘div‘,attrs={‘class‘:‘stock-bets‘})
name = stockInfo.find_all(attrs={‘class‘:‘bets-name‘})[0]
infoDict.update({‘股票名称‘: name.text.split()[0]})
keyList = stockInfo.find_all(‘dt‘)
valueList = stockInfo.find_all(‘dd‘)
for i in range(len(keyList)):
key = keyList[i].text
val = valueList[i].text
infoDict[key] = val
with open(fpath, ‘a‘, encoding=‘utf-8‘) as f:
f.write( str(infoDict) + ‘\n‘ )
count = count + 1
print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
except:
count = count + 1
print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
continue
def main():
stock_list_url = ‘http://quote.eastmoney.com/stocklist.html‘
stock_info_url = ‘https://gupiao.baidu.com/stock/‘
output_file = ‘D:/BaiduStockInfo.txt‘
slist=[]
getStockList(slist, stock_list_url)
getStockInfo(slist, stock_info_url, output_file)
main()

来自
Python网络爬虫与信息提取
中国大学mooc
http://www.icourse163.org/learn/BIT-1001870001?tid=1001962001#/learn/content?type=detail&id=1002699548&cid=1003101008

推荐阅读

utf-8
（7）Python爬虫——爬取豆瓣电影Top250

利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Exce ... [详细]

蜡笔小新 2024-11-13 11:35:24
import
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
list
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
bit
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
utf-8
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
ip
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
ip
在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解

在PHP中如何正确调用JavaScript变量及定义PHP变量的方法详解 ... [详细]

蜡笔小新 2024-11-11 17:28:29
controller
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
utf-8
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
install
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
ip
DNS服务器证书与SSL证书：IP地址、域名注册、查询及CDN加速技术详解

在配置Nginx的SSL证书后，虽然HTTPS访问能够正常工作，但HTTP请求却会遇到400错误。本文详细解析了这一问题，并提供了Nginx配置的具体示例。此外，还深入探讨了DNS服务器证书、SSL证书的申请与安装流程，以及域名注册、查询方法和CDN加速技术的应用，帮助读者全面了解相关技术细节。 ... [详细]

蜡笔小新 2024-11-10 08:22:07
merge
ASP.NET 中操作 Excel 的常见方法和属性

本文介绍了如何在 ASP.NET 中设置 Excel 单元格格式为文本，获取多个单元格区域并作为表头，以及进行单元格合并、赋值、格式设置等操作。 ... [详细]

蜡笔小新 2024-11-13 19:46:18
ip
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
ip
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
ip
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51