当前位置: 开发笔记 > 后端 > 正文

叶子圣第二次作业

作者：Andyxiesz | 来源：互联网 | 2023-08-27 11:04

叶子圣-第二次作业这个作业属于哪个课程https:edu.cnblogs.comcampusfzzcxyZhichengSoftengineeringPracticeFclass这

叶子圣-第二次作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/fzzcxy/ZhichengSoftengineeringPracticeFclass/
这个作业要求在哪里 https://edu.cnblogs.com/campus/fzzcxy/ZhichengSoftengineeringPracticeFclass/homework/12532
这个作业的目标 <爬虫>
Github 地址 https://gitee.com/yezisheng0614/zhicheng-soft/commits/master

这个作业属于哪个课程	https://edu.cnblogs.com/campus/fzzcxy/ZhichengSoftengineeringPracticeFclass/
这个作业要求在哪里	https://edu.cnblogs.com/campus/fzzcxy/ZhichengSoftengineeringPracticeFclass/homework/12532
这个作业的目标	<爬虫>
Github 地址	https://gitee.com/yezisheng0614/zhicheng-soft/commits/master

一、准备工作

安装python：https://www.python.org/ftp/python/3.10.2/python-3.10.2-amd64.exe

安装pycharm：http://www.jetbrains.com/pycharm/download/#section=windows

安装fiddle

二、爬虫实现思路

对访问的网页使用fiddle进行抓包

爬取到的数据使用python进行解析

三、项目开始

一、朴朴数据
- 1.使用fiddle抓取数据
  - 查看分析fiddle抓取到的所有包，选出所对应的j son，复制链接
- 2.在浏览器中查看所复制的链接
  - 分析j son中所需要的数据，挑选出来，如：
    1）字典中的“price”对应我们需要的价格
    2）“market_price”就是我们需要的原价格

3、Python编程
- 使用python对我们挑选出的数据进行分析：
  1）将j son的头文件（User-Agent）复制出来放在一个变量中，后面对其进行请求时有用
  2）将请求的链接放在一个变量中，使用 requests.get() 对链接进行请求前需要导入requests包（第一次使用python没有导入对应的包，需要对其导包，我查阅了资料后才明白：pycharm导包）
  3）根据刚才在网页中所需要挑选出来的数据（一组键值对），因为j son 内是使用字典进行数据存储，所以我使用键值对将所需数据取出存入变量中，之后以一定的格式打印输出
  headers = { # 浏览器类型 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 ' 'Safari/537.36 MicroMessenger/7.0.9.501 NetType/WIFI MiniProgramEnv/Windows WindowsWechat ' } url = 'https://j1.pupuapi.com/client/product/storeproduct/detail/4dcdeca2-f5a3-4be8-9e2f-e099889a23a0/81435282-9e9e' \ '-4d08-afac-0da2adf73cf7 ' # 对URL地址发送请求 respOnse= requests.get(url, headers=headers).json() data = response['data'] # 需要的数据 name = data['name'] # 名称 spec = data['spec'] # 规格 price = str(data['price'] / 100) # 价格 market_price = str(data['market_price'] / 100) # 原价 cOntent= data['share_content'] # 详细内容 print('---------------商品：' + name + '---------------') print('规格：' + spec) print('价格：' + price) print('原价/折扣价：' + price + "/" + market_price) print('详细内容：' + content + '\n') print('---------------”' + name + '“价格波动---------------') for priceFluctuation in range(1, 5): # 多次请求查看价格波动 respOnse= requests.get(url, headers=headers).json() price = str(data['price'] / 100) print('当前时间为' + datetime.datetime.now().strftime('%Y-%m-%d %H:%M') + ',价格为' + price)

二、知乎收藏夹
- 一爬再爬：
  主要的思路跟爬取朴朴数据没有区别，唯一的区别是知乎收藏夹链接进入之后里面还有很多收藏的内容，这样解析的难度就大了一点。
  将j son 用fiddle抓出之后进行查看

它的data数组中有5个数组，每个数组都有固定的id值，每个收藏夹链接中间用id值来区分，这样就可以使用for循环对每个收藏夹进行抓包分析。抓了两个收藏夹的j son之后发现每个收藏夹的j son都有共同点： https://www.zhihu.com/api/v4/collections/790324691/items?offset=0&limit=20 https://www.zhihu.com/api/v4/collections/790324691/items?offset=0&limit=20 发现了吗？区别在于中间，中间这个使用的不就是每个收藏夹的data数组中的id值吗？这就可以将id值作为变量进行解析。解析出的j son 文件如下

这次的j son 比以往的相对繁杂，我在翻阅同学们提交的作业中，发现方晓佳同学使用的一个工具令我眼前一亮！于是我上网随机选用一个软件进行解析。

这个工具能够对j son 文件进行树状解析，这大大减轻了我的工作负担，解放了我的双眼！

编程
1. 对爬来的收藏夹 j son 发送请求，然后将获得的数据进行循环得到每个收藏夹 id 和 title 保存在变量中
2. 对每个收藏夹抓到的 j son 再次发送请求，将得到的内容的标题和链接保存在变量中
3. 最后进行输出打印
代码如下：
#请求头 headers = { # 浏览器类型 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/99.0.4844.51 Safari/537.36 ' } #链接 url = 'https://www.zhihu.com/api/v4/people/um-ah/collections?include=data%5B*%5D.updated_time%2Canswer_count' \ '%2Cfollower_count%2Ccreator%2Cdescription%2Cis_following%2Ccomment_count%2Ccreated_time%3Bdata%5B*%5D.creator' \ '.vip_info&offset=0&limit=20 ' #返回请求的json respOnse= requests.get(url=url, headers=headers).json() #得到收藏夹数据 fav_data = response['data'] #循环数据内容 for i in range(0, len(fav_data)): #收藏夹id fav_id = str(fav_data[i]['id']) #收藏夹标题 fav_title = str(fav_data[i]['title']) print('--------------------------' + fav_id + ':' + fav_title + '--------------------------') #请求每个收藏夹 url = 'https://www.zhihu.com/api/v4/collections/' + fav_id + '/items?offset=0&limit=20' respOnse= requests.get(url=url, headers=headers).json() #获取收藏夹内的数据 ques_data = response['data'] #循环打印收藏夹的内容 for j in range(0, len(ques_data)): ques_title = ques_data[j]['content']['question']['title'] ques_url = ques_data[j]['content']['question']['url'] print(ques_title + ":" + ques_url)

三、git commit提交到gitee库中

四、遇到的难题

使用夜神模拟器成功安装证书，但是安装了不生效，进过百度查阅资料，初步判定是安卓9.0的版本不认可用户安装的证书，只允许系统证书生效，果断放弃模拟器，转而使用微信小程序进行抓包。

pycharm进行安装依赖包时，由于使用的是国外源，于是我百度得知使用cmd pip进行安装到pycharm依赖包lib中

五、总结

第一次使用python语言不懂的基础语法，于是我上网搜索了dalao的博客教学学习了基础语法之后对，因为我先前有学习java所以python这门语言很快有了初步理解。但是对于爬虫这一块还是比较陌生，跟着林伟强同学在学习群里发的b站教程学习，了解到了request请求和fiddle抓包结合使用可以有很奇妙的效果！通过这次学习我对于一门新的语言获得到的收获感到十分的兴奋，感受到了python的魅力，我今后会更加深入的学习、理解python！

另外傅老师说的很对，我对于这门课程的时间花费了不止一周2小时了，我估计最起码一周有4天了......0.o

推荐阅读

cookie
Nginx 配置下 Chrome 和 Firefox 对静态资源缓存处理差异

在使用 Nginx 作为服务器时，发现 Chrome 能正确从缓存中读取 CSS 和 JS 文件，而 Firefox 却无法有效利用缓存，导致加载速度显著变慢。 ... [详细]

蜡笔小新 2024-11-21 19:57:43
cookie
阿里云 Aliplayer高级功能介绍(八)：安全播放

如何保障视频内容的安全，不被盗链、非法下载和传播，阿里云视频点播已经有一套完善的机 ... [详细]

蜡笔小新 2024-11-15 18:04:15
ssl
DNS服务器证书与SSL证书：IP地址、域名注册、查询及CDN加速技术详解

在配置Nginx的SSL证书后，虽然HTTPS访问能够正常工作，但HTTP请求却会遇到400错误。本文详细解析了这一问题，并提供了Nginx配置的具体示例。此外，还深入探讨了DNS服务器证书、SSL证书的申请与安装流程，以及域名注册、查询方法和CDN加速技术的应用，帮助读者全面了解相关技术细节。 ... [详细]

蜡笔小新 2024-11-10 08:22:07
ssl
林沁：首次合作任务解析与实践

本次作业旨在解析与实践首次合作任务，涉及课程为福州职业技术学院的《软件工程实践》。通过具体案例分析，探讨团队协作中的关键要素与实施策略，提升学生在实际项目中的合作能力。 ... [详细]

蜡笔小新 2024-11-08 13:50:03
ssl
浅谈 TLS 1.3

本文主要从TLS1.3的优势、部署和时间发展线介绍了这上篇文章回顾：浅谈DHCP协议 ... [详细]

蜡笔小新 2024-10-15 18:01:34
python
我们知道CDN护航了双11十年，却不知道背后有那么多故事

2019独角兽企业重金招聘Python工程师标准摘要：一路走来，文景也曾疑惑过：为什么我们不能把活动的时间跨度拉长到3天࿰ ... [详细]

蜡笔小新 2023-10-14 13:14:53
ci
离线切片的制作和加载方式

作者：xinxin随着GIS行业的发展，越来越大的数据应用于移动端，但相比PC端，同一份大小的数据在移动端显示要比在PC端慢 ... [详细]

蜡笔小新 2023-10-13 13:08:46
ci
Aliyun Linux 如何安装 php7.3 tengine2.3.2 mysql8.0 redis5

这篇文章主要讲解了“AliyunLinux如何安装php7.3tengine2.3.2mysql8.0redis5”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着 ... [详细]

蜡笔小新 2023-10-13 10:26:46
ssl
tengine(nginx)部署文档

环境：centos67安装(1)安装更新所需组件工具#yumupdate#yuminstallgccgcc-c++autoconfautomake(2)准备安装包tengine-2 ... [详细]

蜡笔小新 2023-10-12 11:51:11
ssl
Android 耳返实践 OpenSL ES AAudio Oboe

耳返概述：耳返主要实现监听的功能，在低延时的情况下可以给主播一个比较真实音频的反馈，在演唱会等专业场景里比较常用。技术实现上来说就是要时时的把录制进的音频数据立刻播放出去，当然这个 ... [详细]

蜡笔小新 2023-10-11 16:56:14
cookie
支付宝老的wap支付接口支付交易处理失败，请稍后再试。（ALI14）

支付宝老的wap支付接口支付交易处理失败，请稍后再试。（ALI14）service：alipay.wap.trade.c ... [详细]

蜡笔小新 2023-10-11 16:20:59
cookie
容联云亮相世界人工智能大会发布容犀机器人助力产业数字化转型

2021世界人工智能大会（“WAIC2021”）近日在上海开启，今年大会主题是“智联世界，众智成城”，容联云作 ... [详细]

蜡笔小新 2024-10-17 10:52:39
java
接口有什么作用

接口的作用：1、接口可以使项目分离，所有层都面向接口开发，提高开发效率；2、接口使代码和代码之间的耦合度降低；3、接口可以多实现，多继承，并且一个类除了接口之外 ... [详细]

蜡笔小新 2024-10-15 12:42:09
微服务
高薪技术实战分享Nginx、Tomcat、Spring全家桶、微服务和Docker

前言微服务架构（MicroserviceArchitecture）是一种架构概念，旨在通过将功能分解到各个离散的服务中以实现对解决方案的解耦。你可以将其看作是在架构层次而非获取服务 ... [详细]

蜡笔小新 2024-09-28 19:24:40
java
JSAppSugar —— 基于 JS 语法定义的语法糖方法

jsappsugar,基于,js,语法,定义 ... [详细]

蜡笔小新 2023-10-13 09:58:09