python爬取知乎发现文件存储[txt，json，csv，mongodb]

作者：2012我的语言 | 来源：互联网 | 2023-08-26 23:04

使用XPathimportrequestsimportjsonfromlxmlimportetreefromurllibimportparse遇到不懂的问题？

使用XPath

import requests import json from lxml import etree from urllib import parse &＃39;&＃39;&＃39; 遇到不懂的问题&＃xff1f;Python学习交流群&＃xff1a;821460695满足你的需求&＃xff0c;资料都已经上传群文件&＃xff0c;可以自行下载&＃xff01; &＃39;&＃39;&＃39; url &＃61; &＃39;https://www.zhihu.com/explore&＃39; headers &＃61; {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36&＃39; } html &＃61; requests.get(url, headers&＃61;headers).text # 响应返回的是字符串&＃xff0c;解析为HTML DOM模式 text &＃61; etree.HTML(html) text &＃61; etree.HTML(html) # 返回所有内容的结点位置 node_list &＃61; text.xpath(&＃39;//div[&＃64;class&＃61;"explore-feed feed-item"]&＃39;) items &＃61;{} for node in node_list:# xpath返回的列表&＃xff0c;这个列表就这一个参数&＃xff0c;用索引方式取出来#问题question &＃61; node.xpath(&＃39;.//h2/a&＃39;)[0].text.replace("\n","")# 作者author &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"author-link-line"]/*&＃39;)[0].text#author &＃61; "".join(node.xpath(&＃39;.//*[&＃64;class&＃61;"author-link-line"]//text()&＃39;)).replace("\n","")# 回答answer &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]&＃39;)[0].text#answer &＃61; "".join(node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]/text()&＃39;)).strip()#answer &＃61; str(node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]/text()&＃39;))[1:-1]items &＃61; {"question" : question,"author" : author,"answer" : answer,} with open("explore.json", "a") as f:#f.write(json.dumps(items, ensure_ascii &＃61; False).encode("utf-8") &＃43; "\n")f.write(json.dumps(items, ensure_ascii &＃61; False) &＃43; "\n")

####保存为TXT

import requests from lxml import etree from urllib import parse &＃39;&＃39;&＃39; 遇到不懂的问题&＃xff1f;Python学习交流群&＃xff1a;821460695满足你的需求&＃xff0c;资料都已经上传群文件&＃xff0c;可以自行下载&＃xff01; &＃39;&＃39;&＃39; url &＃61; &＃39;https://www.zhihu.com/explore&＃39; headers &＃61; {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36&＃39; } html &＃61; requests.get(url, headers&＃61;headers).text # 响应返回的是字符串&＃xff0c;解析为HTML DOM模式 text &＃61; etree.HTML(html) text &＃61; etree.HTML(html) # 返回所有内容的结点位置 node_list &＃61; text.xpath(&＃39;//div[&＃64;class&＃61;"explore-feed feed-item"]&＃39;)for node in node_list:# xpath返回的列表&＃xff0c;这个列表就这一个参数&＃xff0c;用索引方式取出来#问题question &＃61; node.xpath(&＃39;.//h2/a&＃39;)[0].text.replace("\n","")# 作者author &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"author-link-line"]/*&＃39;)[0].text#author &＃61; "".join(node.xpath(&＃39;.//*[&＃64;class&＃61;"author-link-line"]//text()&＃39;)).replace("\n","")# 回答answer &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]&＃39;)[0].text#answer &＃61; "".join(node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]/text()&＃39;)).strip()#answer &＃61; str(node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]/text()&＃39;))[1:-1]with open(&＃39;explore.txt&＃39;, &＃39;a&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as file:file.write(&＃39;\n&＃39;.join([question, author, answer]))file.write(&＃39;\n&＃39; &＃43; &＃39;&＃61;&＃39; * 50 &＃43; &＃39;\n&＃39;)

保存为csv

import requests from lxml import etree from urllib import parse import csvurl &＃61; &＃39;https://www.zhihu.com/explore&＃39; headers &＃61; {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36&＃39; } html &＃61; requests.get(url, headers&＃61;headers).text # 响应返回的是字符串&＃xff0c;解析为HTML DOM模式 text &＃61; etree.HTML(html) text &＃61; etree.HTML(html) # 返回所有内容的结点位置 node_list &＃61; text.xpath(&＃39;//div[&＃64;class&＃61;"explore-feed feed-item"]&＃39;)for node in node_list:# xpath返回的列表&＃xff0c;这个列表就这一个参数&＃xff0c;用索引方式取出来#问题question &＃61; node.xpath(&＃39;.//h2/a&＃39;)[0].text.replace("\n","")# 作者author &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"author-link-line"]/*&＃39;)[0].text#author &＃61; "".join(node.xpath(&＃39;.//*[&＃64;class&＃61;"author-link-line"]//text()&＃39;)).replace("\n","")# 回答,为方便展示&＃xff0c;只取部分内容,text[ :10]answer &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]&＃39;)[0].text[ :10]#answer &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]&＃39;)[0].text#answer &＃61; "".join(node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]/text()&＃39;)).strip()#answer &＃61; str(node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]/text()&＃39;))[1:-1]with open(&＃39;explore.csv&＃39;, &＃39;a&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as csvfile:fieldnames &＃61; [&＃39;question&＃39;, &＃39;author&＃39;, &＃39;answer&＃39;]writer &＃61; csv.DictWriter(csvfile, fieldnames&＃61;fieldnames)writer.writeheader()writer.writerow({&＃39;question&＃39;: question, &＃39;author&＃39;: author, &＃39;answer&＃39;: answer})

####读取csv

1 import csv 2 3 with open(&＃39;explore.csv&＃39;, &＃39;r&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as csvfile: 4 reader &＃61; csv.reader(csvfile) 5 for row in reader: 6 print(row)

####保存到MongoDB

import requests from lxml import etree from urllib import parse from pymongo import MongoClientclient &＃61; MongoClient() db &＃61; client[&＃39;explore&＃39;] collection &＃61; db[&＃39;explore&＃39;]url &＃61; &＃39;https://www.zhihu.com/explore&＃39; headers &＃61; {&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36&＃39; } html &＃61; requests.get(url, headers&＃61;headers).text # 响应返回的是字符串&＃xff0c;解析为HTML DOM模式 text &＃61; etree.HTML(html) text &＃61; etree.HTML(html) # 返回所有内容的结点位置 node_list &＃61; text.xpath(&＃39;//div[&＃64;class&＃61;"explore-feed feed-item"]&＃39;)for node in node_list:# xpath返回的列表&＃xff0c;这个列表就这一个参数&＃xff0c;用索引方式取出来#问题question &＃61; node.xpath(&＃39;.//h2/a&＃39;)[0].text.replace("\n","")# 作者author &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"author-link-line"]/*&＃39;)[0].text#author &＃61; "".join(node.xpath(&＃39;.//*[&＃64;class&＃61;"author-link-line"]//text()&＃39;)).replace("\n","")# 回答answer &＃61; node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]&＃39;)[0].text#answer &＃61; "".join(node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]/text()&＃39;)).strip()#answer &＃61; str(node.xpath(&＃39;.//*[&＃64;class&＃61;"content"]/text()&＃39;))[1:-1]items &＃61; {"question" : question,"author" : author,"answer" : answer,} if collection.insert(items):print(&＃39;Saved to Mongo&＃39;)

推荐阅读

include
构建个人博客站点：基于LAMP环境的WordPress部署指南

本文详细介绍如何利用已搭建的LAMP（Linux、Apache、MySQL、PHP）环境，快速创建一个基于WordPress的内容管理系统（CMS）。WordPress是一款流行的开源博客平台，适用于个人或小型团队使用。 ... [详细]

蜡笔小新 2024-12-23 20:23:57
jsp
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
tree
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
require
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
install
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
utf-8
在Android中排列多行小部件 - Arranging Rows of Widgets in Android

本文介绍如何使用布局文件在Android应用中排列多行TextView和Button，使其占据屏幕的特定比例，并提供示例代码以帮助理解和实现。 ... [详细]

蜡笔小新 2024-12-25 10:33:17
utf-8
ArcXML配置文件解析与应用指南

本文介绍了ArcXML配置文件的分类及其在不同服务中的应用，详细解释了地图配置文件的结构和功能，包括其在Image Service、Feature Service以及ArcMap Server中的使用方法。 ... [详细]

蜡笔小新 2024-12-23 20:48:25
utf-8
RosPack 类的深入解析与应用

本文详细介绍了 RosPack 类的功能和用法，探讨了其在 ROS 系统中的重要作用。RosPack 类提供了类似于终端命令 rospack 的功能，能够方便地查询和管理 ROS 包的相关信息。 ... [详细]

蜡笔小新 2024-12-23 19:21:39
controller
Kubernetes 持久化存储与数据卷详解

本文深入探讨 Kubernetes 中持久化存储的使用场景、PV/PVC/StorageClass 的基本操作及其实现原理，旨在帮助读者理解如何高效管理容器化应用的数据持久化需求。 ... [详细]

蜡笔小新 2024-12-23 12:10:22
format
解决Android SDK中aapt错误：无法加载libstdc++.so.6共享库

在创建新的Android项目时，您可能会遇到aapt错误，提示无法打开libstdc++.so.6共享对象文件。本文将探讨该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-23 11:49:11
timestamp
SaltStack部署实践（4）JOB管理与Returns模块

目录一、salt-job管理#job存放数据目录#缓存时间设置#Others二、returns模块配置job数据入库#配置returns返回值信息#mysql安全设置#创建模块相关 ... [详细]

蜡笔小新 2024-12-22 18:53:43
format
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
format
配置Tomcat默认访问项目（通过IP直接访问指定项目）

本文介绍如何将自定义项目设置为Tomcat的默认访问项目，使得通过IP地址访问时直接展示该自定义项目。提供了三种配置方法：修改项目路径、调整配置文件以及使用WAR包部署。 ... [详细]

蜡笔小新 2024-12-23 15:18:01
install
CentOS 6.3 64位系统下搭建LAMP环境并安装PHP 5.5.7

在成功安装和测试MySQL及Apache之后，接下来的步骤是安装PHP。为了确保安全性和配置的一致性，建议在安装PHP前先停止MySQL和Apache服务，并将MySQL集成到PHP中。 ... [详细]

蜡笔小新 2024-12-23 13:08:12
jsp
Java编程的核心要素与关键技术

本文探讨了Java编程的核心要素，特别是其面向对象的特性，并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]

蜡笔小新 2024-12-23 12:58:30

2012我的语言

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章