当前位置: 开发笔记 > 编程语言 > 正文

如何使用python爬虫爬取大学排名信息

作者：老黑_微笑 | 来源：互联网 | 2023-09-12 11:25

这篇文章将为大家详细讲解有关如何使用python爬虫爬取大学排名信息，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有

这篇文章将为大家详细讲解有关如何使用python爬虫爬取大学排名信息，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

2. 这次爬取的网址请搜索“阿凡题”（纯技术讨论）

“阿凡题”（纯技术讨论）

3. 在该网址选择查院校，其他都是默认

如何使用python爬虫爬取大学排名信息 4. 这次爬取的信息主要是下图红框的内容，在浏览器开发者中，点击XHR就可以发现这个接口，接口的内容都有我们需要的信息。

如何使用python爬虫爬取大学排名信息

5. 先构建请求头，请求头直接复制过来了
如何使用python爬虫爬取大学排名信息

# 构建请求头

headers = {

&＃39;Accept&＃39;: &＃39;*/*&＃39;,

&＃39;Accept-Encoding&＃39;: &＃39;gzip, deflate&＃39;,

&＃39;Accept-Language&＃39;: &＃39;zh-CN,zh;q=0.9&＃39;,

&＃39;Connection&＃39;: &＃39;keep-alive&＃39;,

&＃39;contentType&＃39;: &＃39;application/x-www-form-urlencoded; charset=utf-8&＃39;,

&＃39;COOKIE&＃39;: &＃39;cfm-major=true&＃39;,

&＃39;Host&＃39;: &＃39;gaokao.afanti100.com&＃39;,

&＃39;media&＃39;: &＃39;PC&＃39;,

&＃39;Referer&＃39;: &＃39;http://gaokao.afanti100.com/university.html&＃39;,

&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36&＃39;,

&＃39;X-Requested-With&＃39;: &＃39;XMLHttpRequest&＃39;,

}

6. 接下来先请求这条url，通过format方法实现对url的拼接，以此达到翻页的效果，通过查看接口的内容，发现是json格式，大学的信息在data键中的university_lst中，因此我们需要取出这个键，其中university_lst是列表。

如何使用python爬虫爬取大学排名信息

def get_index():

page = 1

while True:

if page > 188:

break

url = &＃39;http://gaokao.afanti100.com/api/v1/universities/?degree_level=0&directed_by=0&＃39; \

&＃39;&university_type=0&location_province=0&speciality=0&page={}&＃39;.format(page)

# page自增一实现翻页

page += 1

# 请求url并返回的是json格式

resp = requests.get(url, headers=headers).json()

# 取出大学所在的键值对

university_lsts = resp.get(&＃39;data&＃39;).get(&＃39;university_lst&＃39;)

if university_lsts:

get_info(university_lsts)

else:

continue

7. 通过上一步取出键值对之后，就可以遍历列表取出我们想要的信息。

def get_info(university_lsts):

# 判断列表是否不为空

if university_lsts:

# 遍历列表取出每个大学的信息

for university_lst in university_lsts:

# 声明一个字典存储数据

data_dict = {}

# 大学名字

data_dict[&＃39;name&＃39;] = university_lst.get(&＃39;name&＃39;)

# 大学排名

data_dict[&＃39;ranking&＃39;] = university_lst.get(&＃39;ranking&＃39;)

# 大学标签

data_dict[&＃39;tag_lst&＃39;] = university_lst.get(&＃39;tag_lst&＃39;)

# 大学重点学科

data_dict[&＃39;key_major_count&＃39;] = university_lst.get(&＃39;key_major_count&＃39;)

# 硕士点数

data_dict[&＃39;graduate_program_count&＃39;] = university_lst.get(&＃39;graduate_program_count&＃39;)

# 博士点数

data_dict[&＃39;doctoral_program_count&＃39;] = university_lst.get(&＃39;doctoral_program_count&＃39;)

# 是否211

data_dict[&＃39;is_211&＃39;] = university_lst.get(&＃39;is_211&＃39;)

# 是否985

data_dict[&＃39;is_985&＃39;] = university_lst.get(&＃39;is_985&＃39;)

# 哪个省

data_dict[&＃39;location_province&＃39;] = university_lst.get(&＃39;location_province&＃39;)

# 哪个城市

data_dict[&＃39;location_city&＃39;] = university_lst.get(&＃39;location_city&＃39;)

# 大学类型

data_dict[&＃39;university_type&＃39;] = university_lst.get(&＃39;university_type&＃39;)

data_list.append(data_dict)

print(data_dict)

8. 最后将信息存储为文件

def save_file():

# 将数据存储为json文件

with open(&＃39;大学排名信息.json&＃39;, &＃39;w&＃39;, encoding=&＃39;utf-8&＃39;) as f:

json.dump(data_list, f, ensure_ascii=False, indent=4)

print(&＃39;json文件保存成功&＃39;)

# 将数据存储为csv文件

# 表头

title = data_list[0].keys()

with open(&＃39;大学排名信息.csv&＃39;, &＃39;w&＃39;, encoding=&＃39;utf-8&＃39;, newline=&＃39;&＃39;) as f:

writer = csv.DictWriter(f, title)

# 写入表头

writer.writeheader()

# 写入数据

writer.writerows(data_list)

print(&＃39;csv文件保存成功&＃39;)

9. 这次爬虫很简单，新手可以用来练练手，全部代码附上

import requests

import json

import csv

# 构建请求头

headers = {

&＃39;Accept&＃39;: &＃39;*/*&＃39;,

&＃39;Accept-Encoding&＃39;: &＃39;gzip, deflate&＃39;,

&＃39;Accept-Language&＃39;: &＃39;zh-CN,zh;q=0.9&＃39;,

&＃39;Connection&＃39;: &＃39;keep-alive&＃39;,

&＃39;contentType&＃39;: &＃39;application/x-www-form-urlencoded; charset=utf-8&＃39;,

&＃39;COOKIE&＃39;: &＃39;cfm-major=true&＃39;,

&＃39;Host&＃39;: &＃39;gaokao.afanti100.com&＃39;,

&＃39;media&＃39;: &＃39;PC&＃39;,

&＃39;Referer&＃39;: &＃39;http://gaokao.afanti100.com/university.html&＃39;,

&＃39;User-Agent&＃39;: &＃39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36&＃39;,

&＃39;X-Requested-With&＃39;: &＃39;XMLHttpRequest&＃39;,

}

# 声明一个列表存储字典

data_list = []

def get_index():

page = 1

while True:

if page > 188:

break

url = &＃39;http://gaokao.afanti100.com/api/v1/universities/?degree_level=0&directed_by=0&＃39; \

&＃39;&university_type=0&location_province=0&speciality=0&page={}&＃39;.format(page)

# page自增一实现翻页

page += 1

# 请求url并返回的是json格式

resp = requests.get(url, headers=headers).json()

# 取出大学所在的键值对

university_lsts = resp.get(&＃39;data&＃39;).get(&＃39;university_lst&＃39;)

if university_lsts:

get_info(university_lsts)

else:

continue

def get_info(university_lsts):

# 判断列表是否不为空

if university_lsts:

# 遍历列表取出每个大学的信息

for university_lst in university_lsts:

# 声明一个字典存储数据

data_dict = {}

# 大学名字

data_dict[&＃39;name&＃39;] = university_lst.get(&＃39;name&＃39;)

# 大学排名

data_dict[&＃39;ranking&＃39;] = university_lst.get(&＃39;ranking&＃39;)

# 大学标签

data_dict[&＃39;tag_lst&＃39;] = university_lst.get(&＃39;tag_lst&＃39;)

# 大学重点学科

data_dict[&＃39;key_major_count&＃39;] = university_lst.get(&＃39;key_major_count&＃39;)

# 硕士点数

data_dict[&＃39;graduate_program_count&＃39;] = university_lst.get(&＃39;graduate_program_count&＃39;)

# 博士点数

data_dict[&＃39;doctoral_program_count&＃39;] = university_lst.get(&＃39;doctoral_program_count&＃39;)

# 是否211

data_dict[&＃39;is_211&＃39;] = university_lst.get(&＃39;is_211&＃39;)

# 是否985

data_dict[&＃39;is_985&＃39;] = university_lst.get(&＃39;is_985&＃39;)

# 哪个省

data_dict[&＃39;location_province&＃39;] = university_lst.get(&＃39;location_province&＃39;)

# 哪个城市

data_dict[&＃39;location_city&＃39;] = university_lst.get(&＃39;location_city&＃39;)

# 大学类型

data_dict[&＃39;university_type&＃39;] = university_lst.get(&＃39;university_type&＃39;)

data_list.append(data_dict)

print(data_dict)

def save_file():

# 将数据存储为json文件

with open(&＃39;大学排名信息.json&＃39;, &＃39;w&＃39;, encoding=&＃39;utf-8&＃39;) as f:

json.dump(data_list, f, ensure_ascii=False, indent=4)

print(&＃39;json文件保存成功&＃39;)

# 将数据存储为csv文件

# 表头

title = data_list[0].keys()

with open(&＃39;大学排名信息.csv&＃39;, &＃39;w&＃39;, encoding=&＃39;utf-8&＃39;, newline=&＃39;&＃39;) as f:

writer = csv.DictWriter(f, title)

# 写入表头

writer.writeheader()

# 写入数据

writer.writerows(data_list)

print(&＃39;csv文件保存成功&＃39;)

def main():

get_index()

save_file()

if __name__ == &＃39;__main__&＃39;:

main()

关于“如何使用python爬虫爬取大学排名信息”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

推荐阅读

int
Python 爬虫实战：知乎美腿图片抓取

本文介绍如何使用Python编写一个简单的爬虫程序，从知乎问题页面抓取美腿图片。环境配置包括Windows 10操作系统，Python语言及其相关库。 ... [详细]

蜡笔小新 2024-12-02 09:30:45
int
CSV 文件的存取

CSV文件介绍CSV（Comma-SeparatedValues），中文通常叫做逗号分割值。CSV文件由任意数目的记录（行& ... [详细]

蜡笔小新 2024-11-30 16:07:22
int
深入理解CSS盒模型与box-sizing属性

本文详细介绍了W3C标准盒模型和IE传统盒模型的区别，探讨了CSS3中box-sizing属性的使用方法及其在布局中的重要性。通过实例分析，帮助读者更好地理解和应用这一关键概念。 ... [详细]

蜡笔小新 2024-12-27 15:01:09
php
高效解决应用崩溃问题！友盟新版错误分析工具全面升级

友盟推出的最新版错误分析工具，专为移动开发者设计，提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态，快速发现并修复错误，显著提升应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-12-26 14:11:47
java
PHP编程语言及其在股市中的应用

本文将深入探讨PHP编程语言的基本概念，并解释PHP概念股的含义。通过详细解析，帮助读者理解PHP在Web开发和股票市场中的重要性。 ... [详细]

蜡笔小新 2024-12-25 15:02:45
php
解决网站乱码问题的综合指南

本文总结了导致网站乱码的常见原因，并提供了详细的解决方案，包括文件编码、HTML元标签设置、服务器响应头配置、数据库字符集调整以及PHP与MySQL交互时的编码处理。 ... [详细]

蜡笔小新 2024-12-25 14:57:54
php
PHP数组平均值计算方法详解

本文详细介绍了如何在PHP中计算数组的平均值，涵盖基本概念、具体实现步骤及示例代码。通过本篇文章，您将掌握使用PHP函数array_sum()和count()来求解数组元素的平均值。 ... [详细]

蜡笔小新 2024-12-25 14:20:56
int
Web前端开发中的HTML与CSS命名规范

作为一名专业的Web前端工程师，掌握HTML和CSS的命名规范是至关重要的。良好的命名习惯不仅有助于提高代码的可读性和维护性，还能促进团队协作。本文将详细介绍Web前端开发中常用的HTML和CSS命名规范，并提供实用的建议。 ... [详细]

蜡笔小新 2024-12-25 11:06:17
java
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
java
递推算法与大数处理

本问题探讨了在特定条件下排列儿童队伍的方法数量。题目要求计算满足条件的队伍排列总数，并使用递推算法和大数处理技术来解决这一问题。 ... [详细]

蜡笔小新 2024-12-23 12:18:55
java
解决C# Windows Forms客户端连接SignalR服务器时出现的错误

在尝试使用C# Windows Forms客户端通过SignalR连接到ASP.NET服务器时，遇到了内部服务器错误（500）。本文将详细探讨问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-21 16:55:52
php
Nginx 配置实现 80 端口到 Tomcat 8080 端口的端口转发详解

本文详细介绍了为何需要进行端口转发，尤其是从标准 HTTP 80 端口到 Tomcat 默认 8080 端口的必要性，以及如何通过 Nginx 实现这一功能。同时，还将探讨 Nginx 在不同场景下的多种端口转发策略。 ... [详细]

蜡笔小新 2024-12-02 10:37:52
java
优化Nginx中PHP-FPM模块配置以提升性能

通过调整Nginx与PHP-FPM之间的配置，可以显著提高Web服务器处理PHP请求的速度和效率。本文将详细介绍如何针对不同的应用场景优化PHP-FPM的各项关键参数。 ... [详细]

蜡笔小新 2024-11-29 11:28:39
java
百度搜索结果链接提取工具 UrlGetter V1.43

该工具专为获取百度搜索引擎的结果页面中的网址链接而设计，能够解析并转换为原始URL。通过正则表达式匹配技术，精准提取网页链接，并提供详细的使用说明和下载资源。 ... [详细]

蜡笔小新 2024-12-24 18:46:35
java
如何在Chrome开发者工具中保留上次的XHR请求记录

本文将详细介绍如何在Chrome浏览器的开发者工具中，像Firebug一样保留和查看上次的XHR（XMLHttpRequest）请求记录。 ... [详细]

蜡笔小新 2024-12-23 14:46:01

老黑_微笑

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章