使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

作者：sasame | 来源：互联网 | 2023-12-12 19:16

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。

获取https://36kr.com/网站首页所有的新闻

操作步骤&＃xff1a;

1、访问本网站,使用手机方式|检查&＃xff0c;需要ctrl&＃43;F查找你新闻的关键词语

2、找到之后&＃xff0c;你可以查看是在 &＃xff0c;有key:value

3、编写代码&＃xff0c;获取数据

import re import requests import json#头部 headers&＃61;{"userAgent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Mobile Safari/537.36"}#URL路径 url&＃61;"https://36kr.com/" response &＃61; requests.get(url,headers&＃61;headers) str &＃61; response.content.decode() # print(str)#查找,使用正在表达式->取数组的第一个 result&＃61;re.findall("",str)[0] # print(result)#先写入到本地&＃xff0c;再查看 with open("36kr.json","w",encoding&＃61;"utf-8") as f:f.write(result)#加载json转换成python类型 json.loads(result) print(result)

4、可以先写入到本地上&＃xff0c;再通过这个方式来查找是哪里有问题&＃xff1f;

注意&＃xff1a; 往一个文件中写入多个json串&＃xff0c;不再是一个json串&＃xff0c;不能直接读取

一行写一个json串&＃xff0c;按照行来读取

5、效果&＃xff1a;

推荐阅读

web
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
js
一个登陆界面

预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]

蜡笔小新 2024-12-20 09:57:07
list
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
request
Python 爬虫基础教程及代码实例

根据最新发布的《互联网人才趋势报告》，尽管大量IT从业者已转向Python开发，但随着人工智能和大数据领域的迅猛发展，仍存在巨大的人才缺口。本文将详细介绍如何使用Python编写一个简单的爬虫程序，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-26 10:42:40
window
使用JS、HTML5和C3创建自定义弹出窗口

本文介绍如何结合JavaScript、HTML5和C3.js来实现一个功能丰富的自定义弹出窗口。通过具体的代码示例，详细讲解了实现过程中的关键步骤和技术要点。 ... [详细]

蜡笔小新 2024-12-20 21:22:27
js
在Linux系统中配置并启动ActiveMQ

本文详细介绍了如何在Linux环境中安装和配置ActiveMQ，包括端口开放及防火墙设置。通过本文，您可以掌握完整的ActiveMQ部署流程，确保其在网络环境中正常运行。 ... [详细]

蜡笔小新 2024-12-27 14:38:54
bit
Splay Tree 区间操作优化

本文详细介绍了使用Splay Tree进行区间操作的实现方法，包括插入、删除、修改、翻转和求和等操作。通过这些操作，可以高效地处理动态序列问题，并且代码实现具有一定的挑战性，有助于编程能力的提升。 ... [详细]

蜡笔小新 2024-12-26 18:47:12
bit
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
command
并发编程 12—— 任务取消与关闭之 shutdownNow 的局限性

Java并发编程实践目录并发编程01——ThreadLocal并发编程02——ConcurrentHashMap并发编程03——阻塞队列和生产者-消费者模式并发编程04——闭锁Co ... [详细]

蜡笔小新 2024-12-21 12:39:07
command
头条如何抓取和索引网站内容

本文详细介绍了头条搜索引擎对网站内容的抓取、解析及索引过程，探讨了收录量与索引量的区别，并提供了实用工具和技巧来监控网站的收录情况。通过这些信息，网站管理员可以更好地理解搜索引擎的工作机制，优化网站内容以提高其在搜索结果中的可见性。 ... [详细]

蜡笔小新 2024-12-20 22:11:30
web
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07
request
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
main
Java 中重写与重载的区别

本文详细解析了 Java 编程语言中重写（Override）和重载（Overload）的概念及其主要区别，帮助开发者更好地理解和应用这两种多态性机制。 ... [详细]

蜡笔小新 2024-12-20 09:23:33
bit
MySQL Debug 模式的实现与应用

本文详细介绍了如何启用和使用 MySQL 的调试模式，包括编译选项、环境变量配置以及调试信息的解析。通过实际案例展示了如何利用调试模式解决客户端无法连接服务器的问题。 ... [详细]

蜡笔小新 2024-12-19 19:17:32
web
利用Django-Crontab实现Django项目的定时任务管理

本文介绍了如何在Django项目中使用django-crontab库来设置和管理定时任务，包括安装、配置、编写定时任务以及常见问题的解决方案。通过具体实例，帮助开发者快速掌握在Django中实现自动化任务的方法。 ... [详细]

蜡笔小新 2024-12-19 14:51:39

sasame

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章