当前位置: 开发笔记 > 编程语言 > 正文

PHP写微信公众号文章页采集方法_php实例

作者：中国中国NO1 | 来源：互联网 | 2023-05-18 03:45

现在的微信的用户是越来越多了当然会关注很多微信公众号了，微信公众号中的文章也可见是很长看的，今天就给大家分析一下如何用PHP写出采集微信公众号文章的方法以及代码详细讲解，让我们一起来看看吧！通过

现在的微信的用户是越来越多了当然会关注很多微信公众号了，微信公众号中的文章也可见是很长看的，今天就给大家分析一下如何用PHP写出采集微信公众号文章的方法以及代码详细讲解，让我们一起来看看吧！

通过搜狗搜索采集公众号历史消息有几个问题：

1、有验证码；

2、历史消息列表只有最近10条群发内容；

3、文章地址是有有效期的；

4、据说批量采集还要换ip；

通过我前面文章的方法就没有这些问题，虽然采集系统搭建不如传统采集器写个规则去爬就可以了那么简单。但是一次搭建好之后批量采集的效率还是可以的。而且采集的文章地址是永久有效的，并且可以采集到一个公众号所有的历史消息。
我们还是从一个公众号文章的链接地址开始看：

1、从微信右上角菜单复制到的链接地址：

http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2、历史消息列表中获取到的地址：

http://mp.weixin.qq.com/s?biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

3、完整的真实地址：

https://mp.weixin.qq.com/s?biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fOntScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

以上这3个地址是同一篇文章的地址，在不同位置获取到就得到了完全不同的3个结果。

和历史消息页一样，微信有一套自动补充参数的机制。第一个地址是复制链接得到的，看起来是一个伪装的编码。其实没什么用我们不做考虑了。第二个地址是通过前面文章介绍的方法，从历史消息的json文章列表中获得到的链接地址，我们就是可以将这个地址保存到数据库中。之后就可以通过这个地址从服务器获取到文章内容。而第三个链接补充了参数之后，目的是为了让文章页面中的阅读量js可以获取到阅读量点赞量的json结果而加上的参数。我们前面文章的方法中因为文章页面被客户端打开显示了出来，因为有了这些参数，文章页面中的js就去自动获取阅读量了，所以我们才能通过代理服务获取到这篇文章的阅读量。

这篇文章的内容就是以通过本专栏前面文章介绍的方法已经获取到了大量微信文章的基础上，详细研究如何获取到文章内容和其它一些有用的信息的方法。

（我的数据库中保存的文章列表，一部分字段）

1、获取文章源代码：

通过php的函数file_get_content()就可以将文章源代码读取到变量中。微信文章的源代码因为可以从浏览器中打开所以我就不在这里粘贴了，以免浪费页面空间。

2、源代码中有用的信息：

1）原文内容：

原文内容是包含在一个

标签中的，通过php代码获取：

(.*)#com搞(%代@[email protected]&搞gaodaima代码ir)) {  mkdir($cache_dir);  chmod($cache_dir,0777);}$file = fopen($filename, "w");fwrite($file, $content);fclose($file);?>

以上代码是一个标准的php建立文件夹保存文件的代码，大家可以根据自己的实际情况安排保存方法。

在这之后我们就可以在自己的服务器上得到一个html文件，内容就是公众号的文章内容。我们可以从浏览器中打开看一下。这时你也许会发现图片防盗链了！无法正常显示！包括数据库中保存的文章封面图，公众号的头像都是防盗链的。

别急，这个问题很好解决，只需要将图片也保存到自己的服务器，无非是将来会占用自己的服务器空间和带宽。

图片防盗链的原理是当图片在网页中显示的时候，图片服务器会检测到引用这张图片的服务器域名，当发现服务器域名不包含http://qq.com或http://qpic.cn的时候就会被替换成防盗链图片。

但是如果检测不到引用页面的域名就会正常显示，所以我们通过php的函数file_get_content()就可以将图片的二进制代码获取过来，然后根据自己的想法起个文件名保存到自己的服务器上。在这里再介绍一个保存图片的方法，我目前使用了腾讯云的“万象优图”，通过它们提供的api将图片保存到云空间，这样的好处是读取图片时直接在图片的链接地址加上希望得到的图片尺寸大小参数，就可以直接得到一张缩略图。比存在自己的服务器方便得多。阿里云也应该有同样的产品，好像名叫对象存储。

另外，我采集公众号内容的目的是制作成一个新闻app，在app中将html代码显示出来之后，因为app同样没有域名，防盗链服务器也同样不会认为图片被盗链了。这样就可以直接显示图片出来。

以上就是我总结的公众号文章内容的采集与存储方法，希望能够帮到你。

php

微信

编程

搜狗搜索

验证码

ip

http

chat

https

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

io
adfs是什么_培训与开发的概念

adfs是什么_培训与开发的概念（如您转载本文，必须标明本文作者及出处。如有任何疑问请与我联系me@nap7.com）ADFS相关开发技术的中文资料相对匮乏，之前在弄这个东西的时候 ... [详细]

蜡笔小新   2023-10-17 17:14:18

get
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新   2023-12-13 17:08:24

post
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新   2023-12-14 19:10:25

get
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新   2023-12-14 16:19:10

get
阿里云物联网 .NET Core 客户端 | CZGL.AliIoTClient：4. 设备上报属性

阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]

蜡笔小新   2023-12-14 12:40:20

php
Mac OS 升级到11.2.2 Eclipse打不开了，报错Failed to create the Java Virtual Machine

本文介绍了在Mac OS升级到11.2.2版本后，使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题，并提供了解决方法。 ... [详细]

蜡笔小新   2023-12-14 12:01:13

get
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新   2023-12-14 03:24:19

get
eclipse学习（第三章：ssh中的Hibernate）——11.Hibernate的缓存（2级缓存，get和load）

本文介绍了eclipse学习中的第三章内容，主要讲解了ssh中的Hibernate的缓存，包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]

蜡笔小新   2023-12-14 00:31:35

copy
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新   2023-12-13 20:24:11

get
页面请求方法参数最长_关于 HTTP GET/POST 请求参数长度最大值的一个理解误区

http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的，最大不能超过XX ... [详细]

蜡笔小新   2023-12-13 19:20:03

php
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新   2023-12-13 19:12:25

get
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新   2023-12-13 14:20:23

get
VG浏览器是免费的吗 VG浏览器常见问题汇总

VG浏览器是免费的吗VG浏览器常见问题汇总。现在，不少人都在使用VG浏览器。但是，有些用户在使用VG浏览器过程中，也是碰到不少问题。今天，小编给大家带来VG浏览器常见问题大汇总。想 ... [详细]

蜡笔小新   2023-10-17 18:18:09

php
【Python 爬虫】破解按照顺序点击验证码(非自动化浏览器)

#请求到验证码base64编码json_img_datajson_raw.get(Vimage)#获取到验证码编码 #保存验证码图片到本地defbase64_to_img(bstr ... [详细]

蜡笔小新   2023-10-17 11:36:05

php
常规反爬复习总结

一.常见基于身份识别进行反爬1通过headers字段来反爬headers中有很多字段，这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫1.1通过headers中的User-A ... [详细]

蜡笔小新   2023-10-17 11:32:47

中国中国NO1

这个家伙很懒，什么也没留下！

Tags | 热门标签

md5

sum

byte

python2

buffer

node.js

js

object

io

range

数组

const

hashset

post

copy

golang

shell

char

function

import

heatmap

instance

split

substring

cSharp

tags

get

bash

scala

php

RankList | 热门文章

1Java 数据结构与算法系列精讲之汉诺塔

2【XXE】XXE漏洞攻击与防御

3安装flume

4VMware虚拟化上安装F5负载均衡系统（BIGIP LTM）

5vue项目上线打包移除console.log

6约瑟夫问题php实现,php面试题中的约瑟夫环

7厚爱|惊喜_CSDN定制T恤等你来拿，《新程序员》福利来袭！

8Android 修改屏幕亮度方案

9TeamViewer提前终止与曼联的球衣广告赞助协议

10csharp高级练习题:简单加密＃3 转动比特【难度：3级】景越C#经典编程题库,不同难度C#练习题，适合自学C#的新手进阶训练

11ccf线性分类器

12数字化转型_余晓晖：工业互联网是实现数字化转型的路径和方法论

13堆和堆排序

14angular ngconent如何设置投影进来子组件数据？

15Mybatis报错java.io.IOException:Couldnotfindresourcemybatisconfig.xml