热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

爬虫手机App——数据采集小攻略

爬虫手机App数据采集小攻略最近帮朋友研究爬虫软件,抓取手机App的资源,想总结一下爬虫手机App资源的小套路,翻到这哥们总结的不错,就不重复造轮子了!下面请看?↓手机App的采集
爬虫手机App数据采集小攻略

最近帮朋友研究爬虫软件,抓取手机App的资源,想总结一下爬虫手机App资源的小套路,翻到这哥们总结的不错,就不重复造轮子了!下面请看?↓

手机App的采集其实跟web采集原理是一样的,不一样的地方在于需要通过电脑端去监听app发送和接收的包,其他对包的分析和编写采集代码跟web端相同。

准备工具

分析工具:

  1. fiddler (app听包)
  2. postman (url测试)

编码工具:

  1. httpClient or OKHttpClient (网络请求)
  2. Jsoup(html解析)

听包设置

使用fiddler来监听app的包。需要先设置代理,将手机和电脑连到同一个局域网中。然后在手机上设置代理服务器,该服务器就是安装fiddler的电脑。
第一步就是设置fiddler来监听手机发包

启动Fiddler,打开菜单栏中的 Tools > Fiddler Options,打开“Fiddler Options”对话框。

《爬虫手机App——数据采集小攻略》

在Fiddler Options”对话框切换到“Connections”选项卡,然后勾选“Allow romote computers to connect”后面的复选框,然后点击“OK”按钮。

《爬虫手机App——数据采集小攻略》

 

以IOS为例,点击图片中标注的感叹号进入网络连接界面

《爬虫手机App——数据采集小攻略》

 

点击配置代理,将代理设为手动

《爬虫手机App——数据采集小攻略》

 

在ip栏输入电脑的ip,将端口设为8888

《爬虫手机App——数据采集小攻略》

 

设置完之后,手机就可以通过电脑上网,同时fiddler能监听到app的数据收发。

Https请求的听包设置

Https请求涉及到加密问题,fiddler需要设置https,手机也需要下载一个fiddler的https的认证证书,才能通过fiddler来监听https的请求。

fiddler设置HTTPS,还是在Option里面,打开HTTPS配置项,勾选“CaptureHTTPS CONNECTs”,同时勾选“Decrypt HTTPS traffic”,弹出的对话框选择是(首次点击会弹出是否信任fiddler证书和安全提示,直接点击yes就行)

《爬虫手机App——数据采集小攻略》

 

手机通过浏览器访问你电脑端的ip地址,我的就是192.168.20.157:8888,点击图中标注部分来下载证书。

《爬虫手机App——数据采集小攻略》

下载完证书之后需要激活证书,IOS在通用->关于本机->证书信任设置中激活。

获取url

当设置完成之后,打开手机App,正常情况下,fiddler就能显示出手机app的请求列表了。如下图所示

《爬虫手机App——数据采集小攻略》

 

点击一条url,会在右侧显示该url的详细信息

《爬虫手机App——数据采集小攻略》

 

当拿到需要的url之后,就可以打开PostMan来测试这条URL来看看是否还需要其他参数和查看返回的格式化内容。

《爬虫手机App——数据采集小攻略》

 

另外一个偷懒的办法来生成获取内容的编码,PostMan也做了。点击发送按钮下的code,按照图示选择,将postMan生成的网络请求代码粘贴到你的采集代码中,前提是你的项目中引入了OKHttpClient包

《爬虫手机App——数据采集小攻略》

 

生成的代码,代码中可能有参数是需要动态调整的,那就不能写死了。该方法不做推荐,灵活使用

《爬虫手机App——数据采集小攻略》

 

这里不涉及到防爬策咯,那么剩下的工作就是编码了。


推荐阅读
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了常用#免费%代理IP库&整理*收藏——实时@更新(大概)相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Skywalking系列博客1安装单机版 Skywalking的快速安装方法
    本文介绍了如何快速安装单机版的Skywalking,包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]
  • Centos7.6安装Gitlab教程及注意事项
    本文介绍了在Centos7.6系统下安装Gitlab的详细教程,并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时,还强调了使用阿里云服务器时的特殊配置需求,以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]
  • 本文介绍了使用postman进行接口测试的方法,以测试用户管理模块为例。首先需要下载并安装postman,然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时,可以进行异常测试,包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • Webmin远程命令执行漏洞复现及防护方法
    本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法,同时提供了防护方法。漏洞存在于Webmin的找回密码页面中,攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外,还指出了参考链接中的数据包不准确的问题,并解释了漏洞触发的条件。最后,给出了防护方法以避免受到该漏洞的攻击。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 本文分享了一位Android开发者多年来对于Android开发所需掌握的技能的笔记,包括架构师基础、高级UI开源框架、Android Framework开发、性能优化、音视频精编源码解析、Flutter学习进阶、微信小程序开发以及百大框架源码解读等方面的知识。文章强调了技术栈和布局的重要性,鼓励开发者做好学习规划和技术布局,以提升自己的竞争力和市场价值。 ... [详细]
  • Python入门后,想要从事自由职业可以做哪方面工作?1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]
  • 软件测试对于减少程序BUG有多大帮助?有经验的程序员通常认为测试与代码同等重要,测试可以减少代码变更或扩展的不确定性。测试应该方便阅读简单且能快速运行 ... [详细]
  • Retrofit+Rxjava+OkHttp
    为什么80%的码农都做不了架构师?参考:http:duanyytop.github.io20160806Retrofit%E7%94%A8%E6% ... [详细]
  • 09 性能优化网络优化
    如何优化一个网络请求呢?相信大家在面试的时候可能会被问到这个问题。今天我其实就是讲述下我知道的一些简单的优化方式,可以帮助大家在面试的过程中得到点基础分数。 ... [详细]
  • Postman 调试 WebService
    Postman调试WebServiceWebServicePostman设置Headers请求头参数Body请求体传参返回结果WebService天气预报Web服务http:ww ... [详细]
  • 美团Android 岗3次挂了,这次终于成功拿下!
    美团Android岗3次挂了,这次终于成功拿下!-面试流程自我介绍回答问题————(详情看下面的攻略)前面会问你很多技术问题,从简单到难,直到问到你打不出来就会又问其他部分的,也是 ... [详细]
author-avatar
沈达浪认_972
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有