热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

js爬虫修改代码(爬虫修改网页)

本文目录一览:1、前端js爬虫?2、如何使用n

本文目录一览:


  • 1、前端js爬虫?


  • 2、如何使用nodejs做爬虫程序


  • 3、爬虫如何处理js动态


  • 4、怎么动态修改js中代码?

前端js爬虫?

纯粹前端的js 是不能 跨域 获取 COOKIE的

xxx.com 的js 代码 只能得到 xxx.com的COOKIE,拿不到 yyy.com

当然如果你有办法 在 yyy.com 写入受到自己控制的 html文件,你就可以写代码去拿到 对应的COOKIE,但看你的需求 应该你没有yyy.com 的权限

所以 要结合其他方案,推荐一下两种:

使用 electron ,electron 你可以认为是受js控制的浏览器引擎,所以你可以用它访问 yyy.com 拿到COOKIE,再接着做你的事情

或者 使用 puppeteer(Google 官方出品的 headless Chrome node 库)

Puppeteer 提供了一系列的 API,可以在无 UI 的情况下调用 Chrome 的各种功能,适用于爬虫、自动化处理等各种情景。

如何使用nodejs做爬虫程序

目标

抓取网站上的妹子照片。

第三方模块

superagent : 第三方Nodejs 模块,用于处理服务器和客户端的Http请求。

cheerio : 为服务器端定制的Jquery实现。

思路

通过superagent 获取目标网站的dom

通过cheerio对dom进行解析,获得通用布局。

如果只是爬取一个页面,则可以直接将目标页面的目标元素获取

如果是分页或者多个页面,可以通过循环获得目标链接,进行多次抓取。

实现

这里我们实现一个抓取网站妹子的照片。

目标网址: (对于该网站,并没有恶意攻击的意思.)

代码如下:

//引入第三方和通用模块

var fs = require('fs');//为了将抓取的图片存到本地,使用fs

var superagent = require('superagent');//引入superagent

var cheerio = require('cheerio');//引入jquery实现

 

var filePath = '/node/学习/sis/img/';//定义抓取妹子文件存放路径

var count = 0;//记录抓取数量

var test = [];

//抓取一个页面的实现。

var getOnePage = function(url){

    //因为煎蛋对请求做了限制,所以将COOKIE加上了。如果你要访问该网站的话,可以通过a href=";tn=44039180_cprfenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1d9n1DdmWFhuj-9P1c1nWwb0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EPjRLP1msP1TzPjTYnj0vnjfd" target="_blank" class="baidu-highlight"浏览器/a查找COOKIE 并进行替换

    superagent.get(url)

    .set({

            'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'

    })

    .set('COOKIE','500322148=53; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454117846; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1454119909')

    .set({

        'accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'connection' : 'keep-alive',

        'host' : 'jandan.net'

    })

    .end(function(err,sres){//这里是对获取的dom进行处理

        if(err)throw err;

        var $ = cheerio.load(sres.text);

        var nextUrl = $('.previous-comment-page').attr('href');//获得下一页的链接,为了开始下一次请求

        $('img').each(function(index,ele){//循环该页面的所有图片并得到对应的链接,放进数组。

            var u = '';

            if($(ele).attr('org_src')){

                u = $(ele).attr('org_src');

            }else{

                u = $(ele).attr('src');    

            }

            test.push(u);

            //通过superagent 获取图片数据,并保存到本地。

            superagent.get(u).end(function(err,sres){

                if(err)throw err;

                //根据访问路径获得文件名称

                var ttt = u.split('/');

                var name = ttt[ttt.length-1];

                var path = filePath+name

                fs.writeFile(path,sres.body,function(){

                    count++;

                    console.log(u);

                    console.log('已成功抓取..'+count+'张');

                });

            });

        });

        if(null != nextUrl  '' != nextUrl){ //何时开始下一次请求

            getOnePage(nextUrl);

        }

    }); 

 

};

 

getOnePage('');//触发第一次请求开始

爬虫如何处理js动态

我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的http请求日志。分析页面JS代码来解决。

1、有些页面元素被隐藏起来了-换selector解决

2、有些数据保存在js/json对象中-截取对应的串,分析解决

3、通过api接口调用-伪造请求获得数据

还有一个终极方法

4、使用phantomjs或者casperjs这种headless浏览器

怎么动态修改js中代码?

这里只是片段,如果是一个封装起来的属性,是没法修改的,我们只能将它当做一个对象来修改后,再执行。如:

var a = {

   gConfig:{

       url:"1.jpg",

       id:"gameDiv",

       size:"4*4",

       margin:1,

       opacity:0.8

       }

};

那么修改url和opacity可以写为a.gConfig.url = 'newUrl';a.gConfig.opacity = 0.9;也可以直接修改a.gCOnfig= {}。

直接修改文档内容是不对的。


推荐阅读
  • 在《PHP应用性能优化实战指南:从理论到实践的全面解析》一文中,作者分享了一次实际的PHP应用优化经验。文章回顾了先前进行的一次优化项目,指出即使系统运行时间较长后出现的各种问题和性能瓶颈,通过采用一些通用的优化策略仍然能够有效解决。文中不仅详细阐述了优化的具体步骤和方法,还结合实例分析了优化前后的性能对比,为读者提供了宝贵的参考和借鉴。 ... [详细]
  • 在 Linux 系统中,`/proc` 目录实现了一种特殊的文件系统,称为 proc 文件系统。与传统的文件系统不同,proc 文件系统主要用于提供内核和进程信息的动态视图,通过文件和目录的形式呈现。这些信息包括系统状态、进程细节以及各种内核参数,为系统管理员和开发者提供了强大的诊断和调试工具。此外,proc 文件系统还支持实时读取和修改某些内核参数,增强了系统的灵活性和可配置性。 ... [详细]
  • PyQt5 QTextEdit:深入解析Python中多功能GUI库的应用与实现
    本文详细探讨了 PyQt5 中 QTextEdit 组件在 Python 多功能 GUI 库中的应用与实现。PyQt5 是 Qt 框架的 Python 绑定,提供了超过 620 个类和 6000 个函数及方法,广泛应用于跨平台应用程序开发。QTextEdit 作为其中的重要组件,支持丰富的文本编辑功能,如富文本格式、文本高亮和自定义样式等。PyQt5 的流行性不仅在于其强大的功能,还在于其易用性和灵活性,使其成为开发复杂用户界面的理想选择。 ... [详细]
  • 在MFC开发过程中,利用Windows内置的文件对话框可以显著提高文件操作的效率。本文总结了使用文件对话框进行文件选择和处理的经验,详细介绍了相关API的调用方法和参数设置,如`CFileDialog`类的使用、结构体`OPENFILENAME`的配置以及如何获取选中的文件路径。通过这些技巧,开发者可以快速实现文件的打开、保存等功能,提升应用程序的用户体验。 ... [详细]
  • HTML5 Web存储技术是许多开发者青睐本地应用程序的重要原因之一,因为它能够实现在客户端本地存储数据。HTML5通过引入Web Storage API,使得Web应用程序能够在浏览器中高效地存储数据,从而提升了应用的性能和用户体验。相较于传统的Cookie机制,Web Storage不仅提供了更大的存储容量,还简化了数据管理和访问的方式。本文将从基础概念、关键技术到实际应用,全面解析HTML5 Web存储技术,帮助读者深入了解其工作原理和应用场景。 ... [详细]
  • Cookie是一种小型数据文件,由Web服务器生成并存储在用户的浏览器中。当用户再次访问同一服务器时,这些数据可以被重新读取,为用户提供个性化的体验。Cookie在软件测试中具有重要作用,能够帮助测试人员验证会话管理、用户偏好设置等功能的正确性和安全性。通过深入解析Cookie的工作原理及其在不同场景下的应用,本文旨在为软件测试人员提供全面的技术指导。 ... [详细]
  • 内网渗透技术详解:PTH、PTT与PTK在域控环境中的应用及猫盘内网穿透配置
    本文深入探讨了内网渗透技术,特别是PTH、PTT与PTK在域控环境中的应用,并详细介绍了猫盘内网穿透的配置方法。通过这些技术,安全研究人员可以更有效地进行内网渗透测试,解决常见的渗透测试难题。此外,文章还提供了实用的配置示例和操作步骤,帮助读者更好地理解和应用这些技术。 ... [详细]
  • 如何将PHP文件上传至服务器及正确配置服务器地址 ... [详细]
  • 浅析PHP中$_SERVER[
    在PHP后端开发中,`$_SERVER["HTTP_REFERER"]` 是一个非常有用的超级全局变量,它可以获取用户访问当前页面之前的URL。本文将详细介绍该变量的使用方法及其在不同场景下的应用,如页面跳转跟踪、安全验证和用户行为分析等。通过实例解析,帮助开发者更好地理解和利用这一功能。 ... [详细]
  • 在VC环境中,掌握高效的调试技巧和高级应用对于提高开发效率至关重要。本文详细介绍了如何通过检查程序中的括号匹配来避免常见的语法错误。具体操作包括将光标置于待检测的括号(如大括号 {}、方括号 [] 和圆括号 ())上,系统会自动高亮显示对应的配对括号,从而帮助开发者快速定位和修复问题。此外,文章还探讨了其他实用的调试工具和方法,如断点设置、变量监视和调用堆栈分析,以全面提升代码调试的准确性和效率。 ... [详细]
  • 如何构建和部署C# Windows服务应用程序
    本文介绍了如何从零开始构建和部署C# Windows服务应用程序。通过详细步骤和代码示例,帮助读者掌握创建、配置和部署Windows服务的关键技术点,适合初学者和有经验的开发人员参考。 ... [详细]
  • 浏览器中 W3School JavaScript 的 Location 对象详解
    Location对象是浏览器Window对象的一部分,通过`window.location`属性可访问。它包含了当前页面URL的相关信息,如协议、主机名、路径和查询参数等,对于页面导航和URL操作非常有用。 ... [详细]
  • 在Android平台上利用FFmpeg的Swscale组件实现YUV与RGB格式互转
    本文探讨了在Android平台上利用FFmpeg的Swscale组件实现YUV与RGB格式互转的技术细节。通过详细分析Swscale的工作原理和实际应用,展示了如何在Android环境中高效地进行图像格式转换。此外,还介绍了FFmpeg的全平台编译过程,包括x264和fdk-aac的集成,并在Ubuntu系统中配置Nginx和Nginx-RTMP-Module以支持直播推流服务。这些技术的结合为音视频处理提供了强大的支持。 ... [详细]
  • 微信小程序的核心功能与优势在于其独特的运行环境,区别于传统网页应用,它不依赖于浏览器的BOM和DOM对象,因此无法通过常规的`console.log(window)`或`console.log(document)`获取相关信息。此外,小程序还具备一系列专有特性,如高效的数据绑定、丰富的API接口以及良好的用户交互体验,这些都为开发者提供了更为灵活和强大的开发工具,使得小程序能够更好地适应移动互联网时代的需求。 ... [详细]
  • 深入浅出解析HTTP协议的核心功能与应用
    前言——协议是指预先设定的通信规则,确保双方能够按照既定标准进行有效沟通,从而实现准确的信息交换。例如,驯兽师通过拍手使动物坐下,这实际上是一种预设的协议。本文将详细探讨HTTP协议的核心功能及其广泛应用,解析其在现代网络通信中的重要作用。 ... [详细]
author-avatar
东北的小爷们_366
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有