python爬取防爬虫网站的数据

作者：Young_阳先生 | 来源：互联网 | 2023-09-17 15:31

对于反爬虫的网站，比如天眼查，使用phantomJS和selenium这两个可以很轻松的爬取出来举例来说，在天眼查中搜索百度，然后查看网页源代码，在源代码中查找的时候并不能查找到百度词条

对于反爬虫的网站，比如天眼查，使用phantomJS和selenium这两个可以很轻松的爬取出来

举例来说，在天眼查中搜索百度，然后查看网页源代码，在源代码中查找的时候并不能查找到百度词条，因为它是防爬虫的。

输入的如果是中文的字符串，要注意对中文字符串进行解码，转化成浏览器可以识别的网址形式，

代码如下：(爬取对应的公司名称)

#!/usr/bin/python
#coding: utf-8

from bs4 import BeautifulSoup
from selenium import webdriver
import urllib2

# Zip压缩包解压后exe文件所在的完整的位置
driver = webdriver.PhantomJS(executable_path= r"D:\phantomjs-2.1.1-windows\bin\phantomjs.exe")

def search(keyword):
    # 将手动输入的字符串进行转码
    keyword = keyword.encode("utf-8")
    url_keyword = urllib2.quote(keyword)
    url =  "http://www.tianyancha.com/search?key=%s&checkFrom=searchBox" % url_keyword
    # print(url)
    driver.get(url)

    soup = BeautifulSoup(driver.page_source, "lxml")
    # print(soup)
    soup = soup.find_all("span", {"class" : "ng-binding",  "ng-bind-html" : "node.name | trustHtml"})

    for s in soup:
        # 输出文本的内容
        print s.get_text()

if __name__ == "__main__":
    while True:
        x = raw_input(u"输入字符串：")
        search(x)

推荐阅读

int
selenium 定位方式3css_selector

关于页面元素定位，可以根据id、class、name属性以及link_text。其中id属性是最理想的定位方式，class与name属性， ... [详细]

蜡笔小新 2024-09-28 14:23:38
int
Android Studio 使用BottomNavigationView 实现底部 tabs (一)

一、在androidStudio中实现tabs比较简单，新建项目就可以选择tabs模板进行创建，默认实现tabs功能：直接运行项目就可以看到效果：可以说非常简单，但是我们在实际开发 ... [详细]

蜡笔小新 2024-09-28 19:42:55
int
第38天：Python decimal 模块

by程序员野客在我们开发工作中浮点类型的使用还是比较普遍的，对于一些涉及资金金额的计算更是不能有丝毫误差，Python的decimal模块为浮点型精确计算提供了支持。1简介deci ... [详细]

蜡笔小新 2024-09-28 15:11:40
object
vue开发知识点总结

一、vue介绍Vue.js是一套构建用户界面(UI)的渐进式JavaScript框架，是一个轻量级MVVM（model-view-viewModel&# ... [详细]

蜡笔小新 2024-09-28 13:51:16
express
activiti拿取当前任务的下一个节点

在实际的工作流业务开发中,当用户完成当前用户任务时,需要指定下一个用户任务的审核人。此时我们需要获取下一个节点的一些信息,来确定下一个用户任务的审核人有哪些。在实际工 ... [详细]

蜡笔小新 2024-09-28 13:14:19
tree
根据时间更改网站背景的脚本。热！

我在网上找到了它，并以自己的方式对其进行了自定义；作者的功劳就在那里。实际上，这是一个用于更改背景颜色的脚本，并且在我看来& ... [详细]

蜡笔小新 2024-09-28 12:47:14
int
java 注入为空_@Autowired注入为null问题分析

问题说明最近看到Spring事务,在学习过程中遇到一个很苦恼问题搭建好Spring的启动环境后出现了一点小问题在启动时候却出现[java.lang.NullPointerExcep ... [详细]

蜡笔小新 2024-09-28 11:25:55
object
在Windows应用程序中模拟会话 - Simulating session in a Windows app

Iamworkingonawindowsapplication.IneedtosimulateSession(thatwehaveinawebapp)inthe ... [详细]

蜡笔小新 2024-09-28 08:17:27
web
PNG在IE6下透明问题的解决办法

2019独角兽企业重金招聘Python工程师标准做Web开发的朋友一定都知道PNG是一个相当不错的图片格式，但是这个好的格式却在IE6时代造成了麻烦࿰ ... [详细]

蜡笔小新 2024-09-27 21:02:19
int
Android开发之Notification（实现消息弹窗、提示音以及点击事件）

文章目录通知管理器通知渠道通知发送通知更多效果添加点击事件取消消息通知管理器通知管理器（NotificationManager）类是一个通知管理器&# ... [详细]

蜡笔小新 2024-09-27 19:48:48
io
完美解决ueditor和neditor上传图片(视频)上传成功显示异常

(一)前言:二次开发编辑器neditor(基于百度编辑器ueditor):界面相对于ueditor会更美观.(二)问题描述:最近在公司项目中遇到一个比较奇葩的问题。neidito ... [详细]

蜡笔小新 2024-09-27 10:58:09
io
zend studio 9 选择自定义字体

php教程|php手册zend,studio,选择,自定义,字体,Window,Pphp教程-php手册云监控源码,vscode下载的是zip,ubuntubios关闭,tomca ... [详细]

蜡笔小新 2024-09-27 10:42:26
const
com.fasterxml.jackson.databind.JavaType.withContentType()方法的使用及代码示例

本文整理了Java中com.fasterxml.jackson.databind.JavaType.withContentType()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2024-09-26 17:08:43
int
retrofit2+Executors+DiskLruCache 2秒加载100张图片从此告别OOM的困扰

人生的旅途，前途很远，也很暗。然而不要怕，不怕的人的面前才有路。——鲁迅自从上一篇博客发布后，已经有很长时间没有更新博客了，一直忙着支付通的事情，在此给大家道个歉。先贴个图：你不要惊讶 ... [详细]

蜡笔小新 2024-09-26 12:32:22
object
php变量命名规范是什么(php变量规则)

导读：今天编程笔记来给各位分享关于php变量命名规范是什么的相关内容，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！本文目录一览： ... [详细]

蜡笔小新 2024-09-26 09:05:20

Young_阳先生

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章