当前位置: 开发笔记 > 编程语言 > 正文

简单静态网页爬虫-xpath

作者：小晶晶妮妮宝贝 | 来源：互联网 | 2022-12-27 12:54

xpath语法可参考https:www.cnblogs.comgaochshp6757475.htmlhttps:cuiqingcai.com2621.html其中可

xpath语法可参考

https://www.cnblogs.com/gaochsh/p/6757475.html

https://cuiqingcai.com/2621.html

其中可以通过chrome安装xpath插件进行验证自己写的关键爬虫xpath语句（过程略）

第一则是爬取豌豆荚下的应用类别，输入格式.xlsx(主要由包名组成，前缀一致)

代码如下：

# -*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf8')
import xlrd
import xlwt
import urllib2
from lxml import etree

# 读取文件，如上截图所示
data = xlrd.open_workbook('app0306.xlsx')
table = data.sheets()[0]
n_row = table.nrows
n_col = table.ncols

x = []
y = []
for i in range(n_row):
    x.append(table.row_values(i)[0])

workbook = xlwt.Workbook(encoding='ascii')
worksheet = workbook.add_sheet('app')
count = 0
for xx in x:
    url = xx
    # 发起请求
    req = urllib2.Request(url)
    fd = urllib2.urlopen(req)

    data = fd.read()
    data = data.decode('utf-8')
    # print(type(data))

    print "on scanning ", count + 1
    if '抱歉，该应用已下架' in data:
        y.append('N0')
        flag = 'NO'
        print('NO')
    else:
        y.append('Yes')
        flag = 'Yes'
        print('Yes')

    selector = etree.HTML(data)
    zz = "http://www.wandoujia.com/apps/"  # 删除网址豌豆荚前缀
    l = len(zz)
    if flag == 'Yes':
        content1 = selector.xpath('//div[@class="app-info"]/p/span/text()') # 内容定位，应用名
        # for i in content1:
        #     print i
        content2 = selector.xpath('//div[@class="col-right"]/div/dl/dd/a/text()')  # 内容定位，应用类别
        # for j in content2:
        #     print j
        worksheet.write(count, 0, url[l:])  # 1列
        worksheet.write(count, 1, content1)  # 2列
        worksheet.write(count, 2, content2)  # 2列
    else:
        worksheet.write(count, 0, url[l:])  # 1列
        worksheet.write(count, 1, "NO")  # 2列
    count += 1
    workbook.save('app.xls') # 输出路径自行定义

下一则是爬取谷歌应用类别，输入txt文件，最好设置停顿时间和代理商反爬虫

输入txtshili

# -*- coding: UTF-8 -*- # -*- coding: utf-8 -*- """ Created on Sun Nov 5 11:03:06 2017  @author: Administrator """ #批量检查url有效性 import urllib2
from urllib2 import URLError
import xlwt
import datetime,time
import requests
from lxml import etree

result_url=[]
result = []
count=0
not_200=0
f=open("app0306.txt","r")    # 域名或网址的txt文件  workbook = xlwt.Workbook(encoding='ascii')
worksheet = workbook.add_sheet('My workshet')

user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64)' headers = { 'User-Agent' : user_agent }
for line in f:
    count+=1
    print "on scanning ",count
    try:
        # req = requests.request("get", "http://" + line)  # print req.status_code   req = urllib2.Request(line, headers = headers)   # 网址  #req = urllib2.Request("http://" + line) #域名  respOnse= urllib2.urlopen(req)
        data = response.read()
        data = data.decode('utf-8')
    except URLError, e:
        if hasattr(e,'reason'): #stands for URLError  print "can not reach a server,writing..."  elif hasattr(e,'code'): #stands for HTTPError  print "find http error, writing..."  else: #stands for unknown error  print "unknown error, writing..."  not_200 += 1
        # result_url.append(line)  # result.append('NO')  re = 'NO'  time.sleep(1)  # 休眠1秒  else:
        #print "url is reachable!"  #else 中不用再判断 response.code 是否等于200,若没有抛出异常，肯定返回200,直接关闭即可  #result.append('YES')  print "Yes!"  response.close()
        time.sleep(1)  # 休眠1秒  re = 'YES'  finally:
        pass   if re == 'YES':
        selector = etree.HTML(data)
        content1 = selector.xpath('//div[@class="details-info"]/div/div/h1/div/text()')
        # for i in content1:  # print i  content2 = selector.xpath('//div[@class="left-info"]/div/a/span[@itemprop="genre"]/text()')
        # for j in content2:  # print j  worksheet.write(count-1, 0, line)  # 1列  worksheet.write(count-1, 1, content1)  # 2列  worksheet.write(count-1, 2, content2)  # 2列  else:
        worksheet.write(count-1, 0, line)  # 1列  worksheet.write(count-1, 1, "NO")  # 2列   # worksheet.write(count-1, 0, line) # 1列  # worksheet.write(count-1, 1, re) # 2列  workbook.save('appmonth.xls')  # 路径自行定义

print "scanning over,total",count,"; did not response 200:",not_200
f.close()

推荐阅读

header
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
perl
python3 操作配置文件

一json文件JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。JSON采用完全独立于语言的文本格式，但是也使 ... [详细]

蜡笔小新 2023-10-13 12:43:20
perl
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
import
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
install
网页播放视频的三种实现方式

本文介绍了网页播放视频的三种实现方式，分别是使用html5的video标签、使用flash来播放以及使用object标签。其中，推荐使用html5的video标签来简单播放视频，但有些老的浏览器不支持html5。另外，还可以使用flash来播放视频，需要使用object标签。 ... [详细]

蜡笔小新 2023-12-10 13:24:30
install
如何压缩网站页面以减少页面加载时间

本文介绍了影响网站打开时间的两个因素，即网页加载速度和网站页面大小。重点讲解了如何通过压缩网站页面来减少页面加载时间。具体包括图片压缩、Javascript压缩、CSS压缩和HTML压缩等方法，并推荐了相应的压缩工具。此外，还提到了一款Google Chrome插件——网页加载速度分析工具Speed Tracer。 ... [详细]

蜡笔小新 2023-12-09 09:17:00
install
markdown [软件代理设置]

本文由编程笔记#小编为大家整理，主要介绍了markdown[软件代理设置]相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-17 18:19:28
nodejs
Python3+Appium安装使用教程

一、安装我们知道selenium是桌面浏览器自动化操作工具（WebBrowserAutomation）appium是继承selenium自动化思想旨在使手机app操作也能自动化的工具（Mo ... [详细]

蜡笔小新 2023-10-12 19:55:54
rsa
Python3 Scrapy 安装方法（一脸辛酸泪）

写在前面最近在学习爬虫，在熟悉了Python语言和BeautifulSoup4后打算下个爬虫框架试试。没想到啊，这坑太深了。。。看了看相关介绍后选择了Scrapy框架，然后兴高采烈的 ... [详细]

蜡笔小新 2023-09-24 14:44:19
install
window+anaconda3+python3.5下xgboost安装

准备gitanaconda3Step1:下载安装git这里是windows下git安装：需要注意的是在这里不选择第一个，要选择第二个，在windows下也可以。然后跟着默认选择就可 ... [详细]

蜡笔小新 2023-09-24 08:16:01
int
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
shell
如何去除Win7快捷方式的箭头

本文介绍了如何去除Win7快捷方式的箭头的方法，通过生成一个透明的ico图标并将其命名为Empty.ico，将图标复制到windows目录下，并导入注册表，即可去除箭头。这样做可以改善默认快捷方式的外观，提升桌面整洁度。 ... [详细]

蜡笔小新 2023-12-14 16:17:05
int
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
int
禁止程序接收鼠标事件的工具_VNC Viewer for Mac(远程桌面工具)免费版

VNCViewerforMac是一款运行在Mac平台上的远程桌面工具，vncviewermac版可以帮助您使用Mac的键盘和鼠标来控制远程计算机，操作简 ... [详细]

蜡笔小新 2023-12-14 12:55:15
int
Python Python Python 100个练手项目

1.淘宝模拟登录2.天猫商品数据爬虫3.爬取淘宝我已购买的宝贝数据4.每天不同时间段通过微信发消息提醒女友5.爬取5K分辨率超清唯美壁纸6.爬取豆瓣排行榜电影数据(含GUI界面版) ... [详细]

蜡笔小新 2023-10-16 18:29:34