使用Python3编写抓取网页和只抓网页图片的脚本

作者：you是was的was | 来源：互联网 | 2018-07-18 06:15

这篇文章主要介绍了使用Python3编写抓取网页和只抓网页图片的脚本,使用到了urllib模块,需要的朋友可以参考下

最基本的抓取网页内容的代码实现：

#!/usr/bin/env python 
 
from urllib import urlretrieve 
 
def firstNonBlank(lines): 
  for eachLine in lines: 
    if not eachLine.strip(): 
      continue 
    else: 
      return eachLine 
 
def firstLast(webpage): 
  f = open(webpage) 
  lines = f.readlines() 
  f.close() 
  print firstNonBlank(lines), 
  lines.reverse() 
  print firstNonBlank(lines), 
 
def download(url='http://www',process=firstLast): 
  try: 
    retval = urlretrieve(url)[0] 
  except IOError: 
    retval = None 
  if retval: 
    process(retval) 
 
if __name__ == '__main__': 
  download()

利用urllib模块，来实现一个网页中针对图片的抓取功能：

import urllib.request 
import socket 
import re 
import sys 
import os 
targetDir = r"C:\Users\elqstux\Desktop\pic" 
def destFile(path): 
  if not os.path.isdir(targetDir): 
    os.mkdir(targetDir) 
  pos = path.rindex('/') 
  t = os.path.join(targetDir, path[pos+1:]) 
  return t 
 
if __name__ == "__main__": 
  hostname = "http://www.douban.com" 
  req = urllib.request.Request(hostname) 
  webpage = urllib.request.urlopen(req) 
  cOntentBytes= webpage.read() 
  for link, t in set(re.findall(r'(http:[^\s]*&＃63;(jpg|png|gif))', str(contentBytes))): 
    print(link) 
    urllib.request.urlretrieve(link, destFile(link))

import urllib.request 
import socket 
import re 
import sys 
import os 
targetDir = r"H:\pic" 
def destFile(path): 
  if not os.path.isdir(targetDir): 
    os.mkdir(targetDir) 
  pos = path.rindex('/') 
  t = os.path.join(targetDir, path[pos+1:]) #会以/作为分隔 
  return t 
 
if __name__ == "__main__": 
  hostname = "http://www.douban.com/" 
  req = urllib.request.Request(hostname) 
  webpage = urllib.request.urlopen(req) 
  cOntentBytes= webpage.read() 
  match = re.findall(r'(http:[^\s]*&＃63;(jpg|png|gif))', str(contentBytes) )#r'(http:[^\s]*&＃63;(jpg|png|gif))'中包含两层圆括号，故有两个分组， 
                             #上面会返回列表，括号中匹配的内容才会出现在列表中 
  for picname, picType in match: 
    print(picname) 
    print(picType) 
    
 
''''' 
输出： 
http://img3.douban.com/pics/blank.gif 
gif 
http://img3.douban.com/icon/g111328-1.jpg 
jpg 
http://img3.douban.com/pics/blank.gif 
gif 
http://img3.douban.com/icon/g197523-19.jpg 
jpg 
http://img3.douban.com/pics/blank.gif 
gif 
... 
'''

python

推荐阅读

string
Java 实现二维极点算法

本文介绍了一种使用 Java 编程语言实现的二维极点算法。该算法用于从一组二维坐标中筛选出极点，适用于需要处理几何图形和空间数据的应用场景。文章不仅详细解释了算法的工作原理，还提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-22 15:52:24
string
使用Python实现余弦相似度计算

余弦相似度广泛应用于文本分类、图像识别等领域，用于衡量两个向量之间的相似程度。其值域在-1到1之间，数值越接近1表示两向量越相似，完全相同为1；相反方向时为-1；正交或不相关时为0。 ... [详细]

蜡笔小新 2024-12-22 15:21:11
string
Python Django大学生心理健康管理系统开发（含源码、文档）

本项目包含完整的源代码、设计文档、数据库结构以及详细的安装指南，旨在为计算机专业的学生提供一个全面的心理健康管理系统解决方案。 ... [详细]

蜡笔小新 2024-12-21 19:57:18
sum
使用mpmath库计算π的多种方法

本文介绍了如何利用Python的高精度计算库mpmath实现π的100种不同计算方法。通过设置更高的精度和优化的数学函数，这些方法能够提供极其精确的结果。 ... [详细]

蜡笔小新 2024-12-21 19:55:47
request
探究同一请求在不同机器上返回不同HTTP状态码200和429的原因

本文探讨了为何相同的HTTP请求在两台不同操作系统（Windows与Ubuntu）的机器上会分别返回200 OK和429 Too Many Requests的状态码。我们将分析代码、环境差异及可能的影响因素。 ... [详细]

蜡笔小新 2024-12-21 19:35:11
plugins
离线安装Grafana Cloudera Manager插件并监控CDH集群

本文详细介绍如何离线安装Cloudera Manager (CM) 插件，并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]

蜡笔小新 2024-12-21 17:56:30
go
CSS高级技巧：动态高亮当前页面导航

本文介绍了如何使用CSS实现网站导航栏中当前页面的高亮显示，提升用户体验。通过为每个页面的body元素添加特定ID，并结合导航项的类名，可以轻松实现这一功能。 ... [详细]

蜡笔小新 2024-12-21 17:42:25
install
Python 的安装与配置指南

本文详细介绍了如何下载并安装 Python，包括选择合适的版本、执行安装程序以及设置环境变量的步骤。此外，还提供了测试安装是否成功的简单方法。 ... [详细]

蜡笔小新 2024-12-21 16:36:25
install
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25
install
你根本不会用百度

本文转载自第2大脑，详情可以扫描下方二维码关注该公众号摘要：教你正确使用百度。想必你的朋友圈这两天应该被《搜索引擎百度已死》这篇文章刷屏了吧࿰ ... [详细]

蜡笔小新 2024-12-21 15:43:30
install
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
web
Python技巧：利用Cookie实现自动登录绕过验证码

本文详细介绍了如何通过Python和Selenium库利用浏览器Cookie实现自动登录，从而绕过验证码验证。文章提供了具体的操作步骤，并附有代码示例，帮助读者理解和实践。 ... [详细]

蜡笔小新 2024-12-21 15:24:54
request
Python包管理工具pip的使用指南

本文详细介绍了如何使用pip进行Python包的安装、管理和常见问题的解决方法，特别针对国内用户提供了优化建议。 ... [详细]

蜡笔小新 2024-12-21 14:58:42
request
Python + Pytest 接口自动化测试中 Token 关联登录的实现方法

本文将深入探讨 Python 和 Pytest 在接口自动化测试中如何实现 Token 关联登录，内容详尽、逻辑清晰，旨在帮助读者掌握这一关键技能。 ... [详细]

蜡笔小新 2024-12-21 14:48:49
datetime
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11

you是was的was

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章