热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python爬虫下载文档

如果不想看我的思路和debug错误,可以直接看最后一句。————————————————————————————如题,我想下载的文档是那种输入网址自动下载的,比如这个:h

如果不想看我的思路和debug错误,可以直接看最后一句。
————————————————————————————
如题,我想下载的文档是那种输入网址自动下载的,比如这个:
http://app.sipo-reexam.gov.cn/books/2003/FS3641/DOC/FS3641.doc
现在想用Python的urllib.request.urlretrive函数下载下来这个文档,但是报错。
我的代码和报错信息如下:
这是代码:



1
2
3
4
5
6
7
8
9
import urllib.request, urllib.error, urllib.parse

import os

file_name = 'test.doc'

file_path = 'doc'

if os.path.exists(file_path) == False:

    os.makedirs(file_path)

local = os.path.join(file_path,file_name)

url = 'http://app.sipo-reexam.gov.cn/books/2003/FS3641/DOC/FS3641.doc'

urllib.request.urlretrieve(url,local,Schedule)

这是报错信息:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Traceback (most recent call last):

  File "C:\Users\zhushihao\Desktop\doc.py", line 25, in

    urllib.request.urlretrieve(url,local,Schedule)

  File "C:\Python34\lib\urllib\request.py", line 178, in urlretrieve

    with contextlib.closing(urlopen(url, data)) as fp:

  File "C:\Python34\lib\urllib\request.py", line 153, in urlopen

    return opener.open(url, data, timeout)

  File "C:\Python34\lib\urllib\request.py", line 455, in open

    respOnse= self._open(req, data)

  File "C:\Python34\lib\urllib\request.py", line 473, in _open

    '_open', req)

  File "C:\Python34\lib\urllib\request.py", line 433, in _call_chain

    result = func(*args)

  File "C:\Python34\lib\urllib\request.py", line 1202, in http_open

    return self.do_open(http.client.HTTPConnection, req)

  File "C:\Python34\lib\urllib\request.py", line 1177, in do_open

    r = h.getresponse()

  File "C:\Python34\lib\http\client.py", line 1172, in getresponse

    response.begin()

  File "C:\Python34\lib\http\client.py", line 351, in begin

    version, status, reason = self._read_status()

  File "C:\Python34\lib\http\client.py", line 321, in _read_status

    raise BadStatusLine(line)

http.client.BadStatusLine: ''

[Finished in 2.3s with exit code 1]

另外 ,我自己考虑到有可能是网站屏蔽非浏览器请求,就想封装一个header,结果提示urlretrieve函数第一个参数只能是string,不能是request对象。



—————————————————————我是最后一句——————————————————————
如何用Python 下载

1
http://app.sipo-reexam.gov.cn/books/2003/FS3641/DOC/FS3641.doc

这样的文档?


   



推荐阅读
  • Python3爬虫入门:pyspider的基本使用[python爬虫入门]
    Python学习网有大量免费的Python入门教程,欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]
  • 本文探讨了如何在PHP与MySQL环境中实现高效的分页查询,包括基本的分页实现、性能优化技巧以及高级的分页策略。 ... [详细]
  • 构建Python自助式数据查询系统
    在现代数据密集型环境中,业务团队频繁需要从数据库中提取特定信息。为了提高效率并减少IT部门的工作负担,本文探讨了一种利用Python语言实现的自助数据查询工具的设计与实现。 ... [详细]
  • 本文详细介绍了如何在本地环境中安装配置Frida及其服务器组件,以及如何通过Frida进行基本的应用程序动态分析,包括获取应用版本和加载的类信息。 ... [详细]
  • 本文介绍了进程的基本概念及其在操作系统中的重要性,探讨了进程与程序的区别,以及如何通过多进程实现并发和并行。文章还详细讲解了Python中的multiprocessing模块,包括Process类的使用方法、进程间的同步与异步调用、阻塞与非阻塞操作,并通过实例演示了进程池的应用。 ... [详细]
  • 本文详细介绍了在PHP中如何获取和处理HTTP头部信息,包括通过cURL获取请求头信息、使用header函数发送响应头以及获取客户端HTTP头部的方法。同时,还探讨了PHP中$_SERVER变量的使用,以获取客户端和服务器的相关信息。 ... [详细]
  • This article explores the process of integrating Promises into Ext Ajax calls for a more functional programming approach, along with detailed steps on testing these asynchronous operations. ... [详细]
  • 我在尝试将组合框转换为具有自动完成功能时遇到了一个问题,即页面上的列表框也被转换成了自动完成下拉框,而不是保持原有的多选列表框形式。 ... [详细]
  • 本文详细介绍如何在SSM(Spring + Spring MVC + MyBatis)框架中实现分页功能。包括分页的基本概念、数据准备、前端分页栏的设计与实现、后端分页逻辑的编写以及最终的测试步骤。 ... [详细]
  • 本文探讨了使用Python实现监控信息收集的方法,涵盖从基础的日志记录到复杂的系统运维解决方案,旨在帮助开发者和运维人员提升工作效率。 ... [详细]
  • Kubernetes 实践指南:初次体验
    本文介绍了如何通过官方提供的简易示例,快速上手 Kubernetes (K8S),并深入理解其核心概念和操作流程。 ... [详细]
  • 本文介绍如何通过Java代码调用阿里云短信服务API来实现短信验证码的发送功能,包括必要的依赖添加和关键代码示例。 ... [详细]
  • 使用 ModelAttribute 实现页面数据自动填充
    本文介绍了如何利用 Spring MVC 中的 ModelAttribute 注解,在页面跳转后自动填充表单数据。主要探讨了两种实现方法及其背后的原理。 ... [详细]
  • 本文详细介绍了Socket在Linux内核中的实现机制,包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容,读者可以更好地理解Socket的工作原理。 ... [详细]
  • 本文介绍了如何通过安装和配置php_uploadprogress扩展来实现文件上传时的进度条显示功能。通过一个简单的示例,详细解释了从安装扩展到编写具体代码的全过程。 ... [详细]
author-avatar
男人邦121121121
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有