教你用python爬取w3shcool的课程并且保存到本地的代码实例

作者：挽木城祠_ | 来源：互联网 | 2017-05-14 02:44

本文主要介绍python爬取w3shcool的JQuery的课程并且保存到本地的方法解析。具有很好的参考价值。下面跟着小编一起来看下吧

最近在忙于找工作，闲暇之余，也找点爬虫项目练练手，写写代码，知道自己是个菜鸟，但是要多加练习，书山有路勤为径。各位爷有测试坑可以给我介绍个啊，自动化，功能，接口都可以做。

首先呢，我们明确需求，很多同学呢，有事没事就想看看一些技术，比如我想看看JQuery的语法呢，可是我现在没有网络，手机上也没有电子书，真的让我们很难受，那么别着急啊，你这需求我在这里满足你，首先呢，你的需求是获取JQuery的语法的，那么我在看到这个需求，我有响应的网站那么我们接下来去分析这个网站。www.w3school.com.cn/jquery/jquery_syntax.asp 这是语法url， http://www.w3school.com.cn/jquery/jquery_intro.asp 这是简介的url，那么我们拿到很多的url分析到，我们的www.w3school.com.cn/jquery是相同的，那么我们在来分析在界面怎么可以获取得到这些，我们可以看到右面有相应的目标栏，那么我们去分析下

我们来看下这些链接，。我们可以吧这些链接和http://www.w3school.com.cn拼接到一起。然后组成我们新的url，

上代码

import urllib.request
from bs4 import BeautifulSoup 
import time
def head():
 headers={
 &＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0&＃39;
 }
 return headers
def parse_url(url):
 hea=head()
 resposne=urllib.request.Request(url,headers=hea)
 html=urllib.request.urlopen(resposne).read().decode(&＃39;gb2312&＃39;)
 return html
def url_s():
 url=&＃39;http://www.w3school.com.cn/jquery/index.asp&＃39;
 html=parse_url(url)
 soup=BeautifulSoup(html)
 me=soup.find_all(id=&＃39;course&＃39;)
 m_url_text=[]
 m_url=[]
 for link in me:
  m_url_text.append(link.text)
  m=link.find_all(&＃39;a&＃39;)
  for i in m:
   m_url.append(i.get(&＃39;href&＃39;))
 for i in m_url_text:
  h=i.encode(&＃39;utf-8&＃39;).decode(&＃39;utf-8&＃39;)
  m_url_text=h.split(&＃39;\n&＃39;)
 return m_url,m_url_text

这样我们使用url_s这个函数就可以获取我们所有的链接。

[&＃39;/jquery/index.asp&＃39;, &＃39;/jquery/jquery_intro.asp&＃39;, &＃39;/jquery/jquery_install.asp&＃39;, &＃39;/jquery/jquery_syntax.asp&＃39;, &＃39;/jquery/jquery_selectors.asp&＃39;, &＃39;/jquery/jquery_events.asp&＃39;, &＃39;/jquery/jquery_hide_show.asp&＃39;, &＃39;/jquery/jquery_fade.asp&＃39;, &＃39;/jquery/jquery_slide.asp&＃39;, &＃39;/jquery/jquery_animate.asp&＃39;, &＃39;/jquery/jquery_stop.asp&＃39;, &＃39;/jquery/jquery_callback.asp&＃39;, &＃39;/jquery/jquery_chaining.asp&＃39;, &＃39;/jquery/jquery_dom_get.asp&＃39;, &＃39;/jquery/jquery_dom_set.asp&＃39;, &＃39;/jquery/jquery_dom_add.asp&＃39;, &＃39;/jquery/jquery_dom_remove.asp&＃39;, &＃39;/jquery/jquery_css_classes.asp&＃39;, &＃39;/jquery/jquery_css.asp&＃39;, &＃39;/jquery/jquery_dimensions.asp&＃39;, &＃39;/jquery/jquery_traversing.asp&＃39;, &＃39;/jquery/jquery_traversing_ancestors.asp&＃39;, &＃39;/jquery/jquery_traversing_descendants.asp&＃39;, &＃39;/jquery/jquery_traversing_siblings.asp&＃39;, &＃39;/jquery/jquery_traversing_filtering.asp&＃39;, &＃39;/jquery/jquery_ajax_intro.asp&＃39;, &＃39;/jquery/jquery_ajax_load.asp&＃39;, &＃39;/jquery/jquery_ajax_get_post.asp&＃39;, &＃39;/jquery/jquery_noconflict.asp&＃39;, &＃39;/jquery/jquery_examples.asp&＃39;, &＃39;/jquery/jquery_quiz.asp&＃39;, &＃39;/jquery/jquery_reference.asp&＃39;, &＃39;/jquery/jquery_ref_selectors.asp&＃39;, &＃39;/jquery/jquery_ref_events.asp&＃39;, &＃39;/jquery/jquery_ref_effects.asp&＃39;, &＃39;/jquery/jquery_ref_manipulation.asp&＃39;, &＃39;/jquery/jquery_ref_attributes.asp&＃39;, &＃39;/jquery/jquery_ref_css.asp&＃39;, &＃39;/jquery/jquery_ref_ajax.asp&＃39;, &＃39;/jquery/jquery_ref_traversing.asp&＃39;, &＃39;/jquery/jquery_ref_data.asp&＃39;, &＃39;/jquery/jquery_ref_dom_element_methods.asp&＃39;, &＃39;/jquery/jquery_ref_core.asp&＃39;, &＃39;/jquery/jquery_ref_prop.asp&＃39;], [&＃39;jQuery 教程&＃39;, &＃39;&＃39;, &＃39;jQuery 教程&＃39;, &＃39;jQuery 简介&＃39;, &＃39;jQuery 安装&＃39;, &＃39;jQuery 语法&＃39;, &＃39;jQuery 选择器&＃39;, &＃39;jQuery 事件&＃39;, &＃39;&＃39;, &＃39;jQuery 效果&＃39;, &＃39;&＃39;, &＃39;jQuery 隐藏/显示&＃39;, &＃39;jQuery 淡入淡出&＃39;, &＃39;jQuery 滑动&＃39;, &＃39;jQuery 动画&＃39;, &＃39;jQuery stop()&＃39;, &＃39;jQuery Callback&＃39;, &＃39;jQuery Chaining&＃39;, &＃39;&＃39;, &＃39;jQuery HTML&＃39;, &＃39;&＃39;, &＃39;jQuery 获取&＃39;, &＃39;jQuery 设置&＃39;, &＃39;jQuery 添加&＃39;, &＃39;jQuery 删除&＃39;, &＃39;jQuery CSS 类&＃39;, &＃39;jQuery css()&＃39;, &＃39;jQuery 尺寸&＃39;, &＃39;&＃39;, &＃39;jQuery 遍历&＃39;, &＃39;&＃39;, &＃39;jQuery 遍历&＃39;, &＃39;jQuery 祖先&＃39;, &＃39;jQuery 后代&＃39;, &＃39;jQuery 同胞&＃39;, &＃39;jQuery 过滤&＃39;, &＃39;&＃39;, &＃39;jQuery AJAX&＃39;, &＃39;&＃39;, &＃39;jQuery AJAX 简介&＃39;, &＃39;jQuery 加载&＃39;, &＃39;jQuery Get/Post&＃39;, &＃39;&＃39;, &＃39;jQuery 杂项&＃39;, &＃39;&＃39;, &＃39;jQuery noConflict()&＃39;, &＃39;&＃39;, &＃39;jQuery 实例&＃39;, &＃39;&＃39;, &＃39;jQuery 实例&＃39;, &＃39;jQuery 测验&＃39;, &＃39;&＃39;, &＃39;jQuery 参考手册&＃39;, &＃39;&＃39;, &＃39;jQuery 参考手册&＃39;, &＃39;jQuery 选择器&＃39;, &＃39;jQuery 事件&＃39;, &＃39;jQuery 效果&＃39;, &＃39;jQuery 文档操作&＃39;, &＃39;jQuery 属性操作&＃39;, &＃39;jQuery CSS 操作&＃39;, &＃39;jQuery Ajax&＃39;, &＃39;jQuery 遍历&＃39;, &＃39;jQuery 数据&＃39;, &＃39;jQuery DOM 元素&＃39;, &＃39;jQuery 核心&＃39;, &＃39;jQuery 属性&＃39;, &＃39;&＃39;, &＃39;&＃39;])

这是所有链接还有对应链接的所对应的语法模块的名字。那么我们接下来就是去拼接urls，使用的是str的拼接

 [&＃39;http://www.w3school.com.cn//jquery/index.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_intro.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_install.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_syntax.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_selectors.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_events.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_hide_show.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_fade.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_slide.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_animate.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_stop.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_callback.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_chaining.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_dom_get.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_dom_set.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_dom_add.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_dom_remove.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_css_classes.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_css.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_dimensions.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_traversing.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_traversing_ancestors.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_traversing_descendants.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_traversing_siblings.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_traversing_filtering.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ajax_intro.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ajax_load.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ajax_get_post.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_noconflict.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_examples.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_quiz.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_reference.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_selectors.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_events.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_effects.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_manipulation.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_attributes.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_css.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_ajax.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_traversing.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_data.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_dom_element_methods.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_core.asp&＃39;, &＃39;http://www.w3school.com.cn//jquery/jquery_ref_prop.asp&＃39;]

那么我们有这个所有的urls，那么我们来分析下，文章正文。

分析可以得到我们的所有的正文都是在一个id=maincontent中，那么我们直接解析每个界面中的id=maincontent的标签，获取响应的text文档，并且保存就好。

所以我们所有的代码如下：

import urllib.request
from bs4 import BeautifulSoup 
import time
def head():
 headers={
 &＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0&＃39;
 }
 return headers
def parse_url(url):
 hea=head()
 resposne=urllib.request.Request(url,headers=hea)
 html=urllib.request.urlopen(resposne).read().decode(&＃39;gb2312&＃39;)
 return html
def url_s():
 url=&＃39;http://www.w3school.com.cn/jquery/index.asp&＃39;
 html=parse_url(url)
 soup=BeautifulSoup(html)
 me=soup.find_all(id=&＃39;course&＃39;)
 m_url_text=[]
 m_url=[]
 for link in me:
  m_url_text.append(link.text)
  m=link.find_all(&＃39;a&＃39;)
  for i in m:
   m_url.append(i.get(&＃39;href&＃39;))
 for i in m_url_text:
  h=i.encode(&＃39;utf-8&＃39;).decode(&＃39;utf-8&＃39;)
  m_url_text=h.split(&＃39;\n&＃39;)
 return m_url,m_url_text
def xml():
 url,url_text=url_s()
 url_jque=[]
 for link in url:
  url_jque.append(&＃39;http://www.w3school.com.cn/&＃39;+link)
 return url_jque
def xiazai():
 urls=xml()
 i=0
 for url in urls:
  html=parse_url(url)
  soup=BeautifulSoup(html)
  me=soup.find_all(id=&＃39;maincontent&＃39;)
  with open(r&＃39;%s.txt&＃39;%i,&＃39;wb&＃39;) as f:
   for h in me:
    f.write(h.text.encode(&＃39;utf-8&＃39;))
    print(i)
  i+=1
if __name__ == &＃39;__main__&＃39;:
 xiazai()

import urllib.request
from bs4 import BeautifulSoup 
import time
def head():
 headers={
 &＃39;User-Agent&＃39;:&＃39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0&＃39;
 }
 return headers
def parse_url(url):
 hea=head()
 resposne=urllib.request.Request(url,headers=hea)
 html=urllib.request.urlopen(resposne).read().decode(&＃39;gb2312&＃39;)
 return html
def url_s():
 url=&＃39;http://www.w3school.com.cn/jquery/index.asp&＃39;
 html=parse_url(url)
 soup=BeautifulSoup(html)
 me=soup.find_all(id=&＃39;course&＃39;)
 m_url_text=[]
 m_url=[]
 for link in me:
  m_url_text.append(link.text)
  m=link.find_all(&＃39;a&＃39;)
  for i in m:
   m_url.append(i.get(&＃39;href&＃39;))
 for i in m_url_text:
  h=i.encode(&＃39;utf-8&＃39;).decode(&＃39;utf-8&＃39;)
  m_url_text=h.split(&＃39;\n&＃39;)
 return m_url,m_url_text

def xml():
 url,url_text=url_s()
 url_jque=[]
 for link in url:
  url_jque.append(&＃39;http://www.w3school.com.cn/&＃39;+link)
 return url_jque
def xiazai():
 urls=xml()
 i=0
 for url in urls:
  html=parse_url(url)
  soup=BeautifulSoup(html)
  me=soup.find_all(id=&＃39;maincontent&＃39;)
  with open(r&＃39;%s.txt&＃39;%i,&＃39;wb&＃39;) as f:
   for h in me:
    f.write(h.text.encode(&＃39;utf-8&＃39;))
    print(i)
  i+=1
if __name__ == &＃39;__main__&＃39;:
 xiazai()

结果

好了至此，我们的爬取工作完成，剩下的就是小修小布，大的内容我们都应该完成了。

其实python的爬虫还是很简单的，只要我们会分析网站的元素，找出所有元素的通项就可以很好的去分析和解决我们的问题

以上就是教你用python爬取w3shcool的课程并且保存到本地的代码实例的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

php
一个登陆界面

预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]

蜡笔小新 2024-12-20 09:57:07
window
JavaScript 实战与基础案例解析

本文介绍了多个关于JavaScript的书籍资源、实用工具和编程实例，涵盖从入门到进阶的各个阶段，帮助读者全面提升JavaScript编程能力。 ... [详细]

蜡笔小新 2024-12-24 16:36:52
express
2019年前端技术趋势及职业发展路径

本文探讨了2019年前端技术的发展趋势，包括工具化、配置化和泛前端化等方面，并提供了详细的学习路线和职业规划建议。 ... [详细]

蜡笔小新 2024-12-19 10:19:35
tags
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
header
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
php
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
php
使用Python urllib模块实现POST请求并爬取百度翻译结果

本文详细解析了如何使用Python的urllib模块发起POST请求，并通过实例展示如何爬取百度翻译的翻译结果。 ... [详细]

蜡笔小新 2024-12-24 18:49:24
default
Spring Boot 中静态资源映射详解

本文深入探讨了 Spring Boot 如何简化 Web 应用中的静态资源管理，包括默认的静态资源映射规则、WebJars 的使用以及静态首页的处理方法。通过本文，您将了解如何高效地管理和引用静态资源。 ... [详细]

蜡笔小新 2024-12-20 20:02:31
php
推荐几款高效测量图片像素的工具

本文介绍了几款适用于Web前端开发的工具，这些工具可以帮助用户在图片上绘制线条并精确测量其像素长度。对于需要进行图像处理或设计工作的开发者来说非常实用。 ... [详细]

蜡笔小新 2024-12-20 19:17:07
php
Python3 中使用 lxml 模块解析 XPath 数据详解

XPath 是一种用于在 XML 文档中查找信息的路径语言，同样适用于 HTML 文件的搜索。本文将详细介绍如何利用 Python 的 lxml 模块通过 XPath 技术高效地解析和抓取网页数据。 ... [详细]

蜡笔小新 2024-12-20 11:23:22
stream
使用URLConnection进行网页抓取与解析

本文介绍了如何利用Java中的URLConnection类来实现基本的网络爬虫功能，包括向目标网站发送请求、接收HTML响应、解析HTML以提取所需信息，并处理可能存在的递归爬取需求。 ... [详细]

蜡笔小新 2024-12-18 19:40:22
php
JavaScript前端开发中常用的四种继承方法详解

本文深入探讨了JavaScript中实现继承的四种常见方法，包括原型链继承、构造函数继承、组合继承和寄生组合继承。对于正在学习或从事Web前端开发的技术人员来说，理解这些继承模式对于提高代码质量和维护性至关重要。 ... [详细]

蜡笔小新 2024-12-18 11:08:28
php
ThinkPHP6多数据库部署指南

本文将详细介绍如何在ThinkPHP6框架中实现多数据库的部署，包括读写分离的策略，以及如何通过负载均衡和MySQL同步技术优化数据库性能。 ... [详细]

蜡笔小新 2024-12-17 18:59:28
php
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
php
基于JQuery实现的评分插件

本文介绍了一个使用JQuery创建的交互式评分控件。当用户将鼠标悬停在星星上时，左侧的星星会变为实心，右侧保持空心，并显示对应的评分等级；移开鼠标后，所有星星恢复为空心状态。 ... [详细]

蜡笔小新 2024-12-23 10:09:44

挽木城祠_

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章