当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:网页爬虫教程

作者：再生Solo_868 | 来源：互联网 | 2023-07-02 10:17

一个简单的网页爬虫：http://www.cnblogs.com/fnng/p/3576154.html

简单的网页爬虫，获取豆瓣的最新电影信息。

爬虫主要是获取页面，然后对页面进行解析，解析出自己所需要的信息进行进一步分析和挖掘。

首先需要学习python的正则表达式：http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html

解析的url:http://movie.douban.com/

查看网页源代码，分析要解析的地方：

技术图片

得到资源信息：

1.电影图片

2.电影标题

3.电影评分

4.电影票信息

抓取结果为：

技术图片

python实现代码为：

#!/usr/bin/env python
#coding=utf-8
import urllib
import urllib2
import re
import pymongo
def getHtml(url):
page=urllib2.urlopen(url)
html=page.read()
page.close()
return html
def getContent(html):
reg=r‘

.+?src="(.+?.jpg)".+?

.+?class="title".+?
class="">(.+?).+?class="rating".+?class="subject-rate">(.+?).+?(.+?)‘
cOntentre=re.compile(reg,re.DOTALL)
cOntentlist=contentre.findall(html)
return contentlist
def getConnection(): #拿到数据库连接
cOnn=pymongo.Connection(‘localhost‘,27017)
return conn
def saveToDB(contentlist): #存储至mongodb数据库中
cOnn=getConnection()
db=conn.db
t_movie=db.t_movie
for content in contentlist:
value=dict(poster=content[0],title=content[1],rating=content[2],ticket_btn=content[3])
t_movie.save(value)def display(contentlist):
for content in contentlist:
#values=dict(poster=content[0],title=content[1],rating=content[2],ticket_btn=content[3])
print ‘poster‘,‘ ‘,content[0]
print ‘title‘,‘ ‘,content[1]
print ‘rating‘,‘ ‘,content[2]
print ‘ticket_btn‘,‘ ‘,content[3]
print‘..............................................................................‘
if __name__=="__main__":
url="http://movie.douban.com/"
html=getHtml(url)
#print html
cOntentlist=getContent(html)
print len(contentlist)
#print contentlist
display(contentlist)
saveToDB(contentlist)
print "finished"

网页爬虫制作

推荐阅读

text
Web动态服务器Python基本实现

Web动态服务器Python基本实现 ... [详细]

蜡笔小新 2024-11-21 08:01:30
text
spring boot使用jetty无法启动

spring boot使用jetty无法启动 ... [详细]

蜡笔小新 2024-11-21 10:15:52
main
Ubuntu 16.04 上 PostgreSQL 的高效安装与配置指南

本文详细介绍了在 Ubuntu 16.04 系统上安装和配置 PostgreSQL 数据库的方法，包括如何设置监听地址、启用密码加密、更改默认用户密码以及调整客户端访问控制。 ... [详细]

蜡笔小新 2024-11-20 22:17:50
text
Bootstrap Paginator 分页插件详解与应用

本文深入探讨了Bootstrap Paginator这款流行的JavaScript分页插件，提供了详细的使用指南和示例代码，旨在帮助开发者更好地理解和利用该工具进行高效的数据展示。 ... [详细]

蜡笔小新 2024-11-20 13:39:53
main
解决iOS应用推送通知错误：未找到有效aps-environment权限

在尝试加载支持推送通知的iOS应用程序的Ad Hoc构建时，遇到了‘no valid aps-environment entitlement found for application’的错误提示。本文将探讨此错误的原因及多种可能的解决方案。 ... [详细]

蜡笔小新 2024-11-21 19:26:31
main
如何使用 org.apache.tinkerpop.gremlin.structure.VertexProperty 的 key 方法

本文详细介绍了 `org.apache.tinkerpop.gremlin.structure.VertexProperty` 类中的 `key()` 方法，并提供了多个实际应用的代码示例。通过这些示例，读者可以更好地理解该方法在图数据库操作中的具体用途。 ... [详细]

蜡笔小新 2024-11-21 17:38:10
int
Python技巧：将相同元素聚合至矩阵

本文探讨了如何在Python中将具有相同值的元素分组到矩阵中，这是一个在数据分析和处理中常见的需求。 ... [详细]

蜡笔小新 2024-11-21 17:07:12
php
深入解析JQuery Mobile特有的事件与方法

本文详细介绍了JQuery Mobile框架中特有的事件和方法，帮助开发者更好地理解和应用这些特性，提升移动Web开发的效率。 ... [详细]

蜡笔小新 2024-11-21 14:24:21
text
Requests库的基本使用方法

本文介绍了Python中Requests库的基础用法，包括如何安装、GET和POST请求的实现、如何处理Cookies和Headers，以及如何解析JSON响应。相比urllib库，Requests库提供了更为简洁高效的接口来处理HTTP请求。 ... [详细]

蜡笔小新 2024-11-21 13:17:41
text
深入解析SpringMVC中的HandlerMapping机制

本文将从基础概念入手，详细探讨SpringMVC框架中DispatcherServlet如何通过HandlerMapping进行请求分发，以及其背后的源码实现细节。 ... [详细]

蜡笔小新 2024-11-20 19:24:42
grid
将图像平移到画布中心python_python – Tkinter画布缩放移动/平移

高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]

蜡笔小新 2024-11-20 15:47:04
main
深入理解Java SE 8新特性：Lambda表达式与函数式编程

本文作为‘Java SE 8新特性概览’系列的一部分，将详细探讨Lambda表达式。通过多种示例，我们将展示Lambda表达式的不同应用场景，并解释编译器如何处理这些表达式。 ... [详细]

蜡笔小新 2024-11-20 14:19:27
char
c语言二元插值,二维线性插值c语言

c语言二元插值,二维线性插值c语言 ... [详细]

蜡笔小新 2024-11-20 12:20:16
main
如何优雅地管理iOS应用中的多种状态界面？

在开发iOS应用时，面对不同状态（如数据加载成功、无数据、未登录、网络异常等）的界面管理，如何实现既高效又美观的用户体验？本文探讨了几种最佳实践方法。 ... [详细]

蜡笔小新 2024-11-20 10:39:04
text
Spring Boot使用AJAX从数据库读取数据异步刷新前端表格

　　近期项目需要是实现一个通过筛选选取所需数据刷新表格的功能，因为表格只占页面的一小部分，不希望整个也页面都随之刷新，所以首先想到了使用AJAX来实现。　　以下介绍解决方法（请忽视 ... [详细]

蜡笔小新 2024-11-19 10:11:02

再生Solo_868

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章