热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:网页爬虫教程

一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html
一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html

简单的网页爬虫,获取豆瓣的最新电影信息。

爬虫主要是获取页面,然后对页面进行解析,解析出自己所需要的信息进行进一步分析和挖掘。

首先需要学习python的正则表达式:http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html

解析的url:http://movie.douban.com/

查看网页源代码,分析要解析的地方:

技术图片

得到资源信息:

1.电影图片

2.电影标题

3.电影评分

4.电影票信息

抓取结果为:

技术图片

python实现代码为:

 


技术图片

#!/usr/bin/env python
#coding=utf-8
import urllib
import urllib2
import re
import pymongo
def getHtml(url):
page=urllib2.urlopen(url)
html=page.read()
page.close()
return html
def getContent(html):
reg=r‘

  • .+?src="(.+?.jpg)".+?
  • .+?class="title".+?
    class="">(.+?).+?class="rating".+?class="subject-rate">(.+?).+?(.+?)
    cOntentre=re.compile(reg,re.DOTALL)
    cOntentlist=contentre.findall(html)
    return contentlist
    def getConnection(): #拿到数据库连接
    cOnn=pymongo.Connection(‘localhost‘,27017)
    return conn
    def saveToDB(contentlist): #存储至mongodb数据库中
    cOnn=getConnection()
    db=conn.db
    t_movie=db.t_movie
    for content in contentlist:
    value=dict(poster=content[0],title=content[1],rating=content[2],ticket_btn=content[3])
    t_movie.save(value)def display(contentlist):
    for content in contentlist:
    #values=dict(poster=content[0],title=content[1],rating=content[2],ticket_btn=content[3])
    print ‘poster‘,‘ ‘,content[0]
    print ‘title‘,‘ ‘,content[1]
    print ‘rating‘,‘ ‘,content[2]
    print ‘ticket_btn‘,‘ ‘,content[3]
    print‘..............................................................................‘
    if __name__=="__main__":
    url="http://movie.douban.com/"
    html=getHtml(url)
    #print html
    cOntentlist=getContent(html)
    print len(contentlist)
    #print contentlist
    display(contentlist)
    saveToDB(contentlist)
    print "finished"
    技术图片

     

     

     

    网页爬虫制作


    推荐阅读
    author-avatar
    再生Solo_868
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有