热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python为抓取而生

Python抓取优酷视频(上):爬虫使用及数据处理-littlebai-博客园随笔-5文章-0评论-14Python抓取优酷视频ÿ

Python抓取优酷视频(上):爬虫使用及数据处理 - littlebai - 博客园

Python抓取优酷视频(上):爬虫使用及数据处理

缘起:

上篇因为工作需要(就是把腾讯新闻copy到单位自己网站上去每天15条更新)所以写了一个抓取腾讯新闻的python小脚本

这次是因为想用手机看youku视频,比如xiaoy的魔兽解说,但是打开浏览器输入game.youku.com的时候,三星9003太不

给力,因而需要一个打开速度快的目录小网站。

思路:

1.数据表设计:

id(int),                    //主键自增

title(varchar 50),    //速度优先,只需要title,不需要图片

href(varchar 50),   //视频播放地址

date(varchar 25),  //采集的date中有如“1小时前”,因此也设计成varchar

2.采集函数设计:

视频列表页url = http://i.youku.com/u/UMTE0NDEzOTky/videos/order_1_view_1_page_id (id =1,2...)

每页视频个数为20,采集内容为title,href,date,优酷的html很规整,因此正则提取很好写,详见代码。

3.采集流程及入库:

采用多线程采集,开9个进程,每个进程提取一个列表页20个视频,总共采集180个视频,如果想全站采集的话修改即可。

数据库采用mysql,如何使python支持mysql详见Python网站建设,因为是多线程所以在插入数据的时候需要资源锁。

关于python多线程thread以及资源锁,可以参照Python模块学习。

代码:

1 #!/usr/bin/env python
2 #coding=utf-8
3 import urllib2
4 import re
5 import MySQLdb
6 import thread
7 import time
8 #创建锁,用于访问数据库
9 lock = thread.allocate_lock()
10 #抓取函数
11 def fetch(id=1,debug=False):
12 urlbase = 'http://i.youku.com/u/UMTE0NDEzOTky/videos/'
13 url = urlbase + 'order_1_view_1_page_' + str(id) + '/'
14 res = urllib2.urlopen(url).read()
15 abstarct = re.compile(r'

    ',re.DOTALL).findall(res)
    16
    17 vid_list = []
    18 for i in range(0,len(abstarct)):
    19 title = re.compile(r'title="(.*?)"',re.DOTALL).findall(abstarct[i])
    20 href = re.compile(r'href="(.*?)"',re.DOTALL).findall(abstarct[i])
    21 date = re.compile(r'(.*?)',re.DOTALL).findall(abstarct[i])
    22 if debug == True:
    23 print title[0]+href[0]+date[0]
    24 vid = {
    25 'title' : title[0],
    26 'href' : href[0],
    27 'date' : date[0]
    28 }
    29 vid_list.append(vid)
    30 #print thread.get_ident()
    31 return vid_list
    32 #插入数据库
    33 def insert_db(page):
    34 global lock
    35 #执行抓取函数
    36 vid_date = fetch(page,False)
    37 sql = "insert into ykgame (title,href,date) values (%s,%s,%s)"
    38 #插入数据,一页20条
    39 for i in range(0,len(vid_date)):
    40 param = (vid_date[i]['title'],vid_date[i]['href'],
    41 vid_date[i]['date'])
    42 lock.acquire() #创建锁
    43 cursor.execute(sql,param)
    44 conn.commit()
    45 lock.release() #释放锁
    46
    47 if __name__ == "__main__":
    48 #连接数据库
    49 conn = MySQLdb.connect(host="localhost",user="root",
    50 passwd="root",db="python_test",charset="utf8")
    51 cursor = conn.cursor()
    52 conn.select_db('python_test')
    53 #创建表
    54 sql = "CREATE TABLE IF NOT EXISTS \
    55 ykgame(id int PRIMARY KEY AUTO_INCREMENT, title varchar(50), \
    56 href varchar(50), date varchar(25))"
    57 cursor.execute(sql)
    58 #插入数据库
    59 for i in range(1,10):
    60 thread.start_new_thread(insert_db,(i,))
    61 print '采集中...'
    62 time.sleep(3)
    63 #关闭数据库
    64 cursor.close()
    65 conn.close()

说明:

urllib2模块:进行网页内容抓取

re模块:进行正则表达式提取

MySQLdb模块:mysql操作

thread模块:多线程操作

time模块:time.sleep(3)

遇到的问题:

1.mysql中文乱码:问题比较复杂,通用解决办法如下

程序中只要在开头写好:#coding=utf-8

连接数据库的时候设置编码方式:conn=MySQLdb.connect(host="127.0.0.1",user="webdb",passwd="web123",db="web",charset="utf8")

      对于采集来的中文字符串,可以编码转换后插入str = str.decode("gbk").encode("utf-8")

 

2.Warning: Data truncated for column 'href' at row 1

原因:href 数据库中为 varchar(25),而实际长度>25

解决办法:将href 数库中改为 varchar(50)

 

3.多线程问题:现象混乱有时候无报错,注意事项如下

使用相同资源是需要用资源锁,不然出现异常

线程处理时间短时,启用线程后加time.sleep(3)



推荐阅读
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • PHP图片截取方法及应用实例
    本文介绍了使用PHP动态切割JPEG图片的方法,并提供了应用实例,包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用,以及图片切割的具体步骤。同时,还提供了一些注意事项和优化建议。通过本文的学习,读者可以掌握PHP图片截取的技巧,实现自己的需求。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • 【MicroServices】【Arduino】装修甲醛检测,ArduinoDart甲醛、PM2.5、温湿度、光照传感器等,数据记录于SD卡,Python数据显示,UI5前台,微服务后台……
    这篇文章介绍了一个基于Arduino的装修甲醛检测项目,使用了ArduinoDart甲醛、PM2.5、温湿度、光照传感器等硬件,并将数据记录于SD卡,使用Python进行数据显示,使用UI5进行前台设计,使用微服务进行后台开发。该项目还在不断更新中,有兴趣的可以关注作者的博客和GitHub。 ... [详细]
  • 本文介绍了在Vue项目中如何结合Element UI解决连续上传多张图片及图片编辑的问题。作者强调了在编码前要明确需求和所需要的结果,并详细描述了自己的代码实现过程。 ... [详细]
  • 猜字母游戏
    猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • ASP.NET2.0数据教程之十四:使用FormView的模板
    本文介绍了在ASP.NET 2.0中使用FormView控件来实现自定义的显示外观,与GridView和DetailsView不同,FormView使用模板来呈现,可以实现不规则的外观呈现。同时还介绍了TemplateField的用法和FormView与DetailsView的区别。 ... [详细]
author-avatar
漫猪傻滑_679
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有