热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

爬虫实战酷狗音乐数据抓取XPath,Pyquery,Beautifulsoup数据提取对比实战

网站:http:www.kugou.comyyhtmlrank.html爬取目标:酷酷狗飙升榜的歌手,歌曲名字,歌曲链

网站:

http://www.kugou.com/yy/html/rank.html

爬取目标:

酷酷狗飙升榜的歌手,歌曲名字,歌曲链接等内容,存到Mysql数据库中


网页解析:


此次爬取采用三种解析方式:

代码如下:

import requests
from lxml import etree
import pymongo
from pyquery import PyQuery as pq
from bs4 import BeautifulSoupdef get_info():url = 'http://www.kugou.com/yy/html/rank.html'try:respOnse= requests.get(url)if response.status_code == 200:# print(response)return response.textexcept requests.ConnectionError:return Nonedef get_detail_info(response):"""xpath抓取数据"""html = etree.HTML(response)# xpathresult = html.xpath('//div[@id="rankWrap"]/div[@class="pc_temp_songlist pc_rank_songlist_short"]/ul/li')# print(result)list1 = []for msg in result:#查找歌手名字还有歌曲名字msg_star = msg.xpath('./@title')[0]#查找歌曲的榜名msg_address = msg.xpath('./span[@class="pc_temp_tips_l"]/i/@title')[0]#查找歌曲链接msg_lianjie = msg.xpath('./a/@href')[0]dic = {"msg_star":msg_star,'msg_address':msg_address,'msg_lianjie':msg_lianjie,}# print(dic)list1.append(dic)return list1def get_detail_info_css(response):"""pyquery抓取"""# print(response)doc = pq(response)# print(doc)items = doc('#rankWrap')lis = items.find('ul').find('li')print(type(lis))lis = doc(lis)list1 = []for msg in lis.items():# print(type(msg))msg_star = msg.attr.titlemsg_address = msg.children('.pc_temp_tips_l').find('i').attr.titlemsg_lianjie = msg.find('a').attr.hrefdic = {"msg_star": msg_star,'msg_address': msg_address,'msg_lianjie': msg_lianjie,}list1.append(dic)return list1def get_detail_info_xml(response):"""beautifulsoup抓取"""list1 =[]soup = BeautifulSoup(response,'lxml')info = soup.find(class_='pc_temp_songlist pc_rank_songlist_short').ulfor msg in info.select('li'):# print(msg)msg_star = msg.attrs['title']msg_address = msg.find(class_='pc_temp_tips_l').i.attrs['title']msg_lianjie = msg.a.attrs['href']print(msg_lianjie)dic = {"msg_star": msg_star,'msg_address': msg_address,'msg_lianjie': msg_lianjie,}list1.append(dic)return list1def db(list1):# print(list1)client = pymongo.MongoClient(host='localhost',port=27017)db = client.testcollection = db.musicfor music_info in list1:print(music_info)result = collection.insert(music_info)print(result)def main():#获取响应respOnse= get_info()# xpath提取# get_detail_info(response)# list1 = get_detail_info(response)# pyquery提取# get_detail_info_css(response)# list1 = get_detail_info_css(response)# bs4提取get_detail_info_xml(response)list1 = get_detail_info_xml(response)db(list1)if __name__ == '__main__':main()

 

 

 

 


推荐阅读
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 主要用了2个类来实现的,话不多说,直接看运行结果,然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]
  • 本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法,并提供了多个实际代码示例,帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目,具有很高的参考价值。 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
  • 将Web服务部署到Tomcat
    本文介绍了如何在JDeveloper 12c中创建一个Java项目,并将其打包为Web服务,然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]
  • Android LED 数字字体的应用与实现
    本文介绍了一种适用于 Android 应用的 LED 数字字体(digital font),并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景,能够增强视觉效果。 ... [详细]
  • RecyclerView初步学习(一)
    RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式,除了提供ViewHolder缓存模式,还可以自定义动画,分割符,布局样式,相比于传统的ListVi ... [详细]
  • 本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法,通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点,并保持在文档树中。 ... [详细]
  • MySQL索引详解与优化
    本文深入探讨了MySQL中的索引机制,包括索引的基本概念、优势与劣势、分类及其实现原理,并详细介绍了索引的使用场景和优化技巧。通过具体示例,帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]
  • 深入了解 Windows 窗体中的 SplitContainer 控件
    SplitContainer 控件是 Windows 窗体中的一种复合控件,由两个可调整大小的面板和一个可移动的拆分条组成。本文将详细介绍其功能、属性以及如何通过编程方式创建复杂的用户界面。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件,通过解压可以访问其中的图片资源。此外,我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
author-avatar
lixinglon257
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有