热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据技术暑期实习六___互联网营销精准决策(手机数据爬取)

一、解决方案二、电商数据的爬取和清洗2.1Python爬取京东手机销售历史数据1).环境python3环境、第三方包有scrapy,rePycharm、NoteP

一、解决方案

二、电商数据的爬取和清洗

  2.1 Python爬取京东手机销售历史数据

   1).环境

  python3 环境、第三方包有 scrapy,re Pycharm 、NotePad++、SublimeText 等代码编辑工具

    2).爬虫步骤

  采用 scrapy 爬虫框架编写爬虫脚本,选取核心代码讲解爬取京东手机销售数据的爬取逻辑。具体步骤如下:

    1> 获取电商网站目标数据信息

 

 

 

     2>根据手机品牌作为搜索关键词

withopen(\'./mobile_project/data/手机品牌.csv\',\'r\', encoding=\'utf-8\') 
asf: csv_reader=csv.reader(f) # 通 过 csv 按 行 读 取 
for brand in csv_reader: 
        brand=brand[0] 
        print(\'++++++++++crawling:{}\'.format(brand)) 
        if brand.strip():
            brand=brand.strip()+\' 手机\' 
            yield Request (jd_search_url.format(kw=brand, page=page),headers=self.headers, meta={\'kw\':brand,\'page\':page}, callback=self.parse_search_result)

 

 

     3>查看商品详情请求的 api

  

 

    4>明确解析字段

    5>明确商家信息

    6>循环爬取

    7>存储到csv

 爬取结果示例:

{
"name":"努比亚 nubia Z18 全面屏 3.0 极夜黑 8GB+128GB 全网通移 动联通电信 4G 手机 双卡双待", 
"custom_attr_list":"6.0 英寸^8GB^128GB^2400 万+1600 万像素^骁龙 845(SDM845)^800 万像素^2160*1080^8.55", "shop_name":"努比亚京东自营旗舰店", "comment_count":"13266", "good_rate":"97", "shop_id":"1000001961", "id":"100000047414", "price":"2549.00", "url":"https://item.jd.com/100000047414.html", "keyword":"努比亚(nubia) 手机", "prop":{ "品牌":"努比亚(nubia)", "型号":"Z18", "入网型号":"NX606J", "上市年份":"2018 年", "上市月份":"9 月", "机身颜色":"黑色", "机身长度(mm)":"148.58", "机身宽度(mm)":"72.54", "机身厚度(mm)":"8.55", "机身重量(g)":"172", "输入方式":"触控", "运营商标志或内容":"", "机身材质分类":"金属边框|玻璃后盖", "屏占比":"91.8%", "操作系统":"Android", "操作系统版本":"nubiaUI6.0", "CPU 品牌":"骁龙(Snapdragon)", "CPU 频率":"2.8GHz", "CPU 核数":"八核", "CPU 型号":"骁龙 845(SDM845)", "双卡机类型":"双卡双待单通", "最大支持 SIM 卡数量":"2 个", "SIM 卡类型":"NanoSIM", "4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G:电信 (FDD-LTE)|4G:联通(TD-LTE)|电信(TD-LTE)", "3G/2G 网络":"3G:移动(TD-SCDMA)|3G:联通(WCDMA)|3G:电 信(CDMA2000)|2G:移动联通(GSM)+电信(CDMA)", "副 SIM 卡类型":"NanoSIM", "副 SIM 卡 4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G: 电信(FDD-LTE)|不支持主副卡同时使用电信卡|4G:联通(TD-LTE)", "4G+(CA)":"移动 4G+|联通 4G+|电信 4G+", "高清语音通话(VOLTE)":"移动 VOLTE|电信 VOLTE", "网络频率(2G/3G)":"2G:GSM 850/900/1800/1900|2G:CDMA 800|3G : TD-SCDMA 1900/2000|3G : WCDMA 850/900/1900/2100|3G : CDMA2000|2G:GSM 900/1800|2G:GSM 900/1800/1900|3G:CDMA 800MHz 1X&EVDO|3G:WCDMA:850/900/1700/1900/2100MHz|TD-SCDMA1880/2010", "是否支持同时使用联通卡":"支持双卡同时在线,并同时使用联通 4G 移动数据", "ROM":"128GB", "ROM 类型":"UFS", "RAM":"8GB", "RAM 类型":"LPDDR 4X", "存储卡":"不支持", "主屏幕尺寸(英寸)":"6.0 英寸", "分辨率":"2160*1080", "屏幕像素密度(ppi)":"403", "屏幕材质类型":"LTPS", "屏幕生产厂商":"JDI", "亮度":"500(type)", "对比度":"1500(type)", "前置摄像头":"800 万像素", "前摄光圈大小":"f/2.0", "美颜技术":"支持", "摄像头数量":"2 个", "后置摄像头":"2400 万+1600 万像素", "摄像头光圈大小":"其他", "闪光灯":"双色温灯", "副摄像头光圈大小":"其他", "拍照特点":"防抖|美颜|连拍|微距|全景|滤镜|场景模式|HDR|PDAF| 微信小视频|水印", "电池容量(mAh)":"3450", "电池类型":"锂电池", "电池是否可拆卸":"", "充电器":"9V/2A", "数据传输接口":"WIFI|NFC|蓝牙|WiFi 热点|OTG 接口", "NFC/NFC 模式":"支持(点对点模式) |支持(读卡器模式) |支持(卡 模式)|支持卡模拟", "耳机接口类型":"Type-C", "充电接口类型":"Type-C", "数据线":"USB2.0", "指纹识别":"支持", "语音识别":"支持", "GPS":"支持", "电子罗盘":"支持", "陀螺仪":"支持", "红外遥控":"不支持", "其他":"距离感应|呼吸灯|多麦降噪技术|光线感应", "常用功能":"录音|便签|重力感应" } }

推荐阅读
  • 使用圣杯布局模式实现网站首页的内容布局
    本文介绍了使用圣杯布局模式实现网站首页的内容布局的方法,包括HTML部分代码和实例。同时还提供了公司新闻、最新产品、关于我们、联系我们等页面的布局示例。商品展示区包括了车里子和农家生态土鸡蛋等产品的价格信息。 ... [详细]
  • 开发笔记:Docker 上安装启动 MySQL
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Docker上安装启动MySQL相关的知识,希望对你有一定的参考价值。 ... [详细]
  • scrcpy通过adb调试的方式来将手机屏幕投到电脑上,并可以通过电脑控制您的Android设备。它可以通过USB连接,也可以通过Wifi连接(类似于隔空投屏),而且不需要任何ro ... [详细]
  • 由于同源策略的限制,满足同源的脚本才可以获取资源。虽然这样有助于保障网络安全,但另一方面也限制了资源的使用。那么如何实现跨域呢,以下是实现跨域的一些方法。 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • Excel数据处理中的七个查询匹配函数详解
    本文介绍了Excel数据处理中的七个查询匹配函数,以vlookup函数为例进行了详细讲解。通过示例和语法解释,说明了vlookup函数的用法和参数的含义,帮助读者更好地理解和运用查询匹配函数进行数据处理。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了一些好用的搜索引擎的替代品,包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外,还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • Python爬虫中使用正则表达式的方法和注意事项
    本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤,并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法,包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块,并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习,读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]
  • 实现一个通讯录系统,可添加、删除、修改、查找、显示、清空、排序通讯录信息
    本文介绍了如何实现一个通讯录系统,该系统可以实现添加、删除、修改、查找、显示、清空、排序通讯录信息的功能。通过定义结构体LINK和PEOPLE来存储通讯录信息,使用相关函数来实现各项功能。详细介绍了每个功能的实现方法。 ... [详细]
  • .NetCoreWebApi生成Swagger接口文档的使用方法
    本文介绍了使用.NetCoreWebApi生成Swagger接口文档的方法,并详细说明了Swagger的定义和功能。通过使用Swagger,可以实现接口和服务的可视化,方便测试人员进行接口测试。同时,还提供了Github链接和具体的步骤,包括创建WebApi工程、引入swagger的包、配置XML文档文件和跨域处理。通过本文,读者可以了解到如何使用Swagger生成接口文档,并加深对Swagger的理解。 ... [详细]
  • 时域|波形_语音处理基于matlab GUI音频数据处理含Matlab源码 1734期
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了语音处理基于matlabGUI音频数据处理含Matlab源码1734期相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 开发笔记:读《分布式一致性原理》JAVA客户端API操作2
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了读《分布式一致性原理》JAVA客户端API操作2相关的知识,希望对你有一定的参考价值。创 ... [详细]
  • 6(自)、交换机之关键字模式
    上一节中的我们的日志系统将所有消息广播给所有消费者,对此我们想做一些改变,例如我们希望将日志消息写入磁盘的程序仅接收严重错误(error),而不存储那些警告(warnning)或者 ... [详细]
author-avatar
丫头2502934891
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有