热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

基于区块链和scrapyredis的云爬虫平台构想

内容:1.基于scrapy-redis搭建分布式爬虫,爬取的内容可以是社交类信息(微博,贴吧,虎扑),也可以是商品信息(狗东,淘宝)2.设计云爬虫平台,用户将自己的爬虫提交到平台上

内容:

1. 基于scrapy-redis搭建分布式爬虫,爬取的内容可以是社交类信息(微博,贴吧,虎扑),也可以是商品信息(狗东,淘宝)

2. 设计云爬虫平台,用户将自己的爬虫提交到平台上后,可以用云上的服务器完成爬虫任务

3. 设计区块链系统,将比特币采用的POW中的 一次试错 更换成 爬取一个网页,这样的话矿工的机器就充当了2中云上的服务器

行业现状:

1. 云爬虫

神箭手:只能爬取微信公众号、今日头条等信息

造数:主要面向企业,面向个人的只有爬取固定网页的选项

云采:采用类似于selenium的设计,模拟浏览器爬取数据,这样爬效率太低,而且会有加载失败、爬虫不稳定等风险

现在的主流云爬虫平台都有接口少、对个人不友好、不够灵活、效率低等问题,而且中心化的设计存在隐私泄露、数据丢失等风险。

如果自己搭建分布式爬虫平台的话,合适的解决方案是采用scrapy-redis框架,但这样做存在两方面的问题,用户找不到太多机器去完成爬虫任务,爬起来太慢;而且租用、维护redis服务器既浪费时间,也是一笔不小的开支。

2. 区块链

区块链目前的架构各有千秋,都能对各自面向的领域提供合适的解决方案,但以比特币为首的区块链架构所采用的POW机制只关注算力,毫无意义地浪费电力,这种设计是不能面向某种特定应用的。

项目的目标、意义:

基于scrapy-redis搭建一个云爬虫平台,用户以scapy代码的形式提交自己的爬虫任务到平台上,同时可以设置每爬取一个网页要支付给矿工多少手续费,平台把待爬取的任务放到redis中,矿工通过下载、解析redis中的页面来争夺记账权。每生成一个区块就奖励记账的矿工。

《基于区块链和scrapy-redis的云爬虫平台构想》 scrapy-redis框架

这种设计主要解决了爬虫效率低的问题,比如要爬某宝的信息,以个人电脑的网速和计算能力,想爬百万级的数据需要几个月时间,而且个人电脑不太可能一直爬而不休息,做分布式爬虫又会苦于没有设备。有了云平台的话,只要做成scrapy代码的形式就很容易被云爬虫平台解析,并且以有偿支付矿工费用的方式让矿工替自己完成任务。

基于云爬虫平台还可以做一个去中心化的搜索引擎,只要将所有网页都纳入爬取范围,再仿照常规搜索引擎的排序算法,就可以搭建一个没有竞价排名没有莆田医院的去中心化搜索引擎。


推荐阅读
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储(DAS)、网络附加存储(NAS)和存储区域网络(SAN)的特点,帮助读者理解不同存储方式的优势与局限性。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 本文深入探讨了MySQL中常见的面试问题,包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析,帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]
  • 区块链的兴起:恰逢其时,犹如1996年的互联网
    本文探讨了区块链技术的发展阶段,将其与1996年互联网的兴起进行对比,分析了当前区块链技术的现状及其未来潜力。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 2017成都物流技术创新峰会:深入探讨区块链应用
    2017年3月30日,第二届物流技术大会在成都成功举办,会上特别举办了关于区块链技术及其在物流行业应用的专题讨论,深入分析了区块链技术的发展历程、现状及未来趋势。 ... [详细]
  • 浪潮AI服务器NF5488A5在MLPerf基准测试中刷新多项纪录
    近日,国际权威AI基准测试平台MLPerf发布了最新的推理测试结果,浪潮AI服务器NF5488A5在此次测试中创造了18项性能纪录,显著提升了数据中心AI推理性能。 ... [详细]
  • 介绍一个基于区块链技术的分布式存储项目,其提供的网盘服务速度远超传统网盘,如百度网盘,最高可达5倍之多。 ... [详细]
  • MySQL缓存机制深度解析
    本文详细探讨了MySQL的缓存机制,包括主从复制、读写分离以及缓存同步策略等内容。通过理解这些概念和技术,读者可以更好地优化数据库性能。 ... [详细]
  • 本文探讨了MariaDB在当前数据库市场中的地位和挑战,分析其可能面临的困境,并提出了对未来发展的几点看法。 ... [详细]
  • 探讨如何真正掌握Java EE,包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法,并提供了详尽的标准。 ... [详细]
  • 算法稳定币:构建去中心化加密货币体系的新希望
    本文探讨了算法稳定币在加密经济中的潜力,分析其与传统稳定币及比特币等早期加密资产的区别,并展望其未来发展方向。随着DeFi的兴起,算法稳定币正逐渐成为实现中本聪最初愿景的关键角色。 ... [详细]
  • 前端开发中的代码注释实践与规范
    本文探讨了前端开发过程中代码注释的重要性,不仅有助于个人清晰地回顾自己的编程思路,还能促进团队成员之间的有效沟通。文章将详细介绍HTML、CSS及JavaScript中的注释使用方法,并提出一套实用的注释规范。 ... [详细]
  • a16z 宣布成立全新的加密研究实验室,旨在推动加密技术和 Web3 领域的科学发展。 ... [详细]
author-avatar
捕鱼达人2702938971
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有