热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

利用SparkStreaming来实现实时的数据管道服务

2019独角兽企业重金招聘Python工程师标准现在需要搜集用户的行为记录,之前我们打算采用AWS提供的服务,大致架构是这样的:建立

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

现在需要搜集用户的行为记录,之前我们打算采用AWS提供的服务,大致架构是这样的:

建立一个rest来收集来自服务器或者是终端的(从手机端,网页)的数据,之后将这些数据放到 Kinesis Streaming之中,然后通过AWS的firehose将数据放到S3或者RedShift中。但是现在有两个问题,Amazon中国 目前还没有firehose这个service,二是可能打算将获取到的数据流放到HDFS或者其他地方,并且可能需要做一些比较简单的运算。考虑到效率以及拓展性,我们采用了Spark Streaming来代替firehose(关于Spark Streaming效率问题,可以参考这里)

为什么不自己写呢?我想用这句话回答会比较好-"You can spend more time focusing on your application and less time on your infrastructure."。看你关心的层面了,做数据分析,应该把更多精力放在核心业务上。

关于Spark Streaming以及如何做集成Kinesis,可以参看官方文档:

1.Spark Streaming Programming Guide

2.Spark Streaming + Kinesis Integration

关于spark-streaming-kinesis-asl_2.10, 和spark-core会有版本冲突,下面给出我的依赖关系,供大家参考:

scalaVersion := "2.10.4"libraryDependencies ++= Seq("com.amazonaws" % "aws-java-sdk-kinesis" % "1.10.4","com.amazonaws" % "amazon-kinesis-client" % "1.4.0","org.apache.spark" % "spark-core_2.10" % "1.4.1" % "provided","org.apache.hadoop" % "hadoop-client" % "2.6.0","org.apache.hbase" % "hbase-client" % "1.0.0","org.apache.hbase" % "hbase-common" % "1.0.0","org.apache.spark" % "spark-streaming_2.10" % "1.4.1","org.apache.spark" % "spark-streaming-kinesis-asl_2.10" %  "1.4.1"
)



转:https://my.oschina.net/u/1450520/blog/624931



推荐阅读
  • 如何精通编程语言:全面指南与实用技巧
    如何精通编程语言:全面指南与实用技巧 ... [详细]
  • Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]
  • 本文对比了杜甫《喜晴》的两种英文翻译版本:a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑,b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]
  • 使用 ListView 浏览安卓系统中的回收站文件 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 本文详细解析了LeetCode第215题,即高效寻找数组中前K个最大元素的问题。通过使用快速选择算法(partition),可以在平均时间复杂度为O(N)的情况下完成任务。本文不仅提供了算法的具体实现步骤,还深入探讨了partition算法的工作原理及其在不同场景下的应用,帮助读者更好地理解和掌握这一高效算法。 ... [详细]
  • 本文介绍了几种常用的图像相似度对比方法,包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点,适用于不同的应用场景。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 解决问题:1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考:https:github.comsuyunzzzCSF论文题目ÿ ... [详细]
  • 本文详细介绍了MySQL数据库的基础语法与核心操作,涵盖从基础概念到具体应用的多个方面。首先,文章从基础知识入手,逐步深入到创建和修改数据表的操作。接着,详细讲解了如何进行数据的插入、更新与删除。在查询部分,不仅介绍了DISTINCT和LIMIT的使用方法,还探讨了排序、过滤和通配符的应用。此外,文章还涵盖了计算字段以及多种函数的使用,包括文本处理、日期和时间处理及数值处理等。通过这些内容,读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]
  • 本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法,文章提供了多种实用技巧,帮助用户高效地生成高质量的动态图像视频。此外,还探讨了不同视频编码器的选择及其对输出文件质量的影响,为读者提供了全面的技术指导。 ... [详细]
  • 深入解析C语言中结构体的内存对齐机制及其优化方法
    为了提高CPU访问效率,C语言中的结构体成员在内存中遵循特定的对齐规则。本文详细解析了这些对齐机制,并探讨了如何通过合理的布局和编译器选项来优化结构体的内存使用,从而提升程序性能。 ... [详细]
  • 本文详细介绍了定时器输入捕捉技术的原理及其应用。通过配置定时器通道的引脚模式为输入模式,并设置相应的捕获触发条件,可以实现对外部信号的精确捕捉。该技术在实时控制系统中具有广泛的应用,如电机控制、频率测量等场景。文中还提供了具体的配置步骤和示例代码,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 深入解析 Python 中的 NumPy 加法函数 numpy.add() ... [详细]
author-avatar
怪物-pp_912
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有