利用SparkStreaming来实现实时的数据管道服务

2019独角兽企业重金招聘Python工程师标准>>>

现在需要搜集用户的行为记录&＃xff0c;之前我们打算采用AWS提供的服务&＃xff0c;大致架构是这样的&＃xff1a;

建立一个rest来收集来自服务器或者是终端的(从手机端&＃xff0c;网页)的数据&＃xff0c;之后将这些数据放到 Kinesis Streaming之中&＃xff0c;然后通过AWS的firehose将数据放到S3或者RedShift中。但是现在有两个问题&＃xff0c;Amazon中国目前还没有firehose这个service&＃xff0c;二是可能打算将获取到的数据流放到HDFS或者其他地方&＃xff0c;并且可能需要做一些比较简单的运算。考虑到效率以及拓展性&＃xff0c;我们采用了Spark Streaming来代替firehose(关于Spark Streaming效率问题&＃xff0c;可以参考这里)。

为什么不自己写呢&＃xff1f;我想用这句话回答会比较好&＃xff0d;"You can spend more time focusing on your application and less time on your infrastructure."。看你关心的层面了&＃xff0c;做数据分析&＃xff0c;应该把更多精力放在核心业务上。

关于Spark Streaming以及如何做集成Kinesis&＃xff0c;可以参看官方文档&＃xff1a;

1.Spark Streaming Programming Guide

2.Spark Streaming &＃43; Kinesis Integration

关于spark-streaming-kinesis-asl_2.10, 和spark-core会有版本冲突&＃xff0c;下面给出我的依赖关系&＃xff0c;供大家参考&＃xff1a;

scalaVersion :&＃61; "2.10.4"libraryDependencies &＃43;&＃43;&＃61; Seq("com.amazonaws" % "aws-java-sdk-kinesis" % "1.10.4","com.amazonaws" % "amazon-kinesis-client" % "1.4.0","org.apache.spark" % "spark-core_2.10" % "1.4.1" % "provided","org.apache.hadoop" % "hadoop-client" % "2.6.0","org.apache.hbase" % "hbase-client" % "1.0.0","org.apache.hbase" % "hbase-common" % "1.0.0","org.apache.spark" % "spark-streaming_2.10" % "1.4.1","org.apache.spark" % "spark-streaming-kinesis-asl_2.10" % "1.4.1" )

利用SparkStreaming来实现实时的数据管道服务

如何精通编程语言：全面指南与实用技巧

在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

杜甫《喜晴》的两种英译比较

使用 ListView 浏览安卓系统中的回收站文件

如何高效启动大数据应用之旅？

LeetCode 215: Top K Largest Elements Efficiently Explained

图像相似度对比的多种方法

Python 使用 DOM 和 SAX 解析 XML 的应用实例

PHP 对象生命周期与内存管理

python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

掌握MySQL数据库的基础语法与核心操作

使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

深入解析C语言中结构体的内存对齐机制及其优化方法

定时器输入捕捉技术详解与应用

深入解析 Python 中的 NumPy 加法函数 numpy.add()