搜索

分享

QQ空间 QQ好友新浪微博微信

41 页PPT 揭秘 Uber 的大数据之道

圆圆酱 2016-06-11

展开全文

文丨Chandar
来源丨董老师在硅谷（ID：donglaoshi-123），本文获授权转载

昨天发了一篇Spark的，Apache Spark 2.0最新进展：更快，更容易，更智能，其实很多硅谷公司也积极采用Spark作为大数据的基础组件了。下面这一篇就来自于Uber数据架构组，他们负责人Chandar说：Spark 已经是”必备神器了”。

旧架构下，Uber依赖于Kafka的数据流将大量的日志数据传输到AWS的S3上，然后使用EMR来处理这些数据。然后再从EMR导入到可以被内部用户以及各个城市使用的关系型数据库中。

现在基于Spark的流式IO架构，用来取代之前的Python ETL 架构。新系统从关系型数据仓库表模型将原始数据摄取做了必要的解耦。

取而代之的是在一个关系模型中从多个分布式数据中心聚合行程数据，新的架构使用Kafka从本地数据中心来提供实时数据日志，加载他们到中心化的Hadoop集群中。

接着系统用Spark SQL 将非结构化的JSON转化为更加结构化的可以使用Hive来做SQL分析的Parquet文件。

通过利用Spark和Spark Streaming 将系统变得长期稳定运行的节点上。运行Spark任务、Hive、机器学习以及所有组件，将Spark的潜能彻底释放出来。

下面是PPT：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：圆圆酱 > 《Work》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

圆圆酱

产品经理

关注对话

TA的最新馆藏

水印测试3
水印测试2
[转] 美到极致的短句
“诗佛”王维
[转] 12星座恋爱里的“阴暗面”
[转] 《现捞鸭头》卤味透骨、麻辣馋嘴4K展示四川辣卤鸭头制作全过程

喜欢该文的人也喜欢更多

热门阅读换一换