分享

41 页PPT 揭秘 Uber 的大数据之道

 圆圆酱 2016-06-11

文丨Chandar
来源丨董老师在硅谷(ID:donglaoshi-123),本文获授权转载




昨天发了一篇Spark的,Apache Spark 2.0最新进展:更快,更容易,更智能,其实很多硅谷公司也积极采用Spark作为大数据的基础组件了。下面这一篇就来自于Uber数据架构组,他们负责人Chandar说:Spark 已经是”必备神器了”。

旧架构下,Uber依赖于Kafka的数据流将大量的日志数据传输到AWS的S3上,然后使用EMR来处理这些数据。然后再从EMR导入到可以被内部用户以及各个城市使用的关系型数据库中。

现在基于Spark的流式IO架构,用来取代之前的Python ETL 架构。新系统从关系型数据仓库表模型将原始数据摄取做了必要的解耦。

取而代之的是在一个关系模型中从多个分布式数据中心聚合行程数据,新的架构使用Kafka从本地数据中心来提供实时数据日志,加载他们到中心化的Hadoop集群中。

接着系统用Spark SQL 将非结构化的JSON转化为更加结构化的可以使用Hive来做SQL分析的Parquet文件。

通过利用Spark和Spark Streaming 将系统变得长期稳定运行的节点上。运行Spark任务、Hive、机器学习以及所有组件,将Spark的潜能彻底释放出来。

下面是PPT:


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多