分享

Apache Spark MapR连接器提供对JSON支持

 0璇玑玉衡0 2017-06-28

有一个新的本地Spark连接器(Native Spark Connector)用于MapR-DB JSON,它使开发人员可以使用Open JSON应用程序接口(OJAI)API从Apache Spark访问MapR-DB JSON文档。

Apache Spark是一个开源的大数据处理框架,用于流媒体和批量工作负载的分析。MapR-DB是一种高性能NoSQL数据库,支持两种主要数据模型:JSON文档和宽列表。Spark连接器可用于每种数据模型。使用Spark/MapR-DB连接器,你可以使用MapR-DB作为数据源和作为Spark作业的数据目标。

用于MapR-DB JSON的Native Spark连接器支持将MapR-DB表中的数据作为OJAI文档的Spark Resilient分布式数据集(RDD)加载,并将Spark RDD保存到MapR-DB JSON表中。(RDD是用于存储Spark使用的数据的基本格式。)Apache Spark MapR连接器提供对JSON支持

本机连接器批量镜像

该连接器包括一组API,使MapR用户能够编写使用MapR-DB JSON表并在Spark中使用它们的应用程序。它是Apache Spark的MapR-DB二进制连接器的伴侣,可用于编写使用HBase二进制表并在Spark中使用它们的应用程序。

该连接器具有两个API,可将数据从MapR-DB JSON表加载到Spark RDD,或将Spark RDD保存到MapR-DB JSON表中。它还提供对Scala bean类的支持,有一个自定义分区器,允许你分区数据以获得更好的性能,并支持数据本地化。当连接器从MapR-DB读取数据时,它使用MapR-DB的数据本地化功能来产生Spark执行器。

本地Spark连接器包括对数据帧和数据集API的支持,因此可以直接使用Spark查询HBase和MapR-DB二进制表。它提供的优点是它可以消除任何中间层,从而更容易构建更快的数据流水线,并减少与数据移动相关的延迟。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多