前言 大数据时代,数字化转型浪潮下,数据中台、数据仓库、数据库、大数据平台、数据湖等新老概念满天飞,一个概念还没搞清楚又来一个新概念,数字化转型之路还没开始,在起点就先被各种概念搞昏了头。那么这些在大数据领域经常能看到或听到的概念,它们具体是什么?彼此之间是什么关系?又有什么区别与联系?别急,下面我们将从数据产品的发展历程出发,帮助您一文理清数据、大数据、数据库、数据仓库、数据集市、数据湖、大数据平台、数据中台等概念的定义、应用、区别与联系,这么全面的科普文章,一定要记得收藏哦! 01 一张图了解数据产品发展历程 02 数据和大数据
|
序号 | 定义出处 | 定义 |
Wikipedia | 数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。数据沼泽是一种退化的、缺乏管理的数据湖,数据沼泽对于用户来说要么是不可访问的要么就是无法提供足够的价值。 | |
2 | 亚马逊AWS | 数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。 |
3 | 微软 | 数据湖包括一切使得开发者、数据科学家、分析师能更简单的存储、处理数据的能力,这些能力使得用户可以存储任意规模、任意类型、任意产生速度的数据,并且可以跨平台、跨语言的做所有类型的分析和处理。数据湖在能帮助用户加速应用数据的同时,消除了数据采集和存储的复杂性,同时也能支持批处理、流式计算、交互式分析等。数据湖能同现有的数据管理和治理的IT投资一起工作,保证数据的一致、可管理和安全。它也能同现有的业务数据库和数据仓库无缝集成,帮助扩展现有的数据应用。 |
序号 | 特性 |
1 | 数据湖需要提供足够用的数据存储能力,这个存储保存了一个企业/组织中的所有数据。 |
2 | 数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。 |
3 | 数据湖中的数据是原始数据,是业务数据的完整副本。数据湖中的数据保持了他们在业务系统中原来的样子。 |
4 | 数据湖需要具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。 |
5 | 数据湖需要具备多样化的分析能力,包括但不限于批处理、流式计算、交互式分析以及机器学习;同时,还需要提供一定的任务调度和管理能力。 |
6 | 数据湖需要具备完善的数据生命周期管理能力。不光需要存储原始数据,还需要能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,能帮助用户完整详细追溯任意一条数据的产生过程。 |
7 | 数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求。 |
8 | 对于大数据的支持,包括超大规模存储以及可扩展的大规模数据处理能力。 |
08
什么是大数据平台?
大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等功能为一体的平台。最典型的是基于Hadoop生态构建的大数据框架,Hadoop生态的相关产品包括Spark、Flink、Flume、Kafka、Hive、HBase等等等经典开源产品。国内绝大部分公司的大数据平台都是基于Apache和Cloudera这两个分支Hadoop生态技术的产品进行商业化包装和改进。例如:阿里云EMR、腾讯TBDS、华为FusionInsight、新华三DataEngine、浪潮Insight HD、中兴DAP等产品。
大数据平台当然也不局限于某一个大数据框架,可以根据实际业务需求去选择合适的技术组件进行整合,是一个物理存在的平台,为数据仓库、数据湖、数据中台的构建提供基础支撑。
09
什么是数据中台?
阿里巴巴于2017年云栖大会正式对外提出数据中台概念,数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。狭义来看,数据中台是一套实现数据资产化和服务复用的工具,是数据采集交换、共享融合、组织处理、建模分析、管理治理和服务应用于一体的综合性数据能力平台,在大数据生态中处于承上启下的功能,提供面向数据应用支撑的底座能力。广义来看数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑构建一套持续不断把数据变成资产并服务于业务的机制。
序号 | 定义 | 定义出处 |
1 | 中台就是“企业级能力复用平台”。 | 《白话中台战略-3:中台的定义》 |
2 | 中台通过集合整个集团的运营数据能力、产品技术能力、来对各前台业务形成强力支撑。 | 《大型集团性企业的中台战略-阿里的中台战略其实是一个伪命题》 |
3 | 中台是一种需求分析的方法论,一套能力接入标准、一套运作机制,集中配置、分布执行的控制台。 | 《中台如何助力标准化业务?中台关键要快!》 |
4 | “中台”是强调资源整合、能力沉淀的平台体系,为“前台”的业务开展提供底层的技术、数据等资源和能力的支持。 | 《大中台、小前台》 |
5 | 中台是局域前台和后台之间、位于基础架构和各产品线间的业务架构。 | 《阿里巴巴中台战略思想与架构实践》 |
6 | 数据中台是将各个业务板块多年来积累的数据,按业务特征进行横向关联和统一,按数据用途进行纵向分层,最终沉淀为公共的数据服务能力。 | 《传统企业数据中台的建设与思考》 |
7 | 数据中通的实质还是组件化、模块化,是设计模式与业务端的应用。 | 袋鼠云《浅析数据中台策略与建设实践》 |
数据中台逻辑架构
数据中台产业链生态图谱
在大数据技术发展和企业数字化转型加速的双重驱动下,数据中台在多场景快速落地。从厂商类型来看,阿里云、华为云、腾讯云、亚马逊云等平台生态厂商,用友、金蝶、新华三、浪潮、明略科技、星环科技等解决方案厂商,网易数帆、数澜科技、云徒科技等独立中台厂商以及滴滴、美团等自研厂商的边界开始模糊,数智服务的生态协同明显。
10
数据产品的区别与联系
数据库与数据仓库的区别与联系
解释数据库与数据仓库的区别,这里引入两个名词OLTP(On-Line Transaction Processing,联机事务处理)与OLAP(On-Line Analytical Processing,联机分析处理)。数据库是为了解决OLTP而存在的,而数据仓库是为了分析数据而存在的。严格来讲数据仓库不是一门技术,也不是一个产品,数据仓库涉及数据建模,数据抽取ETL,数据可视化等一系列的流程,是一种数据解决方案,通常需要多种技术进行组合使用。
数据库的数据是数据仓库的数据源,即将数据库的数据加载至数据仓库,数据仓库的本质是OLAP,即是做在线分析处理,这是与数据库的本质区别。对于一个业务系统而言,数据库是必须的,数据仓库并不是必须的,只有在业务稳定运转的情况下,才会去构建企业级数据仓库,通过数据分析,数据挖掘来辅助业务决策,实现锦上添花。
数据仓库与数据集市的区别与联系
数据仓库和数据集市在规模、数据处理的速度和复杂性、以及数据的范围方面存在明显的差异,数据仓库是一个大型的、集中的、一体化的数据存储系统,用于存储和处理来自多个源的数据。数据仓库的目标是支持企业的决策制定和战略执行。而数据集市,则是一个更小型的、针对特定业务部门或主题的数据存储系统。而且,两者的构建和使用方式也有所不同,数据仓库通常由企业级的技术团队进行构建和维护,数据集市则更多地依赖于特定的业务部门或主题专家。
数据湖与数据仓库的区别与联系
数据仓库和数据湖的重大区别是:数据仓库中数据在进入仓库之前需要是事先归类,以便于未来的分析。数据仓库是高度结构化的架构,数据在转换之前是无法加载到数据仓库的,用户可以直接获得分析数据。而在数据湖中,数据直接加载到数据湖中,然后根据分析的需要再转换数据,数据湖拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。
从产品形态上来说,数据仓库往往是独立标准化的产品,数据湖更像是一种架构指导,是一套产品组合的解决方案——需要配合一系列的周边工具,来实现业务需要的数据湖。
数据中台、数据平台、数据仓库和数据湖的区别与联系
数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重,总的来说:
数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务。
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集。
数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合。
数据湖与数据仓库相比,数据湖缺乏结构性,可存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据,具有更高的敏捷性。
11
总 结
本文对数据、大数据、数据库、数据仓库、数据集市、数据湖、大数据平台、数据中台等概念的发展历程、定义、应用场景、区别与联系进行详细介绍,帮助大家更好的理解和掌握大数据领域相关概念,方便以后的学习与工作。
|
来自: 新用户55055776 > 《数字化转型》