分享

我对数据仓库的某些方面一点理解

 jacklopy 2012-01-17
分类: Data Warehouse

1:Data Staging Area
   这是为了数据表现区做ETL处理而设计的一个区,有人认为从操作源到data statging area就需要做ETL处理,在data statging area的数据就应该符合范式理论,这是错误的,这样会导致做两次ETL过程,花费了过多的时间,还不如节约这些时间来尽早处理用户的实际需求。

2:Data Presentation
   我们认为,数据表现区就是一个数据集市的集合,每一个数据集市就是一个业务过程的体现。这些业务过程就组成了整个企业的实现信息化的需求。
  对于数据展现层有一些强烈的观点:
  a):所有的表现,存储,访问都必须在维度模型中。维度模型和3F模型不同,3F模型的目的是减少数据冗余,数据被划分到许多抽象的实体,这些实体对于于数据库里的表。3F模型也被称为Normalized modeling。但是这样的Normalization不适用于DW系统,应为他太复杂了,不方便查询。DW的最终目的是为了直接的,高性能的检索数据。
  b):必须包含细节和原子的数据。数据仓库中不能只存储汇总的聚合的数据。
  c):所有数据集市必须运行标准的维和事实,这被叫做conformed dimensions and facts, .这是数据仓库总线架构的基础。如果数据集市已经按照conformed dimensions and facts设计,那么以后就很容易把所有的数据集市通过同一个事实表或者维表组合起来。
   如果表现层是基于关系型数据库,那么这些维模型设计出来的表是星型模式。如果是基于多维数据库和OLAP技术,那么设计出来的是存储在CUBE中。维度模型同样适用于关系型数据库和多维数据库,他们都有普通的基于可认知的维的逻辑设计,但是物理设计是不同的,前者存储的是表,后者存储的是CUBE。目前大部分的数据集市一直是基于星型模式的关系型数据库,只是人们通过聚合,钻取等OLAP技术来生成了这些CUBE。

3:Data Access Tools
他能够作为普通的即席查询工具,数据挖掘工具,预测工具和建模应用。

解释一个名称:
Metadata:元数据其实就是DW的一个百科全书,它可以包含ETL过程,ETL的规则,staging文件和目标表的规划,conformed dimensions and facts的定义,聚合的定义,ETL调度的安排,甚至用户编写的程序都可以看做是Matadata,有点像ORACLE中的数据字典。
我们可以构建一个元数据存储库来保存这些元数据,在ORACLE 的BIEE中的OWB中,构建数据仓库的前提条件就是要有一个Repository,它就是为了保存元数据的。他一般是保存在另外一个数据库中,最好是保存在单独的一个表空间中,那天晚上用Repository Wiarze建立这个存储库可花了我不少时间,报了很多错误,呵呵。

Operational Data Store:他可以被频繁的更新经常被用于一些操作型报表,这些报表里的数据不是历史数据,也不会很新。主要是满足企业一些战术性的决策要求。传统的DW不能满足类似于实时的数据交互的决策支持,用户不能等待你把数据ETL之后在展现出来这个时间,呵呵。这就出现了ODS。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多