LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 6784|回复: 8

数据仓库相关知识点介绍

[复制链接]
发表于 2007-6-17 22:01:44 | 显示全部楼层 |阅读模式
由于我的工作经验仅限于烟草和金融行业。而且现在到外企,基本上已经是脱离了这二个行业了,加上自己接触的东西也有限,希望大家指正补充。

数据仓库通常分为几个层面:
最低层的是基础数据,它来源于各个不同的应用系统;
ETL过程,将不同的数据清洗、转换、然后加载到中心数据库中;
数据集市,将数据分类、整理,并提供给高层决策者;这一部份又可以分为数据挖掘和BI(商业智能)二部份。

数据仓库涉及的知识太复杂,很多知识都是厂商在介绍产品时了解到的,所以我将按厂商来介绍。将各部份的知识点穿插在其中,难免有点混乱的感觉。
 楼主| 发表于 2007-6-17 22:18:49 | 显示全部楼层
Teradata成立于1979年,一开始做的就是高性能数据处理的事情,后来收购一家做数据库计算机叫做Sharebase的公司,从此诞生硬件+软件的数据仓库架构。Teradata的母公司是NCR(National Cash Register),NCR成立于1884 年,主营产品ATM机,POS机都达到全球占有率第一位,借助这两类产品公司NCR也跻身全球500强企业。Teradata目前已经从母公司折分出来单独上市了。
Teradata最成功的案例就是沃尔玛,拥有超过180T的数据(据说是商业数据仓库中最大的)。Teradata自称是使用开放式系统与开放式芯片的,由于我并没有接触过Teradata的产品,所以也只是道听途说。但我的感觉是Teradata做数据仓库基本是从头到尾统统吃下,从硬件到软件都有全套的解决方案。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2007-6-20 23:33:42 | 显示全部楼层
IBM成立于1914年,总部设在纽约的 Armonk。IBM不仅是世界上最大的IT公司,同时也是世界上最大的硬件公司,而且也是世界最大的软件公司。

IBM的服务器分为x, p, i, z四个系列:xSerise是基于x86架构处理器的服务器;pSerise是基于PowerPC处理器的服务器,它通常运行AIX操作系统,也可以利用虚拟化技术分区运行多个linux操作系统;iSerise的服务器通常叫AS400,运行OS400操作系统,是世界上最安全的服务器(因为它是最封闭的系统);zSerise有专有的操作系统os390,也可以运行linux操作系统。

在IBM招聘时,从事iSerise及zSerise软硬件的员工都只招收数学和物理专业的,特别是计算机专业的,根本不要。原因?概念上完全不一样,没有任何计算机基础的人比较容易接受iSerise及zSerise的相关知识。

zSerise也是世界上最强的Mainframe,从RHEL和SUSE EL的价格就可以看出它有多强大。基于x86的basic售价为300多刀,基于zSerise的basic却高达10000多刀,差了2个数量级。

IBM号称全世界80%以上的数据是存储在DB 2数据库中。等等,不是说Teredata拥有世界上最大的商业数据仓库吗?在IBM重金收购Informix的市场后,其市场占有率确实一度高达80%。而且IBM对200T的数据仓库不屑一顾,200T?都不需要动用iSerise和zSerise。10套高配的p690加上40套7133 Shark存储系统就能搞定。

怎么看我都象个IBM的枪手,不过来看看事实吧。zSerise最高端的代表s390系统,全世界仅出售了2套,一个客户是美国国家宇航局,用于计算航天航空气象信息数据;另一个客户是美国国防部下属的能源部,用于模拟核弹爆炸。还有世界杯、奥运会、温网、世行、纽约证券等的数据……

IBM其实在数据仓库领域长期只占据核心存储这一部份,它的DB2 UDB是最早面象对象的数据库。IBM DB2 Warehouse Manager (IBM DB2数据仓库管理器)目前已经集成到了DB2 UDB Control Center(控制中心)中,通过它的管理数据仓库。

IntelligentMiner是被选为业界最佳数据采集工具,赢得了DM读者奖。除了数据仓库和数据挖掘解决方案,IBM还在此基础上开发了一系列行业解决方案及应用程序。

IBM QMF是其在BI(商业智能)方面的报表展现工具(没有用过,只用过Hyperion的Essbase)。DB2 OLAPServer其实就是IBM和Hyperion合作的产物,支持Essbase的程序可以不改一行代码直接用在DB2 OLAPServer上。

IBM是除了Teredata外另一家拥有软硬件全套解决方案的数据仓库供应商。
回复 支持 反对

使用道具 举报

发表于 2007-6-21 16:36:03 | 显示全部楼层
复习了。。。
牛人,羡慕恩。。。
自己却要准备去做不喜欢的工作,郁闷。。。
职业规划一直是向BI的。。。可是错失了不少机会。。。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2007-6-26 21:21:07 | 显示全部楼层
SAS成立于1976年,SAS以“统计分析”和“线性数学模型”而享誉业界,其强项在于数据挖掘领域。SAS是除Teredata, IBM外能提供完整的数据仓库解决方案的又一著名厂商,当然SAS不提供硬件产品。SAS的数据仓库解决方案太偏向数学模型了,因此没有良好的数学建模知识很难驾驭SAS的产品。
SAS产品的销售方式也是非常特别的,是以每年支付一定许可协议的方式来购买的。老外对这种方式比较容易接受,国内一般还是很难接受的。虽然象RHEL、SUSE EL等都是按年支付一定许可协议的方式来购买的,但不同之处在于这类软件到期不续买的话,支是没有技术支持和服务,软件仍然能运行。而SAS的产品到期不续买的话就将无法再运行。
回复 支持 反对

使用道具 举报

发表于 2007-7-8 11:48:40 | 显示全部楼层
oracle 这个如何呢?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2007-7-16 15:06:45 | 显示全部楼层
Oracle公司成立于1977年,总部位于美国加州Redwood shore。Oracle在数据库领域一直处于较领先的地位。特别是Oracle 8i开始全部采用Java编写,让Oracle数据库在跨平台、互连网支持等方面有了非常巨大的进步。Oracle先在2003年花51亿美金收购PeopleSoft,接着双在2005年花58亿美金收购Siebel,让其在应用软件领域有了和SAP一争长短的实力。2006年Oracle又花了33亿美金收购了Hyperion(这之前不久Hyperion刚吃下了Brio)。拥有Essbase多维分析服务器,Brio报表,Oracle真正从数据库跨入了高端的数据仓库领域。从目前的情况来看,Oracle已经和Teredata、SAS并居数据仓库三甲。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2010-8-5 17:37:37 | 显示全部楼层
眨眼又是三年过去了,数据仓库领域发生了很大的变化。
IBM收购了Ascential和Cognos,在ETL和报表展现方面有了质的提升。
Oracle、IBM、SAS、Teradata目前仍是数据仓库领域的4巨头。
回复 支持 反对

使用道具 举报

发表于 2010-9-7 19:12:09 | 显示全部楼层
学习了,谢谢楼主
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表