壹佰网|ERP100 - 企业信息化知识门户

 找回密码
 注册

用新浪微博连接

一步搞定

QQ登录

只需一步,快速开始

查看: 3568|回复: 27

[其他] Oracle数据仓库-电信行业应用案例(数据库容量为65TB,其中原始数据为25TB)

[复制链接]
     
发表于 2013/6/28 17:29:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。如果您注册时有任何问题请联系客服QQ: 83569622  。

您需要 登录 才可以下载或查看,没有帐号?注册

x
本帖最后由 diaowf 于 2013/7/14 17:26 编辑
本文为 "分享知识 原创连载" 活动推荐文章!

转眼,从事电信行业BI/DW已经有三年时间了,一直想写点东西,给大家共同分享,感谢ERP 100给我了一个展示的平台!
          连载时间:一周一篇
          连载提纲:
                  第一篇  数据仓库建设目标、系统规模及项目面临的技术挑战
                  第二篇  选择数据仓库平台的考虑
                  第三篇  选择Oracle产品的原因
                  第四篇  系统现状分析、DW数据仓库建设原则及整体规划的实现
                  第五篇  整体规划的实现、新增应用优先级的确定及螺旋式建设方法
                 第六篇  数据仓库的效益、成本和风险控制
                  第七篇  数据模型设计方法
                  第八篇  构建闭环的信息流、数据模型-分层设计、DW中的数据功能划分  
                  第九篇  数据抽取策略、数据抽取过程管理、对脏数据的管理、数据去重及元数据管理及
                  第十篇  典型的应用流程、主题分析及应用推广方法

    (第一篇)  数据仓库建设目标、系统规模及项目面临的技术挑战

1  数据仓库项目建设目标:
     建立统一的数据信息平台,实现客户资料和生产数据的集中存储。利用先进的数据仓库技术和决策分析技术为市场营销和客户服务工作提供有效的支撑:
2  目前系统规模:
     包含12个月的话单;数据库容量为65TB,其中原始数据为25TB;最大的表包含1800亿话单
     

电信行业数据仓库案例

电信行业数据仓库案例

3 项目面临的技术挑战:
    数据存储-系统要求存储12-18个月的详单数据;
   数据装载-按小时装载详单数据,要求每天在8小时内装载5亿条详单;高峰时一个小时装载6500万条详单;在8小时内同时完成1亿7000万个汇总操作
   数据访问-支持680个并发用户,支持8000个系统用户;5%的预定义查询操作在5秒钟内完成;每秒钟23个查询操作

Sina微薄互动地址:http://www.weibo.com/2186879022/zDx5x29Cw

点评

已阅;期待后文;  发表于 2013/7/1 06:16

本帖被以下淘专辑推荐:

     
发表于 2013/7/6 12:46:02 | 显示全部楼层
报名参与  分享知识原创连载活动  连载内容 :电信行业BI DW项目实例方案


纵横四海点评:小虎哥(diaowf)已经开始了连载贴:Oracle数据仓库-电信行业应用案例(数据库容量为65TB,其中原始数据为25TB) ;这个连载绝不是某一些朋友说的广告帖和软文,是一个真实的案例;写这边帖子没有任何的功利,唯一的目的就是分享,欢迎所有作数据仓库项目的朋友拍砖;
这篇帖子对我个人也将非常有帮助,因为数据仓库对我自己的工作帮助也较大,对我的项目也会有一些帮助;我想到时候少不了多多咨询
小虎哥(diaowf
     
发表于 2013/6/28 17:49:34 | 显示全部楼层
期待楼主更新            

点评

在这方面你应该经验不少。你也参与该帖吧;  发表于 2013/6/28 17:54
     
 楼主| 发表于 2013/6/28 17:58:28 | 显示全部楼层

(第二篇) 选择数据仓库平台时的考虑

本帖最后由 diaowf 于 2013/7/14 17:20 编辑

4 选择数据仓库平台时的考虑
   4.1 强大的ETL支持能力 - 支持按小时的数据装载
   4.2 高效的数据访问 - 硬件的支持:多CPU 大内存 并发处理
      分区技术
      索引技术
      数据库内置分析能力
   4.3 高可用性 7 * 24小时不间断运行
   4.4 数据访问 每秒钟23到100个并发查询操作; 95%的查询在1秒内完成
   4.5 数据表分区 - 混合分区
      按地区建立列表分区;
      按时间建立范围分区;
   4.6 可传输的表空间
      操作系统文件的直接复制;不需要数据的导入、导出
   

点评

已阅;期待后文;  发表于 2013/7/1 06:16
     
发表于 2013/6/28 18:03:27 | 显示全部楼层
diaowf 发表于 2013/6/28 17:58
4 选择数据仓库平台时的考虑
   4.1 强大的ETL支持能力 - 支持按小时的数据装载
   4.2 高效的数据访问 ...

数据仓库产品可选的不止Oracle一家,楼主谈谈为啥选Oracle的数据仓库?而不是其他公司的数据仓库产品?
     
 楼主| 发表于 2013/6/28 21:31:03 | 显示全部楼层
本帖最后由 diaowf 于 2013/7/14 17:20 编辑

(第三篇) 选择Oracle产品的原因:   
      目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、SAP Business Objects等.
     
       在数据仓库系列技术中,主要的支撑技术包括数据库技术、ETL技术、OLAP技术、报表技术、数据挖掘技术.
  
     1  数据库技术   数据库技术是支撑数据仓库技术的基础技术,在已有的数据仓库实践中,关系数据库仍然是实质的数据库存储工具,只是将数据库表改称为 事实表和维表, 将属性之间的关系重新定义为维度、指标和事实,维度表和事实表之间的关系模型转化为星型模型、雪花模型等
    1.1 Oracle数据库优点:  
         a) 关系型数据库   b)可用性、可扩展性及稳定性强   d)数据安全性(支持闪回及完美恢复)    e) 高可用性及网络控制


    2 ETL技术   数据仓库系统是集成的、与时间相关的数据集合,ETL作为数据仓库的核心,负责将分布的、异构数据源中的数据进行抽取、清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
       ETL工具的选择上,我们选择的是Oracle 的ODI产品,结合Oracle golden gate组件,实现各种外围系统异构数据库数据的全量和增量抽取。
       但就ETL工具的易用性、效率、二次开发、集成和开放性而言,与Informatica公司的Informatica还有一定差距。   

   3  联机分析处理(OLAP)是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。
   
    4  报表技术
    报表技术主要是将集成在数据模型里的数据,按照复杂的格式、指定行列统计项,计算形成的特殊表格。一般的简单报表可以使用通用的前台展现技术实现,而复杂的报表则需要使用特定的报表技术。主流的报表技术都可以灵活的制定各种报表模版库和指标库,并根据每个区块或单元格的需要引用指标,实现一系列复杂的符合要求的报表的自动生成。

数据仓库基本概念

数据仓库基本概念

点评

已阅;期待后文;  发表于 2013/7/1 06:15
     
发表于 2013/6/28 21:59:03 | 显示全部楼层
看来这个项目对数据库的性能要求挺高的

点评

希望你也根据你参与的数据仓库项目发表一些你的看法;越专业越好;  发表于 2013/6/29 05:28
     
 楼主| 发表于 2013/6/29 22:36:49 | 显示全部楼层
本帖最后由 diaowf 于 2013/7/14 17:27 编辑

第四篇  系统现状分析、DW数据仓库建设原则、整体规划的实现
   4.1 系统现状分析
         1 各个系统采用不同的平台、数据库(核心系统采用Oracle EBS)
         2 各个系统缺乏统一的数据标准
         3 数据采集和集成困难
         4 多个系统中存在冗余数据

   4.2 DW数据仓库建设原则
        1 客户需求驱动-从多种渠道识别客户、实现精确营销及提升客户价值
        2 实用性-紧密配合业务部门的市场营销活动、客户维系、营销活动管理及新业务开发

   4.3 DW数据仓库建设方法 - 整体规划,分部实施
       1 统一规划:数据模型、数据获取策略及元数据
       2 分部实施:螺旋递增式建设方法

DW数据仓库建设方法

DW数据仓库建设方法

点评

已阅;期待后文;  发表于 2013/7/1 06:15
发表于 2013/6/30 22:34:51 | 显示全部楼层
期待更新。
看得出来楼主的经验还是很丰富的,希望能够多多分享,嘿嘿
     
发表于 2013/7/1 22:23:35 | 显示全部楼层
纵横四海 发表于 2013/6/28 18:03
数据仓库产品可选的不止Oracle一家,楼主谈谈为啥选Oracle的数据仓库?而不是其他公司的数据仓库产品?

个人观点:
目测楼主是做乙方的
选择哪个公司的产品就是乙方有建议权
甲方有决定权
很多时候甲方考虑的主要问题就是两个:成本、维护。

     
 楼主| 发表于 2013/7/1 23:58:55 | 显示全部楼层
本帖最后由 diaowf 于 2013/7/2 00:14 编辑

     欢迎大家踊跃参与该帖的讨论,感谢楼上的兄弟分享项目经验,我目前的确是乙方公司。
     
发表于 2013/7/7 09:43:49 | 显示全部楼层
小虎哥可以给大家一个提纲然后逐步详细讲一下啊,难得在这个项目上个人真正有所收获的。我听到的更多的是对项目工作强度的抱怨,对付出与收入的不平衡感,很少有你这样善于总结分析的。
     
 楼主| 发表于 2013/7/9 13:15:11 | 显示全部楼层
本帖最后由 diaowf 于 2013/7/14 18:19 编辑

      感谢大家的参与和鼓励,pathwide的建议很好,下面列举出该连载的计划提纲,如下:

      连载周期:一周一篇
      连载提纲:
      第一篇  数据仓库建设目标、系统规模及项目面临的技术挑战      第二篇  选择数据仓库平台的考虑
      第三篇  选择Oracle产品的原因
      第四篇  系统现状分析、DW数据仓库建设原则及整体规划的实现
      第五篇  整体规划的实现、新增应用优先级的确定及螺旋式建设方法
      第六篇  数据仓库的效益、成本和风险控制
      第七篇  数据模型设计方法
      第八篇  构建闭环的信息流、数据模型-分层设计、DW中的数据功能划分  
      第九篇  数据抽取策略、数据抽取过程管理、对脏数据的管理、数据去重及元数据管理及
      第十篇  典型的应用流程、主题分析及应用推广方法


       希望大家积极参与,共同分享BI/DW的项目经验,同时,有不到位的地方,还请大家多多指正,谢谢!
     
发表于 2013/7/9 17:57:49 | 显示全部楼层
期待楼主更新。。。。
发表于 2013/7/9 19:24:03 | 显示全部楼层
刚刚接触BI系统,处理的数据量很大,确实感觉DW的规划设计很重要。多谢分享。
     
 楼主| 发表于 2013/7/15 22:31:18 | 显示全部楼层
本帖最后由 diaowf 于 2013/7/15 22:33 编辑

(第五篇) 整体规划的实现、新增应用优先级的确定及螺旋式建设方法

       数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理决策制定。

    5.1 整体规划的实现 - 统一规划
         1 数据模型
         2 数据获取策略
         3 元数据

    5.2 确定新增应用的优先级
   

确定新增应用优先级

确定新增应用优先级

   
    5.3 螺旋递增式建设方法
        1  每次迭代目标明确,快速见效
        2 滚动投资,每年追加费用是初始投资的15%~20%
     
发表于 2013/7/16 07:55:33 来自手机 | 显示全部楼层
更期待oracle大数据量的处理。怎么满足快速查询,使用那些技术,在使用中的选择和方法来自: Android客户端
     
 楼主| 发表于 2013/7/16 16:19:58 | 显示全部楼层
本帖最后由 diaowf 于 2013/8/3 19:02 编辑

       系统中使用的Oracle关键技术
                    1 可传输的表空间和分区技术实现数据快速装载
                    

可传输表空间

可传输表空间
     
           (一) 详单数据的导出
              1. 1 把需要传输的数据放在单独的表空间
                  CREATE TABLE temp_jan_sales
                  NOLOGGING TABLESPACE ts_temp_sales
                  AS SELECT * FROM sales
                  WHERE time_id BETWEEN '31-DEC-1999' AND '01-FEB-2000';
             1.2 导出数据字典
                  EXP TRANSPORT_TABLESPACE = y
                  TABLESPACES = ts_temp_sales
                  FILE = jan_sales.dmp;
             1.3 复制数据文件和数据字典到数据仓库服务器
       (二)详单数据的导入
            1. 4 导入数据字典
                  IMP TRANSPORT_TABLESPACE=y
                  DATAFILES='/db/tempjan.f'
                  TABLESPACES = ts_temp_sales FILE = jan_sales.dmp;
            1. 5 通过分区交换,将新数据加入目标表
                 1.5 1.  ALTER TABLE sales
                            ADD PARTITION sales_00jan
                            VALUES LESS THAN (TO_DATE('01-feb-2000','dd-mon-yyyy'));
                1.5.2.  ALTER TABLE sales
                           EXCHANGE PARTITION sales_00jan WITH TABLE temp_sales_jan
                           INCLUDING INDEXES WITH VALIDATION;

         (三)系统测试结果
               1.6.1     数据装载:装载包含5000万条详单的一个分区和2个索引的一个表空间
               1.6.2     文件传输:4分50秒
               16.3     数据导入到Oracle数据仓库:瞬时
               1.6.4    创建索引: 7分50秒
               1.6.5    预计算及其它运算:14秒
               1.6.6    合计:32分26秒

              2 物化视图提高汇总数据的访问性能
              3 使用Oracle内置的SQL分析函数

Oracle内置分析函数在DW中的使用

Oracle内置分析函数在DW中的使用


点评

很有价值;宝贵的总结;  发表于 2013/8/14 06:34
     
发表于 2013/7/23 15:20:40 | 显示全部楼层
居体硬件配置单有吗?
     
 楼主| 发表于 2013/8/3 18:37:42 | 显示全部楼层
本帖最后由 diaowf 于 2013/8/14 15:22 编辑

(第六篇)  数据仓库的效益、成本和风险控制

                     6.1 效益:我们通过这个项目的实施获得什么?

                            6.1.1  有形:增加收入、降低成本
                            6.1.2  无形:工作效率提高、企业更“智能化”
                     6.2 成本:为了实现这些效益需要付出什么代价?
                            6.2.1  一次性成本
                            6.2.2  持续性成本
                     6.3 风险:会遇到哪些障碍?

需求驱动原则

需求驱动原则



回复   龙行四海, 具体硬件配置目有需要的朋友,请加QQ好友!    谢谢!



您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|壹佰网 ERP100 ( 京ICP备12025635号 京ICP证120590号 )  

Copyright © 2005-2012 北京海之大网络技术有限责任公司 服务器托管由互联互通
手机:13911575376
网站技术点击发送消息给对方83569622   广告&合作 点击发送消息给对方27675401   点击发送消息给对方634043306   咨询及人才点击发送消息给对方138011526

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表