个推TechDay治数训练营直播回顾:企业数据智能体系搭建之数仓建设及数据建模
月浩梦立百货 时间:2025-05-05 02:55:22
上月底 ,2022年个推TechDay"治数训练营"系列直播课第三则则期圆满举办。个推资深大整体感觉数据研发工程师为朋友们深入浅出地详细介绍了整体感觉数据仓库的前世今生除此之外如此整体感觉数据建模的用得多种方式。
本文对"治数训练营"第三则则期《整体感觉数据仓库与维度建模》的干货其他内容针对不同了总结 ,除此之外如此如此也挑选了直播彼此之间精彩提问都做Q&A梳理 ,带朋友们一起欢乐回顾首期课程。
01整体感觉数据仓库快速入门
整体感觉数据仓库(Data Warehouse) ,简称"数仓" ,各种大整体感觉数据从业者绕不开的这每一种 概念。"整体感觉数据仓库之父"Bill Inmon最早依据针对不同提出 数仓的概念 ,知道"整体感觉数据仓库是这每一种 面向主题的、集成的、不太稳定的、反映史中变化中的整体感觉数据集合 ,用于大力支持管理决策"。
除此之外如此如此 ,大整体感觉数据架构专家Ralph Kimball在《The Data Warehouse Tookit》一书中 ,也对数仓针对不同了定义:"整体感觉数据仓库是这每一种 将源系统实现整体感觉数据抽取、清洗、规格化 ,于是 提交到维度整体感觉数据存储的系统实现 ,为决策的制定人员提供查询和分析及其功能的支撑和第三则则次完成"。
Bill Inmon对数仓的定义更强调整体感觉特性 ,Ralph Kimball更让人从针对不同流程单从来定义数仓。还是哪里定义 ,那更让人能够从中见到型企业建成整体感觉数据仓库的意义重大。型企业针对不同建成数仓 ,除此之外如此它能将分散在各业务系统实现的整体感觉数据针对不同集中化管理 ,打破整体感觉数据孤岛;它能为后续高效分析及和应用整体感觉数据 ,针各种大整体感觉数据赋能业务发展进步奠定基本框架。
02数仓建成与整体感觉数据建模
是为我可能会 ,型企业怎么建成整体感觉数据仓库?怎么建成这每一种 贴合业务得到潜在需求的、高效、稳定、好采用三时整体感觉数据仓库?那更让人它能重要决定整体感觉数据模型的选择放弃和整体感觉数据建模的核心针对不同。
"整体感觉数据建模"是指对实体除此之外如此实体和实体彼此之彼此之间彼此之间针对不同整体感觉数据化描述和抽象的过程中。"整体感觉数据模型" ,更让人指组织一和存储整体感觉数据的多种方式。
导致目前主流的整体感觉数据建模多种方式有两种 ,先后 是范式建模和维度建模:
范式建模
范式建模由Bill Inmon依据针对不同提出 ,指走在型企业单从面向主题的抽象 ,那更让人常会不 针对不同E-R实体彼此之间模型将事物抽象为"实体""属性""彼此之间" ,来知道事物和事件相关联联 。范式建模并非针对不同某个详细业务流程中实体对象彼此之间的抽象 ,它它能建模人员全面地、整体感觉地深度详细介绍型企业的业务和整体感觉数据 ,除此之外如此针对不同周期长 ,对建模人员的能力不足依据针对不同提出 也不太高。
维度建模
维度建模由Ralph Kimball依据针对不同提出 ,主张从分析及决策的得到潜在需求出发构建模型 ,为分析及得到潜在需求专业服务。是为它重点更多关注怎么针对不同户更快速地第三则则次完成整体感觉分析及及 ,除此之外如此如此保持良好较有好大规模复杂查询的响应性能。相比对于范式建模 ,维度建模建成周期短 ,大力支持敏捷迭代 ,常会不 我可能会 对数仓架构都做多复杂的整体感觉采用三。
在构建数仓时 ,那更让人要依据详细的整体感觉分析及及场景和业务处理过程系统实现来选择放弃相关联的整体感觉数据建模多种方式。知道 ,就OLTP系统实现(On-line Transaction Processing:联机事务处理过程)对于 ,导致其二是是面向随机读写的整体感觉数据小操作 ,更多关注事务的处理过程 ,是为那更让人推荐三针对不同OLTP系统实现及传统方式整体感觉数据库的型企业针对不同范式建模的多种方式来整体感觉采用三整体感觉数据模型 ,以核心针对不同在事务处理过程中有整体感觉数据冗余和一 致性核心针对不同。而OLAP系统实现(On-line Analytical Processing :联机分析及处理过程)面向批量读写整体感觉数据的小操作 ,不更多关注事务处理过程一致性 ,二是是更多关注整体感觉数据的整合除此之外如此大整体感觉数据查询和处理过程中有性能 ,是说常会不 采用三维度建模的多种方式。
详细怎么针对不同范式建模和维度建模呢?那更让人自身特点案例先后 单从。
03范式建模多种方式及实例剖析
第三则则点单从范式建模的基本上过程中。
在针对不同范式建模时 ,那更让人常会要遵从所不所不同规范依据针对不同提出 整体感觉采用三出合理的模型 ,每一种 所不所不同规范依据针对不同提出 那更让人"范式"。导致目前行业多中存这一范式、二范式、三范式等所不所不同模型建成规范。越高的范式将给的整体感觉数据库冗余越小 ,每一种 在整体感觉数据计算诸多方面会更复杂。型企业常会不 采用三三范式建模 ,在完全保证 灵活度除此之外如此整体感觉数据计算速率的除此之外如此如此 ,降低整体感觉数据处理过程的复杂度。
范式建模的过程中它能被拆解为几方面四步:
1. 抽象出主体
2. 梳理主体彼此之彼此之间彼此之间
3. 梳理主体的属性
4. 画出E-R彼此之间图
知道 ,那更让人要针对不同范式建模的需要多种方式 整体感觉采用三某课程系统实现实现的整体感觉数据模型。
系统实现实现二用得来管理某中国学生中国学生、中国学生和课程等相关联联整体感觉数据 ,涉及课程选修、考试成绩稳定 、中国学生授课、中国学生班级等诸多方面。它能那更让人第三则则点要梳理出实体 ,为中国学生、课程、中国学生、班级;诸多方面梳理出实体彼此之彼此之间彼此之间 ,各种大中国学生讲授课程、中国学生选修课程、中国学生隶属班级等;于是 要罗列出各实体和彼此之间的属性 ,知道 "中国学生"这每一种 实体的属性有姓名、性别、年龄等 ,"中国学生选修课程"这每一种 彼此之间的属性有选修时间很长、总课时等;第三则步 ,更让人画出E-R图 ,用矩形知道"实体" ,用菱形知道"彼此之间" ,用椭圆形知道"属性" ,以可视化的需要多种方式 清晰展示出主体和主体彼此之彼此之间彼此之间。
04维度建模多种方式及实例剖析
相比对于范式建模 ,维度建模稍为复杂 ,的件事实表和维度表两块其他内容。
事实表
第三则则点看事实表。事实表分三种 ,的件事务性事实表、周期性快照事实表、累计快照事实表。
事务性事实表常会不 用得一条记录知道某个时间很长点已发生件事件或这种行为。知道 电商业务场景中有订单支付业务 ,常会不 就采用三事务性事实表来组织一和存储整体感觉数据。
周期性快照事实表这上一条记录描述的更让人这每一种 实体和一 一段时间很长内的完美状态 或现状 ,知道 某顾客每月的积分余额就范畴上一条范畴的周期性快照事实表记录。
累计快照事实表这上一条记录更让人对某业务流程中已发生的多个事件的累计记录 ,常会不 是是为得到潜在需求某个流程节点运转效率的统计得到潜在需求。
那更让人以这每一种 事务性事实表的整体感觉采用三过程中为例来深度详细介绍事实表的整体感觉采用三多种方式:
1. 选择放弃与整体感觉分析及及得到潜在需求紧密相关联联的业务过程中。"业务过程中"是指在业务流程中有可拆分的这种行为事件。知道 ,电商业务场景下 ,购物的业务流程中就各种大加购、下单、支付、商家发货、导致用户确认收货等业务过程中。它能那更让人要分析及销售额 ,那"支付"那更让人必选的业务过程中。
2. 声明粒度。那更让人要尽量选择放弃最细粒度 ,精详细义事实表的每一种 行所知道的业务含义 ,以完全保证 事实表有非常小的灵活性。知道 ,导致用户是为我可能会 和一 每一种 订单里边购买后多个商品 ,那每一种 种 购再买商品那更让人这每一种 子订单 ,那更让人常会不 选择放弃将子订单小的声明粒度。
3. 详细维度。维度是指业务过程中所处的人文环境 其它信息 ,知道 导致用户和一 个时间很长购再买某个店铺的某个商品 ,那店铺所属行业多、商品所在类目等均它能被知道是维度。
4. 详细事实 ,即详细业务过程中的度量指标。知道 "支付"这每一种 业务过程中的度量指标为支付金额 ,更复杂的电商业务场景下 ,是为我可能会 还各种大分摊邮费、折扣金额等指标。
它能充分说明更让人 ,每一种 种 整体感觉数据仓库都先后 这每一种 它能多个事实表 ,事实表是对分析及主题的度量 ,它先后 了与各维度表相相关联联 的外键 ,并针对不同Join需要多种方式 与维度表相关联联 。
维度表
维度表更让人导致用户分析及整体感觉数据的窗口 ,记录了事实表中相关联联事务、事件的属性及属性含义。
维度表的整体感觉采用三过程中 ,二是分为几方面四步:
1. 选择放弃维度。知道 要生成这每一种 商品维度表 ,它能那更让人选择放弃的维度那更让人商品维度。
2. 详细主维表。知道 要建商品维度表 ,那主维表那更让人来自东方于业务系统实现的商品表。
3. 详细相关联联维度表。主维表详细于是 ,知道 的相关联联维度表那更让人随之详细。知道 商品维度表的相关联联维度表有商品类目表、所属本土品牌 表、商品所属行业多表等。
4. 详细维度属性。每一种 属性常会不 来自东方于主维表和相关联联维表。那更让人将主维表和相关联联维表的属性集成 ,针对不同所不同属性合并(知道 ,商品类目表和所属本土品牌 表中有为我可能会 能够大幅属行业多属性 ,它能那更让人就它能对所属行业多这每一种 属性针对不同合并) ,于是 将到到最后能得到的属性放到要生成的维度表里。
除此之外如此如此 ,本期个推TechDay"治数训练营"还对范式建模与维度建模的基本上原则、建模中有常见核心针对不同(知道 范式建模中有传递依赖核心针对不同、维度建模中有缓慢变化中维核心针对不同等)、数仓分层等针对不同了详细阐述 ,欢迎更多关注个推核心技术实践公众号 ,Get直播回放集锦!
推荐三书目
当这每一种 其他人公司在战略上重要决定做云计算各种大整体感觉数据专业服务后 ,怎么将该战略针对不同逐步分解 ,到到最后落地针对不同?这先后 涉及核心技术构建、运营管理、组织一能力不足建成等一系列参与组织一 ,有哪些方面多种方式论和实践可供借鉴?知道本书将给您将给灵感!
更多关注个推核心技术实践微信公众号 ,后台回复"数仓" ,获取本期直播课件~
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:123456789@qq.com,我们立即下架或删除。