4008-588-669

中台实验室

THE MID-PLATFORM LABORATORY

数据中台建设6步法 | 《中台战略》领读

发布日期:2020-06-03 来源:《中台战略》

“横向规划,纵向切入”八字方针是建设数据中台的标准模式。

 

所谓“横向规划”即在进行企业数据中台规划时,需要打通企业的所有业务板块。多业态的综合型企业尤其需要进行横向规划,比如,现在的地产公司除了主营的地产业务板块,还拥有周边教育、酒店、文旅、社区零售等衍生板块。这些板块沉淀的会员数据、交易数据、服务数据都十分宝贵,但只有在进入数据中台、经过融通后才能真正成为企业的资产。因此,在规划企业数据中台的时候必须全盘考虑,横向规划。

 

那么为什么要纵向切入呢?“罗马城不是一天建成的”,数据中台建设涉及数据平台建设、数据模型建设、数据治理、数据业务服务等方方面面的体系化工程,不可能一蹴而就。在如今追求价值快速变现的数字经济时代,需要快速找到数据中台的速赢点,因此需要从最可能体现业务价值的数据需求出发,倒推需要采集什么数据源作为生产资料,需要创建什么算法模型,需要满足哪些业务场景,需要提供什么数据服务,先围绕一个场景的闭环快速搭建起数据中台的各种能力,实现业务价值赋能。然后按照全景规划依次迭代,逐步实现整个企业的全局数据中台。

 

具体来看,数据中台建设总结为“规划、集成、建模、研发、管理、服务”6步法,如下图所示。

 

数据中台建设6步法

 

总体规划

建设数据中台是一个系统化工程,需要从长计议,在建设之前要做好以下几项规划:

  • 哪些数据域需要纳入到数据中台规划中,建设的先后顺序(判断的标准是这些域的业务形态是否已经稳定),有哪些潜在的数据应用需求。
  • 数据中台的物理形态是什么,需要从建设成本、企业IT资源状况等多角度评估是采取公有云还是私有云部署。
  • 根据接入的数据域情况规划集群配置,规划满足未来3年数据中台的容量,以及根据大约的作业数量推导出集群的配置情况,需要多少个核心的CPU、多大的内存参与计算。
  • 进行技术选型规划,根据企业实际情况确定以开源+自研为主还是采购成熟产品。

 

数据集成

在做好数据中台的总体规划之后,接下来需要动工建设。建设的第一步自然是按照规划中的数据源进行接入集成。需要根据数据应用的场景,反向推导、确定数据集成的方式,比如哪些数据源需要进行实时采集,哪些数据需要离线采集;离线采集的频率是多少,是按天采集还是按小时采集。

 

模型建设

模型建设是数据中台的重要工作,数据中台建设的成败关键在于数据模型设计规划得是否合理。数据模型分为分析模型和算法模型,分析模型是所有模型建设的基石。模型设计师要设计出通用高效的设计模型,首要条件就是要熟悉业务,不但要熟悉底层业务系统的业务流程,还要深刻领会数据应用场景。

 

数据建模分为5个步骤:选择业务过程、声明聚合粒度、确定模型的维度信息、确定事实以及冗余维度。

数据建模5步骤

  1. 选择业务过程:数据模型必定来自于某一个业务流程,举例来说,交易分析模型一定来自于交易订单流程,在设计模型之时需要梳理出所有的订单流程(线上、线下)。
  2. 声明粒度:统计粒度的确定是模型设计的关键环节,粒度定义得太细,不利于支撑上层数据分析汇总;粒度定义得太粗,又不能满足前端多变的个性化数据分析需求。基于此,在设计模型的时候需要进行分层建设,随着层级的越高,统计粒度会越粗。
  3. 确定维度:维度即在业务过程中的主题,比如用户维度、商品维度、店铺维度。在建设模型的时候就需要从业务过程出发,提前预设可能会分析的维度,统一纳入到数据模型中。
  4. 确定事实:事实即模型中的指标,是模型中的核心,在进行指标定义的时候需要重点关注是否全面覆盖了本主题域中的指标,并且需要判定哪些指标可以相加,哪些指标不能相加。比如“销售量”可以在任何维度上进行相加,而“客户数”“库存量”这种指标则不能在某些维度上进行累加。
  5. 冗余维度:冗余维度的目的是让数据模型更加丰满,避免在计算统计中关联太多维度而产生复杂的计算逻辑,影响性能。因此,在模型设计的最后一步应尽量带上确定好的维度字段的属性,比如,客户维度需要带上客户的性别、年龄段、居住地、等级等各种维度。

 

最后,模型设计需要指明各种模型的数据计算逻辑,为接下来的数据研发进行指导,主要设计出指标统计的业务口径,并将这些业务口径转化为伪代码,指导开发人员进行数据研发。

 

通用研发

模型设计完成后,开发人员就按照模型设计文档,在模型设计师的指导下进行数据研发。研发包含数据萃取、数据聚合分析、算法实现以及作业调度等功能的开发。

 

与业务系统或者数据应用的研发不同的是,数据研发较少直接与需求人员对接,开发人员主要与模型设计师进行反复沟通,准确理解模型设计师的模型设计意图。

 

可以将数据中台的数据研发过程比喻成数据加工流水线,模型中的代码研发只是流水线中的一个部件,在每个模型部件研发完成后,还需要通过调度程序将这些作业有序地串联起来,并且组织好这些作业的依赖和触发关系。

 

资产管理

数据模型以及基于数据模型的调度均是数据中台沉淀的数据资产。数据资产需要规范的管理与治理,才能确保数据中台有序运转,确保数据真正成为提升企业业务价值的资产。

 

资产管理最基础的工作是做好元数据管理。元数据涵盖了采集的数据接口、创建的数据模型、数据模型中的指标以及作业与作业之间的依赖关系。将这些元数据有序地展示出来,就形成了企业的数据资产。

 

治理数据资产不是事后治理,而是在数据模型所涉及的表、指标所涉及的字段等信息进入数据中台时,就通过数据同步机制自动登记到元数据表中。

 

数据服务

“茶壶里有了饺子倒不出,等于没有饺子。”数据资产要能支撑上层的应用才能体现出数据资产的价值,否则那只能叫数据。因此提供一种数据服务能力统一对外服务,这是非常关键的事情。通过建设数据服务达到以下几个能力:

数据接口标准化:针对数据交互接口提供统一的数据在线服务视图,可进行数据查询、上报、通知;针对批量数据提取,提供标准化的数据对外输出能力,支撑文本、数据库等在线服务。

在线交互实时化:针对业务系统数据交互,提供各业务系统数据对接的统一服务平台;针对实时数据分析汇总服务,提供指标级数据统一口径,在线实时数据服务调用。

数据开发可视化:提供服务接口的可视化配置能力,降低接口开发技术要求,易于掌握和维护;提供数据服务可视化管理界面,统一维护、统一管理。

1591192099615740.png

Copyright © 2021 广州云徙科技有限公司All Rights Reserved 浙ICP备16028793号备案号33010802007501

市场合作:zhao.jing@dtyunxi.com媒体合作:markting@dtyunxi.com[page]      友情链接  [InfoQ]

您好:

您在有任何问题和需求,欢迎随时和我们联系,人工客服在线时间:9:00-18:00(工作日),感谢您对云徙科技的支持和信赖!

公司:

姓名:

电话:

邮箱:

业务需求: 业务中台 数据中台 技术平台 全域会员 全触点营销 全渠道交易 全链路服务

需求描述: