数据中台虚火?数据管控体系应该这么搭

作者阿里云代理 文章分类 分类:新闻快递 阅读次数 已被围观 953

?大数据、数据治理、数据湖以及被热议的数据中台概念,无不让企业信息化部门疲于跟进,而不是根据企业的实际情况决定建设节奏。企业A的IT部门,就曾受到“业务部门要求建设数据中台”的压力,但迟迟难以下决心启动数据中台项目。

从A企业的视角来看,目前,行业内缺少有说服力的数据中台成功案例,陆续有媒体曝光一些大型企业投入巨大,但是也没有产生较好的效果,这更是让A企业IT部门觉得数据中台可能只有部分大型互联网企业才能取得非常积极的效果。

经过分析讨论,A企业IT部门认为,业务部门并不是一定要需要所谓的“数据中台”,而是需要一个响应迅速的数据访问和加工处理服务。那么如何构建一套业务数字化发展所需要的数据服务体系呢?

一年前,该IT部门曾经启动过业务数据湖集中管理项目,最后以失败告终。事后复盘,该IT部门认为失败的主要原因在于两个方面:1、很多业务部门以各种理由拒绝将主要业务应用系统的数据分享出来,理由千奇百怪;2、IT部门对于建设数据湖后到底能在哪些业务场景如何应用难以给出有说服力的实例。IT部门,包括应用需求管理和开发部门,并不深入了解业务场景,无法提出数据集中的应用场景说服业务部门共享数据。最终,在采购了一堆存储硬件和软件后,宣称所谓的“数据湖”系统上线,但是里面基本上没有重要的业务数据。近年来,数据的价值越来越被重视,甚至被经济学家认为是和人、设备、土地、资本一样的重要生产要素,数据资产被形象比喻为数字时代的“石油”。将数据类比石油,可以发现一些有益的启示。

石油产业价值链已经历了数百年市场化演进,从原油勘探到成品销售的价值变现过程,由上游、中游、下游的多个产业环节、数以万计的公司通过技术、运营、管理、交易等复杂的活动来完成,产业链分工明确、相互协作,不是仅靠单一的技术系统来实现,可以说,石油产业价值链是具备超强效率与变现能力的最佳实践参考。

企业内部的数据价值链与石油价值链具有明显差距,如下图所示:

石油/数据价值链对照

传统数据管控体系大多数是建立在技术栈基础上,业内比较领先的数据管理技术栈如下:

传统数据管控体系

  • 数据源:数据大部分都散落在由不同的(业务)部门、不同的团队建设和运维的应用系统中。
  • 数据湖:通过数据湖、数据仓库等技术手段,将不同系统中的数据进行集中管理。
  • 数据架构治理:通过制定数据架构、数据标准、元数据管理等,降低数据交换的难度。
  • 数据中台:为数据的进一步加工处理提供平台和通用技术功能支持,提供数据的进一步分类和聚合,屏蔽数据源访问差异。

从技术上来看,当前的数据技术栈可以较好支持数据的获取和加工,但是任何价值的实现都不是仅靠技术能够独立实现,正如同石油资产,没有良好的管理运营体系支撑,最多只能是开采后保存在仓库的原料,消耗了技术设施投资,难以变成企业的业务收入,更难于构建一个有良好利润和现金流的业务模式。

当前基于数据技术栈的企业数据资产管理体系存在着诸多挑战。比如,难以解决组织竖井壁垒的难题。在企业内部,虽然数据的所有权名义上属于整个企业,但是执行上,数据的开放和共享会遇到应用系统管理团队和业务部门的隐形障碍,数据需求部门往往最终很难及时拿到自己想要的数据,最后不了了之。最终,数据中台也好、数据湖也好,都只是搭建了一个技术系统,但缺乏高价值数据的导入和输出。

即使能够解决数据的共享和输出问题,“铁路警察——各管一段”(这可能是数据管理实践中的另外一种真实写照),没有人对数据整个处理流程负有责任,数据处理过程不能有效衔接,质量和时效性难以保证,出了问题回溯分析也非常困难。

过去数据仅限于单个业务或职能小范围使用,如今多数据的联合分析需求已经扩展到企业的各个层面,低劣的数据质量危害将放大到整个企业。但技术团队没有被赋予端到端质量管理的职能,很多时候也没有能力和意愿进行管理。

传统数据管控体系还缺乏支持数据高效流动和处理编排的工具。这个工具与目前热议的“数据中台”不同。目前数据中台是一个十分混乱的概念和实践,其目的是希望将企业所有数据进行跨部门、跨业务、跨系统的集中,建立数据主题库,对数据进行加工分析,因此数据中台只是被动解决数据集中问题,没有将数据的共享和交换作为一个基础平台来开发和实现,其结果是在数据流动层面还是基于个体的、定制的开发。

目前的数据技术栈,对于构建统一的数据流动管道和处理流水线,普遍还缺乏重视和实现;很多实践还停留在基于脚本、基于定时、基于手工的管理模式,没有实现数据的管道化高效流动和流水线化编排处理的架构和管理模式,效率低、风险大,难以支持数据的及时变现,支持业务运营和创新要求。

而石油产业为了提升整个产业链的效率,一个最重要的方法就是搭建跨公司、跨地域(甚至是全球性的)石油管道网络。

如果企业希望数据资产价值能够快速高效地变现,需要改变传统的技术管治导向,转变为构建“面向价值变现的数据资产管治体系”,最重要的是从组织体系和管理体系上进行优化改善,才能达到事半功倍的成效。

如下图所示,面向价值变现的数据资产管治体系包括以下几个部分:

面向价值变现的数据资产管治体系

具体来说,从以下三个层面入手进行优化。

1、组织结构层面:设立独立的数据管治与服务团队,或者将职责赋予现有合适团队

团队应承担以下职责:

  • 对企业所有系统的数据拥有管治权利。
  • 数据价值管理:面向企业战略和业务经营,发掘具备重大价值的企业数据需求,整合后台数据资源和技术资源提供数据服务,为数据实现最大化价值的目标进行日常活动。
  • 数据服务运营:通过运营的方式对外输出有价值的数据服务,具体见下文(服务运营层面)。
  • 数据质量管理:通过数据架构治理和数据质量查验等对数据的整个生命周期的质量通过设定标准、安插质量检测点、质量考核等在数据投入产出比的约束下管理数据质量。
  • 数据共享管理:具备组织权利和执行智慧,打破数据的组织壁垒、系统壁垒,推动数据在企业范围内的无障碍流动和利用。

以A企业来说,在结合众多案例介绍和自己企业的实际情况,他们最终决定采取务实的原则,将IT部门定位为服务中介和技术支持角色,接受自己不懂业务的现状,不介入数据应用的具体业务场景,数据的跨部门共享和沟通留给业务部门处理,业务的应用场景和数据价值变现由具有前瞻意识的业务部门识别和评估。

2、服务运营层面:为企业的利益相关者按照服务输出的方式进行日常运营

包括:

  • 数据服务管理:提供数据服务的服务目录和服务处理流程,定义SLA,决定数据需求的正当性,提供友好的服务界面和用户支持体系,自动化服务交付,解决服务中的故障、咨询、问题,保证服务的可用性和用户体验。
  • 数据运营管理:利用营销方法,宣传和推广数据服务,建立用户价值样板,不断提升数据质量、服务质量、价值实现、影响能力,甚至市场吸引力和竞争力。

3、技术平台层面:在参考先进技术栈进行构建和完善的同时,增加以下功能和特性

  • 数据服务目录:提供数据服务目录的管理、用户访问和服务交付对接。
  • 数据消费场景:提供对重要数据消费场景的实现支持和试点支持。
  • 数据流动管道和处理编排流水线:提供企业范围内统一的数据流动管理、数据编排管理、丰富数据接口支持、Devops模式支持、数据活动备案审计、数据流动安全管理等。
  • 数据服务即代码(Data Service as Code):平台服务和模块都提供API接口,能够被其他系统通过代码调用获取数据结果和数据处理编排等,嵌入到消费场景中,而不是依赖手工管理和系统操作实现。

以A企业为例,通过应用开发和运维团队的梳理,从技术层面汇总企业内部已有的数据,建立数据目录,包括数据的内容、数据的起止时间、存在于哪个系统、归属哪个业务部门等。

最终建设了企业级统一的数据管道和处理流水线编排开发平台,为各个系统的数据共享和连接建设技术平台和通路,降低数据共享和流动的难度。

利用数据管道和编排开发平台,在业务部门协调好跨部门的数据共享后,IT部门可以快速帮助业务部门实现数据应用场景,培训业务部门数据的分析能力,做好服务支持。

在个别部门通过数据成功获得了业务价值后,IT部门积极支持业务部门的案例效果总结与宣传,在企业内部进行有效的宣传。

通过这种方式, A企业的IT部门逐步获得了业务部门的支持,使数据的部门壁垒逐渐消融,越来越多的业务部门愿意开放数据,并利用其它部门的数据进行数据资产的挖掘。

新体系的核心:数据流动管道与处理编排流水线

石油产业的公共基础设施之一是管道网络(Oil Pipelines),为油品在跨地域、跨企业、跨产业内不同价值环节提供了高效、低成本、安全可控的转移手段。

同样的,对于数据资产而言,数据管道网络和编排流水线(Data Pipelines,以下简称数据流水线)也是数据管治体系的核心基础设施之一。  

企业可以采购目前市场上相对成熟的数据流水线产品;具有技术研发实力的企业,也可以自行开发此类平台。

数据流水线应该具有以下主要功能:

1、丰富的数据集成接口:能够对已知的公共协议、系统私有接口等进行连接,包括但不限于:各种关系数据库、nonSQL数据库、数据仓库与挖掘系统、数据集成与ETL工具(如Informatica、DataStage、SSIS)、ERP系统(如SAP、Oracle、Peoplesoft)、大数据平台(Hadoop各种变种、Spark等流式系统变种)、操作系统与文件系统等。

2、强大的数据处理编排能力:数据处理分析的流程越来越长,对时效性要求越来越高,传统基于定时触发、基于单个操作系统、基于零散脚本连接处理过程的方式无法应对。统一的数据处理编排平台能够对跨系统、跨平台的数据处理过程进行任务编排,提供基于脚本关联关系建模、基于多种触发模式(事件、返回结果、依赖关系、定制逻辑等)等功能支持,能够动态向不同系统上分发处理任务,能够预测处理。

3、支持数据处理的开发过程Devops化:为数据开发团队以及Devops团队提供开发、测试、发布、运维的一体化集成平台,不需要额外的工具完成从数据过程定义、测试、发布到生产环境、变更管理和故障处理的全过程,避免了传统模式下开发人员与运维人员在数据处理相关应用和任务上摩擦和低效。

4、DataJob As Code数据处理即代码:提供代码接口,开发人员、运维人员不需要手工配置系统,通过代码直接动态生成和管理数据处理任务。

5、数据安全保护与审计:通过管理手段和技术手段禁止非流水线平台对数据的迁移和访问后,流水线提供数据传输过程的安全保证(加密传输),并对流动操作都有留档备查(时间、数据访问账户、数据流动起始位置、数据内容、数据去向等),为后续安全管理和合规管理提供支持。

6、多云环境支持:流水线为企业多云环境提供统一的数据管理,支持公有云(如AWS、Azure、Google Cloud、Ali Cloud等的基础设施、数据服务与接口)、私有云(如Openstack、Kubernets、VMware等),以及PaaS、SaaS等。

7、可视化支持:传统基于脚本的数据处理难以直观的了解当前的数据处理进度与状态,日志跟踪就是一场灾难。流水线平台应该提供数据处理任务的依赖关系模型、处理进度与状态、预计时间、故障依赖根源分析与影响分析等图形化展示,任何有权限的人员通过各种平台和设备实时了解相关信息,而不必由系统管理员查看和报告。

以A企业为例,他们将数据处理流水线开发和运维平台作为当前阶段实现数据服务体系的技术核心之一。

在新的数据管治服务体系初步建立之后,他们还制定了相关绩效考核指标(KPI)用来跟踪数据资产的价值:

1)数据服务目录对企业已有数据的覆盖比;

2)数据服务新需求从开发到上线的天数;

3)数据服务目录新请求数;

4)每天数据处理作业数;

5)数据流水线平台的可用性。

下一步IT部门准备进一步加强企业数据管道和处理平台,逐步加强数据治理,特别在元数据梳理和数据质量方面提升,并进一步加强数据服务的运营能力和服务能力。

数据资产价值变现,如同企业的业务运营,是一个永续不断的过程。始终围绕价值变现目标,通过组织管理和数据治理体系,而不是仅仅着眼于技术平台的构建与维护,将是企业数据资产管理成功的不二法门。

本公司销售:阿里云新/老客户,只要购买阿里云,即可享受折上折优惠!>