K3Cloud SDK Innovasys RealWorld
K3Cloud 命名空间参考
https://open.kingdee.com/K3Cloud/SDK/webframe.html
K3Cloud 命名空间参考
https://open.kingdee.com/K3Cloud/SDK/webframe.html
注意: 公有云新租户基于安全考虑不允许通过账号密码登录方式调用API接口了,只能通过第三方登录授权的方式访问星空接口,具体见https://vip.kingdee.com/knowledge/specialDetail/229961573895771136?category=229964512944566016&id=423060878259269120&productLineId=1
目前星空集成建议使用OpenAPI方式,OpenAPI提供多种SDK、可以免登录调用WebAPI接口,具体见https://openapi.open.kingdee.com/ApiHome
金蝶云•星空BOS中级课——系统集成
回放地址:https://vip.kingdee.com/school/liveCourse/69535438918079744
PPT文档:https://vip.kingdee.com/school/71943223102231296
答疑汇总&示例代码:https://vip.kingdee.com/article/72001078459714816
【基础篇】
【代码篇】
.NET:
Java:
PHP:
Python:
【附件相关】
【限流相关】
【常见应用】
WebAPI操作前事件OnBeforeWebApiOperation使用示例
作者:王文亮
来源:金蝶云社区
原文链接:https://vip.kingdee.com/article/471980764217898752?productLineId=1&isKnowledge=2&lang=zh-CN
著作权归作者所有。未经允许禁止转载,如需转载请联系作者获得授权。
ERD Online 是全球第一个开源、免费在线数据建模、元数据AI平台。集成ChatGPT,提供简单易用的元数据设计、关系图设计、SQL审批查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能,方便我们快速、安全的管理数据库中的元数据。
数据,已成为互联网企业非常依赖的新型重要资产。“用数据说话”也越来越成为一种共识,然而并非任何数据都可以用来说话。
智能数据挖掘与处理技术
在数字化时代,海量数据成为了各行各业的宝贵资产。然而,仅仅拥有大量数据并不足以带来商业价值,关键在于如何从这些数据中提取有用的信息和洞察。数据挖掘和数据分析成为了实现这一目标的关键工具,可以帮助企业发现隐藏在数据背后的价值,做出更明智的决策。
我们身处信息爆炸的时代,我们每个人每天都要和无数的数据打交道,对从事大数据行业的人来说更是如此。在大数据行业有三个热门的技术词汇:数据挖掘、数据分析、数据质量。
大数据分析师技能图谱
随着组织不断发展壮大,组织内部数据量剧增,数据系统存在大量无效冗余旧数据,错误数据,残缺数据的情况,影响后续数据处理分析,使管理层决策失误。问题数据频繁出现的背后,是组织数据质量管理不善导致的。
数据质量是数据的生命线,没有高质量的数据,一切数据分析、数据挖掘、数据应用基于错误数据,数据价值会大打折扣,甚至出现完全错误的结论,浪费组织大量时间和精力,得不偿失。
这个时候肯定会有不少的粉丝会咨询,数据分析、数据挖掘、数据质检三者之间有啥区别呢?
简而言之:数据分析一般是具有明确的分析目标的,而数据挖掘则是要从海量的数据中寻找潜在的规律从而获取价值。
数据分析旨在从海量业务数据中获得有用信息,以便更好地为决策服务。
数据分析的完整流程图
数据挖掘,顾名思义,就像从沙子中挖掘黄金。
数据挖掘全过程
数据质量含义还是比较好理解的。简单一点来说,就是对数据进行的质量检测。这个就不过多解释。
数据质量问题
他们主要区别体现在以下几个方面:
数据分析的重点在于观察数据,而数据挖掘的重点是从数据中发现潜在的有价值的规律。
数据分析主要依赖人工的技术操作活动,而数据挖掘主要是依托于计算机科学从庞大的数据集中提取有价值的信息。
通过数据分析得到的信息需要人工进一步提取价值,而通过数据挖掘得到的规律结论可以直接应用于业务进行预测。
数据分析不能直接建立数学模型,需要人工建模,而数据挖掘可以自动完成。传统的控制论建模本质就是描述输入变量与输出变量之间的函数关系。数据挖掘可以利用机器学习技术自动建立输入与输出的函数关系,根据数据中的规律给出输入参数,得出输出量。
借此机会,今天小编给大家15个热门开源免费的数据挖掘、数据分析、数据质量管理工具,值得学习收藏,让正在从事大数据小伙们有头绪和对数据挖掘、数据分析思路,希望对更多粉丝们有所帮助。同时祝福大家一切顺利,心想事成,永远开心快乐,身体健康,愿你的生活更加充实,愿你的未来更加辉煌。接下来小编给大家介绍一些开源免费的数据挖掘、数据分析、数据质量管理工具,喜欢的小伙们记得点个赞和收藏。
SZT-bigdata - 深圳地铁大数据客流分析系统
dbt-core - 是一个数据管道开发平台,支持动态SQL、模板和建模等功能。
erd-online - 是全球第一个开源、免费在线数据建模、元数据AI平台。
LarkMidTable - 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。
datacap - 是用于数据转换、集成和可视化的集成软件。支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。
Qualitis - 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台
deequ - 是一款非常适合用于Spark的质量检测工具
datax-cloud - 是为数字化建设而生的企业级一站式数据治理平台。
piflow - 混合型科学大数据流水线系统。
great_expectations - 是最受欢迎的数据质量管理工具之一。
TipDM - 建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,是开源的数据挖掘工具。
Deta_Unicorn_ETL - 数据可视化, 数据挖掘, 数据处理 ETL分析系统
soda-core - 是一个Python开发的开源数据质量工具
bboss-elastic-tran - 由 bboss 开源的数据采集&流批一体化工具
mobydq - 是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报
Github:https://github.com/geekyouth/SZT-bigdata

介绍
该项目主要分析深圳通刷卡数据,通过大数据技术角度来研究深圳地铁客运能力,探索深圳地铁优化服务的方向;
强调学以致用,本项目的原则是尽可能使用较多的常用技术框架,加深对各技术栈的理解和运用,在使用过程中体验各框架的差异和优劣,为以后的项目开发技术选型做基础;
解决同一个问题,可能有多种技术实现,实际的企业开发应当遵守最佳实践原则;
学习过程优先选择较新的软件版本,因为新版踩坑一定比老版更多,坑踩的多了,技能也就提高了,遇到新问题可以见招拆招、对症下药;
Github:https://github.com/dbt-labs/dbt-core
dbt 官网
dbt™是一个SQL优先的转换工作流,使团队能够按照模块化、可移植性、CI/CD和文档等软件工程最佳实践快速协作地部署分析代码。现在,数据团队中的任何人都可以安全地为生产级数据管道做出贡献。
dbt是一个数据管道开发平台,支持动态SQL、模板和建模等功能。dbt的一个重要特性是自动化测试,用户可以使用dbt执行全面数据测试、数据质量检查和数据验证。可以在数据管道、数据源和目标数据之上使用dbt执行的质量检测模型,例如:数据范式(3NF及以上)模型、维度模型和数据仓库模型。
dbt除了提供数据测试和数据质量功能,在应用生态上,许多公司还为dbt扩展数据质量功能。例如:Elementary,它能够总结dbt中的所有内容,提供数据质量监控指标、数据新鲜度、数据异常信息和异常数据分析的功能。

Gitee:https://gitee.com/MARTIN-88/erd-online

ERD Online 是全球第一个开源、免费在线数据建模、元数据AI平台。集成ChatGPT,提供简单易用的元数据设计、关系图设计、SQL审批查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能,方便我们快速、安全的管理数据库中的元数据。
特性
开箱即用:将注意力集中在数据结构设计上
团队协作:三级权限(拥有者、管理员、普通角色)管理,元素级权限控制
元数据设计:快速复制已有表结构、JSON 生成表,表默认字段、默认大小写等控制
元数据管理:在线管理表结构,支持正向向数据库执行
元数据解析:将已有的数据库结构解析到软件中管理
多数源支持:支持多种数据库连接在线管理(Mysql、Oracle、DB2、SqlServer、PostGreSql),各数据源之间元数据结构同步
版本管理:每个需求与变动,都可以生成版本;每个版本之间可以比对差异
可将所有表结构,自动生成 word、html、md 文档,便于线下流动
在线SQL:在线SQL查询、SQL执行计划,历史查询留痕
永不丢失:元数据历史操作版本留痕(最近9次),可以恢复到任意历史版本
数据字典:全局数据字典设计,控制元数据设计规范






LarkMidTable - 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。
Gitee:https://gitee.com/LarkMidTable/LarkMidTable

LarkMidTable 中文名称 云雀,云代表大数据,雀代表平凡和自由。
LarkMidTable 是一站式开源的数据中台,实现中台的基础建设,数据治理,数据开发,监控告警,数据服务,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。
产品架构图







datacap - 是用于数据转换、集成和可视化的集成软件。支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。
Github:https://github.com/devlive-community/datacap

DataCap 是用于数据转换、集成和可视化的集成软件。
支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。
通过软件可以实现多数据源的管理,对源下的数据进行各种操作转换、制作数据图表、监控数据源和其他功能。


Qualitis - 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台
Gitee:https://gitee.com/WeBank/Qualitis

Qualitis是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。
Qualitis基于Spring Boot,依赖于Linkis进行数据计算,提供数据质量模型构建,数据质量模型执行,数据质量任务管理,异常数据发现保存以及数据质量报表生成等功能。并提供了金融级数据质量模型资源隔离,资源管控,权限隔离等企业特性,具备高并发,高性能,高可用的大数据质量管理能力。
数据质量模型定义支持以下数据模型定义:1.单表校验数据模型。2.跨表校验数据模型。3.自定义校验数据模型。同时,系统预置了多个数据质量校验模版,包括空值校验,枚举校验等常用校验,并且支持自定义数据质量模版。
数据质量模型调度支持数据质量模型调度。
数据质量报表支持生成数据质量报表。
日志管理 日志聚合管理,方便排查数据质量任务
异常数据管理 支持异常数据提取和存储,快速定位问题
支持工作流 支持在工作流当中进行数据质量校验工作流必装DataSphereStudio.
管理员控制台提供管理员控制台界面,支持人员管理,权限管理,权限管理,元数据管理等管理功能。










deequ - 是一款非常适合用于Spark的质量检测工具
Github:https://github.com/awslabs/deequ

Deequ是一个建立在Apache Spark之上的库,用于定义“数据单元测试”,测量大型数据集中的数据质量。
随着Spark的应用越来越多,Deequ是一款非常适合用于Spark的质量检测工具,非常适合测试大批量数据,Spark DataFrame的任何东西都可以使用Deequ进行测试。并将结果输出到任何关系数据库、CSV文件或者日志等。Spark的作业主要使用Scala或Python语言编写,对于原生Scala,Deequ可以直接使用,但对于Python,就需要一个名为PyDeequ的包装器。
datax-cloud - 是为数字化建设而生的企业级一站式数据治理平台。
Gitee:https://gitee.com/yuwei1203/datax-cloud

智数通提供了元数据管理、数据标准管理、数据质量管理、主数据管理、数据集市管理、可视化图表看板、流程管理等微服务,是为数字化建设而生的企业级一站式数据治理平台。
特性
智数通服务理念:平台化、资产化、服务化,及围绕“平台化”、“资产化”、“服务化”,聚焦数智场景,赋能行业生态,让数据产生价值。
智数通应用微服务云原生技术,封装了大量技术开发包、技术应用组件、技术场景实现能力,提供了一个可支持企业各业务系统或产品快速开发实现的微服务应用数字化融合平台,富含各类开箱即用的组件、微服务业务系统,助力企业跨越Cloud与自身数字化的鸿沟,共享业务服务的组合重用,为企业服务化中台整合、数字化转型提供强力支撑,也为企业提供了最佳架构实践。智数通不仅提供了企业级应用系统所包含的常用开箱即用的模块,并支持灵活的可配置性和拓展性。智数通还是一套基于Spring Cloud的微服务应用程序框架,可帮助公司更快,更高效地进行微服务开发。
智数通理念认为,企业首先应当建立集中统一的数据中台,将全域的数据都同步到统一的数据中台,基于数中台来进行数据治理,事半功倍。数据存储统一,可以在后续的数据治理和数据业务化的过程中实现数据不搬动,降低数据的处理成本;数据计算统一,可以实现基础元数据的自动维护,为数据治理打下最坚实的基础。
智数通提供了统一的元数据自动采集和维护入口,在元数据模块中为数据管理提供了准确实时的基础数据,在此之上结合企业的现状调研和咨询,可以构建企业级的数据资产类目体系和数据安全体系;同时,通过数据质量模块,实现数据处理的质量管控。然后通过数据API模块,为上层丰富的数据应用价值实现提供引擎能力。通过可视化模块无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务等等。
从数据同步、到数据开发、到数据管理、到数据质量控制、到数据应用价值实现,智数通在产品层面对于指引都能提供支撑,这是将多年大数据实践经验产品化的结果。智数通,就是为数据治理而生的企业级一站式数据中台,为数据市场抢占先机。
智数通采用 J2EE 技术体系,基于Spring Cloud微服务框架进行封装,平台设计灵活可扩展、可移植、可应对高并发需求。同时兼顾本地化、私有云、公有云部署。

开发框架:Spring Boot 2.3
微服务框架:Spring Cloud Hoxton.SR9
安全框架:Spring Security + Spring OAuth 2.0
任务调度:Quartz
持久层框架:MyBatis Plus
数据库连接池:Hikaricp
服务注册与发现: Spring Cloud Config
客户端负载均衡:Ribbon
熔断组件:Hystrix
网关组件:Spring Cloud Gateway
消息队列:Rabbitmq
缓存:Redis
日志管理:Logback
运行容器:Undertow
工作流: Flowable 6.5.0
前端技术栈
JS框架:Vue、nodejs
CSS框架:sass
组件库:ElementUI
打包构建工具:Webpack









piflow - 混合型科学大数据流水线系统。
Gitee:https://gitee.com/opensci/piflow

混合型科学大数据流水线系统,包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能
简单易用
可视化配置流水线
监控流水线
查看流水线日志
检查点功能
流水线调度
扩展性强:
支持自定义开发数据处理组件
性能优越:
基于分布式计算引擎Spark开发
功能强大:
提供100+的数据处理组件
包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
集成了微生物领域的相关算法










great_expectations - 是最受欢迎的数据质量管理工具之一。
Github:https://github.com/great-expectations/great_expectations

Great Expectations(GX)可以数据工程师进行质量检测、创建分析文档来提高团队成员对数据的理解。
Great Expectations(GX)是最受欢迎的数据质量管理工具之一。
GX期望通过连接到数据源运行事先定义好的集成模板来检测数据。在官方指南中,可以找到更多关于GX与Databasericks、Flyte、Prefect和EMR等工具和平台集成的信息。目前Great Expectation维护非常积极,并且已被Vimeo、Calm、ING、Glovo、Avito、DeliveryHero、Atlan和Heineken等公司使用。
GX规范了“数据的预期状态”。GX与数据源的集成意味着所有的数据质量检查都在适当的位置完成,并且没有数据被移出数据源。GX还可通过自动化数据质量检测、实时监测结果记录以及运行摘要来支持数据质量管理。GX还可以直接与Airflow , Meltano等工具集成。支持将质量检测结果保存到各种数据库或者文件系统中。
TipDM - 建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,是开源的数据挖掘工具。
Gitee:https://gitee.com/guangzhou_TipDM_intelligence_devp/TipDM

TipDM建模平台,是由广东泰迪智能科技股份有限公司研发并开源的数据挖掘工具,TipDM建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,帮助广大中小企业快速建立数据挖掘工程,提升数据处理的效能。同时,我们也在积极 推动大数据挖掘社区建设,构建校企对接桥梁,为企业精准推送优质大数据挖掘人才;在产业需求的基础上推动高 校的人才培养工作。
基于Python,用于数据挖掘建模。
使用直观的拖放式图形界面构建数据挖掘工作流程,无需编程。
支持多种数据源,包括CSV文件和关系型数据库。
支持挖掘流程每个节点的结果在线预览。
提供5大类共40种算法组件,包括数据预处理、分类、聚类等数据挖掘算法。
支持新增/编辑算法组件,自定义程度高。
提供众多公开可用的数据挖掘示例工程,一键创建,快速运行。
提供完善的交流社区,提供数据挖掘相关的学习资源(数据、代码和模型等)。



Deta_Unicorn_ETL - 数据可视化, 数据挖掘, 数据处理 ETL分析系统
Github:https://github.com/yaoguangluo/ETL_Unicorn

德塔人工智能数据分析ETL可重用节点工作流处理软件引擎系统。
这个工程用于节点数据工作流执行。该软件的亮点为:世界最轻的ETL批处理引擎(6KB)采用VPCS结构,启动快,效率高,操作简单,结构轻,网页嵌入,执行快,高并发,二次开发简易,自由修改源码实现各种风格。
系统截图





soda-core - 是一个Python开发的开源数据质量工具
Github:https://github.com/sodadata/soda-core

Soda Core是一个Python开发的开源数据质量工具,旨在确保数据平台中的数据可靠性。它附带了命令行工具。支持SodaCL(Soda Checks Language),SodaCL是一种兼容YAML,可靠的,用于特定领域的语言。
Soda Core可以连接到数据源和工作流,确保数据不论在管道内还是管道外都能够被检测。
Soda Core支持广泛的数据源、连接器和测试类型,它是目前开源项目中对数据连接器覆盖最全面的数据质量工具,如Dask、DuckDB、Dremio等。
Soda Core是一个免费的、开源的命令行工具和Python库,使您能够使用Soda Checks Language将用户定义的输入转换为聚合的SQL查询。
当Soda Core在数据集上运行扫描时,它会执行检查以查找无效、丢失或意外的数据。当您的苏打水检查失败时,它们会显示您定义为质量差的数据。
✔与SodaCL语言兼容
✔支持数据管道和开发工作流内外的数据质量测试
✔集成以允许在数据管道中进行Soda扫描,或按基于时间的时间表进行编程扫描
bboss-elastic-tran - 由 bboss 开源的数据采集&流批一体化工具
Gitee:https://gitee.com/bboss/bboss-elastic-tran
bboss-datatran由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库以及数据指标统计计算流批一体化处理功能。
bboss-datatran 数据同步作业直接采用java语言开发,小巧而精致,同时又可以采用java提供的所有功能和现有组件框架,随心所欲地处理和加工海量存量数据、实时增量数据,实现流批一体数据处理功能;可以根据数据规模及同步性能要求,按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小;可以将作业独立运行,亦可以将作业嵌入基于java开发的各种应用一起运行;提供了作业任务控制API、作业监控api,支持作业启动、暂停(pause)、继续(resume)、停止控制机制,可轻松定制一款属于自己的ETL管理工具。
工具可以灵活定制具备各种功能的数据采集统计作业
只采集和处理数据作业
采集和处理数据、指标统计计算混合作业
采集数据只做指标统计计算作业
特点
支持时间维度和非时间维度指标计算
时间维度指标计算:支持指定统计时间窗口,单位到分钟级别
一个指标支持多个维度和多个度量字段计算,多个维度字段值构造成指标的唯一指标key,支持有限基数key和无限基数key指标计算
一个作业可以支持多种类型的指标,每种类型指标支持多个指标计算
mobydq - 是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报
Github:https://github.com/ubisoft/mobydq

MobyDQ是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报,无论他们使用的数据源是什么。

数据质量检测工具MobyDQ可以独立运行于开发环境和测试环境。而在生产环境中,MobyDQ也支持使用Docker或Kubernetes容器运行。 MobyDQ的数据质量框架主要侧重四大质量指标:完整性、新鲜度、响应时间和有效性。MobyDQ支持丰富的数据源,例如:MySQL、PostgreSQL、Teradata、Hive、Snowflake和MariaDB等。 MobyDQ允许用户使用其GraphQL API运行测试,支持将此API与Python 或 JavaScript之类的编程语言一起使用,另外,MobyDQ在结构化数据测试方面,它还提供了基于Hive,PostgreSQL,MySQL等数据源的Demo。

数字化时代,数据是已经成为最宝贵的资产之一。数据支撑着我们的政府、企业以及各类组织的所有流程,并为决策以及智能化服务提供支撑。大数据有大用途,但是也可能隐藏着巨大的风险,特别是如果我们对数据的情况不是很了解的时候,我们便不能够掌握到底存储了什么信息以及如何使用它,在一堆数据中是否存在垃圾数据或者可能被遗忘的高质量数据,甚至是否存在数据安全问题。
因此,我们需要有效地治理数据。
一、什么是数据治理?
数据治理是一种管理框架,通过定义和实施组织范围内的数据管理政策、标准和流程,确保数据的准确性、一致性、安全性和合规性。它涉及数据的创建、存储、使用和销毁的整个生命周期,旨在最大化数据的价值,降低数据风险,并支持业务决策和运营的有效性。
二、数据治理相关的概念
在介绍数据治理平台之前,我们对一些数据治理相关的概念有所了解。
数据治理相关的概念名词涵盖了多个领域,从数据管理、数据质量到数据隐私和安全等。以下是一些常见的概念名词:
数据湖 (Data Lake):一种存储海量原始数据的系统或存储库,数据通常以原生格式存储,供以后进行分析。数据湖支持结构化、半结构化和非结构化数据的存储和处理。
数据仓库 (Data Warehouse):
用于整合来自多个来源的数据,通常经过清洗和转化,存储在一个中心位置,支持企业的分析和报告需求。数据仓库更注重结构化数据的长期存储和优化查询性能。
数据发现 (Data Discovery):数据发现是识别、浏览和分析数据的过程,通常涉及从不同来源收集数据并将其组织和展示给用户,使其能够发现有用的模式、趋势或见解。数据发现工具通常具备强大的可视化功能,以帮助用户更直观地理解数据。
元数据管理 (Metadata Management):管理描述数据的数据,即元数据,包括数据的来源、使用方式、格式等信息。
数据目录 (Data Catalog):数据目录是一个集中的存储库,用于组织和管理数据资产的元数据。它提供了数据资产的描述性信息,使用户能够轻松查找和理解他们需要的数据。数据目录通常包括数据的来源、位置、格式、使用说明、数据质量信息等,并支持数据的分类、标记和搜索功能。数据目录的目的是提高数据可发现性和可用性,帮助组织更高效地管理和利用数据资源。
数据质量 (Data Quality):确保数据准确性、一致性、完整性和及时性的过程。
数据血缘 (Data Lineage):描述数据在其生命周期中从源头到最终目的地的流动和变更的跟踪。数据血缘图帮助理解数据的来源、传递路径、变换过程,以及这些过程中的责任归属。
数据清洗 (Data Cleansing or Data Cleaning):识别并修复或删除数据集中的错误、重复、不完整或不一致数据的过程。数据清洗是确保数据质量的关键步骤。
数据治理框架 (Data Governance Framework):数据治理框架是用于定义和实施数据治理的结构性模型,通常包括政策、流程、角色和职责、技术工具等,以确保组织内的数据管理实践一致、可控和有效。
数据治理策略 (Data Governance Strategy):数据治理策略是组织为实现其数据治理目标而制定的总体计划,包含具体的目标、方法和实施步骤。
数据安全分类 (Data Security Classification):根据数据的敏感度和价值,将数据划分为不同的安全级别,以确定适当的保护措施。例如,数据可以分为公开、内部使用、保密和高度机密等类别。
数据访问管理 (Data Access Management):管理谁可以访问哪些数据以及他们可以对数据执行的操作。数据访问管理通过权限控制和角色管理,确保数据的安全和合规。
数据治理工具集 (Data Governance Toolkit):包括一组用于支持数据治理活动的工具和技术,例如元数据管理工具、数据质量管理工具、数据血缘工具、数据目录工具等。
数据隐私影响评估 (Data Privacy Impact Assessment, DPIA):在处理个人数据之前进行的一种评估,目的是识别和减轻数据处理活动对数据隐私的潜在风险。DPIA通常在合规要求下进行,特别是涉及GDPR等法规。
数据主权管理 (Data Sovereignty Management):管理与数据主权相关的法规和政策,确保数据处理和存储符合所在国家或地区的法律要求。
主数据管理 (Master Data Management, MDM):集中管理核心业务实体(如客户、产品、供应商等)的主数据,确保数据一致性和准确性。
数据架构 (Data Architecture):数据在组织中结构化和组织方式的设计与实施。
数据生命周期管理 (Data Lifecycle Management, DLM):管理数据从创建、存储、使用、到销毁的整个生命周期的流程和策略。
数据隐私 (Data Privacy):保护个人数据不被未经授权的访问和处理的实践与法律要求。
数据安全 (Data Security):保护数据免受未经授权的访问、泄露、修改或销毁的措施和技术。
数据主权 (Data Sovereignty):数据受其所在国家或地区的法律和政策的约束。
数据治理委员会 (Data Governance Committee):负责监督和指导组织内数据治理工作的跨职能团队。
数据治理政策 (Data Governance Policy):为组织内数据治理提供指导方针和框架的正式文档。
数据分类 (Data Classification):根据数据的敏感性、重要性等因素对数据进行分类,以便制定适当的管理和保护措施。
数据所有权 (Data Ownership):明确哪些部门或个人对特定数据资产负责。
数据标准 (Data Standards):确保数据一致性和互操作性的规则和指南。
数据治理工具 (Data Governance Tools):支持数据治理实施和管理的软件工具和平台,如Informatica、Collibra等。
三、数据治理的组成有哪些?
从系统的角度看,数据治理有10个重要组成,用于满足组织在每个知识领域的数据管理需求。
(1)人
数据治理专业人员、数据管理员和其他关键业务和IT人员是数据治理计划的骨干。他们建立和开发工作流程,以确保满足企业数据治理要求。
(2)数据战略
数据治理团队在组织的企业数据战略的开发和实施路线图中起着至关重要的作用。数据战略是一个执行文档,它提供了企业对数据的高层次需求,并确保这些需求得到满足。建立企业数据战略是组织数据管理之旅的重要一步。
(3)数据流程
数据治理计划需要建立数据管理的关键数据流程。这些包括数据问题跟踪或解决、数据质量监控、数据共享、数据沿袭跟踪、影响分析、数据质量测试等。
(4)数据政策
数据策略是一个或多个声明的高级集合,这些声明陈述了对数据的期望和预期结果,这些数据会影响和指导企业级别的数据习惯。数据治理计划为数据管理建立数据治理策略。政策包括出站数据共享、遵守法规等。
(5)标准和规则
数据标准提供了一个框架和方法,以确保遵守数据策略。数据规则指导或约束行为,以确保遵守数据标准,从而提供数据策略的合规性。
(6)数据安全
数据安全涉及保护数字数据(如数据库中的数据)免受授权和未授权用户的破坏性力量和不必要的操作。这些不受欢迎的用户活动指的是间谍活动、网络攻击或数据泄露。
(7)沟通
数据治理沟通包括与需要了解数据治理团队活动的协会受众进行的所有书面、口头和电子交互。沟通计划包括所有沟通的目的、目标和工具,从一开始就应该是治理计划的一部分。该计划确定了如何向各利益攸关方和组织的其他人员介绍治理和管理方面的挑战和成功经验。沟通计划突出正确的业务案例并展示其结果。
(8)社会化
数据治理的社会化是任何治理计划中的重要活动。数据治理社会化计划是一个帮助将数据治理活动集成到组织的策略、内部文化、层次结构和流程中的计划。该计划是该组织所独有的,因为它是根据其组织文化和行为标准量身定制的。
(9)业务指标和KPI指标
建立业务指标和关键性能指标(KPI)来监控和衡量数据治理计划的总体业务影响,这对于计划的成功至关重要。指标和KPI必须是可测量的,可以随时间跟踪,并且每年都以相同的方式进行测量。
(10)技术支撑
执行数据治理计划需要各种技术支撑,包括框架、工具等,用于使流程自动化。
四、数据治理的关键要素
从关键技术功能的角度看,数据治理的关键要素包括:
(1)数据目录:
集中存储组织内的元数据,帮助用户快速发现和理解所需数据,提升数据管理效率,减少冗余,确保适当的访问控制。
(2)数据质量:
确保数据准确性、完整性和新鲜度,支持可靠的数据驱动决策,是数据治理的核心要素。
(3)数据分类:
根据数据的敏感性和价值进行分类,便于应用合适的安全措施,降低风险,确保数据质量和保护。
(4)数据安全:
通过访问控制保护敏感数据,防止未经授权的访问,确保数据安全和法规遵从,增强客户信任。
(5)审计数据权利和访问:
通过有效的数据访问审计,识别并防范未授权访问,减少数据滥用风险,确保合规性。
(6)数据血缘:
追踪数据的来源和流动,确保数据质量,支持合规性和可信度,减少审计和调试工作量。
(7)数据发现:
帮助团队快速定位和利用数据资产,促进协作和创新,避免数据重复,提升数据利用效率。
(8)数据共享和协作:
安全地在内部和外部团队之间交换数据,控制敏感信息的使用,支持数据驱动的创新和合规性。
五、开源数据治理工具
在开源领域有哪些比较出名的数据治理工具呢?
01 OpenMetadata
https://github.com/open-metadata/OpenMetadata
开发语言:TypeScript、Java、Python
OpenMetadata是一个统一的元数据平台,用于数据发现、数据可观察和数据治理,由中央元数据存储库、深入的列级沿袭和无缝的团队协作提供支持。OpenMetadata基于开放元数据标准和API,支持连接到各种数据服务的连接器,支持端到端元数据管理,让您可以自由释放数据资产的价值。
OpenMetadata主要由四个组件组成:
元数据模式:基于公共抽象和类型的元数据的核心定义和词汇表。还支持自定义扩展和属性,以适应不同的用例和域。
元数据存储区:用于存储和管理元数据图的中央存储库,它以统一的方式连接数据资产、用户和工具生成的元数据。
元数据API:用于生成和使用元数据的接口,构建在元数据模式之上。它们支持用户界面和工具、系统和服务与元数据存储的无缝集成。
摄取框架:这是一个可插入的框架,用于将元数据从各种源和工具摄取到元数据存储。它支持大约75个连接器,用于数据仓库、数据库、仪表板服务、消息传递服务、管道服务等。
总体架构如下图所示:
OpenMetadata的主要特点包括:
数据发现:使用各种策略(如关键字搜索、数据关联和高级查询)在单个位置查找和探索所有数据资产。您可以跨表、主题、仪表板、管道和服务进行搜索。
数据协作:与其他用户和团队就数据资产进行沟通、匡威和协作。您可以获取事件通知、发送警报、添加通知、创建任务以及使用会话线程。
数据质量和分析器:测量和监控质量,无需代码,以建立对数据的信任。您可以定义和运行数据质量测试,将它们分组到测试套件中,并在交互式仪表板中查看结果。借助强大的协作,让数据质量成为您组织的共同责任。
数据治理:在整个组织中实施数据策略和标准。您可以定义数据域和数据产品,分配所有者和利益相关者,并使用标记和术语对数据资产进行分类。使用强大的自动化功能对数据进行自动分类。
数据洞察和KPI:使用报告和平台分析来了解组织的数据运行情况。Data Insights提供了所有关键指标的单一窗格视图,以最佳地反映数据的状态。定义关键性能指标(KPI)并在OpenMetadata中设定目标,以实现更好的文档、所有权和分层。可以针对要在指定计划中接收的KPI设置警报。
数据血缘跟踪:端到端跟踪和可视化数据资产的来源和转换。您可以使用无代码编辑器手动查看列级沿袭、过滤查询和编辑沿袭。
数据文档:使用富文本、图像和链接记录数据资产和元数据实体。您还可以添加注释和批注,并生成数据字典和数据目录。
数据可观察性:监控数据资产和管道的运行状况和性能。您可以查看数据新鲜度、数据量、数据质量和数据延迟等指标。您还可以为任何异常或故障设置警报和通知。
数据安全:使用各种身份验证和授权机制保护数据和元数据。您可以与不同的身份提供者集成以实现单点登录,并定义访问控制的角色和策略。Webhooks:使用Webhooks与外部应用程序和服务集成。您可以注册URL以接收元数据事件通知,并与Slack、Microsoft Teams和Google Chat集成。
连接器:使用连接器从各种源和工具获取元数据。OpenMetadata支持大约75个以上的连接器,用于数据仓库、数据库、仪表板服务、消息服务、管道服务等。
02 Apache Atlas
https://github.com/apache/atlas
开发语言:Java、javaScript
Apache Atlas是一个数据治理开源框架,用于支持数据管理团队能够在整个组织中协作管理大数据资产和元数据。它为复杂的企业数据,提供了可扩展的数据模型和高度集成的管理解决方案。
他的优点包括:
高度可扩展、可定制的数据治理解决方案:团队可以使用API请求、发布-订阅模型和基于Kafka的消息传递轻松地与现有数据源集成。
提供了灵活的自定义数据模型:在数据分类、元数据属性、数据沿袭跟踪等方面具有巨大的灵活性。
易于与数据资产交互:可以使用标准的SQL语法存储和重用命令,并利用直观的原生UI,具有跨实体类型、分类、元数据或自由文本的复杂搜索功能。
当然缺点也有一些,例如:
Apache Atlas需要比较专业的知识。
Apache Atlas是一个开源数据治理框架,而不是一个现成的解决方案。
03 Amundsen
https://github.com/amundsen-io/amundsen
开发语言:Python、TypeScript
Amundsen是Lyft开发的数据发现和元数据引擎,它通过索引数据资源(表、仪表板、流等)来提高数据分析师,数据科学家和数据工程师在与数据打交道时的生产力。它还可以基于使用模式(例如,高度查询的表比较少查询的表更早出现)来驱动页面排名风格的搜索。有点类似谷歌搜索。
04 Datahub
https://github.com/datahub-project/datahub/
开发语言:Java、Python、TypeScript
DataHub是一个开源元数据管理平台,它最初由LinkedIn构建,以满足其现代数据堆栈不断变化的元数据需求。
DataHub支持第三代数据目录、数据发现、协作、治理和为现代数据栈构建的端到端可观察性。DataHub采用模型优先的理念,专注于提升不同工具系统之间的互操作性。
下图是DataHub的架构:
DataHub的主要亮点有:
模式优先的元数据建模方法:DataHub的元数据模型使用序列化不可知语言进行描述。支持REST和GraphQL API。此外,DataHub支持 AVRO-based API ,通过Kafka来传达元数据更改并订阅它们。我们的路线图包括一个里程碑,即将支持无代码元数据模型编辑,这将允许更易于使用,同时保留类型化API的所有优点。在元数据建模中阅读元数据建模。
基于流的实时元数据管理:DataHub的元数据基础设施是面向流的,它允许在几秒钟内在平台内传达和反映元数据的变化。还可以订阅DataHub元数据中发生的变更,使用户能够构建实时元数据驱动的系统。例如,可以构建一个访问控制系统,该系统可以观察历史数据集,添加一个包含PII的新模式字段,并锁定该数据集以进行访问控制审查。
联邦元数据服务:DataHub附带了一个元数据服务(gms)作为开源存储库的一部分。然而,它还支持联合元数据服务,这些服务可以由不同的团队拥有和运营。联邦服务使用Kafka与中央搜索索引和图进行通信,以支持全局搜索和数据发现,同时仍然支持元数据的解耦所有权。这种架构非常适合正在实施数据网格的公司。
05 Magda
https://github.com/magda-io/magda
开发语言:Java、TypeScript
Magda是一个面向大型组织的开源联合数据目录平台。其目标是通过提供一个用于记录、跟踪、增强和利用从CSV文件到大型数据库的资产的单一平台。
因此,对于那些需要处理大量较小的数据集的团队来说,这是一个特别合适的产品。
Magda的优点包括:
容易启动和运行是Magda的一个优势。它提供了一键部署到云、本地基础设施或使用Kubernetes和Helm的本地机器。
Magda搜索功能也特别强大,能够根据同义词、用户行为、地理空间数据和数据质量反馈数据资产信息。
Madga的另一个优势是连接数据源相对容易。我们可以使用CSV文件、库存工具、RDBMS、现有的元数据API和RESTful API添加一系列数据集。
Magda的缺点有:
Magda缺乏一些高级的可视化功能。
虽然提供了基于角色的访问控制,但它在创建更细粒度的访问策略方面效果较差。
Magda的目标通常是让用户能够轻松处理各种数据源,但处理非结构化或快速变化的数据可能会带来更多困难。
技术架构:
在技术架构方面,Magda是基于微服务体系构建的,这些微服务作为Docker容器分发。这样做是为了提供简单的可扩展性。Magda可以通过使用任何技术作为Docker镜像来添加定制服务,并通过稳定的HTTP API将它们与系统的其余部分集成。使用Helm和Kubernetes进行编排意味着定制的Magda实例的配置可以以纯文本形式存储和跟踪,并且可以快速轻松地复制具有相同配置的实例。架构图如下:
06 Egeria
https://github.com/odpi/egeria
开发语言:Java
Egeria是一个以企业为中心的工具,专注于跨组织的元数据管理。
因此,它对于需要高度自动化的集成解决方案的团队来说可能是一个很好的选择,例如跨平台元数据交换。
优点:
Egeria的核心是使团队能够使用专业服务器自动化元数据捕获,搜索和管理,该服务器在不同的连接平台上同步信息。
它还提供了极高级别的连接和集成,包括API、元数据存储库、JDBC、文件连接器、加密存储等。目标是使内部使用不同平台的团队能够无缝地共享信息。
缺点:
Egeria的用户界面功能相对有限。只提供一个通用的管理GUI,包括一个可搜索的目录,这有一点局限。如果我们想创建更高级的或特定场景的UI,我们需要自己开发这些UI。
07 TrueDat
https://github.com/Bluetab
TrueDat是一个非常成熟的开源数据治理工具,可以帮助客户成为数据驱动型的公司。TrueDat是由BlueTab(现在是IBM的一家公司)在了解了市场作为数据解决方案提供商的需求并找到了数据治理领域的空白之后创建的。
其优点包括:
TrueDat为配置数据目录和EDM提供了一个相对现代化、精简的界面,特别是与本综述中的其他一些平台相比。例如,我们可以使用实体模板来快速管理属性、元数据、权限和策略。
还有用于自动发现和编目连接的数据源,降低使用门槛,使其成为业务用户更可行的选择。我们甚至可以使用自己的LLM在企业环境中生成元数据。
除此之外,TrueDat在报告方面特别强大。它具有与Metadata的原生集成,为用户提供了极大的灵活性,可以围绕其数据质量和使用情况提取和可视化见解。
但是TrueDat也有许多缺点,例如:
尽管是一个开源项目,但TrueDat明显缺乏开源配套信息。特别是文档有点少,而且也没有生产部署相关的信息。
六、总结
下面用一张矩阵表总结了这几个开源数据治理工具的主要功能。矩阵用Yes和No表示是否有提供相关功能,但是,实际上这些工具在这些功能的实现程度并不一样。
产品 数据血缘 业务术语表 标签/分类 标签/分类传播 基于角色的访问控制(RBAC) 基于属性的访问控制(ABAC) 数据共享
Amundsen Yes No Yes Yes No No No
DataHub Yes Yes Yes Yes^ Yes^ No No
Atlas Yes Yes Yes Yes Yes No No
Magda No No Yes Yes Yes Yes Yes
OpenMetadata Yes No Yes No Yes^ No No
TrueDat Yes Yes Yes Yes Yes No Yes
Egeria Yes Yes Yes Yes Yes No Yes
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/admans/article/details/141748948