不止Obsidian,盘点常用All in One工具,最长10年

不止Obsidian,盘点常用All in One工具,最长10年

橙猫涉影

橙猫涉影

关注他

3 人赞同了该文章


当一个工具软件具备的功能越多,越符合刚需,对它的依赖性就越强,使用时间就会越长,使用频率也会越高。那这次给大家盘点那些我一直在用,而且未来很长一段时间也会使用的软件工具。最久的一款差不多有10年,完全没有会被淘汰的迹象。

「为什么需要All in One」

我是《橙猫涉影》主理人,IT出身,技术有限,只有7年,同时也是新媒体编导,在双重身份的加持下,知识既需要广度也需要深度,既有团队也有个人,事情的繁琐和时间的紧迫让我意识到优化工作流程,而在这个探索过程中,会借助很多优秀的软件工具,其所具备的All In One属性就显得非常重要。

All In One所能解决的问题,归根到底就是要减少「切换」带来的精力消耗,让查找、维护、汇总行为变得简单,化繁为简。

Obsidian

这2年最喜欢的工具中,当之无愧是Obsidian了,详细内容可看:

橙猫涉影:告别10年印象笔记,用Obsidian我最喜欢的7个功能201 赞同 · 35 评论文章

在使用过程中,我会不断根据自身工作流程对笔记进行调整,这次更多是对一些新用途的补充。这次All In One的主要依赖插件Custom Frame。 Obsidian Custom Frames官方介绍:

An Obsidian plugin that turns web apps into panes using iframes with custom styling. Also comes with presets for Google Keep, Todoist and more.

功能很简单,就是在Ob中打开一个自定义网页,而不需要切换到浏览器上打开,便捷性拉满,我主要用于Trello、Notion-like、Alist、Grafana、PhotoPrism。

Custom Frames用途

  • Trello:团队协作。这半年我主要致力于团队的协作问题,视频制作周期以及每个环节的耗时等相关数据都需要采集优化。经过一番探索,Trello的强大功能和免费使用,让我首先把它纳入到Custom Frames插件中,比起Ob的KanBan插件,Trello更偏向团队,自带的Power-Up(插件)和Automation Button功能,非常强大,可轻松实现时间统计、费用统计、webhook连通飞书等功能。


image.png


  • Alist:网盘聚合,方便把我的百度、阿里云对象存储、国外网盘等聚合在一起 。在电脑上安装Alist之后,感觉提供的文档配置好Alist,利用localhost+端口的设置,从Ob中打开。

Custom Frames中Alist的设置


Alist早几个月已经安装完成,但使用率极低,确实会很懒得去打开。但将它嵌入Ob之后,经常从中找素材,方便快捷。比较麻烦的是,需要每一台电脑都安装Alist,因为这个是依赖本地安装的Alist,而不像Trello依赖的是网页。

Custom Frames打开Alist


  • Notion/Flowus:Notion及Notion-like,最早是使用Notion作为团队协作,但服务器在国外这个真的太麻烦,每个月总有好几次抽风,非常影响体验。利用其Api功能,更多用于存储数据备份数据,方便查看。Flowus更多用于我的摄影付费课程定向开放,比起百度网盘,其share to web方便统一管理相关资料。在国内的网络访问Flowus比Notion好太多,但功能确实也弱。


Notion数据查看


  • Grafana:部署在vps上,作为团队内部的数字大屏,嵌入Ob中查看数据更方便,它还涉及数据库的操作,就不展开述说,对动手能力要求高。

Grafana数据大屏


  • photoPrism:部署在我的绿联Nas上,主要用途就是相册,查找摄影作品以及作为讲解资料,主打一个方便快捷,不需要打开图片软件!



All In One收益

这些All In One,我都习惯对它们进行评估,在流程上带来多少优化,为什么会提高使用率等等。 - 软件类以Flowus为例

以Flowus为例原始Custom Frame
1alt+space(启动器)点击
2输入Flowus
3回车
  • 网页类以Trello为例

以Trello为例原始Custom Frame
1切换Chrome点击
2找到标签
3点击打开

这类优化并没有带来多少时间上的收益,更多在于,减少做选择的次数从而减少精力消耗。据说,平均每个成年人每天做出大约35000个选择。每一件小事都可以成为最后一根稻草。毕竟,把人击垮的往往都是小事,例如柴米油盐。

  • 上手难度:⭐⭐

插件本身没有难度,难的是所嵌入的内容。例如Trello、Notion,从来没接触过的,难度在于对它们的学习。

Macrodroid

自从Ob的全平台适用后,我的工作内容也开始大量涉及手机操作,使用频率激增,就产生了一个想法:「把手机打造成生产力工具」,而不仅仅是以PC为第一生产力。毕竟手机的使用时间远比PC多,也方便携带。能帮我实现这个想法的工具,是从接触Macrodroid开始。从功能来说,Macrodroid可以看成是==IFFF、HTTP快捷方式、通知滤盒==等的组合,也就是All In One。

官方介绍:

Make your phone truly smart with the number one automation app on Android

同类型还有Automation、Task,但它们看着就没有想学的欲望。 第一次接触Macrodroid的时候,马上被吸引住了,一下子就能看懂所有功能版块,细节需要摸索,非常像智能家居的方式,只是操作对象不是家居而是手机本身。起码不是从完全陌生的领域开始,集成度高,完全可以做到零代码。学习知识从熟悉的开始,过渡陌生领域,再学习新领域,心理上不会排斥更容易接受。大概得原理就是「什么情况触发怎样的行为」


官方介绍


时间记录

最基本的使用就是通勤的时间记录。有了MacroDroid记录起来相当简单,离开家里的wifi开始计时,连接公司的wifi结束计时,全程自动。可利用Macrodroid自身的计时器,也可以结合它的插件功能接入aTimeLogger或TimeMeter等。目前我是记录出门时间以及抵达时间,同时启停aTimerLogger记录,方便查看。


我的使用截图


  • 利用通知栏记录NFC的公交打卡时间

  • 利用通知栏记录美团单车骑行时间

  • 非日常的特殊行为进行手动记录

大多数用于常规事件的记录,只要判断好触发条件,所有数据写入本地文件,最后汇总到Ob中,完成闭环。

对于写入本地文件这个操作,搭配Markor 的QuickNote.md,比起Obsidian,它可以更快速写入打开和修改,日常编辑md也是用Markor。

快速记账

记账这个事情,在14-17年左右,坚持过3年,发现每年支出都差不多,于是停止了记账。试过各种App,甚至自己写的都有,最后还是因为过于无聊而停止。我想一件事情必须赋予它一定意义才坚持得下去,意义越多,坚持就越久,至少它要有存在的价值。那现在记账的价值就是区分个人和自媒体上的支出,同时把它看作是自己身上的大数据,提炼出来,增强韧性。 记账功能主要利用了共享模板里面的宏 "ID_找到ID" ,在这个基础上展开了识别的操作,写了微信、支付宝、PDD相关的,淘宝相关内容也放入到支付宝中读取。

记账方式有2种:

  1. 读取通知栏:通过读取支付成功后弹出的通知栏信息,实现记账,比较智能,但Macrodroid自身有Bug,经常读取不到,微信支付也不是所有渠道都弹出通知,只适用于简单记录。

  2. 主动读屏:开启支付宝或微信记账本,直接读取账本中的支付详情。每支付一次,如果通知栏的方式没有记录,那我就会打开记账本的支付详情,直接读屏详细信息,写入到Markor的QuickNote中。每次支付完毕,要打开记账本是一个比较痛苦的操作,转念一想,这只不过是「用琐碎的时间去处理琐碎的事情」,一下子就舒服了。


记账相关的宏


设备控制

对于一些日常的使用习惯,将它写成自动化的流程,减少操作步骤。

  • 自动复制验证码:模板中有现成的,我对它进行了修改,通过饭碗警告、Bark转发到其他人手上,实现自动化,避免团队中每次都有人来问验证码的问题。

  • 接入蓝牙耳机时,自动打开常用音乐App

  • 充满电,语音提示,记录充电时间等

  • 关闭屏幕,自动清理通知


设备控制的宏


All In One收益

自动记录,手动整理,最后汇总到Obsidian中,减少了手指点击屏幕的次数,不需要记忆很多事情,希望对你有用。

上手难度:⭐⭐⭐⭐

学习难度真的很高,以至于我想简单说一下怎么用,都有点吃力。建议从最简单的功能开始,例如关屏清理通知、充满电语音提示等等很多模板里面有的功能,从现有功能去学习,比起从零开始,高效太多。 如果想学管理又苦于没机会,那么如何做好自身管理,就是一次机会,毕竟每个人都是行走的大数据,感受它的复杂和繁琐,并且解决它。

前面说提及的Macrodroid的宏我都导出了一份,可自行下载导入免费版Macrodroid只能使用5个宏)。

Sublime Text

Sublime和印象笔记基本是同年(2013)投入使用,到现在已经10年。当时是看中它在Win上可实现断电可自动保存功能,从Win7到Win11、Mac。印象笔记已换掉,但Sublime依然是每台电脑必装的软件。 官方这样总结Sublime:

Sublime Text is a sophisticated text editor for code, markup and prose.You'll love the slick user interface, extraordinary features and amazing performance.

相比VScode、Pycharm这类IDE,Sublime是一个文本编辑器,满足大部分文字工作需求和轻量化Python用途。启动快、颜值高、跨平台、侧边栏舒服,可替代TXT类软件,启动快是我最经常用它的主要原因,「天下武功唯快不破」。


SublimeText使用界面


安装步骤

刚好前段时间新买了Mac mini,记下安装过程,供参考:

1. 下载python安装包,python.org/downloads/ma

2. 安装后在终端窗口输入确认:python3或Python3 version

3. 终端窗口指令安装pip:python3 -m ensurepip --default-pip

4. 终端窗口:pip3 --version确认安装成功

5. 安装Sublime

6. 打开Sublime直接选择工具-编译系统-Python视图-语法-python,完成即可正确显示python

7. SublimeText新建一个test.py文件输入下面代码,ctrl/cmd+B执行:

import sysprint ("Python Version {}".format(str(sys.version).replace('\n', '')))

文字类工作

Sublime Text自身拥有丰富功能,多列显示、文件对比、统计选中的字数行数、高颜值配色主题、正则查找替换(搜索\n可选中所有换行)、可多文件,多光标的批量处理等等。 在Obsidian投入使用之前,我的大部分文案,首先在Sublime中写完,再移入笔记软件中,作为一款强化版的文本工具,现在主要用于:

  • 批量修改替换md的内容 - 打开特殊格式的系统文本,如.config之类的

  • 临时记录信息 - 一些简单草稿文案,偏「缓存」的作用

它的快捷键很多,我能记住的就几个:

  • 多选行:Ctrl+A > Ctrl+Shift+L > Home

  • 多光标:Ctrl+鼠标点击

  • 搜索后:Alt+Enter选中全部搜索内容


image.png


代码类工作

想自学python,又不是从事代码类工作的,那它将是最好的选择。 大部分用途是跑python,我的python学习都是基于Sublime。2018年开始利用业余时间制作视频,发现过程中充斥着大量重复性有规律的操作,后来了解到非编软件Pr、Fcpx、达芬奇等都可以导出xml,可以在xml中搞事情。借着这个契机,开始了python的学习。Sublime从这个时候开始正式用于代码类工作,不再是一个强化版TXT。

早期写过的一些辅助制作视频的功能主要有:

1. 图片与视频的时间同步。针对摄影的照片和视频同步问题。之前出过一期视频发布过,但因为没时间维护,分享的版本可能已经无法使用。

2. 读取图片Exif信息生成字幕文件

3. 旁白字幕的格式转换与多国语言翻译处理。把txt转换为srt,srt转为txt等等,网上已经有很多现成的。

4. 自动剪辑视频音频静音部分。好像是剪映今年推出的功能,18年就做了出来,但没有任何实用性,基本没投入使用。包括现在剪映的,对我而言,也不具备实用性。

这些功能至少为每期视频节省30-50分钟的制作时间。包括后来做运营,也依赖了大量Python工具辅助,webhook、Notion API等等。

插件类拓展

一款优秀的工具,都少不了插件系统。 分享一些我常用的,减少我的切换频率,需求增加时,可适当用插件满足,也是一个不错的功能。

  • Package Control:插件辅助

  • A file icon:给你的文件加图标,颜值即生产力

  • Markdown editing:辅助md格式的显示

  • Terminus:把系统的终端集成到软件中,常用于Hexo博客系统的维护

  • SFTP:用于访问vps

  • colorPick:颜色拾取器,纯粹只是不想再额外找软件

  • insert num:插入数字,多行光标时自动序列化

Sublime本身也有很多关于markdown的插件,但没必要,不如typora或者ob。我的Hexo博客用vscode搭建,但日常维护我直接用Sublime,方便快捷。

All In One收益

我感觉它的All In One收益是不大的,主要是能兼顾代码和文本,如果很多时候并不需要编写代码,那没必要去学习。看到过有人建议学Python,它能优化你的工作。但相比学习成本,如果不感兴趣,则不建议。效率低就低一点。学习一门语言本身就不容易,后续的维护和开发过程中的问题查找,会消耗非常大的精力。

  • 上手难度:⭐⭐

软件本身不难,难的是Python以及正则表达式的学习,但简单的批量查找替换,基本上都很简单。

腾讯轻联和集简云

假如你所在的公司不关心内部流程的问题,软件跨度较大,流程繁琐,可以留意Hiflow腾讯轻联和集简云这2个低代码或零代码平台,让很多软件实现了互通,包括飞书、企微、金蝶云、Notion、抖音等非常多软件可自行研究。

腾讯云Hiflow

将日常的重复工作快速实现流程自动化,提高工作效率,事半功倍。拖拉拽的图形化流程编辑界面,轻松实现SaaS、企业应用、数据&云服务之间的连接自动化,打造高效、稳定、安全的集成平台。


腾讯轻联界面


集简云:

自动化业务流程可节省企业数万小时的人工成本无需代码开发,简单快捷,人人可用,自动化连接企业内部与外部数据,搭建企业的自动化业务流程。


集简云界面


它们都是国内版的Zapier,一开始想过用Sublime 写Python来打造Notion API之类的功能,了解到这些自动化工具之后,果断放弃了自己写的想法,大多还是出于维护太累的考虑。


加入云端工具之前


免费版的差异是Hiflow限制软件,集简云使用次数特别少。我两个都在用,大部分在集简云上,因为没有软件的限制,而webhook在Hiflow上属于付费功能。

我用它们搭建了一套基于Webhook的通知系统,团队也好个人也好,都能定时收到推送,也可通过Macrodroid、Trello主动推送,用Python更新服务器的数据库时会发出通知,同时数据备份到Notion。


加入云端工具之后


  • 主动通知:Macrodroid(Webhook功能),Trello(Automation Button)

  • 接收通知:Android(饭碗警告)、IOS(Bark)、飞书(机器人)

  • 集简云:集中处理,方便修改。更新数据到vps后,集简云自动备份到Notion。

  • 很多公司的流程跨软件多,利用云端工具打通是个不错的高效选择。

All In One收益

不用购买服务器,不用自己去维护,如果有你需要的功能,它对效率的提升非常大。

上手难度:⭐⭐

学会了Macrodroid之后,再看这个,显得非常简单,它们的设计逻辑是类似的。一开始我是将手机上的Macrodroid当服务器来用,毕竟它也是24小时开机在跑,不过出于规范化,后来取消了,能移到云端工具就移上去。

总结

All In One类都有一个共同的特点,就是有插件系统,覆盖面广,很多日常的需求都覆盖到,同时还能接入其他软件工具,从而简化流程。在实践过程中,我发现All In One软件工具之间实现互通,形成闭环,创造更多的价值,同时也让事情变得更简单。无论Obsidian、Macrodroid、SublimeText、腾讯轻联和集简云,它们创造出来的东西,最后的汇总到Obsidian中展示回顾复盘等,All In One。


注意: 公有云新租户基于安全考虑不允许通过账号密码登录方式调用API接口了,只能通过第三方登录授权的方式访问星空接口,具体见https://vip.kingdee.com/knowledge/specialDetail/229961573895771136?category=229964512944566016&id=423060878259269120&productLineId=1

目前星空集成建议使用OpenAPI方式,OpenAPI提供多种SDK、可以免登录调用WebAPI接口,具体见https://openapi.open.kingdee.com/ApiHome


金蝶云•星空BOS中级课——系统集成

回放地址:https://vip.kingdee.com/school/liveCourse/69535438918079744

PPT文档:https://vip.kingdee.com/school/71943223102231296

答疑汇总&示例代码:https://vip.kingdee.com/article/72001078459714816


【基础篇】

金蝶云 WebAPI接口说明书

WebApi数据集成接口字段格式

金蝶云星空日志管理-WebAPI日志

浅谈通过WebAPI实现金蝶云单据对接的那些事

WebAPI性能优化建议

WebAPI通过集成秘钥方式进行登录

WebAPI启用权限控制

WebAPI接口跟相应菜单简单比较

WebApi保存接口IsDeleteEntry使用说明

Web API 网控介绍

WebAPI Postman调用示例



【代码篇】

.NET:

WebAPI集成开发客户端不引用组件示例 

Java:

WebAPI销售订单Java完整示例(不引用组件示例)

WebAPI客户端SDK Java版本示例

PHP:

WebAPI销售出库单PHP示例

Python:

WebAPI Python调用示例


API-一次登录多次使用简单示例


【附件相关】


WebAPI附件接口说明

WebAPI附件上传示例

WebAPI附件上传示例(单据体附件)

WebAPI附件下载示例


【限流相关】

WebAPI接口启用访问IP限制

WebAPI接口调用次数控制


【常见应用】

通过WebApi保存接口修改单据

WebAPI保存接口实现上下游关联

WebAPI单据查询接口

WebApi.从零开发自定义WebApi接口

WebAPI自定义接口调用报表数据

使用webapi下推接口实现行拆分

WebApi返回定制结果

弹性域webapi保存接口介绍

如何通过WEB API 查询枚举字段的名称

保存接口自动提交和审核

即时库存查询WebApi接口

通过API接口上传客户、客户联系人、客户地址信息

WebAPI查询枚举项名称

WebAPI如何查询单据状态名称

WebAPI保存接口如何取消网控

调用webapi接口同步用户到云平台方法

WebAPI接口修改人和修改时间处理规则

WebAPI操作前事件OnBeforeWebApiOperation使用示例

WebAPI多语言文本赋值

WebAPI支持简单账表查询

WebAPI新增返回Key Value键值对列表查询接口


即时库存查询WebApi接口

WebApi接口新增仓位值集、更新仓位值集、查询仓位值集


通过webapi传入凭证现金流量

通过WebAPI生成凭证时如何指定制单人


作者:王文亮

来源:金蝶云社区

原文链接:https://vip.kingdee.com/article/471980764217898752?productLineId=1&isKnowledge=2&lang=zh-CN

著作权归作者所有。未经允许禁止转载,如需转载请联系作者获得授权。


前言

Web 开发中几乎所有的平台都需要一个后台管理,但是从零开发一套后台控制面板并不容易,幸运的是有很多开源免费的后台控制面板可以给开发者使用,那么有哪些优秀的开源免费的控制面板呢?我在 Github 上收集了一些优秀的后台控制面板,并总结得出 Top 10。

1、vue-Element-Admin

Github Star 数 45100, Github 地址:

https://github.com/PanJiaChen/vue-element-admin

一个基于 vue2.0 和 Eelement 的控制面板 UI 框架。

2、AdminLTE

Github Star 数 32000 , Github 地址:

https://github.com/almasaeed2010/AdminLTE

非常流行的基于 Bootstrap 3.x 的免费的后台 UI 框架。

3、ant-design-pro

Github Star 数 22600,Github 地址:

https://github.com/ant-design/ant-design-pro

开箱即用的中台前端/设计解决方案

4、tabler

Github Star 数 20000, Github 地址:

https://github.com/tabler/tabler

构建在 BootStrap 4 之上的免费的 HTML 控制面板框架

5、ng2-admin

Github Star 数 19000, Github 地址:

https://github.com/akveo/ngx-admin

基于 Angular 2, Bootstrap 4 和 Webpack 的后台管理面板框架。

6、Gentelella

Github Star 数 18300, Github 地址:

https://github.com/puikinsh/gentelella

一个基于 Bootstarp 的免费的后台控制面板。

7、iview-admin

Github Star 数 13700,Github 地址:

https://github.com/iview/iview-admin

基于 iView 的 Vue 2.0 控制面板。

8、blur-admin

Github Star 数 10600,Github 地址:

https://github.com/akveo/blur-admin

基于 Angular 和 Bootstrap 的后台管理面板框架。

9、vue-admin

Github Star 数 9400,Github 地址:

https://github.com/vue-bulma/vue-admin

基于 Vue 和 Bulma 的控制面板。

10、material-dashboard

Github Star 数 8600,Github 地址:

https://github.com/creativetimofficial/material-dashboard

基于 Bootstrap 4 和 Material 风格的控制面板。




ERD Online 是全球第一个开源、免费在线数据建模、元数据AI平台。集成ChatGPT,提供简单易用的元数据设计、关系图设计、SQL审批查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能,方便我们快速、安全的管理数据库中的元数据。

数据,已成为互联网企业非常依赖的新型重要资产。“用数据说话”也越来越成为一种共识,然而并非任何数据都可以用来说话。

智能数据挖掘与处理技术智能数据挖掘与处理技术

在数字化时代,海量数据成为了各行各业的宝贵资产。然而,仅仅拥有大量数据并不足以带来商业价值,关键在于如何从这些数据中提取有用的信息和洞察。数据挖掘和数据分析成为了实现这一目标的关键工具,可以帮助企业发现隐藏在数据背后的价值,做出更明智的决策。

我们身处信息爆炸的时代,我们每个人每天都要和无数的数据打交道,对从事大数据行业的人来说更是如此。在大数据行业有三个热门的技术词汇:数据挖掘、数据分析、数据质量。

大数据分析师技能图谱大数据分析师技能图谱

随着组织不断发展壮大,组织内部数据量剧增,数据系统存在大量无效冗余旧数据,错误数据,残缺数据的情况,影响后续数据处理分析,使管理层决策失误。问题数据频繁出现的背后,是组织数据质量管理不善导致的。

数据质量是数据的生命线,没有高质量的数据,一切数据分析、数据挖掘、数据应用基于错误数据,数据价值会大打折扣,甚至出现完全错误的结论,浪费组织大量时间和精力,得不偿失。

这个时候肯定会有不少的粉丝会咨询,数据分析、数据挖掘、数据质检三者之间有啥区别呢?

简而言之:数据分析一般是具有明确的分析目标的,而数据挖掘则是要从海量的数据中寻找潜在的规律从而获取价值。

  • 数据分析旨在从海量业务数据中获得有用信息,以便更好地为决策服务。

数据分析的完整流程图数据分析的完整流程图

  • 数据挖掘,顾名思义,就像从沙子中挖掘黄金。

数据挖掘全过程数据挖掘全过程

  • 数据质量含义还是比较好理解的。简单一点来说,就是对数据进行的质量检测。这个就不过多解释。

数据质量问题数据质量问题

他们主要区别体现在以下几个方面:

  • 数据分析的重点在于观察数据,而数据挖掘的重点是从数据中发现潜在的有价值的规律。

  • 数据分析主要依赖人工的技术操作活动,而数据挖掘主要是依托于计算机科学从庞大的数据集中提取有价值的信息。

  • 通过数据分析得到的信息需要人工进一步提取价值,而通过数据挖掘得到的规律结论可以直接应用于业务进行预测。

  • 数据分析不能直接建立数学模型,需要人工建模,而数据挖掘可以自动完成。传统的控制论建模本质就是描述输入变量与输出变量之间的函数关系。数据挖掘可以利用机器学习技术自动建立输入与输出的函数关系,根据数据中的规律给出输入参数,得出输出量。

借此机会,今天小编给大家15个热门开源免费的数据挖掘、数据分析、数据质量管理工具,值得学习收藏,让正在从事大数据小伙们有头绪和对数据挖掘、数据分析思路,希望对更多粉丝们有所帮助。同时祝福大家一切顺利,心想事成,永远开心快乐,身体健康,愿你的生活更加充实,愿你的未来更加辉煌。接下来小编给大家介绍一些开源免费的数据挖掘、数据分析、数据质量管理工具,喜欢的小伙们记得点个赞和收藏。

全文大纲

  1. SZT-bigdata - 深圳地铁大数据客流分析系统

  2. dbt-core - 是一个数据管道开发平台,支持动态SQL、模板和建模等功能。

  3. erd-online - 是全球第一个开源、免费在线数据建模、元数据AI平台。

  4. LarkMidTable - 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。

  5. datacap - 是用于数据转换、集成和可视化的集成软件。支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。

  6. Qualitis - 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台

  7. deequ - 是一款非常适合用于Spark的质量检测工具

  8. datax-cloud - 是为数字化建设而生的企业级一站式数据治理平台。

  9. piflow - 混合型科学大数据流水线系统。

  10. great_expectations - 是最受欢迎的数据质量管理工具之一。

  11. TipDM - 建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,是开源的数据挖掘工具。

  12. Deta_Unicorn_ETL - 数据可视化, 数据挖掘, 数据处理 ETL分析系统

  13. soda-core - 是一个Python开发的开源数据质量工具

  14. bboss-elastic-tran - 由 bboss 开源的数据采集&流批一体化工具

  15. mobydq - 是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报

SZT-bigdata - 深圳地铁大数据客流分析系统

Github:https://github.com/geekyouth/SZT-bigdata

介绍

  • 该项目主要分析深圳通刷卡数据,通过大数据技术角度来研究深圳地铁客运能力,探索深圳地铁优化服务的方向;

  • 强调学以致用,本项目的原则是尽可能使用较多的常用技术框架,加深对各技术栈的理解和运用,在使用过程中体验各框架的差异和优劣,为以后的项目开发技术选型做基础;

  • 解决同一个问题,可能有多种技术实现,实际的企业开发应当遵守最佳实践原则;

  • 学习过程优先选择较新的软件版本,因为新版踩坑一定比老版更多,坑踩的多了,技能也就提高了,遇到新问题可以见招拆招、对症下药;

dbt-core - 是一个数据管道开发平台,支持动态SQL、模板和建模等功能。

Github:https://github.com/dbt-labs/dbt-core

dbt 官网dbt 官网

介绍

dbt™是一个SQL优先的转换工作流,使团队能够按照模块化、可移植性、CI/CD和文档等软件工程最佳实践快速协作地部署分析代码。现在,数据团队中的任何人都可以安全地为生产级数据管道做出贡献。

dbt是一个数据管道开发平台,支持动态SQL、模板和建模等功能。dbt的一个重要特性是自动化测试,用户可以使用dbt执行全面数据测试、数据质量检查和数据验证。可以在数据管道、数据源和目标数据之上使用dbt执行的质量检测模型,例如:数据范式(3NF及以上)模型、维度模型和数据仓库模型。

dbt除了提供数据测试和数据质量功能,在应用生态上,许多公司还为dbt扩展数据质量功能。例如:Elementary,它能够总结dbt中的所有内容,提供数据质量监控指标、数据新鲜度、数据异常信息和异常数据分析的功能。

系统截图

erd-online - 是全球第一个开源、免费在线数据建模、元数据AI平台。

Gitee:https://gitee.com/MARTIN-88/erd-online

介绍

ERD Online 是全球第一个开源、免费在线数据建模、元数据AI平台。集成ChatGPT,提供简单易用的元数据设计、关系图设计、SQL审批查询等功能,辅以版本、导入、导出、数据源、SQL解析、审计、团队协作等功能,方便我们快速、安全的管理数据库中的元数据。

特性

  •  开箱即用:将注意力集中在数据结构设计上

  •  团队协作:三级权限(拥有者、管理员、普通角色)管理,元素级权限控制

  •  元数据设计:快速复制已有表结构、JSON 生成表,表默认字段、默认大小写等控制

  •  元数据管理:在线管理表结构,支持正向向数据库执行

  •  元数据解析:将已有的数据库结构解析到软件中管理

  •  多数源支持:支持多种数据库连接在线管理(Mysql、Oracle、DB2、SqlServer、PostGreSql),各数据源之间元数据结构同步

  •  版本管理:每个需求与变动,都可以生成版本;每个版本之间可以比对差异

  •  可将所有表结构,自动生成 word、html、md 文档,便于线下流动

  •  在线SQL:在线SQL查询、SQL执行计划,历史查询留痕

  •  永不丢失:元数据历史操作版本留痕(最近9次),可以恢复到任意历史版本

  •  数据字典:全局数据字典设计,控制元数据设计规范

发展里程碑

产品图鉴

系统截图

LarkMidTable - 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。

Gitee:https://gitee.com/LarkMidTable/LarkMidTable

介绍

LarkMidTable 中文名称 云雀,云代表大数据,雀代表平凡和自由。

LarkMidTable 是一站式开源的数据中台,实现中台的基础建设,数据治理,数据开发,监控告警,数据服务,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。

产品架构图产品架构图


系统截图

datacap - 是用于数据转换、集成和可视化的集成软件。支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。

Github:https://github.com/devlive-community/datacap

介绍

DataCap 是用于数据转换、集成和可视化的集成软件。

支持多种数据源、文件类型、大数据相关数据库、关系数据库、NoSQL数据库等。

通过软件可以实现多数据源的管理,对源下的数据进行各种操作转换、制作数据图表、监控数据源和其他功能。

系统截图

Qualitis - 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台

Gitee:https://gitee.com/WeBank/Qualitis

介绍

Qualitis是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台,用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题。

Qualitis基于Spring Boot,依赖于Linkis进行数据计算,提供数据质量模型构建,数据质量模型执行,数据质量任务管理,异常数据发现保存以及数据质量报表生成等功能。并提供了金融级数据质量模型资源隔离,资源管控,权限隔离等企业特性,具备高并发,高性能,高可用的大数据质量管理能力。

核心特点

  • 数据质量模型定义支持以下数据模型定义:1.单表校验数据模型。2.跨表校验数据模型。3.自定义校验数据模型。同时,系统预置了多个数据质量校验模版,包括空值校验,枚举校验等常用校验,并且支持自定义数据质量模版。

  • 数据质量模型调度支持数据质量模型调度。

  • 数据质量报表支持生成数据质量报表。

  • 日志管理 日志聚合管理,方便排查数据质量任务

  • 异常数据管理 支持异常数据提取和存储,快速定位问题

  • 支持工作流 支持在工作流当中进行数据质量校验工作流必装DataSphereStudio.

  • 管理员控制台提供管理员控制台界面,支持人员管理,权限管理,权限管理,元数据管理等管理功能。

与类似系统对比

架构图

用例图

系统截图

deequ - 是一款非常适合用于Spark的质量检测工具

Github:https://github.com/awslabs/deequ

介绍

Deequ是一个建立在Apache Spark之上的库,用于定义“数据单元测试”,测量大型数据集中的数据质量。

随着Spark的应用越来越多,Deequ是一款非常适合用于Spark的质量检测工具,非常适合测试大批量数据,Spark DataFrame的任何东西都可以使用Deequ进行测试。并将结果输出到任何关系数据库、CSV文件或者日志等。Spark的作业主要使用Scala或Python语言编写,对于原生Scala,Deequ可以直接使用,但对于Python,就需要一个名为PyDeequ的包装器。

datax-cloud - 是为数字化建设而生的企业级一站式数据治理平台。

Gitee:https://gitee.com/yuwei1203/datax-cloud

介绍

智数通提供了元数据管理、数据标准管理、数据质量管理、主数据管理、数据集市管理、可视化图表看板、流程管理等微服务,是为数字化建设而生的企业级一站式数据治理平台。

特性

  • 智数通服务理念:平台化、资产化、服务化,及围绕“平台化”、“资产化”、“服务化”,聚焦数智场景,赋能行业生态,让数据产生价值。

  • 智数通应用微服务云原生技术,封装了大量技术开发包、技术应用组件、技术场景实现能力,提供了一个可支持企业各业务系统或产品快速开发实现的微服务应用数字化融合平台,富含各类开箱即用的组件、微服务业务系统,助力企业跨越Cloud与自身数字化的鸿沟,共享业务服务的组合重用,为企业服务化中台整合、数字化转型提供强力支撑,也为企业提供了最佳架构实践。智数通不仅提供了企业级应用系统所包含的常用开箱即用的模块,并支持灵活的可配置性和拓展性。智数通还是一套基于Spring Cloud的微服务应用程序框架,可帮助公司更快,更高效地进行微服务开发。

  • 智数通理念认为,企业首先应当建立集中统一的数据中台,将全域的数据都同步到统一的数据中台,基于数中台来进行数据治理,事半功倍。数据存储统一,可以在后续的数据治理和数据业务化的过程中实现数据不搬动,降低数据的处理成本;数据计算统一,可以实现基础元数据的自动维护,为数据治理打下最坚实的基础。

  • 智数通提供了统一的元数据自动采集和维护入口,在元数据模块中为数据管理提供了准确实时的基础数据,在此之上结合企业的现状调研和咨询,可以构建企业级的数据资产类目体系和数据安全体系;同时,通过数据质量模块,实现数据处理的质量管控。然后通过数据API模块,为上层丰富的数据应用价值实现提供引擎能力。通过可视化模块无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务等等。

  • 从数据同步、到数据开发、到数据管理、到数据质量控制、到数据应用价值实现,智数通在产品层面对于指引都能提供支撑,这是将多年大数据实践经验产品化的结果。智数通,就是为数据治理而生的企业级一站式数据中台,为数据市场抢占先机。

架构图

智数通采用 J2EE 技术体系,基于Spring Cloud微服务框架进行封装,平台设计灵活可扩展、可移植、可应对高并发需求。同时兼顾本地化、私有云、公有云部署。

主要技术栈

后端技术栈

  • 开发框架:Spring Boot 2.3

  • 微服务框架:Spring Cloud Hoxton.SR9

  • 安全框架:Spring Security + Spring OAuth 2.0

  • 任务调度:Quartz

  • 持久层框架:MyBatis Plus

  • 数据库连接池:Hikaricp

  • 服务注册与发现: Spring Cloud Config

  • 客户端负载均衡:Ribbon

  • 熔断组件:Hystrix

  • 网关组件:Spring Cloud Gateway

  • 消息队列:Rabbitmq

  • 缓存:Redis

  • 日志管理:Logback

  • 运行容器:Undertow

  • 工作流: Flowable 6.5.0

前端技术栈

  • JS框架:Vue、nodejs

  • CSS框架:sass

  • 组件库:ElementUI

  • 打包构建工具:Webpack

系统截图

piflow - 混合型科学大数据流水线系统。

Gitee:https://gitee.com/opensci/piflow

介绍

混合型科学大数据流水线系统,包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能

特性

  • 简单易用

可视化配置流水线

监控流水线

查看流水线日志

检查点功能

流水线调度

  • 扩展性强:

  • 支持自定义开发数据处理组件

  • 性能优越:

  • 基于分布式计算引擎Spark开发

  • 功能强大:

  • 提供100+的数据处理组件

  • 包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等

  • 集成了微生物领域的相关算法

架构图

系统截图

great_expectations - 是最受欢迎的数据质量管理工具之一。

Github:https://github.com/great-expectations/great_expectations

介绍

Great Expectations(GX)可以数据工程师进行质量检测、创建分析文档来提高团队成员对数据的理解。

Great Expectations(GX)是最受欢迎的数据质量管理工具之一。

GX期望通过连接到数据源运行事先定义好的集成模板来检测数据。在官方指南中,可以找到更多关于GX与Databasericks、Flyte、Prefect和EMR等工具和平台集成的信息。目前Great Expectation维护非常积极,并且已被Vimeo、Calm、ING、Glovo、Avito、DeliveryHero、Atlan和Heineken等公司使用。

GX规范了“数据的预期状态”。GX与数据源的集成意味着所有的数据质量检查都在适当的位置完成,并且没有数据被移出数据源。GX还可通过自动化数据质量检测、实时监测结果记录以及运行摘要来支持数据质量管理。GX还可以直接与Airflow , Meltano等工具集成。支持将质量检测结果保存到各种数据库或者文件系统中。

TipDM - 建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,是开源的数据挖掘工具。

Gitee:https://gitee.com/guangzhou_TipDM_intelligence_devp/TipDM

介绍

TipDM建模平台,是由广东泰迪智能科技股份有限公司研发并开源的数据挖掘工具,TipDM建模平台提供数据丰富的数据预处理、 数据分析与数据挖掘组件,帮助广大中小企业快速建立数据挖掘工程,提升数据处理的效能。同时,我们也在积极 推动大数据挖掘社区建设,构建校企对接桥梁,为企业精准推送优质大数据挖掘人才;在产业需求的基础上推动高 校的人才培养工作。

特性

  • 基于Python,用于数据挖掘建模。

  • 使用直观的拖放式图形界面构建数据挖掘工作流程,无需编程。

  • 支持多种数据源,包括CSV文件和关系型数据库。

  • 支持挖掘流程每个节点的结果在线预览。

  • 提供5大类共40种算法组件,包括数据预处理、分类、聚类等数据挖掘算法。

  • 支持新增/编辑算法组件,自定义程度高。

  • 提供众多公开可用的数据挖掘示例工程,一键创建,快速运行。

  • 提供完善的交流社区,提供数据挖掘相关的学习资源(数据、代码和模型等)。

系统截图

Deta_Unicorn_ETL - 数据可视化, 数据挖掘, 数据处理 ETL分析系统

Github:https://github.com/yaoguangluo/ETL_Unicorn

介绍

德塔人工智能数据分析ETL可重用节点工作流处理软件引擎系统。

这个工程用于节点数据工作流执行。该软件的亮点为:世界最轻的ETL批处理引擎(6KB)采用VPCS结构,启动快,效率高,操作简单,结构轻,网页嵌入,执行快,高并发,二次开发简易,自由修改源码实现各种风格。

系统截图

soda-core - 是一个Python开发的开源数据质量工具

Github:https://github.com/sodadata/soda-core

介绍

Soda Core是一个Python开发的开源数据质量工具,旨在确保数据平台中的数据可靠性。它附带了命令行工具。支持SodaCL(Soda Checks Language),SodaCL是一种兼容YAML,可靠的,用于特定领域的语言。

Soda Core可以连接到数据源和工作流,确保数据不论在管道内还是管道外都能够被检测。

Soda Core支持广泛的数据源、连接器和测试类型,它是目前开源项目中对数据连接器覆盖最全面的数据质量工具,如Dask、DuckDB、Dremio等。

Soda Core是一个免费的、开源的命令行工具和Python库,使您能够使用Soda Checks Language将用户定义的输入转换为聚合的SQL查询。

当Soda Core在数据集上运行扫描时,它会执行检查以查找无效、丢失或意外的数据。当您的苏打水检查失败时,它们会显示您定义为质量差的数据。

✔与SodaCL语言兼容

✔支持数据管道和开发工作流内外的数据质量测试

✔集成以允许在数据管道中进行Soda扫描,或按基于时间的时间表进行编程扫描

bboss-elastic-tran - 由 bboss 开源的数据采集&流批一体化工具

Gitee:https://gitee.com/bboss/bboss-elastic-tran

介绍

bboss-datatran由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库以及数据指标统计计算流批一体化处理功能。

bboss-datatran 数据同步作业直接采用java语言开发,小巧而精致,同时又可以采用java提供的所有功能和现有组件框架,随心所欲地处理和加工海量存量数据、实时增量数据,实现流批一体数据处理功能;可以根据数据规模及同步性能要求,按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小;可以将作业独立运行,亦可以将作业嵌入基于java开发的各种应用一起运行;提供了作业任务控制API、作业监控api,支持作业启动、暂停(pause)、继续(resume)、停止控制机制,可轻松定制一款属于自己的ETL管理工具。

工具可以灵活定制具备各种功能的数据采集统计作业

  • 只采集和处理数据作业

  • 采集和处理数据、指标统计计算混合作业

  • 采集数据只做指标统计计算作业

特点

  • 支持时间维度和非时间维度指标计算

  • 时间维度指标计算:支持指定统计时间窗口,单位到分钟级别

  • 一个指标支持多个维度和多个度量字段计算,多个维度字段值构造成指标的唯一指标key,支持有限基数key和无限基数key指标计算

  • 一个作业可以支持多种类型的指标,每种类型指标支持多个指标计算

mobydq - 是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报

Github:https://github.com/ubisoft/mobydq

介绍

MobyDQ是数据工程团队的一个工具,可以自动对数据管道进行数据质量检查,捕获数据质量问题并在异常情况下触发警报,无论他们使用的数据源是什么。

数据质量检测工具MobyDQ可以独立运行于开发环境和测试环境。而在生产环境中,MobyDQ也支持使用Docker或Kubernetes容器运行。 MobyDQ的数据质量框架主要侧重四大质量指标:完整性、新鲜度、响应时间和有效性。MobyDQ支持丰富的数据源,例如:MySQL、PostgreSQL、Teradata、Hive、Snowflake和MariaDB等。 MobyDQ允许用户使用其GraphQL API运行测试,支持将此API与Python 或 JavaScript之类的编程语言一起使用,另外,MobyDQ在结构化数据测试方面,它还提供了基于Hive,PostgreSQL,MySQL等数据源的Demo。

截图