在大数据作业开发中,数据集成工具是非常重要的一个环节,一个好的数据集成系统从可用性、架构扩展性、底层引擎选型、数据源支持能力等方面都需要一定的考量,在本文中汇总了十款开源的数据集成系统,作者本人在过往的开发过程中,使用过其中的7款(DataX、Flume、Seatunnel、Canal、BitSail、InLong、Chunjun(Flinkx) ),其中三款(AiyByte、CloudCanal、Nifi),本文是对于每款数据集成软件的基础介绍说明,如果对于实践部分感兴趣的话,可以关注后续内容(如果你对于数据集成感兴趣的话,可以加入我们的小群(文末扫码),一起来交流&测试)

本文分为两个部分,一部分是对于十款不同组件的介绍,包括基本信息、特性支持、架构介绍等等,可以当作对于每个组件的基本了解,当然了,如果你有兴趣想参与测试每个组件的话,也欢迎一起来进行实践操作。另一部分是关于开源组件的一些基础维度对比,包括开源社区、背后支持企业、活跃度等等。本文分为两个部分,一部分是对于十款不同组件的介绍,包括基本信息、特性支持、架构介绍等等,可以当作对于每个组件的基本了解,当然了,如果你有兴趣想参与测试每个组件的话,也欢迎一起来进行实践操作。另一部分是关于开源组件的一些基础维度对比,包括开源社区、背后支持企业、活跃度等等。

  1. Apache InLong: 一站式、全场景的海量数据集成框架Apache InLong: 一站式、全场景的海量数据集成框架

  2. SeaTunnel: 下一代高性能、分布式、海量数据集成框架

  3. Chunjun:基于Flink的批流统一的数据同步工具

  4. BitSail : 高性能数据集成引擎

  5. AirByte:开源的数据移动基础设施

  6. CloudCanal : 数据同步、迁移工具

  7. Flume :开源分布式、高可靠的流式日志采集系统

  8. Canal:数据库增量日志解析、采集工具

  9. Nifi:一个易于使用、功能强大且可靠的系统,用于处理和分发数据

  10. DataX:异构数据源离线同步工具DataX:

一:Apahce InLong :一站式、全场景的海量数据集成框架

Apache InLong(应龙)是一站式、全场景的海量数据集成框架,同时支持数据接入、数据同步和数据订阅,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。 InLong 项目原名 TubeMQ ,专注于高性能、低成本的消息队列服务。为了进一步释放 TubeMQ 周边的生态能力,我们将项目升级为 InLong,专注打造一站式、全场景海量数据集成框架。 Apache InLong 依托 10 万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。 该项目最初于 2019 年 11 月由腾讯大数据团队捐献到 Apache 孵化器,2022 年 6 月正式毕业成为 Apache 顶级项目。

InLong 架构设计

InLong有两种架构模式,一种是标准架构,提供了更加丰富的能力,也支持Dashboard、CLI、API、SDK的能力,轻量化架构是将中间的数据集成层单独剥离了出来,更加的简单、灵活。

标准架构:包含 InLong Agent、Manager、MQ、Sort、Dashboard 等所有 InLong 组件,同时支持`数据接入`、`数据同步`和`数据订阅`。


标签: none

添加新评论