基于 Flink CDC 打造 企业级实时数据集成方案.pptx

基于 Flink CDC 打造 企业级实时数据集成方案.pptx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

01CDC数据实时集成的挑战

02FlinkCDC核心技术解读

03基于FlinkCDC的企业级实时数据集成方案

Contents

APSARA云栖大会

CDC技术

CDC(ChangeDataCapture)是用户捕获数据变更的技术,通常我们说的

CDC技术主要面向数据库的变更,是用于捕获数据库中数据变更的技术。

实时消费日志,流处理

●保障数据一致性

●提供实时数据

离线调度查询作业,批处理

无法保障数据一致性

●不保障实时性

APSARA云栖大会

CDC实现机制

!基于日志的CDC技术

!基于查询的CDC技术

Canal/Debezium

增量同步

DataX/Sqoop

全量同步

FlinkCDC/InLong

全增量一体化同步

结果表

APSARA云栖大会

CDC数据集成趋势

增量表

结果表

全量表

APSARA云栖大会

CDC数据集成的技术挑战

数据的保序性

CDC数据的加工结果通常需要强一致性语

义,通常需要处理工具支持全局保序

增量数据实时性要求高

数据库的增量数据业务价值高,且价值随

时间递减,需要实时处理

表结构动态变化

增量数据随时间增长,数据对应的表结构

会不断演进

历史数据规模大

数据库的历史数据规模大,100T+规模也

算常见

FlinkCDC

Debezium

Canal

Sqoop

Kettle

CDC机制

日志

日志

日志

查询

查询

增量同步

断点续传

全量同步

全增量一体化

架构

分布式

单机

单机

分布式

分布式

转换

生态

APSARA云栖大会

CDC数据集成常见开源技术方案

全量数据

#$%&'()*)

增量数据

FlinkCDC是基于数据库的日志的CDC技术,实现了全增量一体化读取的数据集成框架。配合

Flink优秀的管道能力和丰富的上下游生态,FlinkCDC可以高效实现海量数据的实时集成。

APSARA云栖大会

FlinkCDC

实时一致性快照

Task1

全增量自动切换

Task2

Task3

增量阶段

无锁一致性切换

ApsaraDBMySQL

更多数据源接入中

FlinkCDC核心设计:增量快照框架

chunk1

chunk2

chunk3

chunk1

chunk2

chunk3

chunk1

chunk2

chunk3

资源自动释放

APSARA云栖大会

全量阶段

并行读取

Task1

Task2

Task3

TiDB

ApsaraDBMySQL

paimon

TiDB

ClickHouse

Iceberg

Hologres

APSARA云栖大会

FlinkCDC核心设计:原生对接Flink生态

SQLAPI

DataStreamAPI

GROUPBY

WHERE

SELECT

INSERT

Top-N

flatMap

keyBy

filter

join

map

aggregate

JOIN

APSARA云栖大会

FlinkCDC技术优势

生态支持

原生支持Flink现有生态,用户开发部署成本低

无锁读取

避免对线上数据库加锁,对业务无侵入

全增量一体化

全量和增量自动衔接,无需人工介入

并行读取

支持分布式读取,框架支持水平扩容

APSARA云栖大会

FlinkCDC开源社区

发布2.4版本

数据源持续扩展,

增量快照覆盖主流连接器

发布2.0版本

MySQLCDC增量快照算法

Star

*来源于GitHub数据统计

发布2.3版本

提供增量快照框架

Contributor

4500+

1500+

100+

Fork

APSARA云栖大会

主要业务场景:CDC数据实时入湖入仓

Hologres

Paimon

APSARA云栖大会

阿里云基于FlinkCDC的入湖入仓方案

表结构变更

自动同步

表结构

自动发现

整库

同步

动态

加表

实时计算Flink版

Hologres

Paimon

APSARA云栖大会

阿里云基于FlinkCDC的入湖入仓方案

+,-.(#$%&'(/

*010234'5

Analysis&Output

Application

Extract&Load

Warehouse

Transform

Source

ApsaraDBMySQL

报表分析

数据应用

实时大屏

+,-.(#$%&'(/

678('09'0(/

678('09'0(/

Hologres

#$%&'

#$%&'

QuickBI

paimon

Iceberg

APSARA云栖大会

阿里云实时计算Flink版

实时计算Flink版:一行SQL,一个Job

CDAS

整库同

您可能关注的文档

文档评论(0)

随风飘落 + 关注
实名认证
内容提供者

人力资源管理师持证人

一个写作爱好者,与大家分享

领域认证该用户于2023年07月07日上传了人力资源管理师

1亿VIP精品文档

相关文档