Tapdata Cloud 场景通关系列:数据入湖仓之 MySQL → Doris,极简架构,更实时、更简便

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata Cloud
自去年发布云版公测以来吸引了近万名用户的注册使用。应社区用户上生产系统的要求Tapdata Cloud 3.0
将正式推出商业版服务提供对生产系统的 SLA 支撑。Tapdata 目前专注在实时数据同步和集成领域核心场景包括以下几大类

  • 实时数据库同步如 Oracle → Oracle, Oracle → MySQL, MySQL → MySQL 等
  • 数据入湖入仓或者为现代数据平台供数如
    • 常规 ETL 任务建宽表、数据清洗、脱敏等
    • 为 Kafka/MQ/Bitsflow 供数或下推

具体场景则数不胜数值此之际我们将以系列文章形式为大家盘点 Tapdata Cloud 可以支撑的业务场景和 3.0
版本新特性以便大家更好在业务中应用 Tapdata。本期为系列文章第四弹将以 MySQL → Doris 的数据同步任务为例介绍
Tapdata Cloud
如何简化数据实时入湖入仓让业务系统的数据变动稳定连续地实时复制到数据湖或数仓为实时分析提供新鲜的原始数据。点击申请产品内测抢先体验

数据量走向爆炸的这些年企业通过对业务数据的采集与分析使用逐步将其转化为可用的信息和可操作的见解反哺业务优化的方方面面。但如果直接从业务数据库中抽取数据进行分析则往往需要面临结构复杂、数据脏乱、难以理解、缺少历史以及大规模查询缓慢等实际操作问题。在这样的背景下搭建面向分析需求的数据仓库也就成了非常常见的解决方案并发展为数据整合及处理的核心。

然而随着数据体量越来越庞大时效性要求越来越高业务侧、运营侧的需求也日趋多样传统数仓的技术架构已然无法满足企业真实场景下的应用需要。新型数据仓库平台架构、数据湖技术、湖仓一体的新数据平台以及云数仓等更多选型不断涌现。其中基于 Apache Doris 构建的湖仓架构设计方案凭借其灵活的查询模型、极低的运维成本、短平快的开发链路以及优秀的查询性能等优势成为众多企业探索或优化湖仓建设更加青睐的选择。

一、Apache Doris数据湖、仓场景下的核心优势

作为一款基于 MPP 架构的高性能、实时的分析型开源数据库Apache Doris 主打极速易用仅需亚秒级响应时间即可返回海量数据下的查询结果不仅可以支持高并发的点查询场景也能支持高吞吐的复杂分析场景例如报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等。在湖仓场景下具备以下核心优势

  • 性能突出依托列式存储引擎、现代的 MPP 架构、向量化查询引擎、预聚合物化视图、数据索引的实现在低延迟和高吞吐查询上都达到了极速性能
  • 简单易用部署只需两个进程不依赖其他系统在线集群扩缩容自动副本修复兼容 MySQL 协议并且使用标准 SQL
  • 统一数仓单一系统可以同时支持实时数据服务、交互数据分析和离线数据处理场景
  • 联邦查询支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查询分析
  • 多种导入支持从 HDFS/S3 等批量拉取导入和 MySQL Binlog/Kafka 等流式拉取导入支持通过 HTTP 接口进行微批量推送写入和 JDBC 中使用 Insert 实时推送写入

二、Tapdata Cloud如何优化数据入湖入仓架构

在这里插入图片描述

传统数据入湖入仓架构一般存在全量、增量链路分离链路长且复杂维护困难依赖离线调度分析延时较大等缺陷。面对这些问题作为一款开箱即用的实时数据服务Tapdata Cloud 基于自身技术优势为新一代数据入湖入仓架构提供了更具实践价值的解题思路——链路更短、延迟更低、更易维护和排查。功能体验指路Tapdata Cloud 3.0 现已开放内测通道

借助 Tapdata Cloud 全量增量一体的实时同步能力可以实现极简的数据入湖入仓架构——读取源库的全量和增量数据直接复制并更新入数据仓库。这一优化一方面极大降低了对源库的影响保障了企业自身业务的稳定性另一方极大提升了数据交付速度助力企业以连续的方式将业务系统的数据变动实时复制到数据湖或数仓为实时分析提供新鲜的原始数据。在这个过程中Tapdata 展现出的核心亮点包括

  • 全链路实时
    基于 Pipeline 流式数据处理以应对基于单条数据记录的即时处理需求如数据库 CDC、消息、IoT 事件等。不同于传统 ETL每一条新产生并进入到平台的数据会在秒级范围被响应计算处理并写入到目标表中。同时提供了基于时间窗的统计分析能力适用于实时分析场景。

  • 对源库几乎无影响
    基于自研的 CDC 日志解析技术0入侵实时采集数据对源库几乎无影响。

  • 可视化任务运行监控和告警
    实时监控在运行任务的最新运行状态、日志信息等支持任务告警。

  • 数据一致性保障
    通过多种自研技术保障目标端数据与源数据的高一致性并支持通过多种方式完成一致性校验保障生产要求。

  • 内置 50+ 数据连接器稳定的实时采集和传输能力
    以实时的方式从各个数据来源包括数据库、API、队列、物联网等数据提供者采集或同步最新的数据变化。支持多源异构数据双向同步自动映射关系型到非关系型。一键实现实时捕获毫秒内更新。已内置50+连接器且不断拓展中覆盖大部分主流的数据库和类型并支持您自定义数据源。

三、操作演示以 MySQL → Doris 为例

👆👆戳这里 查看完整操作流程演示

① 创建数据源 MySQL 的连接

在这里插入图片描述

② 创建数据目标 Doris 的连接

在这里插入图片描述

③ 创建数据复制任务

在这里插入图片描述

④ 任务监控

在这里插入图片描述

Tapdata Cloud 3.0限量内测报名中

全新升级的 Tapdata Cloud 3.0 拥有更加全面的链路可观测性的可视化操作界面、增强的数据复制能力以及数据开发beta 等多重功能特性上新。

内测权益

将您的应用场景在最新的 Tapdata Cloud 上得到验证帮助您解决切实的技术/业务痛点您的内测反馈和宝贵建议将第一时间在 Tapdata Cloud 上得到实现。

  • 使用及技术支持当您遇到使用问题或疑问时将获得快速响应和支持。
  • 专享订阅折扣新版 Tapdata Cloud 将推出收费版本用户可获得 SLA 级服务保障生产使用的要求。内测用户将获得优惠订购特权。
  • 成为产品共创贡献者您将成为 Tapdata Cloud 产品的共创贡献者内测提出的功能需求及优化建议将有机会纳入产品路线图。

目前Tapdata Cloud 3.0 已开放内测报名通道https://tapdata.net/tapdata-cloud/closed-beta-version.html ←戳这里即可参与哦

原文链接https://tapdata.net/real-time-data-entry-into-the-lake-and-warehouse.html

【相关阅读】

  • Tapdata Cloud 场景通关系列Oracle → MySQL 异构实时同步
  • Tapdata Cloud 场景通关系列集成阿里云计算巢实现一键云上部署真正开箱即用
  • Tapdata Cloud 场景通关系列将数据导入阿里云 Tablestore获得毫秒级在线查询和检索能力
阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: mysql

“Tapdata Cloud 场景通关系列:数据入湖仓之 MySQL → Doris,极简架构,更实时、更简便” 的相关文章