跳到主要内容

智能数据管道:工具,
技术和关键概念

数据管道如何变得智能,为什么精明的数据工程师使用智能数据管道

什么是数据管道?

数据管道是允许数据从一个系统转移到另一个系统并在另一个系统中变得有用的一系列步骤, 尤其是分析, 数据科学, 或者人工智能和机器学习系统. 在高层次上, 数据管道通过从源中提取数据来工作, 应用转换和处理规则, 然后 将数据推送到目的地.

从Kafka Multitopic到Elasticsearch的数据管道

数据管道的目的是什么?

现在有很多数据. 每个人创建 2.每天5亿亿亿字节的数据 根据目前的估计,有7个.世界上有80亿人. 数据管道将原始数据转换为可供分析的数据, 应用程序, 机器学习和人工智能系统. 他们保持数据流动来解决问题, 通知的决定, 和, 让沙巴体育手机版面对现实吧, 使沙巴体育手机版的生活更方便.

数据管道用于:

有这么多工作要做,数据管道很快就会变得非常复杂.

情感分析样本流数据摄取数据管道

使用数据管道的好处

正确处理数据管道对公司和组织具有不可思议的优势, 以及它们所做的工作.

自助服务数据

可以创建的数据管道 特别的 数据科学家和业务分析师 打破IT瓶颈. 这意味着当人们有绝妙的想法时,他们可以测试它们,更快地失败,更快地创新.

加速云迁移和采用

数据管道可以帮助您扩展云存在和 迁移数据到云平台 (是的,有个s). 云计算可以帮助您以处理速度提供许多新的用例, 成本效益, 以及传统的本地数据中心前所未闻的爆发性容量. 另外,您的团队可以利用发生在云平台上的快速创新,例如 自然语言处理, 情绪分析、图像处理等.

实时分析与应用

消费者和业务应用程序中的实时或接近实时的功能给数据管道带来了交付正确数据的压力, 到正确的地方, 现在. 流数据管道将连续的数据交付给 实时分析和应用.

使用数据管道的挑战

当你的业务依赖于数据时,当数据流戛然而止时会发生什么? 或者数据转错弯,永远无法到达预定的目的地? 或者更糟, 数据有误 可能带来灾难性的后果?

总在施工数据中

构建和调试数据管道需要时间. 你必须与模式保持一致, 设置源和目标, 检查你的工作, 找到错误, 你来我往,直到你最终上线, 到那时,业务需求可能会再次发生变化. 这就是为什么那么多数据工程师有这么多积压的工作.

无序的数据管道

即使是对一行或表的一个小更改也可能意味着几个小时的返工, 更新管道中的每个阶段, 调试, 然后部署新的数据管道. 数据管道经常需要脱机进行更新或修复. 计划外的更改可能会导致隐藏的破坏,需要几个月的工程时间来发现和修复. 这些意外的、计划外的、无情的变化被称为“数据漂移”.

建造它,他们就会来

数据管道是为特定的框架、处理器和平台构建的. 更改任何一项基础设施技术以利用成本节约或其他优化,都可能意味着在部署之前需要数周或数月的时间来重新构建和测试管道. 

在沙巴体育手机版看看如何解决数据管道开发中的这些挑战之前, 沙巴体育手机版需要花一些时间来理解数据管道是如何工作的.

数据管道是如何工作的?

当数据管道部署并运行时, 它从源中提取数据, 应用转换和处理规则, 然后将数据推送到目的地. 

5种常见的数据管道来源

  • JDBC
  • 甲骨文疾病预防控制中心
  • HTTP客户端
  • HDFS
  • Apache卡夫卡

数据源 处理数据的方式非常不同,可能包括应用程序, 消息传递系统, 数据流, 关系数据库和NoSQL数据库, 云对象存储, 数据仓库和数据湖. 根据源的不同,数据结构有很大的不同.

常见的转换

转换 是否更改了数据结构, 格式, 或值以及对数据本身的计算和修改. 管道可以嵌入任意数量的转换,以准备数据供使用或正确路由数据. 几个例子:

5种常见的数据管道目的地

  • Apache卡夫卡
  • JDBC
  • 雪花
  • Amazon S3

目的地 这些系统的数据是否可以随时使用、直接投入使用或存储以备潜在使用. 它们包括应用程序, 消息传递系统, 数据流, 关系数据库和NoSQL数据库, 数据仓库, 数据的湖泊, 和云对象存储. 

大多数数据管道工程工具提供了一种 连接器和集成库 这是为快速管道开发而预先构建的. 

数据管道架构

这取决于您收集的数据类型以及如何使用它, 您可能需要不同类型的数据管道体系结构. 许多 数据工程师认为流数据管道是首选的架构,但是理解您可能使用的所有3种基本架构是很重要的. 

批量数据管道

批处理数据管道在特定时间或响应某个行为或满足阈值时移动大型数据集. 批处理数据管道通常用于 大量摄入或ETL处理. 批量数据管道可以用于每周或每天从CRM系统向数据仓库交付数据,以供在 用于报告和业务智能的仪表板

流数据管道

流数据管道 在创建数据时,不断地将数据从源流到目标. 流数据管道用于 填充数据的湖泊 或者作为 数据仓库集成,或发布到消息传递系统或数据流. 它们也用于实时应用程序的事件处理. 例如,流数据管道可用于向 欺诈检测系统并对服务质量进行监控

变更数据捕获管道(CDC)

变化数据捕获 管道用于刷新数据和保持多个系统同步. 与复制整个数据库不同,只共享自上次同步以来对数据的更改. 这可能特别有用 在一个云迁移项目中 当两个系统使用相同的数据集时.

数据工程管道图

数据管道工具

构建单个管道 在给定的时间内,为了一个单一的目的是没问题的. 使用一个简单的工具来设置数据管道或手工编写步骤. 但是如何将该过程扩展到数千个数据管道,以支持整个组织中不断增长的数据需求, 数月或数年? 在考虑数据管道工具时, 提前考虑数据平台的发展方向是很重要的. 

  • 您是否从一个地方抓取数据并将其放在其他地方? 或者你需要转换它以适应下游的分析需求? 
  • 您的数据环境是否稳定并完全在您的控制之下? 或者它是动态的,从你无法控制的系统或应用程序中提取数据?
  • 对于短期分析项目,管道是否会移动一次数据? 或者,您构建的管道是否需要随着时间的推移进行操作,以处理数据流? 

数据摄取和数据加载工具

数据摄取和数据加载工具 这使得数据管道很容易设置, 容易建立, 并且易于部署,解决了“在建”问题, 但前提是您可以指望数据科学家稍后做数据准备工作. 这些工具只支持最基本的转换,最适合简单地复制数据. 而不是意图驱动, 这些数据管道是严格的,并嵌入了数据结构和语义的细节. 而不是适应变化的时候 数据漂移 有时,它们必须重新构建并再次部署. 

数据集成、数据转换平台

更复杂的数据集成或 ETL软件 可能针对每一个可能的场景都有数百个连接器的解决方案, 集成, 和转换. 但这些平台是为一个几乎没有数据漂移的时代设计的. 多年来,一切都没有改变. 一旦出现变化的迹象,这些数据管道就会中断,需要大量的返工. 的 数字化转型需求 行动迅速,计划每一个可能的结果可能不可能(咳咳,2020年). 

数据工程平台

还有第三种方法. 数据工程平台 构建智能数据管道 根据 沙巴体育下载 原则. 智能数据管道将“如何”抽象出来,这样你就可以专注于“是什么”, 谁, 数据在哪里. 这是两者的根本区别 数据集成和数据工程. 而不是永远在建设中, 出故障了, 或者局限于单一平台, 智能数据管道允许您快速移动,并有信心您的数据将继续流动,几乎没有干预. 数据工程平台允许您:

  • 在数小时内设计和部署数据管道,而不是数周或数月
  • 构建尽可能多的弹性来处理更改 
  • 通过指向新的平台来适应它们,这是一项需要几分钟而不是几个月的任务
数据工程生态系统和数据管道工作流程

智能数据管道实例

批处理, 流式和CDC数据管道体系结构可以以上千种不同的方式应用于业务和操作需求. 下面是一些用于摄取、转换和交付数据的智能数据管道示例. 

从Salesforce批量摄入到亚马逊的数据湖

批量摄取数据管道 将Salesforce的一些帐户信息存档在Amazon S3是理想的吗. Salesforce数据吸收管道可以以批处理模式运行,用于定期归档,也可以实时运行,以不断卸载客户数据. 目标可以是任何云存储平台.

批量摄取数据管道

迁移到砖 Delta Lake 与 Change Data Capture

许多组织正在将数据湖从内部设施转移到云端,以利用现收现付的定价方式, 更高的性能, 破裂的能力, 和新技术. 这 更改数据捕获管道 跟踪数据源中的更改并将其传输到目标,以在初始加载后保持系统同步. 

将Data Capture更改为砖数据管道

将多个Kafka消息流合并到Amazon S3

Apache卡夫卡是一个用于流分析的分布式事件流平台. 这个流数据管道处理来自多个上游应用写入多个Kafka主题的大量数据. 你可以 向S3发送Kafka消息 和规模  垂直增加线程数, 转换数据并将其交付到Amazon S3数据湖.

Kafka消息到S3数据管道

MLflow模型实验集成管道

机器学习模型的好坏取决于用于训练模型的数据质量和数据集的大小. 实验需要数据科学家快速创建模型, 使用可信数据集子集的迭代方式. 这 MLflow集成管道 on 砖允许跟踪和版本化模型训练细节, 加上跟踪版本,数据科学家可以快速访问训练数据,并可以更容易地进入生产.

MLflow集成管道上的数据ricks

多用例和角色的数据管道

有时候你的数据需要同时做两件事. 这 Spark ETL数据管道 收集销售收入数据, 按区域计算总数, 然后以正确的格式将其交付到多个目的地,以满足单个管道中两个不同部门的业务需求. 数据在Azure HDInsight上的Parquet中交付给Spark平台,并以SQL数据的形式交付给Microsoft Power BI. 每个人的快乐.

MLflow集成管道上的数据ricks

除了上述资源之外,您还可以使用这些资源快速启动管道设计 准备部署的示例数据管道. 简单地说,复制和更新要运行的源和目标.

什么是智能数据管道?

如果一个 汽车可以自动驾驶 和一个 手表可以通知你的医生 当你的血压上升时, 为什么数据工程师还在指定模式和重建管道? 智能数据管道是一种内置智能的数据管道,用于抽象细节并尽可能实现自动化, 因此,它易于设置和连续操作,很少干预. 作为一个结果, 智能数据管道可以快速构建和部署, 容错, 自适应, 和自我疗愈.

2020年的全球大流行充分表明,企业必须有能力做到这一点 快速应对变化的环境. 的StreamSets 数据工程平台 致力于构建所需的智能数据管道 权力沙巴体育下载 跨混合和多云架构. 你可以 构建第一个数据管道StreamSets免费.

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)