跳到主要内容

数据集成:工具,
技术和关键概念

数据集成是如何从ETL发展到数据工程的,为什么需要呢 要知道

什么是数据集成?

数据集成将来自组织中任何来源的各种类型和格式的数据组合到数据湖或数据仓库中,为分析提供统一的事实基础. 利用这一数据集可以让企业做出更好的决策, 协调各部门更好地一起工作, 并推动更好的客户体验.

什么是数据集成?

数据集成意味着将来自多个源的数据合并到单个数据集,以便用于一致的商业智能或分析.

这是对这个复杂主题的一个非常简单的解释,它已经发展了30年. 了解数据集成是如何从后端进行转换的, 回溯到核心实时基础设施的过程首先要检查数据集成是如何工作的.

数据集成是如何工作的?

为了将数据从一个系统移动到另一个系统,需要一个数据管道来理解数据的结构和含义,并定义数据通过技术系统的路径. 一种相对简单和常见的数据集成类型是数据摄取, 一个系统的数据定期集成到另一个系统中. 数据集成还可能包括清理, 排序, 浓缩和其他过程,使数据准备在其最终目的地使用. 有时这发生在数据存储和流程调用之前 ETL(提取、转换、加载). 其他时候,更有意义的做法是先存储数据,然后准备使用它,称为 ELT(提取、加载、变换). 还有其他的例子, 数据在存储它的地方进行转换和符合,而不需要移动它本身.

这些步骤在一定程度上取决于 数据将如何存储. 最常见的数据存储类型有:

数据库

最简单和最熟悉的存储数据的方法包括关系数据库和NoSQL数据存储,可能根本不需要数据转换.

数据仓库

向数据结构添加维度级别,以显示数据类型如何相互关联,通常需要一个转换步骤,以使数据准备好在分析系统中使用.

对象存储

存储大量非结构化数据,如传感器数据、音视频文件、照片等., 在他们的原生格式简单, 包含数据的自包含存储库, 元数据, 以及唯一的ID号. 元数据和ID号允许应用程序定位和访问数据.

数据湖

在单个存储系统中收集原始和非结构化数据, 常对象存储, 待日后改造使用. 数据湖拥有大量各种各样的数据类型,使处理大数据和应用机器学习和人工智能成为可能.

数据仓库

向数据结构添加维度级别,以显示数据类型如何相互关联. 通常需要一个转换步骤,使数据准备好在分析系统中使用.

数据Lakehouse

实现数据仓库对数据湖的数据结构和管理特性,作为数据仓库和数据湖的单一平台. 结合这两种解决方案可以降低存储成本, 减少数据移动和冗余, 节省了管理时间.

数据集成是如何发展的?

在90年代早期, 当公司开始采用数据仓库从多个系统收集数据进行燃料分析时, 那时还没有智能手机或电子商务. Salesforce和软件即服务这个类别还不存在. 亚马逊连一本书都没卖出去,更别说按需计算了. 一组用于在内部应用程序之间集成数据的工具, SaaS应用程序, 数据库, 数据仓库开始出现. 当时:

  • 数据以结构化格式来自业务应用程序和操作数据库,可以映射到分析所需的结构.
  • 数据到达并批量处理, 及时创建业务快照并存储在数据仓库或数据集市中.
  • 数据用于财务报告, 销售仪表板, 供应链分析, 以及企业的其他基本职能.

数据集成主要是ETL开发人员的责任, 谁使用手工编码或专门的软件来创建ETL映射和工作. 他们开发了与他们集成的源和目标系统相关的专门技能, 以便构建能够正确地处理这些复杂系统的ETL映射.

数据集成由企业IT部门拥有和管理,并控制用于收集数据的硬件和软件, 存储它, 并分析它. 他们关注的是表现, 安全, 以及推动业务增长和创新的单一数据管理系统的成本. 根据明确的变更管理流程,经过数年仔细地进行变更.

迎接现代数据集成的挑战

数据显示,今天的世界看起来很不一样. 让沙巴体育手机版看看发生了什么变化:

数据的爆炸,数据源 (物联网, api, 云应用程序, 前提数据,各种数据库等), 数据结构与基础设施服务的突破性创新相结合, 计算能力, 分析工具和机器学习已经改变了企业数据集成.

  • 实时决策和实时服务需要在飞行中转换的连续数据.
  • DevOps和敏捷软件开发实践已经遍及整个组织, 不断增加的需求永远是对的, 自助服务数据.
  • 对于应用程序和计算服务来说,从本地办公到云计算的转变需要 云数据集成, i.e.在企业数据中心的围墙外进行数据集成.

突然之间,数据集成的整个生命周期与初始实现一样重要. 数据集成必须支持来自不同来源的数据的持续集成, 持续的数据交付以及持续的创新, 这需要自动化. 数据集成只是敏捷的一部分 沙巴体育下载 练习, ETL映射或任务 是否被认为是启用它所需的许多不同“数据管道”模式的一种类型. 重点不只是实现的“如何”,而是业务需要的“什么”.

数据工程师的数据集成

新的角色和新的职责

这给整个企业带来了新的角色和责任. 随着数据集成已经发展为更复杂的业务需求, 负责数据管道需要的不仅仅是理解如何构建业务请求.

转向数据工程

数据工程师 已经成为数据平台团队的关键成员. 他们是理解业务分析师和数据科学家为什么需要数据的技术专业人员, 以及如何构建数据管道来交付正确的数据, 格式正确, 到正确的地方. 最好的数据工程师能够预测业务的需求, 跟踪新技术的崛起, 并维护复杂且不断发展的数据基础设施.

一个熟练的数据工程师使用正确的工具可以支持10多个ETL开发人员, 反过来, 启用100名数据科学家. 根据2020年的一份报告,数据工程师的需求因此增长了50% Datanami,使其成为美国增长最快的就业岗位之一.

什么是数据科学家?

数据科学家从数据集中分析和提取见解,以帮助组织做出决策和解决复杂问题的人. 如果Netflix昨晚向你推荐了一部完美的电影,可能有数据科学家参与其中. IT部门可以启用 数据科学家的自助数据获取 而业务分析师将更好地保持对数据的控制.

来自最高管理层的数据管理

数据对组织的重要性越来越多地体现在高管层,首席数据官和首席信息官领导着全企业的数字化转型和平台标准化举措. 他们的参与通常集中在合规以及成本控制和可靠性目标上.

数据工程生态系统和工作流

数据集成工具

什么是数据集成工具?

数据集成工具 基于软件的工具是吸收的吗, 巩固, 变换, 并将数据从源移动到目标, 执行映射, 转换, 在此过程中进行数据清理. 最终,他们将数据整合到一个“单一来源的真相”目的地,如 数据湖 or 数据仓库. 这允许使用一致、可靠的数据 分析和 商业智能.

如何识别好的数据集成工具?

随着数据、源系统和目标的爆炸,数量 数据集成解决方案 近年来,可用性成倍增加——这些技术的创新也是如此. 的 本地 ETL (提取、转换和加载)过去的解决方案无法处理今天的倍数 数据源、复杂转换、混合和多云环境以及 实时数据 需要. 

幸运的是,这里不缺新产品 数据集成平台 在那里. 找到它们很容易,就像查看一个网站一样 G2的人群 对于用户评论或分析师的评估 Gartner®Magic Quadrant™for 数据集成工具. 正如你将在2021年Magic Quadrant的市场概述部分发现的那样, “市场领导者继续输给较小的供应商.“在StreamSets, 沙巴体育手机版认为这是因为该章节提出的第二个重要观点:“数据ops需要作为一门新兴学科来支持.”

数据工程时代的考虑

因此,您已经获得了潜在供应商的列表以及来自分析师和随机评论者的意见. 但是你怎么知道什么是最好的 数据集成工具 是为您的业务和数据集成 用例(s)? 

当你选择 数据集成平台,有几个重要的考虑因素需要考虑:

  • 什么 类型的数据 将会在你的 数据管道?
  • 这些数据将如何处理?
  • 数据将从哪里来,流向哪里?

数据工程时代的数据集成工具考虑

在选择数据集成工具时,有几个重要的考虑因素需要考虑:

  • 你的数据管道中会有什么类型的数据?
  • 这些数据将如何处理?
  • 数据将从哪里来,流向哪里?

结构化、非结构化和半结构化数据

沙巴体育手机版从你需要整合用于分析的数据类型开始, 机器学习, 和人工智能工作负载.

结构化数据 组织在电子表格或关系数据库,如SQL. 所有数据都有一行和一列来定义其含义. 将一个数据库中的“company”列映射到另一个数据库中的“companyname”列非常简单. 结构化数据通常在数据库中进行转换、合并、存储和定期刷新 用于分析和报告的数据仓库或数据集市.

非组织性数据 缺少行/列类型的组织结构来帮助您对其进行排序. 例如, 一连串的推特评论可能包含你的品牌名称, 但你的品牌名称不是推特定义的“公司名称”. 没有办法逻辑地将推特流内容映射到数据库并计算您的品牌名称在推特上被提及的次数. 您不想映射来自推特的每个单词(想象一下!). 你只关心那些提到你公司的推文. 不是转换所有来自推特的数据,而是将其流到一个 数据湖 并将机器学习应用于其中.

半结构化数据 有一些逻辑和层次结构,但没有关系数据库那么多. 例如, 电子病历可以使用行业标准的XML格式,并使用结构来指示病人的姓名, 诊断, 等.,但信息不在行和列设置中.

您的企业可能以各种方式使用所有这三种类型的数据, 甚至把它们结合在一起, 有自己的挑战吗. 你的数据团队需要熟悉需要什么类型的数据,何时以及如何处理它.

批处理、微批处理和流处理

接下来,需要考虑处理数据的速度. 您的分析系统和应用程序能够等待数据吗? 还是立即需要?

批处理数据 Processing允许您进行一次性的数据迁移,或者在已定义的数据集上定期运行数据转换. ETL开发人员使用批量处理来收集和转换数据集,以供分析系统查询. 例如, 在晚上批量处理餐馆的订单可以很好地支持每周的订单, 每月, 或季度财务和人力资源报告.

Micro-batch处理 允许更小的数据集被更频繁地处理. 这种方法允许数据用于即时反馈和自动响应,而不需要流数据的始终在线. 一辆运送土豆到餐厅的卡车可能装有一个传感器,每5分钟向数据湖发送一批GPS数据. 如果卡车抛锚了, 餐厅会在几分钟内收到警报, 但不是在卡车停下来的时候.

流处理 从源到目标的数据流是否始终处于打开状态, 例子包括客户交互, 传感器数据, 网站点击量, 语音助手, 摄像机的输入, 和更多的. 如果沙巴体育手机版的餐厅开始接受在线订单,推荐引擎可能会使用事件 流处理 建议用薯条配奶昔. 推迟一天发布建议实在是太迟了.

或者让沙巴体育手机版假设拥有特许经营权的公司实体为全球1000家不同的商店提供实时销售点数据服务.SLA 99%正常运行时间. 如果设备出现故障或故障,IT团队将立即收到警报, 甚至更好的, 在满足某些条件时预测失败.

或者这里有一个自然语言处理的例子:“嘿,Siri,从麦当劳点一大杯奶昔.“你要薯条配奶昔吗??”

数据被称为现代企业的燃料, 但一个更好的类比可能是一家企业生存所需的空气. 数据不仅仅是帮助企业成长和前进, 它如此嵌入到业务交付的每个方面,以至于业务连续性依赖于可靠性, 连续的数据流.

内部部署、云、多云和混合架构

云计算的兴起改变了数据处理的“地点”. 云中的按需处理和计算能力的可用性已经将数据存储和投资从本地数据中心转移到云服务提供商.

本地 指现场搭建和维护的数据中心. 对于大型, 全球性组织, 营业场所可以跨越国家和地理边界, 这代表了硬件方面的重大投资, 软件, 人, ,甚至是建筑物. 隐私, 安全, 控制和合规性在公司持续投资和维护内部数据基础设施的过程中发挥了重要作用. 如今,许多公司都在寻求转移部分(如果不是全部的话)员工 将工作负载转移到云.

云架构 允许公司快速启动, 为他们使用的东西付费, 并将数据中心的维护负担转移给供应商. 云基础设施提供商, 亚马逊网络服务(AWS), 微软Azure, 谷歌云平台 和其他人, 允许公司在“租用”的基础设施上运行工作负载,而无需构建或维护它. 创新服务可用于实现数据仓库等工作负载, 数据的湖泊, 数据处理, 分析和搜索技术. 现收现付和订阅模式意味着增量支付,而不是大规模的资本投资. 云数据平台已经成为组织内新公司和部门的首选基础设施.

随着2020年全球大流行造成的大规模社会和宏观经济混乱,向云的转移加速了. 数字化转型势在必行 许多公司现在都在混合基础设施中混合了预制服务和云服务.

虽然AWS、微软Azure和GCP主导着公共云服务提供商类别, 雪花数据云云数据平台 提供一种新方法. 结果就是选择. 您不必再被多年前做出的基础设施决策所束缚. 只要您的工作负载可以迁移,您就可以根据您的需求选择最佳的优化平台. 事实上,许多组织越来越多地发现自己拥有一个多平台, 多重云架构.

高德纳研究使用混合云条形图

根据Gartner Research Circle的一项调查:“近一半的受访者表示,他们的数据管理既在本地,也在云服务提供商(CSP)中——混合云.”1 沙巴体育手机版相信,这意味着您的数据集成工具必须同时适用于这两者, 并为您的所有数据管道提供可见性.

1 Gartner Inc .., “理解云数据架构:混合云、多云和云间Adam Ronthal, Donald Feinberg, 2020年5月27日.

GARTNER是GARTNER, Inc .的注册商标和服务标志. 和/或其在美国的附属机构.S. 并在国际上使用,并得到许可. 保留所有权利.

从数据集成到数据工程

作为数据类型, 处理类型, 和基础设施扩大, 数据集成的“方式”已经变得几乎不可知. 董事会IT基础架构地图的时代已经成为历史. 对于一个人或团队来说,它太复杂、太多样化了,无法绘制和跟踪. 每一次改动 数据结构、数据语义或数据基础结构 在如此复杂、相互连接、不可知的系统中,是否存在潜在的故障点或机会.

这就是为什么为数据工程师设计的现代数据平台依赖于智能数据管道,这些管道抽象出了实现的“方式”,这样你就可以专注于实现什么, 谁, 数据在哪里. 的StreamSets 数据工程平台 致力于构建跨混合和多云架构的数据操作所需的智能数据管道. 你可以 构建第一个数据管道StreamSets数据收集器 免费.

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)