跳到主要内容

数据摄取:工具、类型和关键概念

如何从数据的起点获取数据,使其发挥作用

支持实时分析的智能, 智能应用程序, 机器学习操作从数据开始. 很多很多的数据! 从各个地方获取数据,使数据团队能够将其用于创新和增长, 从数据摄取开始.

什么是数据摄取?

数据摄取是将数据从源移动到可用于特殊查询和分析的着陆区域或对象存储区的过程.  A 简单的数据摄取管道原点,清理一下,然后写入到 目的地

为什么数据摄取如此重要?

数据吸收帮助团队快速前进. 任何给定的数据管道的范围都故意缩小, 为数据团队提供大规模的灵活性和敏捷性. 一旦设置了参数, 数据分析师和数据科学家可以轻松地构建单个数据管道,将数据转移到他们选择的系统中. 数据摄取的常见例子包括:

  • 从Salesforce转移数据.com到数据仓库,然后用Tableau进行分析 
  • 从推特信息源获取数据,用于实时情绪分析
  • 为训练机器学习模型和实验获取数据

现代数据集成始于数据摄取 

数据工程师使用数据摄取管道来更好地处理数据业务需求的规模和复杂性. 在没有开发团队直接参与的情况下,大量意图驱动的数据管道在整个组织中持续运行,从而实现了前所未有的规模,以实现重要的业务目标. 这些包括:

数据摄取已成为自助式平台的关键组成部分,为分析师和数据科学家访问数据进行实时分析, 机器学习和人工智能工作负载.

数据摄取是如何工作的

数据摄取从创建或最初存储数据的源中提取数据, 并将数据加载到目标或暂存区. 一个简单的数据摄取管道可以应用一个或多个 光转换 在将数据写入到某个目标集之前对其进行充实或过滤, 数据存储或消息队列. 更复杂的转换,如连接, 聚合, 并对特定的分析进行分类, 应用程序和报告系统可以通过附加管道完成. 

作为现代数据集成的一部分的数据摄取
数据源

数据团队已经超越了企业数据中心的围墙. 它们越来越多地从跨业务部门以及第三方和非结构化数据加载数据. 他们希望在需要的时间和地点开始数据加载. 一些常见的数据源类型包括:

数据的目的地

这些数据都去了哪里? 数据摄取管道可以简单地将数据发送到应用程序或消息传递系统, 或将摄取的数据存储在数据湖或云对象存储中,以便在关系数据库和NoSQL数据库或数据仓库中使用. 共同的目标类型:

云数据迁移

随着企业业务流程转移到基于云的平台进行存储, 处理和应用, 数据摄取工作负载已经成为云迁移的必要条件. 而是将数据从竖井中转移到 敏捷云数据湖 或者是强大的 云数据仓库,会产生一些令人不安的问题:

  • 如果您不知道数据将如何使用该怎么办? 
  • 如果数据源的数据结构发生了变化怎么办?
  • 如果不同的组出于不同的目的需要相同的数据该怎么办?
  • 如果您计划的源和目的地改变了怎么办?
  • 如果数据源或目标不在您的控制范围内怎么办? 

越来越多的数据平台可以将数据摄入的假设情况自动化和操作化, 他们就能更好地支持 不断增长的对持续可靠数据的需求.  

数据摄取与数据集成

数据摄取起源于一小部分 数据集成,这是一个更复杂的过程,需要在加载数据之前让数据在新系统中可用. 数据集成通常需要从源到模式、从转换到目标的预先规范. 

数据摄取, 可能会发生一些光的变化, 例如屏蔽个人身份信息(PII), 但大部分工作取决于最终用途,并且发生在获得数据之后.

可以这样想: 

  • 数据集成包括准备数据以便在最终目的地使用的过程 
  • 数据摄取将数据传送到准备工作进行的地方,以响应下游的需求

数据摄取对于流数据非常有效,这些流数据可以通过很少的转换立即使用,或者作为一种收集数据(特别是大数据集)进行特别分析的方法. 通过关注数据生命周期的摄取部分, 公司已经能够加快数据的可用性 创新和增长

数据摄取的挑战

随着大数据的崛起, 云计算, 以及实时分析的需求, 数据容量急剧增加,与ELT模型相比,旧的ETL流程开始减慢数据团队的速度. 

复杂性需要时间

数据工程的待办事项列表越来越长. 每当有新的数据源或业务需求出现时,从头开始构建数据管道会减慢整个数据团队的速度. 

改变需要时间

对于数据工程师来说,目标系统的每一次更改或发展都会产生10-20个小时的工作时间. 数据摄取开始快速和容易, 但这是因为90%的时间将花在维护和修复上, 需要考虑的更改 数据漂移. 

维护和返工需要时间

一遍又一遍地做同样的事情,还要进行大量的故障排除和调试,这样就没有多少时间用于创新或开发新技术. 

数据摄取工具的类型

如果您在开始吸收数据之前不需要定义数据集成过程的严格结构, 您有一种更灵活、响应更快的方式来构建数据架构. 需要考虑几种类型的工具.

手工编码

获取数据的一种方法可能是手工编写数据管道, 假设您知道如何编码,并且熟悉所需的语言. 这给你最大的控制, 但如果你不知道上面那些“如果”问题的答案, 您可能会花费大量的时间工作和重做代码.

专用工具

基本的数据摄取工具提供了一个拖放接口,其中包含大量预构建的连接器和转换,因此您可以跳过手工编码. 虽然这似乎是一种完成大量工作的快速方法,或使不熟练的数据消费者受益, 在达到监视和管理的极限之前,您将创建多少拖放数据管道? +, 你不能与你的团队或拜访你的分析师和数据科学家分享你的工作. 

数据集成平台

传统的数据集成平台针对数据价值链的每一步都整合了功能. 这意味着您很可能需要特定于每个领域的开发人员和体系结构, 这使得快速移动和容易适应变化变得困难. 

沙巴体育下载方法

应用 数据的敏捷方法, 数据管道的沙巴体育下载方法尽可能地自动化,并抽象出实现的“方式”. 数据工程师可以专注于数据的“内容”,并响应业务需求.

StreamSets 沙巴体育下载平台

StreamSets 沙巴体育下载平台 是否有一个端到端的数据工程平台来向业务传递连续的数据, 架构设计用于解决数据工程师的数据摄取问题:

  • 用一个工具为所有设计模式快速构建意图驱动管道
  • 尽可能实现自动化,使数据管道对最常见的数据漂移形式具有弹性 
  • 最小化新技术所需的提升时间,轻松扩展更复杂操作的数据工程 

智能数据管道 抽象出实现的“方式”,这样您就可以专注于数据的内容、对象和位置. 开始 构建智能数据管道 用于跨云和混合架构的数据摄取.

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)