跳到主要内容

解释:流处理,流数据,
和流数据管道

流处理和流数据管道如何将数字行动转变为实时分析

什么是流数据?

流数据是指从不同来源到目的地进行实时处理和分析的连续信息流.

什么是数据流的例子?

实时数据流在不断产生新数据的情况下非常有用. 例如, 信用卡公司可以使用流式交易数据来检测违规行为,并在其发生之前阻止欺诈行为. 或者应用程序可以根据客户的实时选择向他们提供建议,从而带来更好的客户体验(就像Netflix一样), 亚马逊, 或YouTube).

像这样个性化一个网络体验, 计算最优卡车路线, 或者报告睡眠模式 的例子是 实时分析. 流数据用于在结帐期间推广产品插件, 所说的卡车, 或者哄婴儿入睡的例子 实时应用程序.

出于本文的目的,沙巴体育手机版将重点关注用于分析的流数据,包括 情绪分析, 预测分析, 机器学习/人工智能.

流数据和实时分析

为了将流数据放入透视视图中,每个人都要创建 2.每天5亿亿亿字节的数据 根据目前的估计. 数据不仅仅来自于人. IDC估计会有 41.60亿台设备连接到“物联网” by 2025. 从飞机到土壤传感器再到健身带, 设备生成连续的流数据流,用于实时分析和应用. 

每个人都希望自己的那部分数据能更好地发挥作用:

它们依赖于来自信息源的连续的数据流,而这些信息源往往会发生变化,而且往往不受IT部门的控制. 在数据价值链的目标端, 数据消费者使用许多不同的系统, 专为特定类型的分析而设计. 中间是 数据工程师, 任务是创建连接,确保数据保持正确和一致. 

那么,流式数据的好处是什么呢?

简单地说, 流数据处理的实时特性允许数据团队向整个组织的业务用户提供持续的见解.

数据处理如何工作:为分析准备数据

数据才能被用于分析, 目标系统必须了解数据是什么以及如何使用它. 数据流经一系列不同需求和功能的区域: 

原始区

原始区域以原始状态存储大量数据, 通常以其原始格式(Avro, JSON或CSV, 例如). 数据以流数据的形式通过摄入过程进入原始区域, 一批数据, 或者通过更改数据捕获流程,其中只更新对先前加载的数据的更改. 

清洁区

干净区域(或精制区域)是一个过滤区域,在这里可以使用转换来提高数据质量或丰富数据. 常见的转换包括数据类型定义和转换, 删除不必要的列, 屏蔽可识别数据, 等. 该区域的组织由最终用户的业务需求决定, 例如, 该区域可以按区域组织, 日期, 部门, 等.

策划区域

策划区是消费区,优化分析,而不是数据处理. 该区域将数据存储在非规范化的数据集市中,最适合希望运行特别查询的分析师或数据科学家, 分析, 或高级分析. 

符合区域

符合区域存放经过转换和结构化的数据,用于商业智能和分析查询. 

从Apache卡夫卡到对象存储

Apache卡夫卡 是一个开源的分布式事件流媒体平台,称为“发布/订阅”消息传递系统吗. 流数据源开始发布或流化数据,目标系统订阅接收数据. 发布者不等待订阅者,订阅者在需要时跳进流中. Kafka快速、可扩展、耐用,是本地大数据部署的支柱.

云平台 引入了一种新的存储非结构化数据的方法,称为对象存储. 生产商与消费者脱钩,存储成本变得可以忽略不计. 您可以将所有需要的数据保留为对象,以便在需要时访问. 例如, 亚马逊运动 直接集成了亚马逊 Redshift(一个分析数据库)和亚马逊 S3的流数据. 

流处理与批处理 

要使流式数据有用,需要一种不同于传统批处理的数据处理方法 数据集成技术. 可以将批处理看作是生产一部电影. 这部作品有开头、中间和结尾. 当工作完成时,就会有一个完整的、在未来不会改变的成品. 流处理更像是一场情节剧. 所有的生产任务仍然在发生,但在滚动的时间框架和无尽的排列. 

在批处理, 数据集 提取 来源,加工或来源 改变了 让它们变得有用 加载 进入目标系统. ETL处理及时创建业务快照, 存储在数据仓库或数据集市中,用于报告和分析. 批处理适用于报表和应用程序,它们可以容忍数据在下游可用之前的数小时甚至数天的延迟. 

随着对更及时信息的需求, 批次越来越小,直到一批成为一个单独的事件 流处理了. 没有开始也没有结束, 开发了滑动窗口处理,使您可以在流的任何时间间隔上运行分析. 

处理流处理和批处理已经成为一个必不可少的 数据工程的现代方法. 在DNB, 挪威最大的金融服务集团, 数据工程师尽可能使用流处理而不是批处理 数据工程最佳实践

沙巴体育手机版鼓励沙巴体育手机版的数据工程师尽可能使用流模式. 下游管道可按要求运行, 但是,通过使用这种方法,沙巴体育手机版总是可以选择每天运行一次以上,从而接近实时.”

流处理框架

流处理框架为开发人员提供了流抽象,他们可以在其上构建应用程序. 至少有5个主要的开源软件 流处理框架 以及来自亚马逊的托管服务. 每一个都实现了自己的流抽象,并在延迟方面进行了权衡, 吞吐量, 代码复杂性, 编程语言, 等. 他们有什么共同点? 开发人员使用这些环境在代码中实现业务逻辑.

Apache火花是这些框架中最常用的,因为它支持本地语言(SQL, Python, Scala, 和Java), 分布式处理能力, 大规模集群的性能, 以及井然有序的内存架构. Apache火花对数据进行微批量处理. 

流数据管道示例

A 数据管道 是否需要一系列步骤使来自一个系统的数据在另一个系统中有用. 流数据管道在创建时将数据连续地从源流到目标, 让它在过程中发挥作用. 流数据管道用于填充数据湖或数据仓库, 或发布到消息传递系统或数据流. 

下面的例子是分析用例的流数据管道.

向S3发送Kafka消息

您的数据从哪里来,到哪里去,很快就会变成一堆纵横交错的流数据管道. 可以处理多个源和目标的流数据管道允许您水平和垂直地扩展部署, 没有复杂. 了解如何管理大型工作负载和 将Kafka消息扩展到S3.

Kafka消息到S3流管道

保护信用卡数据在亚马逊动态流

亚马逊运动, 亚马逊提供的实时流媒体服务, 可能是填充S3和Redshift以及用于云分析系统的一个很好的选择. 这 Kinesis的流数据管道 使用信用卡类型作为分区键来应用数据屏蔽,如果在文件中发现信用卡,然后将信息发布到Kinesis生产者. 

动态流数据管道

从推特到Kafka再到Azure上的机器学习

在推特上追踪你最喜欢的足球队可能会让球迷感兴趣, 但是对团队的态度可以用来决定广告预算投资. 这 情感分析数据管道 允许您从推特到Apache卡夫卡的数据流,准备它 Azure情感分析API,然后把要查询的数据存储到你想要查询的地方.

情感分析数据管道

使用Tensorflow的机器学习数据管道

机器学习将算法应用于数据,从大型非结构化数据集中发现洞察力. 例如, 通过对乳腺癌肿瘤数据进行分析,将其分为良性和恶性,进行各种环境和人群分析,以更好地了解治疗和预防. 这个流数据管道向您展示了如何使用吸收数据并生成预测或分类 使用Tensorflow进行实时机器学习.

使用Tensorflow的机器学习数据管道

流媒体数据的挑战 

在您选择工具或开始手工编码用于关键任务分析的流数据管道之前,请考虑以下决策要点. 

变革的暴政

数据将漂移 你需要一个计划来处理它. 模式更改、语义更改和基础结构更改. 当你的分析依赖于实时数据时, 您不能将管道从生产中取出来更新它. 您需要在不停止和启动数据流的情况下进行更新和预览更改. 更好的是, 您需要尽可能自动化数据漂移处理的能力,以确保数据的连续性.

手工编码呢??

Kafka和Spark等技术简化了流处理的许多方面, 使用其中任何一种都需要专门的编码技能和大量的Java经验, Python, Scala, 和更多的. 在任何单一流处理技术中寻找熟练的开发人员都是困难的, 但要建立一支擅长多个领域的团队? 不是每个人的预算. 手工编码限制了团队扩展和普及数据访问的能力. 

疯狂创新之旅

新的流处理框架解决了流数据的挑战, 您需要能够适应和优化数据管道. 基于云的解决方案本身就运行良好, 但是,如何跨平台或多个目的地传输数据呢? 您可能不得不重新编写自己的连接器, 或者结果是多重的, 独立的系统进行监控和维护. 

遵循业务逻辑

这些问题集中于“如何”实现数据管道的细节. 数据如何从A点到达B点并发挥作用? 如果有很多a,很多b,数据永远不会停止流动,会发生什么? 你如何保持在“什么”的前面而不陷入“如何”的泥潭?

驱动现代企业的大部分业务逻辑都存在于跨多个平台的1000多个专用应用程序之间的集成中. 你的分析和运营变得 这是现代商业运作中最脆弱的地方.

构建的数据工程方法 智能数据管道 允许您关注业务逻辑的内容,而不是如何实现细节. 在理想的情况下, 您的流数据管道平台可以轻松地扩展动态架构,并从任何处理器读取和连接 多重云目的地.

构建流数据管道

批量摄取数据管道

数据流很大,变化多端,通常是非结构化的,而且无情的. 它们可能在你的控制之下,也可能不在你的控制之下. 实时流架构有很多移动部件, 它们以不同的(并迅速发展的)配置形式出现.

然而,实时数据提供了丰富的新信息脉络,供人们深入挖掘. 这是等待票房结果来决定下季度上映计划的区别, 然后自动在流媒体电影频道播放下一集或推荐. 

你就越不需要担心你的数据流“如何”, 你就越能专注于用它来促进企业的增长和创新. 为分析和探索保持连续的数据流是数据工程和流数据管道的工作.

的StreamSets 数据工程平台 致力于构建所需的智能数据管道 权力沙巴体育下载 跨混合和多云架构. 构建第一个数据管道 今天!

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)