跳到主要内容

沙巴体育下载博客

欢迎改变的地方

企业级数据仓库或电火花强化? 数据湖,仓库或湖屋?

By 张贴在 StreamSets新闻 2021年2月4日,

正如约翰·扎达所说:事情不可能只有一种解释. 因此,沙巴体育手机版的范例可能过于简单, 不完整或不准确——将世界的复杂性移除,而复杂性实际上是世界的一个决定性特征.“所以沙巴体育手机版真的可以用如此简单的术语来评估这种有影响力的工具吗?

数据库到数据仓库:它是如何开始的 

长期以来,企业一直认为建立大规模数据基础设施以支持其分析团队和目标是有好处的. 操作性数据库非常适合从应用程序收集数据并将其存储以供参考, 但是对相同的数据进行分析查询的能力很差. 这就是为什么许多公司投资于独立的数据平台来运行分析. 1993年,拉尔夫·金博尔(Ralph Kimball)发布了第一版《 数据仓库工具包. 以前的建模实践足以解释数据的线性放置和变化,但缺乏表示数据之间复杂关系的能力. 这是维度建模真正出色的领域,并因此成为构建数据分析平台的基本原则. 

数据仓库, 也被称为企业数据仓库或EDW, 是否有一个可以进行分析以做出更明智决策的中央信息存储库. 数据流入数据仓库 从事务性系统、关系数据库和其他来源,通常以固定的节奏. 业务分析师, 数据科学家, 决策者通过商业智能(BI)工具访问数据, SQL的客户, 以及其他分析应用程序. 如果你立志成为一个数据驱动的公司,它是一个关键的规范架构. 像IBM和甲骨文这样的软件巨头设计了大型软件, 对于同时提供这两种服务器的数据仓库基础设施来说,价格昂贵, 软件, 以及描述性分析所需的服务. 与此同时, 各公司纷纷聘请EDW管理员,由他们负责构建模式和制定所有数据如何流入数据仓库的策略. 然而, 数据仓库很快就与它的局限性联系起来了, 随着公司越来越渴望利用越来越多的数据. 数据仓库变得拥挤不堪,请求导致性能下降,并测试了其按服务水平协议交付的能力. 因此,企业数据仓库变成了一个由四个字母组成的单词. 这在很大程度上推动了旨在解决规模问题的数据湖的发明. 但是数据湖是数据仓库的真正替代品吗?

数据湖的崛起

数据湖是半结构化的数据平台, 结构化, 非结构化, 和二进制数据, 在任何规模, 以支持分析工作负载的执行为特定目的. 数据湖通常指的是利用HDFS文件系统构建的数据存储系统,通常称为Hadoop. Hadoop的创始人都是科技公司(谷歌和雅虎)企业数据仓库生态系统的实践者。. 他们希望在更大的范围内进行分析,并以比传统数据仓库解决方案更具成本效益的方式实现分析. 拥有数据湖的公司现在可以收集他们想要的所有数据,而不用担心容量或模式的一致性,并急于过渡到数据湖架构. 以下面这张图表为例,它显示了2005年至2014年间这两个主题的谷歌搜索趋势.

Hadoop和数据仓库搜索趋势乍一看,Hadoop似乎超越了数据仓库市场, 但在实践中, 从未发生过的. Ralph Kimball在2013年修改了数据仓库工具包,加入了数据湖的概念, 这是验证的关键点. 然而, 大多数公司选择保留他们的数据仓库,并为大部分非结构化和流数据建立一个数据湖. 这实际上是一个明智的决定,因为在现实中,数据仓库和数据湖适用于略有不同的事情, 这两者都与现代数据架构相关. 此外,Hadoop也带来了它自己的一系列挑战. 它通常很难操作,需要非常专业和高要求的技能. 许多公司为了快速获得价值和留住数据湖专业人士而努力,这使得拥有数据湖的成本在其他方面变得沉重. 所以这些公司犯了一个错误? 或者说,这是当时可能还不清楚的事情.

数据仓库与数据湖的问题 

这种模式的问题在于,它认为一种方法是错误的,而另一种方法是正确的,在实践中,公司可能出于基本的合理原因选择利用数据湖或数据仓库. 以下是一些想法……

何时使用数据仓库

  • 查询性能
  • 事务报告
  • 指示板
  • 结构化数据
  • 数据完整性

何时使用数据湖 

  • 大数据量
  • 非结构化和半结构化数据 
  • 流和时间相关的数据 
  • 数据归档

使用数据湖和数据仓库进行分析

另一种思考方法是从分析的角度. 让沙巴体育手机版以一家零售商店为例,该商店希望更多地了解他们的客户,以便提供个性化的优惠. 来整理客户资料, 公司可能会使用交易历史等数据, 购买历史, address, 的名字, 等. 这些都是结构化的数据源,通常存在于企业数据仓库(System of Record)中,并可能为公司仪表板等提供数据. 其他数据,如网站流量, 社交媒体数据, 地理位置数据, 和移动应用点击流数据都是非结构化的来源,可能存在于数据湖中(系统的参与). 竖井中的每组数据只能揭示故事的一部分. 例如, 知道人们是否在社交媒体上称赞你是件好事, 但知道约翰·史密斯是否对你有利,你就可以采取行动. 为了了解这一点,您需要将孤立的数据结合在一起.

客户360个性化定制的EDW和EDL通过合并这些数据源,公司可以识别用户, 他们的行为, 并设计自动化操作来提供个性化的响应. 通过利用两个平台的优势, 公司可以更好地利用他们的人际交往能力, 他们的平台预算, 他们的数据治理.

从企业数据平台到云数据平台    

公共云出现了,它改变了数据和分析的一切 云数据仓库集成. 企业数据仓库的许多约束都与硬件服务器限制相关. 当服务 雪花亚马逊红移 它们是否提供了传统数据仓库解决方案所没有的规模和性能. 云数据湖服务 也为用户消除了许多常见的障碍, 包括管理复杂的节点架构, 提供的服务大大减少了运营数据湖的复杂性. 这让位于EMA研究记录的概念 统一分析仓库 州:

“在几年内,几乎每个运行数据仓库的组织也建立了一个数据湖. 这两者并存. 最初,这两个平台之间有一些数据共享,但仅此而已. 在客户的压力下跨数据湖和数据仓库运行分析, 双方的供应商开始致力于更完整的仓库和湖泊的整合.”  

现代供应商采取了两种常见的方法来解决这个问题:数据平台方法(e.g. 雪花、Amazon、Microsoft、谷歌和砖)和查询方法(e.g. Dremio, Kylogence和Asima). 根据组织的能力中心,他们可以选择平台方法或查询方法,这取决于什么最有利于他们团队的技能. 这些方法为数据分析提供了统一的方法, 结构, 数据的来源也不是那么重要. 鉴于这种新发现的一致性,您可能很难确定哪种解决方案最适合您的组织, 但对于这个挑战,我有好消息.

StreamSets让你选择

StreamSets提供了一个 现代化数据集成平台 为构建 智能数据管道. 智能数据管道可以连接到任何数据库, 数据仓库, 或者数据湖服务,通过确保这些平台都是有用的来提供快速的价值, 可靠的, 和当前的数据. 智能数据管道有助于意图驱动设计, 这意味着您构建管道时要关注数据所需的流和转换,然后再考虑平台目标. 您可以针对任何范例进行设计,并在策略发生变化时逆转您的路线. 对于数据工程师来说,这是一个重要的特性,当目的地改变时,他们可能需要花费大量时间来改变管道动态. streamset不仅支持所有主要的 数据仓库和数据湖平台 包括云服务,但用户实际上可以 构建到多个目的地的管道.

控制集线器中的多云数据管道因此,如果您仍然不清楚数据和分析需求的最佳解决方案,那么就可以降低风险 智能数据管道. 它们让你处于控制之中,消除了被困在一种不再对你有利的趋势中的风险. 因为在智能数据管道中,唯一的附件可能是个人的,正如约翰·扎达所写的,“当涉及到使用自己的范式时,人类不是特别灵活. 在内心深处,沙巴体育手机版是习惯的生物,有时是执念的生物.”

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)