跳到主要内容

数据迁移:策略、技术、工具和关键概念

什么是数据迁移?

数据迁移是将数据从一个或多个系统移动到不同系统的过程. 这可能涉及到将数据从内部部署的数据库迁移到 云数据湖 或者从一个云系统到另一个. 数据迁移的一个常见原因是需要将数据从遗留系统迁移到新系统, 很可能是在云里. 经常, 数据迁移将来自许多云和内部部署源系统的数据整合到一个集中存储库中,以消除数据竖井,并建立全组织范围内的信息访问. 今天,最常见的中央存储库是云数据湖或云数据仓库.

今天的组织不能忽视云的好处,因为他们希望根据业务需求快速伸缩. 数据迁移是企业云迁移策略中的一个重要组成部分,在云迁移中起着至关重要的作用. 向云计算环境过渡的组织, 比如混合云, 公共云, 私有云, 或多重云, 需要一个数据迁移策略来确保安全, 简化且具有成本效益的迁移过程 将数据传送到新环境.

数据迁移策略的关键考虑因素

不管迁移背后的具体驱动因素是什么,企业都需要一个可靠的数据迁移策略. 成功的数据迁移可以降低数据不准确和冗余的潜在风险. 即使源数据是可行的,这些风险也会发生, 源数据中已经存在的任何问题在移入新系统时都会被放大. 

一些重要的云迁移考虑事项包括:

  • 数量的数据: 有很多工具可以将数据迁移到云上. 如果您的数据需求相对较小, 假设在一个数据集中有几百行和列,没有一大堆子表, 您的云服务供应商(AWS、质量等.)将为您提供一个工具来盲目地移植数据(沙巴体育手机版称之为“哑”复制)。. 数据放置在源系统中的位置完全相同. 但, 例如,当你迁移大量的数据时, 在整个组织范围内迁移到云, 甚至一个重要的系统-你需要一个更复杂的工具. 你要移动的数据越多,它就会越复杂. 你需要可见性和控制力 确保数据质量 以及一个可以在数据转移到云端时转换数据的工具. 这就引出了下一点……
  • 让你的数据“符合用途”: 如果您将数据从内部系统(A)移动到云端(B), 因为B和A的运作方式可能非常不同, 在迁移数据时,您经常需要转换/调整/重塑数据,以使其按照系统B所需要的方式工作. 许多刚接触云计算的团队面临着快速迁移的压力,他们只是将他们在prem上所做的复制到云计算中. 但是这并不允许您利用云架构的好处. 要做到这一点, 您的数据迁移必须包括确保数据针对新的目标系统进行了优化.
  • 迁移时间: 数据迁移需要多长时间取决于数据量和使用的工具类型. 重要的是要认识到,虽然迁移工具与 数据管道 没有任何转换的推送数据可能会更快, 以损失性能和云架构的其他好处为代价是不值得的.
  • 混合云: 许多组织都选择了 混合云的好处,它将公有云与私有云相结合. 在这个云模型中, 数据和应用程序不断地在两个不同的云环境之间移动. 这种灵活性允许企业统一使用, 单个IT基础设施,方便跨云环境的编排和管理. 
  • 多重云: 多云计算环境允许组织通过来自多个云服务提供商的平台即服务(PaaS)或基础设施即服务(IaaS)从私有和公共云中受益. 该模型根据价格的正确组合提供了来自不同提供商的云服务的灵活性, 性能, 安全, 并将计划外停机的可能性降到最低. 
  • 大爆炸细流 策略: 大多数数据迁移策略都是两者之一 大爆炸 or 细流 迁移. 在一次 大爆炸 数据迁移,组织在短时间内完成整个迁移. 运行中的系统将会经历一段宕机期当数据经过 提取、加载、转换(ETL)过程 然后移动到新的目的地. 但也存在代价高昂的失败风险, 必要的停机时间会对客户产生负面影响.最聪明的迁移策略是涓滴数据迁移策略,因为今天的数据需要是连续的. 在一次 细流 数据迁移, 组织在较长的时间内以可管理的阶段完成迁移. 在整个实现过程中,原系统和新系统并行运行. 这个过程确保可以避免停机和相应的中断, 实时操作得到了持续的维护. 

 

数据迁移过程的四个阶段

大多数数据迁移项目包括 计划、迁移和迁移后. 经常被忽略的关键的第四个步骤是正在进行的数据同步, 这里也包括哪些. 这取决于具体项目的复杂性, 在完全验证和部署新系统之前,这些阶段中的每一个都可能重复多次. 

  1. 数据迁移计划- 在数据迁移计划阶段, 企业根据特定的业务选择必须迁移的数据和应用程序, 项目, 以及技术需求和依赖性. 组织应该分析其数据迁移项目的带宽和硬件需求, 并为实际迁移制定场景, 包括相应的测试, 映射, 自动化脚本, 和技术. 它还需要选择和构建迁移体系结构,并推出变更管理过程. 另外, 企业决定需要哪些数据准备和转换框架来提高数据质量, 防止任何可能的冗余数据, 并确保数据符合和优化的新系统. 
  2. 数据迁移过程- 在此阶段,企业需要定制计划的迁移过程,并验证特定的硬件和软件需求. 这可能会扩展到一定程度的预验证测试,以便需求和设置按计划运行. 有两种方法:您可以花时间了解您的原始模式是什么样子的, 然后在一个新的系统中完全重现, 或者可以使用现代的数据集成工具,通过自动化多表更新来跳过耗时的过程. 假设一切正常,迁移就开始了, 包括从旧系统提取数据和将数据加载到新系统.
  3. 数据迁移后- 迁移后, 通过数据校验确保数据的完整性, 翻译正确, 并有效地支持新系统内的各种流程. 原系统和新系统的并行运行可能有必要查明任何差异和预测数据丢失. 通常,会发生迁移报告,并且组织会解除所有遗留系统.  
  4. 正在进行的数据同步- 迁移数据之后, 组织必须不断地跨系统同步数据, 数据库, 应用程序, 和设备. 这确保了数据的准确性和兼容性,以实现持续的数据交付. 数据同步允许实时交付始终一致的数据. 

数据迁移类型

数据迁移有几个关键类别, 这些可能会根据个别的数据迁移情况重叠. 例如,一个数据迁移项目可能同时包含 数据库迁移 和应用迁移. 

  • 分析平台迁移- 今天,许多公司正在从传统的分析平台——像Teradata这样的企业数据仓库或Hadoop这样的大数据平台——转移, 例如,到一个现代的云数据仓库或数据湖,如S3, 红移, 雪花, 等.
  • 应用程序迁移, 应用程序迁移涉及到将数据从当前计算环境传输到另一个不同的计算环境. 这种迁移通常与不断变化的应用程序供应商或软件有关, 如更换ERP平台. 两个应用程序之间的数据同步必须在应用程序迁移过程中进行. 也, 因为每个应用程序都使用专门的数据模型, 这种类型的迁移通常涉及重要的转换和数据格式化.
  • 数据库迁移, 数据库迁移包括将一个数据库管理系统(DBMS)转移到另一个数据库管理系统, 在原始系统和新系统利用不同数据结构的情况下,哪些会比较复杂. 数据库迁移还包括将数据库软件的现有版本升级到最新版本, 这可能需要进行物理数据迁移,因为数据格式可能会发生重大变化.

 

数据管道目的片段

数据迁移工具

企业有许多数据迁移工具可供选择,这些工具可以帮助优化流程,从而获得云迁移的好处. 构建和手动编码数据迁移工具既昂贵又耗时, 许多组织都依赖于云提供商的点解决方案, 哪一种方法可以快速迁移数据, 在那. 但是,一旦他们想添加或改变云,或者一旦他们做了不同的模式(比如, 将流添加到批处理中),然后又该去寻找另一个点解了. 

最后, 特定的工具将取决于企业的数据迁移策略和所需的业务目标. 在选择数据迁移工具之前,企业应考虑:

  • 环境: 如果组织计划将数据从公有云迁移到私有云, 数据从本地云迁移到公共/私有云, 或者现有环境中的数据迁移. 
  • 安全性和遵从性需求: 如果迁移具有特定遵从性要求的敏感或专有数据, 企业可能希望使用专门的迁移工具 数据安全合规帐户. 对于任何数据迁移方法,组织必须在迁移之前对数据进行安全加密. 如果是离线迁移, 企业应该检查交付服务的安全协议.
  • 一次性vs. 正在进行: 很少有组织将数据迁移到一个新系统后不再使用它. 更常见的情况是,两个并行运行的系统需要持续同步. 如果初始迁移工具只针对大容量上传设计, 这意味着要为正在进行的同步重新完成许多已经完成的工作. 一个数据集成平台可以处理多个用例, 包括迁移和正在进行的同步. 
  • 数据及其使用: 企业需要确定现在和将来谁正在使用这些数据, 以及如何杠杆化. 数据用于不同的目标, 如分析, 有独特的格式和存储需求,必须解决vs. 为合规目的而持有的数据. 对于分析来说,数据集成和转换显然是非常重要的. 通过使用在迁移过程中包含转换的数据集成平台(确保数据适合用途), 你会得到很多重用/杠杆.
  • 业务需求: 尽快确定数据迁移可能产生的影响是很重要的. 例如, 多少数据丢失是可以容忍的, 可能的延迟或停机对整体业务的影响, 以及所需的迁移时间框架.  

 

组织有四种主要的数据迁移选择:

  1. 手动编程 是最耗时和最低效的过程(因此, 最昂贵的)数据迁移, Yet仍在使用. 它不允许团队跟上当今的实时数据需求.  
  2. 内置数据库复制工具 通常包含在数据库许可证中并且易于使用. 然而, 它们通常仅限于单向数据复制,不包括转换或可见性. 
  3. 数据复制软件 允许组织将数据从一个数据库(或其他数据存储)复制到另一个数据库, 通常与数据完全相同. 这对于备份和故障转移非常有用,但是当您将数据迁移到一个与原始系统具有不同架构考虑和使用模式的新系统时,这将受到很大限制.
  4. 数据集成平台 是否对持续生产负责 摄入 整合数据用于分析和操作应用. 它们允许数据进行转换和优化,以便在目标系统中使用.

不管数据迁移工具是什么, 企业应该确保解决方案具有特定的重要功能:

  • 连通性: 工具能支持吗 软件和系统 企业目前正在使用的,以及未来不断变化的业务需求?
  • 转换: 解决方案是否能够优化其目标系统(i.e.转换数据,使其为云准备),并确保数据质量和持续同步?
  • 多模式(批处理,美国疾病控制与预防中心 & 实时): 它有能力做批处理吗, 疾病预防控制中心, 和流处理来处理不同的用例,因为他们发生(i.e.,初始加载和持续同步)?
  • 可伸缩性: 软件的数据限制是什么? 随着时间的推移,不断变化的数据需求会超过这些限制吗? 
  • 可重用性: 最佳实践和设计细节是否易于共享和重用?
  • 可移植性: 你可以轻松地改变源或目的地只需点击几下(没有代码和没有损坏)?  
  • 速度: 平台的速度是多少 支持数据处理? 记住,最快并不总是最好的. 你的解决方案需要足够快, 但是其他的考虑, 比如转换或观察数据的能力, 可能更重要.
  • 安全: 软件平台的安全协议是什么? 数据是否得到有效保护? 
  • 抗数据漂移: 解决方案能否检测和处理模式、语义和基础设施漂移中的更改? 
  • 支持混合云和多云: 解决方案是否支持本地、混合、云和多云环境?

 

数据管道目的片段

数据迁移的数据ops

数据操作是另一个因素 在成功的云数据迁移, 企业是否认为私有, 公共, 混合动力, 或多重云. 沙巴体育下载确保数据的持续集成和交付以及动态所需的操作可见性, 复杂的云架构. 沙巴体育下载将DevOps实践应用于数据管理和数据集成,以加快数据分析的周期时间,并专注于自动化, 监控, 和协作.  

数据管道目的片段

StreamSets 沙巴体育下载平台

StreamSets 沙巴体育下载平台 是否为业务提供连续数据的端到端数据集成平台, 这是所有公司的现代要求. 为解决数据工程师的数据迁移挑战而设计的:

  • 用一个工具快速可靠地构建所有设计模式的意图驱动管道. 可用的内部场所和跨云.
  • 通过多表更新和持续的数据漂移检测自动化模式迁移到新系统的过程  
  • 最小化新技术所需的启动时间,并容易地扩展数据工程以用于更复杂的迁移 

智能数据管道 抽象出实现的“方式”,这样您就可以专注于数据的内容、对象和位置. 开始使用streamset构建智能数据管道,用于跨云和混合架构的数据摄取.

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)