跳到主要内容

沙巴体育下载博客

欢迎改变的地方

将工作负载迁移到AWS需要重写吗?

By 张贴在 工程 2021年2月2日

你的数据迁移 将工作负载转移到AWS,而无需重新设计——城市开发者的知识或现代企业的关键能力? 在这个博客中,沙巴体育手机版将调查 构建到谷歌云平台的数据管道 然后 将工作负载迁移到AWS

移动的云听起来像移动的山. 但是,在云之间快速、可靠地移动数据的能力确保了提供业务连续性所需的灵活性. 所以这是可以做到的? 代价是什么? 如果您正在使用智能数据管道 数据集成,这个艰巨的任务可以是简单和实用的-不需要重写.

StreamSets数据收集器, 快速摄取引擎, 只需单击几下鼠标,就可以将数据管道的现有工作负载从一个平台迁移到另一个平台. 

为了演示, 在这个由两部分组成的示例中, 沙巴体育手机版会摄取, 变换, 并存储样本银行客户的数据,包括他们的名字, address, 联系, 以及使用两个数据管道的账号

管道#1:谷歌云存储数据管道

在这个数据管道中,沙巴体育手机版将遵循以下步骤:

样本数据

数据管道

数据摄取

我创建了一个新的管道,并添加了目录 起源. 这里配置的关键部分是Bank详细信息文件的位置, 沙巴体育手机版要处理哪个, 及数据格式. 在我的例子中,文件位置是/root/bank_details.xlsx和数据格式是Excel,但你需要改变它来匹配你的位置和数据格式.

数据迁移到AWS工作负载

 


我对目录原点的其余部分使用默认值—引用
的文档 的更多信息.

配置了原点后,我就可以预览数据了. 我在预览配置中检查了“显示记录/字段头”,这样我就可以检查数据以及如下所示的记录属性.

数据迁移到AWS工作负载

数据转换

同时从起点加载数据到目的地 出于安全考虑,沙巴体育手机版经常想要更改一些重要的信息. 查看银行详细信息,它有一栏是帐户编号. 使用十进制数据类型. I don’t want this as DECIMAL; I want this as STRING and I want to mask the Account number with xxxx56 (I want to share only the last 2 digits).

我使用字段类型转换器更改了数据格式. 这里配置的关键部分是Required Fields, 沙巴体育手机版想改变哪一个, 所以我给了账号. 

数据迁移到AWS工作负载字段类型转换器

然后更新转换选项卡和转换方法, 源类型, 然后转换为类型.

然后我用了一个 场戴面具的人 处理器通过在“常规”选项卡上设置“必选字段”并将“字段”设置为“掩码”来屏蔽帐户号码, 掩码类型, 和自定义蒙版如下所示.

数据迁移到AWS工作负载字段掩码

然后我添加 谷歌云存储 作为一个目的地,我想在这里写入转换后的数据. 这里配置的关键部分是GCS桶、数据格式和凭证. 我用Bucket的名称和公共前缀更新了GCS选项卡. On 数据格式选项卡,我选择标题行分隔.

数据迁移到GCP管道

在Credentials选项卡上,我输入了Project ID并提供了我的凭证.

我对GCS的其他目标配置使用默认值- 看文档 的更多信息.

管道执行

配置好管道后,我就可以运行它,并查看通过管道的数据流.

数据迁移到GCP工作负载

通过检查谷歌Cloud Storage桶并下载文件来验证内容,我确认了所有数据都已被摄取.

数据确认质量

猫output_sdc_700157b3 - cbe3 - 4844 - 8美元a2b - 77 d0e3f86ae5
名称、地址、联系人,帐户号码
Ajay班加罗尔,9999年,xxxxx42
快乐,伦敦,8787年,xxxxx51
山姆,都柏林,8222年,xxxxx25

管道#2:将现有工作负载迁移到AWS S3 

现在,如果沙巴体育手机版希望将工作负载迁移到AWS而不是GCS,该怎么办呢? 你觉得沙巴体育手机版要重写一切从头开始吗? 谢天谢地,答案是否定的! 沙巴体育手机版所要做的就是删除GCS目的地并添加 Amazon S3 目的地 -只需在UI中点击几下. 

然后剩下的唯一一件事就是配置Amazon S3目的地,如下所示.

将工作负载迁移到AWS S3

在我的管道配置了新的AWS目的地之后, 我能够运行它,并看到数据流向Amazon S3.

管道执行

将工作负载迁移到AWS S3管道执行

通过从Amazon S3文件下载输出文件并检查其内容,我确认了所有数据都已被吸收到AWS中.

迁移到AWS S3确认

$ 猫署- 1606846664459 - 1
名称、地址、联系人,帐户号码
Ajay班加罗尔,9999年,xxxxx42
快乐,伦敦,8787年,xxxxx51
山姆,都柏林,8222年,xxxxx25

终结:将工作负载迁移到AWS不需要重写数据管道

这就打破了流言 将工作负载迁移到AWS 需要重新编写数据管道. 沙巴体育手机版建立了一个 智能数据管道 要摄取, 变换, 并将样本银行客户数据存储在GCP上,然后验证将工作负载迁移到AWS可以在使用时无需重新设计管道 智能数据管道. 您可以转换数据,然后移动这些结果 云平台之间 根据你的工作量. 这意味着数据工程师可以专注于构建最适合数据的管道,而不必担心实现细节. 

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)