跳到主要内容

沙巴体育下载博客

欢迎改变的地方

通过Hadoop FS Standalone Origin将HDFS数据同步到S3

By 张贴在 工程 2018年7月10日,

简介:从HDFS Data到S3

我很激动地宣布这个消息 Hadoop FS单机起源 in StreamSets数据收集器 3.2.0.0. 数据收集器长期以来一直支持Hadoop FS起源,但仅在集群模式下. Hadoop FS (HDFS) Standalone origin无需安装MapReduce和YARN,可以多线程运行, 每个线程一次并行读取一个文件.

数据收集器最棒的地方在于所有的阶段库, 包含的起源, 处理器, 目的地, 和执行者, 是可插拔的. 在本文中,沙巴体育手机版的用例是将数据从HDFS同步到Amazon S3,但是您可以使用任何 支持整个文件数据格式的数据收集器目标例如Azure Data Lake Store、Hadoop FS、谷歌Cloud Storage、MapR FS等.

集群模式Hadoop FS起源

在集群模式下使用Hadoop FS源运行管道是将数据从HDFS迁移到另一个Hadoop集群或其他数据存储(如Azure)的好方法, 谷歌云存储, 或MapR FS. 以集群模式在管道中运行, Hadoop系统中必须安装数据收集器,才能将MapReduce任务提交给YARN.

例如, 您可以在集群模式下将数据从使用Hadoop FS源的blob存储迁移到Amazon S3. 此时需要在HDInsight (Azure的Hadoop集群)中安装数据收集器. 中可以找到HDInsight的数据收集器 Azure市场.

最后,集群模式下的Hadoop FS源支持Avro、分隔和文本数据格式.

hdfs集群

独立使用Hadoop FS的简单性

与Hadoop FS独立起源, 数据收集器不需要MapReduce和YARN, 也不需要在Hadoop集群中. 您甚至可以在本地机器上运行数据收集器来将数据从Azure Blob Storage移动到Amazon S3.

Hadoop FS Standalone起源还支持更广泛的数据格式,如Avro, 分隔, JSON, 日志, Protobuf, 署记录, 文本, 整个文件, 和XML

Hadoop FS独立配置

让沙巴体育手机版首先从Hadoop FS Standalone起源开始. 您可以在下面的Hadoop FS选项卡中配置Hadoop FS连接信息. 确保名称节点的进程间通信器端口(IPC)是打开的,并且用户可以访问这些文件. 可以通过配置 HDFS用户.

hdfs起源

在Files选项卡上,输入适当的配置. 让沙巴体育手机版使用最后修改的时间戳进行读取,以便同步配置文件夹下的新传入文件.

因为沙巴体育手机版想要将数据从HDFS迁移到Amazon S3, 沙巴体育手机版现在将文件后期处理设置为“无”.

hadoop fs独立

在本例中,沙巴体育手机版使用Hadoop FS Standalone源支持以下数据格式 整个文件数据格式. 使用整个文件数据格式, 您可以将任何类型的文件从原始系统传输到目标系统.

Amazon S3配置

当沙巴体育手机版使用整个文件的数据格式的起源, 沙巴体育手机版需要确保Amazon S3目的地也使用整个文件数据格式.

hdfs to S3配置

当你运行管道时, 默认情况下,目录假脱机线程每5秒运行一次,以脱机来自HDFS的文件列表. 此间隔可以通过 假脱机周期(秒)属性. 一旦假脱机文件列表存储在排序队列中, 每个Hadoop FS Standalone运行线程拉出文件并将其传递到下一个阶段, Amazon S3目的地.

结论

Hadoop FS Standalone起源可以部署在许多用例中,用于在数据存储之间移动. 它非常方便,因为数据收集器不需要安装在Hadoop生态系统中,而且它支持几乎所有的数据格式.

与往常一样,如果您在配置您的 StreamSets数据收集器 管道中,可以询问 社区松弛.

回到顶部

沙巴体育手机版使用cookie来改善您对沙巴体育手机版网站的体验. 单击“允许所有人同意”并继续访问沙巴体育手机版的网站. 隐私政策

(类^ =“wpforms——”)
(类^ =“wpforms——”)
(类^ =“wpforms——”)
(类^ =“wpforms——”)