使用googledataflow从gcs文件读取序列

nuypyhwy  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(248)

我们正在尝试使用googledataflowsdk将保存为序列文件的数据加载到bq中。
在入口点,我们尝试使用以下代码将数据读入管道

Read.Bounded<KV<LongWritable, BytesWritable>> resuls = HadoopFileSource.readFrom("gs://raw-data/topic-name/dt=2017-02-28/1_0_00000000002956516884.gz",
            org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat.class, LongWritable.class, BytesWritable.class);

[1] 我们正在使用“gcs连接器”来启用hadoop概念
[2] hadoopfilesource来自com.google.cloud.dataflow.contrib.hadoop
我们的core-sites.xml文件如下所示:

<configuration>
<property>
    <name>fs.gs.impl</name>
    <value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem</value>
    <description>The FileSystem for gs: (GCS) uris.</description>
</property>
<property>
    <name>fs.AbstractFileSystem.gs.impl</name>
    <value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS</value>
    <description>
        The AbstractFileSystem for gs: (GCS) uris. Only necessary for use with Hadoop 2.
    </description>
</property>

但是我们不断得到“java.net.unknownhostexception:metadata”
i event在环境变量中添加了google\u application\u credentials=“/path/to/key.json”,但仍然得到了相同的异常
只需要简单的方法读取序列文件到谷歌数据流管道从地面军事系统
谢谢你的帮助
谢谢,阿维

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题