我正在尝试从python Package 器执行配置单元脚本。部分代码看起来像
print(HiveArgs)
Hive = subprocess.Popen(HiveArgs, stderr=subprocess.PIPE, stdout=subprocess.PIPE)
HiveOutput = Hive.communicate()
print("Out:" + HiveOutput[0])
print("=================================")
print("Err:" + HiveOutput[1])
其输出为:
['hive', '-i ', '/edw/edwdev/tmp/spark.txn.init.tmp', '-f ', '/edw/edwdev/tmp/test.hql.tmp']
Out:
=================================
Err:
Logging initialized using configuration in file:/etc/hive/2.5.0.2-3/0/hive-log4j.properties
Exception in thread "main" java.io.FileNotFoundException: File file:/data/edw/edwdev/ does not exist
at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:624)
at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:850)
at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:614)
at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:422)
at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.<init>(ChecksumFileSystem.java:146)
at org.apache.hadoop.fs.ChecksumFileSystem.open(ChecksumFileSystem.java:348)
at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:782)
at org.apache.hadoop.hive.cli.CliDriver.processFile(CliDriver.java:427)
at org.apache.hadoop.hive.cli.CliDriver.processInitFiles(CliDriver.java:439)
at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:708)
at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:684)
at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:624)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.hadoop.util.RunJar.run(RunJar.java:233)
at org.apache.hadoop.util.RunJar.main(RunJar.java:148)
哪里 /data/edw/edwdev/
(配置单元认为丢失的文件)是我在linux服务器上的工作目录。
将工作目录更改为脚本的位置没有帮助。使用相对路径和绝对路径也没有区别。如果我从打印的 HiveArgs
从终端执行命令( hive -i /edw/edwdev/tmp/spark.txn.init.tmp -f /edw/edwdev/tmp/test.hql.tmp
),工作正常。
我错过了什么?
1条答案
按热度按时间ttcibm8c1#
结果发现问题出在Hive的争论上。
print(HiveArgs)
线路输出:传递的参数是
'-f '
以及'-i '
(带尾随空格)而不是'-f'
以及'-i'
.我不确定是什么原因导致配置单元中的问题导致它将当前工作目录作为某个输入文件读取。最有可能的是,Hive没有修剪导致此行为的参数。删除空格解决了这个问题。