如何使用filestream来流式处理Parquet文件?

gojuced7  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(352)

这个问题在这里已经有答案了

如何使用“ssc.filestream()”读取Parquet文件?传递给“ssc.filestream()”的类型是什么(2个答案)
四年前关门了。
我试图流Parquet文件到Spark,但我不知道如何使用streamingcontext的filestream方法。
感谢您的帮助。

5gfr0r5j

5gfr0r5j1#

基于spark流媒体文档: streamingContext.textFileStream(dataDirectory) spark streaming将监视目录datadirectory并处理在该目录中创建的任何文件(不支持在嵌套目录中写入的文件)。请注意
这些文件必须具有相同的数据格式。文件必须在datadirectory中通过原子方式移动或重命名到data目录中来创建。一旦移动,文件就不能更改。因此,如果连续追加文件,则不会读取新数据。对于简单的文本文件,有一个更简单的方法streamingcontext.textfilestream(datadirectory)。而且文件流不需要运行接收器,因此不需要分配核心。

相关问题