如何使用filestream来流式处理Parquet文件？

gojuced7 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(352)

这个问题在这里已经有答案了：

如何使用“ssc.filestream（）”读取Parquet文件？传递给“ssc.filestream（）”的类型是什么(2个答案）
四年前关门了。
我试图流Parquet文件到Spark，但我不知道如何使用streamingcontext的filestream方法。
感谢您的帮助。

hadoop apache-spark parquet spark-streaming hadoop2

来源：https://stackoverflow.com/questions/35437521/how-do-i-use-filestream-to-stream-parquet-files

1条答案

按热度按时间

5gfr0r5j1#

基于spark流媒体文档： streamingContext.textFileStream(dataDirectory) spark streaming将监视目录datadirectory并处理在该目录中创建的任何文件（不支持在嵌套目录中写入的文件）。请注意
这些文件必须具有相同的数据格式。文件必须在datadirectory中通过原子方式移动或重命名到data目录中来创建。一旦移动，文件就不能更改。因此，如果连续追加文件，则不会读取新数据。对于简单的文本文件，有一个更简单的方法streamingcontext.textfilestream（datadirectory）。而且文件流不需要运行接收器，因此不需要分配核心。

赞(0）回复(0）举报 2021-06-02

我来回答

如何使用filestream来流式处理Parquet文件？

1条答案

相关问题

热门标签

最新问答