这个问题在这里已经有答案了:
如何使用“ssc.filestream()”读取Parquet文件?传递给“ssc.filestream()”的类型是什么(2个答案)四年前关门了。我试图流Parquet文件到Spark,但我不知道如何使用streamingcontext的filestream方法。感谢您的帮助。
5gfr0r5j1#
基于spark流媒体文档: streamingContext.textFileStream(dataDirectory) spark streaming将监视目录datadirectory并处理在该目录中创建的任何文件(不支持在嵌套目录中写入的文件)。请注意这些文件必须具有相同的数据格式。文件必须在datadirectory中通过原子方式移动或重命名到data目录中来创建。一旦移动,文件就不能更改。因此,如果连续追加文件,则不会读取新数据。对于简单的文本文件,有一个更简单的方法streamingcontext.textfilestream(datadirectory)。而且文件流不需要运行接收器,因此不需要分配核心。
streamingContext.textFileStream(dataDirectory)
1条答案
按热度按时间5gfr0r5j1#
基于spark流媒体文档:
streamingContext.textFileStream(dataDirectory)
spark streaming将监视目录datadirectory并处理在该目录中创建的任何文件(不支持在嵌套目录中写入的文件)。请注意这些文件必须具有相同的数据格式。文件必须在datadirectory中通过原子方式移动或重命名到data目录中来创建。一旦移动,文件就不能更改。因此,如果连续追加文件,则不会读取新数据。对于简单的文本文件,有一个更简单的方法streamingcontext.textfilestream(datadirectory)。而且文件流不需要运行接收器,因此不需要分配核心。