env.readFile只读取新文件

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

env.readFile只读取新文件

王佩-2
如下代码:

DataStreamSource<String> source = env.readFile(
                textInputFormat,
                "/data/appData/streamingWatchFile/source",
                FileProcessingMode.PROCESS_CONTINUOUSLY,
                10 * 1000
 );

当被监控目录下的某个文件被修改,如touch了一下,整个文件会重复处理一遍。

有没有什么方法,可以做到只读取新文件。想实现只读取新的Parquet文件的效果。
Reply | Threaded
Open this post in threaded view
|

Re: env.readFile只读取新文件

Biao Liu
恐怕没有现成的,自己写一个,继承 SourceFunction

Thanks,
Biao /'bɪ.aʊ/



On Wed, Jul 31, 2019 at 4:49 PM 王佩 <[hidden email]> wrote:

> 如下代码:
>
> DataStreamSource<String> source = env.readFile(
>                 textInputFormat,
>                 "/data/appData/streamingWatchFile/source",
>                 FileProcessingMode.PROCESS_CONTINUOUSLY,
>                 10 * 1000
>  );
>
> 当被监控目录下的某个文件被修改,如touch了一下,整个文件会重复处理一遍。
>
> 有没有什么方法,可以做到只读取新文件。想实现只读取新的Parquet文件的效果。
>