Flink 实时监控目录下的新文件会有文件被遗漏

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

Flink 实时监控目录下的新文件会有文件被遗漏

王佩-2
在Flink 1.8.0下,通过 env.readFile 实时监控目录下的新文件并处理。5千多个文件,有25个文件被遗漏。

逻辑如下:

1、一个Flink程序实时将小文件写入目录A
2、另一个Flink程序通过env.readFile、PROCESS_CONTINUOUSLY模式实时监控目录A,然后做其他操作

发现,第二个Flink程序偶尔会遗漏文件。

请教下: 为什么会有文件丢失,丢失的原因可能是什么?并行度?....
Reply | Threaded
Open this post in threaded view
|

Re: Flink 实时监控目录下的新文件会有文件被遗漏

王佩-2
监控S3上的文件。

王佩 <[hidden email]> 于2019年8月23日周五 上午9:25写道:

> 在Flink 1.8.0下,通过 env.readFile 实时监控目录下的新文件并处理。5千多个文件,有25个文件被遗漏。
>
> 逻辑如下:
>
> 1、一个Flink程序实时将小文件写入目录A
> 2、另一个Flink程序通过env.readFile、PROCESS_CONTINUOUSLY模式实时监控目录A,然后做其他操作
>
> 发现,第二个Flink程序偶尔会遗漏文件。
>
> 请教下: 为什么会有文件丢失,丢失的原因可能是什么?并行度?....
>
>
Reply | Threaded
Open this post in threaded view
|

Re: Flink 实时监控目录下的新文件会有文件被遗漏

汤 友棚
会不会是由于s3的一致性导致的问题

> 在 2019年8月24日,下午4:52,王佩 <[hidden email]> 写道:
>
> 监控S3上的文件。
>
> 王佩 <[hidden email]> 于2019年8月23日周五 上午9:25写道:
>
>> 在Flink 1.8.0下,通过 env.readFile 实时监控目录下的新文件并处理。5千多个文件,有25个文件被遗漏。
>>
>> 逻辑如下:
>>
>> 1、一个Flink程序实时将小文件写入目录A
>> 2、另一个Flink程序通过env.readFile、PROCESS_CONTINUOUSLY模式实时监控目录A,然后做其他操作
>>
>> 发现,第二个Flink程序偶尔会遗漏文件。
>>
>> 请教下: 为什么会有文件丢失,丢失的原因可能是什么?并行度?....
>>
>>