Hi,
按我的理解:.part-4-13.inprogressxxxxx/part-4-14.inprogressxxxxxxxxx
就是残留文件了,因为它所在checkpoint并没有finish,所以它不会被读到,也不会影响作业的运行,也不会继续改变了。
Best,
Jingsong Lee
On Tue, Apr 21, 2020 at 4:38 PM Leonard Xu <
[hidden email]> wrote:
> Hello,图挂了,可以搞个图床了挂链接到邮件列表。。。
> 另外问下为什么不从最新的cp开始恢复作业呢?这样我理解会有脏数据吧。
>
> > 在 2020年4月19日,23:23,Yun Gao <
[hidden email]> 写道:
> >
> > Hello~ 想再确认一下预期的行为:现在是希望后面重新写之后,用新写过的part-xx来覆盖之前生成的文件么~?
> >
> >
> > ------------------------------------------------------------------
> > From:酷酷的浑蛋 <
[hidden email]>
> > Send Time:2020 Apr. 18 (Sat.) 20:32
> > To:user-zh <
[hidden email]>
> > Subject:关于StreamingFileSink
> >
> >
> > 我在用StreamingFileSink
> 往hdfs写数据的时候,如果任务停止了,从前面的某个checkpoint启动(不是最新checkpoint),就会发生下面的情况:
> >
> >
> > 其中part-4-9/part-4-13/part-4-14
> 这几个文件已经在最新checkpoint时生成了,任务从前面某个checkpoint启动后,继续生成part-xx文件,但是xx(文件编号)不会从最新开始,这样就导致新生成的.part-4-13.inprogressxxxxx/part-4-14.inprogressxxxxxxxxx最终不会变成完成状态,而且hive读取不到点'.'开头的文件,有什么方式可以避免这样的情况,难道只能手动去改文件名吗
> >
>
>
--
Best, Jingsong Lee