Flink ETL作业生成实时DWD宽表数据,写入Kafka中。
当ETL作业的TM出现异常,自动重启恢复后,作业虽然能从上一次Checkpoint状态恢复,但是会出现重复推送部分数据,导致下游DWS相关作业都要进行去重处理,增加下游作业成本。
想了下解决方案,扩展Kafka Sink,初始化的时候,先读取当前State中记录的位置后面的所有数据,然后写入的时候进行去重处理,恢复到正常位置后,清理掉这部分数据。
想问下大佬们,这种处理方式是否合理,或者有没其他更好的解决方案?
--
Sent from:
http://apache-flink.147419.n8.nabble.com/