flink cdc是否可以以配置的方式来实现在全量读取时,不阻塞chk来实现at least once,结合hudi的upsert语义,最终实现exactly once.

classic Classic list List threaded Threaded
1 message Options
Reply | Threaded
Open this post in threaded view
|

flink cdc是否可以以配置的方式来实现在全量读取时,不阻塞chk来实现at least once,结合hudi的upsert语义,最终实现exactly once.

王敏超
flink cdc是否可以以配置的方式来实现在全量读取时,不阻塞chk来实现at least
once,结合hudi的upsert语义,最终实现exactly once.

问题:
在使用flink cdc写入hudi时,由于hudi的flush to
storage需要在chk触发,因此在大表全量同步期间,没有chk的所有的数据积攒在内存中导致Caused by:
java.lang.OutOfMemoryError: GC overhead limit exceeded.

期望:
flink cdc是否可以以配置的方式来实现在全量读取时,不阻塞chk来实现at least
once,结合hudi的upsert语义,最终实现exactly once.



--
Sent from: http://apache-flink.147419.n8.nabble.com/