第三条我有个大概的想法,kafka数据把原有时间戳减去一个你觉得足够的延迟时间,生成一个新的时间戳,flink用这个时间做watermark,原有时间保留用来和habse进行匹配。
发件人: Jim Chen <
[hidden email]>
日期: 星期一, 2020年8月17日 16:36
收件人: user-zh <
[hidden email]>
主题: flink sql在实时数仓中,关联hbase维表频繁变化的问题
大家好:
我们现在在用flink sql在做实时数仓,架构大概是kafka关联hbase维表,然后写入clickhouse。hbase维表是频繁变化的
现在遇到的几个比较棘手的问题:
1、自己在实现AsyncTableFunction做异步io的时候,发现性能还是不够。后来就加入本地缓存,但是缓存一致性出现问题,不知道该如何解决
2、写入hbase的时候,是批量写的,无法保证有序,维表频繁变化的话,顺序不对,会造成结果有问题
3、hbase维表,可能5s后才会更新,但是此时kafka数据流已经过去了,关联的数据都是空
不知道,针对上面的场景,有什么好的解决思路或者方案