使用flink 做维表关联

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

使用flink 做维表关联

lucas.wu
hi 大家好:
最近有在调研使用flink做实时数仓,但是有个问题没弄清楚,就是明细表和维度表做join的时候,该采取什么的方案?目前的想到的就是明细表通过流消费进来,维度表放缓存。但是这种方案有弊端,就是维度表更新后,历史join过的数据无法再更新。不知道大家还有什么其他的方案?ps:目前有看到flink有支持join,这种需要两个表都是流的方式进入flink,然后会将历史的数据保存在state里面,这种对于量大的表会不会有问题?
Reply | Threaded
Open this post in threaded view
|

Re: 使用flink 做维表关联

LakeShen
Flink l.9 SQL 中支持 HBase 作为维表,不过是没有缓存的,直接来一条,去HBase 查询一条,我们这边使用 HBase
,反正20000 QPS 能够处理到。
这种场景,应该能够 Cover 一些常见的场景的。
当然,如果你们公司有其他的存储,你可以在 SQL 中自定义维表即可。具体查看 LookupableTableSource。

Best wishes,
LakeShen

lucas.wu <[hidden email]> 于2019年12月20日周五 下午5:37写道:

> hi 大家好:
>
> 最近有在调研使用flink做实时数仓,但是有个问题没弄清楚,就是明细表和维度表做join的时候,该采取什么的方案?目前的想到的就是明细表通过流消费进来,维度表放缓存。但是这种方案有弊端,就是维度表更新后,历史join过的数据无法再更新。不知道大家还有什么其他的方案?ps:目前有看到flink有支持join,这种需要两个表都是流的方式进入flink,然后会将历史的数据保存在state里面,这种对于量大的表会不会有问题?