Re: Flink SQL temporal table join with Hive 报错

classic Classic list List threaded Threaded
1 message Options
Reply | Threaded
Open this post in threaded view
|

Re: Flink SQL temporal table join with Hive 报错

Leonard Xu

>
>  二,维表有有分区,每个分区仅仅包含当天的数据,没有 primary key
>
>   这种情况因为要 Join 全部的数据,所以还是需要设置 'streaming-source.partition.include' = 'all',但是还是因为没有 primary Key,所以无法 run。
>
> 现在就是针对第二种情况,因为Hive的维度表不是我维护的,很多人都在用,所以不能修改去加上 primary key,无法进行 join.

第二种情况,hive表不是streaming读的,相当于是一张静态表,每次都是加载最新的全量,所以配置如下参数即可
  'streaming-source.enable' = 'false',          -- option with default value, can be ignored.
  'streaming-source.partition.include' = 'all', -- option with default value, can be ignored.
  'lookup.join.cache.ttl' = '12 h’
   'streaming-source.partition.include' = ‘all’  是默认值,也可以不配, 参考【1】
>
>
> 还有我看文档现在不支持 event time join, 官网的汇率是按照 process time join,但是如果要回溯昨天的数据的时候,其实就会有问题。
>
> 我看 FLIP-132 <https://cwiki.apache.org/confluence/display/FLINK/FLIP-132+Temporal+Table+DDL+and+Temporal+Table+Join> 有提到 Event Time semantics, 这是以后回支持的吗?

Kafka connector已经支持了 event time join, 但hive表目前还不支持在上面声明watermark,所以还不支持


祝好,
Leonard
[1] https://ci.apache.org/projects/flink/flink-docs-master/docs/connectors/table/hive/hive_read_write/#temporal-join-the-latest-table

>
>
> macia kk <[hidden email] <mailto:[hidden email]>> 于2021年2月8日周一 下午6:53写道:
> Hi. Leonard
>
>   麻烦帮忙看下 Flink 邮件里的这个问题,卡了我很久了,谢谢