flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

classic Classic list List threaded Threaded
5 messages Options
Reply | Threaded
Open this post in threaded view
|

flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

jindy_liu
有没有大佬有思路可以参考下?



--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

Smile
你好,
实时和离线对数的问题确实也比较难,没有很完美的解决方案。
一般可以考虑把实时产出结果也落离线表,然后对两张离线表做对比,离线 Join 上然后跑具体对比逻辑即可。

Smile


jindy_liu wrote
> 有没有大佬有思路可以参考下?
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/





--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

jindy_liu
恩,这里有个问题就是,假设我们以离线结果为基准去对比,但离线结果一般天级或小时级,但实时部分可能是秒级的,两个结果在连线环境做比较,也不好去看这个结果有差异的时候,到底实时计算部分有没有问题!

有很多种原因可能会导致这个结果不准确。。。比如flink sql的bug或都流式消息丢失了等等!




--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

Smile
对,离线和实时的计算语义本来就是不一样的,所以这个地方也没有特别完美的解决方案,一般都是 case by case 看一下。
有一些显而易见的问题比如 Join 是否关联成功这种还是比较容易查,其他的确实不太好判断。



--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re:Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

Michael Ran
1.两套逻辑结果,只能定时任务做check<br/>2.同一套逻辑,就要具体分析了,只要不是一个人、一套代码逻辑出来的,都有可能出问题
在 2021-03-09 12:51:50,"Smile" <[hidden email]> 写道:
>对,离线和实时的计算语义本来就是不一样的,所以这个地方也没有特别完美的解决方案,一般都是 case by case 看一下。
>有一些显而易见的问题比如 Join 是否关联成功这种还是比较容易查,其他的确实不太好判断。
>
>
>
>--
>Sent from: http://apache-flink.147419.n8.nabble.com/