Hi
个人理解一般情况下都是业务需要才会做keyby操作,比如想统计一个用户一分钟pv按照userid keyby。如果你的任务没有这样的业务需求完全不用考虑使用这些算子的。
Best,
Yichao Yang
------------------ 原始邮件 ------------------
发件人: Michael Ran <
[hidden email]>
发送时间: 2020年6月16日 19:05
收件人: user-zh <
[hidden email]>
主题: 回复:Re:关于keyby算子的疑问,如果本身数据比较分散,还有keyby的必要吗
默认会有中hash 吧,看做啥操作
在 2020-06-16 18:28:51,"
[hidden email]" <
[hidden email]> 写道:
>
>您好:
> 如果我的数据本身比较分散,重复的ID很少,还有必要进行keyby操作吗
>谢谢!
>
>
>
[hidden email]