关于keyby算子的疑问,如果本身数据比较分散,还有keyby的必要吗

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

关于keyby算子的疑问,如果本身数据比较分散,还有keyby的必要吗

1101300123

您好:
    如果我的数据本身比较分散,重复的ID很少,还有必要进行keyby操作吗
谢谢!


[hidden email]
Reply | Threaded
Open this post in threaded view
|

Re:关于keyby算子的疑问,如果本身数据比较分散,还有keyby的必要吗

Michael Ran
默认会有中hash 吧,看做啥操作
在 2020-06-16 18:28:51,"[hidden email]" <[hidden email]> 写道:
>
>您好:
>    如果我的数据本身比较分散,重复的ID很少,还有必要进行keyby操作吗
>谢谢!
>
>
>[hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:Re:关于keyby算子的疑问,如果本身数据比较分散,还有keyby的必要吗

Yichao Yang
Hi


个人理解一般情况下都是业务需要才会做keyby操作,比如想统计一个用户一分钟pv按照userid keyby。如果你的任务没有这样的业务需求完全不用考虑使用这些算子的。


Best,
Yichao Yang






------------------ 原始邮件 ------------------
发件人: Michael Ran <[hidden email]&gt;
发送时间: 2020年6月16日 19:05
收件人: user-zh <[hidden email]&gt;
主题: 回复:Re:关于keyby算子的疑问,如果本身数据比较分散,还有keyby的必要吗



默认会有中hash 吧,看做啥操作
在 2020-06-16 18:28:51,"[hidden email]" <[hidden email]&gt; 写道:
&gt;
&gt;您好:
&gt;&nbsp;&nbsp;&nbsp; 如果我的数据本身比较分散,重复的ID很少,还有必要进行keyby操作吗
&gt;谢谢!
&gt;
&gt;
&gt;[hidden email]