Flink/SparkStreaming 性能测试(吞吐/延时)

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

Flink/SparkStreaming 性能测试(吞吐/延时)

13122260573@163.com
Hi,
近期我需要做一个 Flink/SparkStreaming 吞吐/延时的性能分析, 我发现网上这方面资料很少,  只有17年美团/15年yahoo 做了一个类似的分析. 问题如下:
1. 简单的读kafka写kafka 要如何记录数据进flink/出flink 的时间? 如果是打时间戳要怎么打? 打的话会不会影响性能?
2. 我想到的场景是: 简单插数etl, 基本的过滤, 窗口. 请问还有没有什么定性定量的方式可以测量框架性能?


美团链接:
https://tech.meituan.com/2017/11/17/flink-benchmark.html?spm=a2c6h.13066369.0.0.5e3c1455V4UrXH
yahoo:
https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at


| |
Zhonghan Tang
|
|
[hidden email]
|
签名由网易邮箱大师定制

Reply | Threaded
Open this post in threaded view
|

Re: Flink/SparkStreaming 性能测试(吞吐/延时)

Kurt Young
我们最近做了一个基于beam nexmark的性能对比测试[1],你可以参考一下。
和beam的测试不同的是,我们用各自引擎的API对着测试case描述的场景重新写了一下,并不是像这个里面一样全都用
beam的api写测试case,然后翻译到多个runner之上。

[1] https://beam.apache.org/documentation/sdks/java/testing/nexmark/

Best,
Kurt


On Fri, Jun 12, 2020 at 10:49 AM Zhonghan Tang <[hidden email]> wrote:

> Hi,
> 近期我需要做一个 Flink/SparkStreaming 吞吐/延时的性能分析, 我发现网上这方面资料很少,  只有17年美团/15年yahoo
> 做了一个类似的分析. 问题如下:
> 1. 简单的读kafka写kafka 要如何记录数据进flink/出flink 的时间? 如果是打时间戳要怎么打? 打的话会不会影响性能?
> 2. 我想到的场景是: 简单插数etl, 基本的过滤, 窗口. 请问还有没有什么定性定量的方式可以测量框架性能?
>
>
> 美团链接:
>
> https://tech.meituan.com/2017/11/17/flink-benchmark.html?spm=a2c6h.13066369.0.0.5e3c1455V4UrXH
> yahoo:
>
> https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at
>
>
> | |
> Zhonghan Tang
> |
> |
> [hidden email]
> |
> 签名由网易邮箱大师定制
>
>
Reply | Threaded
Open this post in threaded view
|

Re:Flink/SparkStreaming 性能测试(吞吐/延时)

Michael Ran
In reply to this post by 13122260573@163.com
挺好的👍!<br/>1.记录进出flink的时间,如果时间生成规则一致,那么flink、spark 消耗至少是一致的,具有可对比性吧。性能影响会有的,不大。<br/>2.是不是可以尝试  数据字节大小,算子,窗口,资源,场景(简单ETL,维表JOIN,双流join,触发背压,复杂SQL 计算)<br/>   SQL 有标准的测试
在 2020-06-12 10:49:26,"Zhonghan Tang" <[hidden email]> 写道:

>Hi,
>近期我需要做一个 Flink/SparkStreaming 吞吐/延时的性能分析, 我发现网上这方面资料很少,  只有17年美团/15年yahoo 做了一个类似的分析. 问题如下:
>1. 简单的读kafka写kafka 要如何记录数据进flink/出flink 的时间? 如果是打时间戳要怎么打? 打的话会不会影响性能?
>2. 我想到的场景是: 简单插数etl, 基本的过滤, 窗口. 请问还有没有什么定性定量的方式可以测量框架性能?
>
>
>美团链接:
>https://tech.meituan.com/2017/11/17/flink-benchmark.html?spm=a2c6h.13066369.0.0.5e3c1455V4UrXH
>yahoo:
>https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at
>
>
>| |
>Zhonghan Tang
>|
>|
>[hidden email]
>|
>签名由网易邮箱大师定制
>