Flink1.10 history server无法监控 FlinkSQL任务

classic Classic list List threaded Threaded
5 messages Options
Reply | Threaded
Open this post in threaded view
|

Flink1.10 history server无法监控 FlinkSQL任务

LiangbinZhang

如下图,Flink 1.10 on yarn per job提交方式,如果是java datastream 以及table
api开发的应用,能够被jm正常拉取统计信息,但是sql化的job没有办法被历史服务器监控。
使用的sql不完全是官网的,但是是经过转化为datastream,以on yarn per
job方式提交到yarn运行的,只是多了个sql解析动作。不能理解
,为什么历史服务器没有加载job信息到hdfs上的目标目录。查看jobmanager日志以及configuration都能确定jm加载到了历史服务器的相关配置。

<http://apache-flink.147419.n8.nabble.com/file/t447/%E5%8E%86%E5%8F%B2%E6%9C%8D%E5%8A%A1%E5%99%A8.png>





--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: Flink1.10 history server无法监控 FlinkSQL任务

zhisheng
Hi Robin:

1、是不是更改了刷新时间?一直不显示吗?

2、running 的作业不会显示的,你可以之间在 yarn 查看,history server 应该是只提供展示挂掉的作业

PS:另外提几个 history server 的问题

1、挂掉的作业展示能否支持分页呢?目前直接在一个页面全部展示了历史所有的作业,打开会很卡

2、有办法可以查看挂掉作业的 jm 和 tm 日志吗?因为 HDFS
其实是有日志,按道理是可以拿到日志信息然后解析展示出来的,Spark history server 也是可以查看挂掉作业的日志


Best!
zhisheng

Robin Zhang <[hidden email]> 于2020年10月22日周四 下午6:11写道:

>
> 如下图,Flink 1.10 on yarn per job提交方式,如果是java datastream 以及table
> api开发的应用,能够被jm正常拉取统计信息,但是sql化的job没有办法被历史服务器监控。
> 使用的sql不完全是官网的,但是是经过转化为datastream,以on yarn per
> job方式提交到yarn运行的,只是多了个sql解析动作。不能理解
>
> ,为什么历史服务器没有加载job信息到hdfs上的目标目录。查看jobmanager日志以及configuration都能确定jm加载到了历史服务器的相关配置。
>
> <
> http://apache-flink.147419.n8.nabble.com/file/t447/%E5%8E%86%E5%8F%B2%E6%9C%8D%E5%8A%A1%E5%99%A8.png>
>
>
>
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: Flink1.10 history server无法监控 FlinkSQL任务

yujianbo
大佬,我发现我配置完后就只能看到完成的任务在history sever上面,失败的看不到。现在疑惑的是失败的能不能出现在history server



--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: Flink1.10 history server无法监控 FlinkSQL任务

LiangbinZhang
In reply to this post by zhisheng
Hi,zhisheng

1.默认的刷新时间10s以及5s都测试过,真实体验是反应时间有点长,达到分钟级别,猜测这个参数的设置意义不大;
2.其实页面提供了Runing job
List,理论上是可以展示的,如果不能展示,web用的同一套前端代码的话,觉得有点鸡肋。使用起来,目前只能查看job的一些统计信息,如
ck相关,dag相关。

使用Filnk on yarn per job提交方式, 已经启动了yarn
JobHistoryServer,应该是不会产生影响的,除了sql其他api的任务监控正常。
    对于大佬提出的问题:1.由于目前是测试阶段,没有上生产,依照yarn-session的running job
list展示模式,官方没有对页面进行分页操作,需要自己改源码。
       问题2:1.10版本对日志的展示不是很友好,1.11可以滚动文件展示,至于jm 和 tm
日志怎么获取,受限于官网文档资料的限制,现在还没有解决,我这里现在还是依赖yarn的job history
server以及聚合日志功能进行bug分析。如有进展会在此继续讨论,欢迎分享新成果。

Best,
Robin



zhisheng wrote

> Hi Robin:
>
> 1、是不是更改了刷新时间?一直不显示吗?
>
> 2、running 的作业不会显示的,你可以之间在 yarn 查看,history server 应该是只提供展示挂掉的作业
>
> PS:另外提几个 history server 的问题
>
> 1、挂掉的作业展示能否支持分页呢?目前直接在一个页面全部展示了历史所有的作业,打开会很卡
>
> 2、有办法可以查看挂掉作业的 jm 和 tm 日志吗?因为 HDFS
> 其实是有日志,按道理是可以拿到日志信息然后解析展示出来的,Spark history server 也是可以查看挂掉作业的日志
>
>
> Best!
> zhisheng
>
> Robin Zhang &lt;

> vincent2015qdlg@

> &gt; 于2020年10月22日周四 下午6:11写道:
>
>>
>> 如下图,Flink 1.10 on yarn per job提交方式,如果是java datastream 以及table
>> api开发的应用,能够被jm正常拉取统计信息,但是sql化的job没有办法被历史服务器监控。
>> 使用的sql不完全是官网的,但是是经过转化为datastream,以on yarn per
>> job方式提交到yarn运行的,只是多了个sql解析动作。不能理解
>>
>> ,为什么历史服务器没有加载job信息到hdfs上的目标目录。查看jobmanager日志以及configuration都能确定jm加载到了历史服务器的相关配置。
>>
>> <
>> http://apache-flink.147419.n8.nabble.com/file/t447/%E5%8E%86%E5%8F%B2%E6%9C%8D%E5%8A%A1%E5%99%A8.png>
>>
>>
>>
>>
>>
>>
>> --
>> Sent from: http://apache-flink.147419.n8.nabble.com/





--
Sent from: http://apache-flink.147419.n8.nabble.com/
Reply | Threaded
Open this post in threaded view
|

Re: Flink1.10 history server无法监控 FlinkSQL任务

LiangbinZhang
In reply to this post by yujianbo
Hi,yujianbo

只要任务结束,不管是cancel、failed、killed都会在history sever展示,
可以先去hdfs查看配置的目录是否存在任务相关的文件夹;也可以尝试重启一下history
server试试。麻烦问一下,你的任务使用什么api写的,以及版本、提交方式?


----------------------------------------------------------------------------------------


yujianbo wrote
> 大佬,我发现我配置完后就只能看到完成的任务在history sever上面,失败的看不到。现在疑惑的是失败的能不能出现在history server
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/





--
Sent from: http://apache-flink.147419.n8.nabble.com/