Flink TaskManager失败的日志关键词

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

Flink TaskManager失败的日志关键词

nobleyd
如题,有人知道关键词吗,每次失败日志太多哦。
显示各种task的cancel等。
最后突然就失败了。。。

目前感觉经常是因为cancel(180s)。导致Task did not exit gracefully within 180 + seconds。


此外,大家生产中会修改日志格式和日志文件吗。我调整了之后WEB-UI上那个日志从来没能看过。现在虽然有个日志list,但点了也没效果。

我调整了日志文件名。
Reply | Threaded
Open this post in threaded view
|

Re: Flink TaskManager失败的日志关键词

zhuxiaoshang
Hi,
一般搜索Exception、Error、Fail之类的吧,如果是TM因为内存超用被kill的话 可以搜索container、kill之类的关键字

> 2020年12月25日 下午1:43,赵一旦 <[hidden email]> 写道:
>
> 如题,有人知道关键词吗,每次失败日志太多哦。
> 显示各种task的cancel等。
> 最后突然就失败了。。。
>
> 目前感觉经常是因为cancel(180s)。导致Task did not exit gracefully within 180 + seconds。
>
>
> 此外,大家生产中会修改日志格式和日志文件吗。我调整了之后WEB-UI上那个日志从来没能看过。现在虽然有个日志list,但点了也没效果。
>
> 我调整了日志文件名。

Reply | Threaded
Open this post in threaded view
|

Re: Flink TaskManager失败的日志关键词

r pp
  嗨~ 从flink 的启动 sh 文件里面可以看到,启动java 虚拟机的时候,就设置好 日志文件名了。改了名字,这次的JOB

https://github.com/apache/flink/pull/11839/files

FLINK_LOG_PREFIX="${FLINK_LOG_DIR}/flink-${FLINK_IDENT_STRING}-${SERVICE}-
${id}-${HOSTNAME}"
log="${FLINK_LOG_PREFIX}.log"
log_setting=("-Dlog.file=${log}" "-Dlog4j.configuration=fil 。。。。
exec $JAVA_RUN $JVM_ARGS ${FLINK_ENV_JAVA_OPTS} "${log_setting[@]}"  。。。。

在启动一个jvm 时,日志配置信息已经写好了
eg:
java  -Xmx1073741824 -Xms1073741824 -XX:MaxMetaspaceSize=268435456
 -Dlog.file=/

root/flink-1.12.0/log/flink-root-standalonesession-0-iZ0jli08ce7m36qzwgalk4Z.log
。。。

zhuxiaoshang <[hidden email]> 于2020年12月25日周五 下午4:53写道:

> Hi,
> 一般搜索Exception、Error、Fail之类的吧,如果是TM因为内存超用被kill的话 可以搜索container、kill之类的关键字
>
> > 2020年12月25日 下午1:43,赵一旦 <[hidden email]> 写道:
> >
> > 如题,有人知道关键词吗,每次失败日志太多哦。
> > 显示各种task的cancel等。
> > 最后突然就失败了。。。
> >
> > 目前感觉经常是因为cancel(180s)。导致Task did not exit gracefully within 180 +
> seconds。
> >
> >
> > 此外,大家生产中会修改日志格式和日志文件吗。我调整了之后WEB-UI上那个日志从来没能看过。现在虽然有个日志list,但点了也没效果。
> >
> > 我调整了日志文件名。
>
>