FLINK WEEKLY 2019/44

classic Classic list List threaded Threaded
1 message Options
Reply | Threaded
Open this post in threaded view
|

FLINK WEEKLY 2019/44

tison
FLINK WEEKLY 2019/44 <https://zhuanlan.zhihu.com/p/90155442>用户问题

Flink State 过期清除 TTL 问题
<https://lists.apache.org/x/thread.html/639627737fb1ff4e21f405b4c69e95ddb731e1357b2e228f8ccc99b4@%3Cuser-zh.flink.apache.org%3E>

回答包括了相关配置的设置和不同设置对应的清理时机

如何过滤异常的timestamp?
<https://lists.apache.org/x/thread.html/9f3e13aa2e58e64c4de2a2a6d7e0de53f7aec1786e31c68d3bc64894@%3Cuser-zh.flink.apache.org%3E>

EventTime 不可靠的时候采用 IngestionTime 过滤异常值

Flink 的 log 文件夹下产生了 34G 日志
<https://lists.apache.org/x/thread.html/3acc4de2a79f5c8b660659f9a48e23ec4338ebd8bc187b5bf2181988@%3Cuser-zh.flink.apache.org%3E>

重复的错误日志为 BlobServer 失败,可能是由于 Blob 文件被异常删除导致的。由于删除在 FLINK 框架外,FLINK
无限重试获取不存在的 Blob 文件产生了大量的日志

Flink SQL + savepoint
<https://lists.apache.org/x/thread.html/066ece099cc2c2dc8b8a32669229df48166a2a8af40d5aadbae9c23b@%3Cuser.flink.apache.org%3E>

Flink SQL 暂时不支持设置 uid

low performance in running queries
<https://lists.apache.org/x/thread.html/ffea739cf6776bbca520cda30d49ac70939a998e4a5acb953188a8c6@%3Cuser.flink.apache.org%3E>
Flink
1.5+ performance in a Java standalone environment
<https://lists.apache.org/x/thread.html/65ac92dc964c5c1b7a6e0987f300894e31f9033e214d5df197556036@%3Cuser.flink.apache.org%3E>

两个可能的性能问题

RemoteEnvironment cannot execute job from local.
<https://lists.apache.org/x/thread.html/83340a5a7bb6023897090f75efd2a2473f8eb9f82963bf3769709140@%3Cuser.flink.apache.org%3E>

回答介绍了如何使用 RemoteEnvironment 执行 FLINK 作业,主要是作业依赖的 jar 的上传的问题

Sending custom statsd tags
<https://lists.apache.org/x/thread.html/1f1538a86e3f9bc5a9019ead00366c29ade70f7ec5c6d51fbd1b14b9@%3Cuser.flink.apache.org%3E>

StatsD 作为 Metric Reporter 的时候暂时不支持定制化的 tag,需要用户自己扩展定制

[FlinkSQL] is there a way to read/write local json data in Flink SQL like
that of kafka?
<https://lists.apache.org/x/thread.html/72453bedb4fe974ec82a77102527d0148adde5583243bfe4fc0076e5@%3Cuser.flink.apache.org%3E>

FLINK 不支持开箱即用的读写本地 JSON 数据,但是可以通过组合现有功能实现类似的效果

Flink 1.8.1 HDFS 2.6.5 issue
<https://lists.apache.org/x/thread.html/1fa164ec8fee49e739761499c30ca4ea0bcc60310fb4b26f494bfc10@%3Cuser.flink.apache.org%3E>

Hadoop 的 BUG 导致配置 Kerberos+SSL 的时候 CryptoCodec 可能为 null

Checkpoint failed all the time
<https://lists.apache.org/x/thread.html/4c1da5925da7351eb24303d877537464a7178f5afc03bfb806ff862d@%3Cuser-zh.flink.apache.org%3E>

用户作业一直 checkpoint 失败,FLINK 1.9.0 实现了在 checkpoint 失败一定次数的情况下挂掉作业

Testing AggregateFunction() and ProcessWindowFunction() on KeyedDataStream
<https://lists.apache.org/x/thread.html/fb2c178c73f3bd5c6dcc3689fe6a1b88e3951e86620477f388c9bd48@%3Cuser.flink.apache.org%3E>

FLINK 内部测试代码中有丰富的测试套件(Harness)和测试样例可以参考
开发讨论

[ANNOUNCE] Progress of Apache Flink 1.10 #2
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/ANNOUNCE-Progress-of-Apache-Flink-1-10-2-td34585.html>

Gary Yao 更新了 FLINK 1.10 中计划内的新特性的开发进度

FLIP-83: Flink End-to-end Performance Testing Framework
<https://cwiki.apache.org/confluence/display/FLINK/FLIP-83%3A+Flink+End-to-end+Performance+Testing+Framework>

Yu Li 发起了 FLIP-83 的讨论,旨在为 FLINK 或者更广泛地说,流计算系统建立一套端到端的性能测试框架

[DISCUSS] FLIP-84: Improve & Refactor API of Table Module
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-84-Improve-amp-Refactor-API-of-Table-Module-td34537.html>

Terry Wang 发起了 FLIP-84 的讨论,旨在重构部分设计不良的 Table API

[DISCUSS] Semantic and implementation of per-job mode
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Semantic-and-implementation-of-per-job-mode-td34502.html#a34520>

tison 发起了关于 FLINK 中 per-job 模式语义的讨论。这主要是在实现 Flink on k8s 中重新审视 FLINK
的语义发现的问题,FLINK 目前的 per-job
模式将集群管理、作业管理和阻塞/非阻塞作业执行混杂在一起,缺乏一个明确的概念划分和配置。如果你使用了 FLINK per-job
模式并且喜欢它的某些行为或者认为某些行为出乎你的意料,欢迎回复这个邮件列表表达你的看法

[DISCUSS] Move flink-orc to flink-formats from flink-connectors
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Move-flink-orc-to-flink-formats-from-flink-connectors-td34438.html>

Jingsong Lee 发起了关于将 flink-orc 模块移动到 flink-formats 的讨论,这主要是为了正确的分类
社区发展

[ANNOUNCE] Becket Qin joins the Flink PMC
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/ANNOUNCE-Becket-Qin-joins-the-Flink-PMC-td34400.html>

Becket Qin 成为了 FLINK 的 PMC

FLINK FORWARD: THE KEY TAKEAWAYS
<https://research.euranova.eu/flink-forward-the-key-takeaways/>

Euroa Nova 撰写了 Flink Forward Europe 的总结

Streaming ETL With Apache Flink - Part 1
<https://dzone.com/articles/introduction-to-streaming-etl-with-apache-flink>

Preetdeep Kumar 撰写了一篇使用 FLINK 做流 ETL 的文章