FLINK WEEKLY 2019/42

classic Classic list List threaded Threaded
1 message Options
Reply | Threaded
Open this post in threaded view
|

FLINK WEEKLY 2019/42

tison
FLINK WEEKLY 2019/42 <https://zhuanlan.zhihu.com/p/87746350>

很高兴和大家分享上周 FLINK 社区的发展。上周 Jark Wu 主导发布了 FLINK 1.9.1 版本,该版本修复了 1.9.0
上的一系列缺陷,欢迎 FLINK 的用户及时更新到 1.9.1 以避免被 1.9.0 的缺陷所困扰。
用户问题

如何限制blink中资源使用上限(perjob模式)
<https://lists.apache.org/thread.html/283ed06fbd8f4c8d7ade1a5d39f4ab3f6883f454bf0d827861291287@%3Cuser-zh.flink.apache.org%3E>

Flink 1.9 SQL/TableAPI 设置uid及State 更新问题
<https://lists.apache.org/thread.html/01ebfe9fc15945277338b6cb1f910aa2b0673ff53d5454fa75768ab2@%3Cuser-zh.flink.apache.org%3E>

如何修改checkpoint生成的_metadata文件中的hdfs路径
<https://lists.apache.org/thread.html/6b48b49d652b8a66cebb094b5b94a5bd42a8c32ede302e6188b566cf@%3Cuser-zh.flink.apache.org%3E>

使用flink-sql实现mysql维表的join的ddl和dml的示列
<https://lists.apache.org/thread.html/653d04f58f0d9f5a4290a0f2ba733bd77bf04e14383aa67517f54f06@%3Cuser-zh.flink.apache.org%3E>

Data processing with HDFS local or remote
<https://lists.apache.org/thread.html/84fd34d7cb4ac64989b2fb77965fc89ee180c55306798e5f850465d7@%3Cuser.flink.apache.org%3E>

FLINK 的批作业在读取 HDFS 的输入的时候如何尽量让 task 部署在存储输入的机器上以利用局部性提升作业性能。FLINK
内部已经完成了这个局部性优化,邮件列表上 Zhu Zhu 详细介绍了 FLINK 的实现细节

Submitting jobs via REST
<https://lists.apache.org/thread.html/72587d4684bb38a702fbb61f9b683a1b7e97676ba0d6fb3e6b000de5@%3Cuser.flink.apache.org%3E>

通过 FLINK 的 JarRun REST API 提交作业的方式

Customize Part file naming (Flink 1.9.0)
<https://lists.apache.org/thread.html/961d2e979cfb4be79504661b876f22330f19d66b2a97d7399e858528@%3Cuser.flink.apache.org%3E>

自定义 StreamingFileSink 的部分名称,这次是在英文 user 列表上提问的,同样的问题上周在 user-zh 列表上有人提问过

ProcessFunction Timer
<https://lists.apache.org/thread.html/5180389a4c0c79677e2c6da3c531816b2a16f3fdfc51d8df74404606@%3Cuser.flink.apache.org%3E>

关于在 Window 中使用合适的 Timer 完成具体业务逻辑的问题

JDBC Table Sink doesn't seem to sink to database.
<https://lists.apache.org/thread.html/71f05d02553e0a5d6b44e6a9339aa0dbe0664a952182ee73a96e9db8@%3Cuser.flink.apache.org%3E>

JDBC Table Sink 使用上的一些问题,batch interval 会导致只在 Sink 接收到指定数目的数据后才 flush
数据,可能导致末尾数据一直不被 flush

Warnings connecting to Akka
<https://lists.apache.org/thread.html/f4ed2591edbfa29c27637b2499507db2550a6dfdfde06d06b1f43c4f@%3Cuser.flink.apache.org%3E>

akka connection refused 可能是意料中的异常,发生在 akka 试图重新连接一个已经失效的 endpoint 的时候,当
FLINK 通过心跳机制发现 endpoint 已经丢失,将不再试图重新连接

Jar Uploads in High Availability (Flink 1.7.2)
<https://lists.apache.org/thread.html/af50a190c14ac507528a2a1a2c19deae895f64671cfdb1be210889b9@%3Cuser.flink.apache.org%3E>

在 k8s 上启动多个 FLINK 集群做 HA 的时候,由于 k8s 的网络路由机制,可能会导致 Web UI 的请求被转发到不同的
Dispatcher 上,从而使得 Web UI 工作不稳定

Is it possible to get Flink job name in an operator?
<https://lists.apache.org/thread.html/c04f85ed58cbf560493519e827293e32152ca7506c487363f1fef76b@%3Cuser.flink.apache.org%3E>

不太可能在算子中获取 Job 的名字,但是可以在用户层面事先设置 Job 名字,并在启动的时候使用这个名字,在算子中也使用同样的名字

Discard message on deserialization errors
<https://lists.apache.org/thread.html/ec8c57cd14a3f44a97644a5669b729068630aa4fc0909153bb41c8a0@%3Cuser.flink.apache.org%3E>

Kafka Connector 使用 KafkaDeserializationSchema 反序列化数据时在无法反序列化时返回 null 即可丢弃该数据
已知缺陷

FLINK-14429 Wrong app final status when running batch job on yarn with
non-detached mode <https://issues.apache.org/jira/browse/FLINK-14429>

YARN 上 non-detached 部署的作业状态显示为 SUCCEEDED 但是可能其实作业是失败的,这跟 FLINK 的 per-job
实现有关,由于涉及到 hack 的逻辑,目前暂时没有一个明确的解法处理这个问题
开发讨论

[DISCUSS] Stateful Functions - in which form to contribute? (same or
different repository)
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Stateful-Functions-in-which-form-to-contribute-same-or-different-repository-td34034.html>

Stephan 发起了关于如何将 Stateful Functions 贡献回 FLINK
社区的讨论,主要集中在是否以独立的仓库存在和文档与构建的一些处理上

[NOTICE] Binary licensing is now auto-generated
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/NOTICE-Binary-licensing-is-now-auto-generated-td34121.html>

Chesnay Schepler 把 FLINK 的 NOTICE 文件生成放到 release 的自动化步骤中,可以减轻开发者关注 NOTICE
文件的负担

[DISUCSS] FLIP-80: Expression String Serializable and Deserializable
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISUCSS-FLIP-80-Expression-String-Serializable-and-Deserializable-td34146.html>

Jark Wu 的 FLIP-80 旨在解决如何序列化/反序列化 catalog 中的 expression

[DISCUSS] Rename the SQL ANY type to OPAQUE type
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Rename-the-SQL-ANY-type-to-OPAQUE-type-td34162.html>

Timo Walther 发起了将 SQL 中 ANY 类型改名为 OPAQUE 类型的讨论,主要是因为目前的 ANY
类型代表的是一种用户自定义序列化的对于 FLINK 来说的黑盒类型,而不是真正的任意类型

[DISCUSS] FLIP-59: Enable execution configuration from Configuration object
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-59-Enable-execution-configuration-from-Configuration-object-td32359.html>

FLIP-59 关于将 Execution 配置加入到 Configuration 的讨论由于 FLIP-73
涉及相关的议题开始重新讨论,主要集中在相关概念的厘清和命名问题上

[ARM support] Travis ARM CI is now in Alpha Release
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/ARM-support-Travis-ARM-CI-is-now-in-Alpha-Release-td34039.html>

Xiyuan Wang 同步了 FLINK on ARM 的测试的进度,目前 Travis 支持了 ARM 架构的测试环境,他提议将 FLINK on
ARM 的测试尽快的搭建起来

[DISCUSS] FLIP policy for introducing config option keys
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-policy-for-introducing-config-option-keys-td34011.html>

Aljoscha Krettek 发起了关于将配置选项的改动作为 FLIP 严格走流程的讨论。目前社区基本同意要求此类改动有一个投票的流程,但是是否和
FLIP 一样严格还在讨论中
社区发展

[ANNOUNCE] Apache Flink 1.9.1 released
<https://lists.apache.org/thread.html/5767be2084a5b1d3559fd381e344ec29adc06c9b35754e53d55aadc6@%3Cuser-zh.flink.apache.org%3E>

Jark Wu 主导发布了 FLINK 1.9.1 版本,该版本修复了 1.9.0 上的一系列缺陷