大家好,本文为 Flink Weekly 的第二十四期,由王松整理,李本超Review。
本期主要内容包括:近期社区开发进展、邮件问题答疑、Flink 最新社区动态及技术文章推荐等。 社区开发进展 Release [releases] Flink 1.11.1 正式发布! 具体信息参考: http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/ANNOUNCE-Apache-Flink-1-11-1-released-td43335.html Vote [vote] 伍翀发起Refactor Descriptor API to register connectors in Table API的投票 http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/VOTE-FLIP-129-Refactor-Descriptor-API-to-register-connector-in-Table-API-td43420.html [vote] Shuiqiang Chen发起支持 Python DataStream API (Stateless part) 的投票 http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/VOTE-FLIP-130-Support-for-Python-DataStream-API-Stateless-Part-td43424.html Discuss [connector] 李本超发起了关于对齐 InputFormat#nextRecord 返回为空值语义的讨论。目前还没有明确的相关 java doc,flink 中通常有三种处理方式: 1. 将 null 作为输入的结尾 2. 跳过 null 3. 假定 InputFormat#nextRecord 中的值不能为 null http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Align-the-semantic-of-returning-null-from-InputFormat-nextRecord-td43379.html [releases] Robert Metzger发起了关于发布 Flink 1.12 计划的讨论,并决定在9月底之前冻结master的功能。 http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Planning-Flink-1-12-td43348.html#a43383 [connector] Israel Ekpo发起了关于在 DataStream、Table 和 SQL Connectors 中支持 Azure 平台的讨论,并列出了相关的issue,来跟踪这些 connectors 对 Azure 平台做出的贡献,目前在用户邮件列表中已经有大约50个 Azure 相关的主题,这也证明了 Flink 在Azure平台上的使用度 http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Adding-Azure-Platform-Support-in-DataStream-Table-and-SQL-Connectors-td43342.html [connector] Seth Wiesman 发起了关于使用 LIKE 子句创建的 DataGen 表中的时间戳处理问题,目前 DataGen 表只支持 FLINK SQL 的部分字段类型, 比如 TIMESTAMP(3) 就不支持,文档中建议是使用计算列创建事件时间属性。在 DataGen 表中使用 LIKE 子句时,如果物理表是 kafka 表就会报错。 Seth Wiesman 给出了两种解决方式: 1. 在datagen表中支持TIMESTAMP 2. 放宽 LIKE 子句的约束,允许使用计算列覆盖物理列 http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/Discuss-Handling-of-Timestamp-in-DataGen-table-created-via-LIKE-td43433.html [release] Robert Metzger 发起了关于过时blockers和不稳定build的讨论,希望将此作为长期的讨论组,定期同步过时的blocker和不稳定的build,并列出了一些test http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Release-1-12-Stale-blockers-and-build-instabilities-td43477.html 用户问题 [sql] 刘首维 提问如果基于Flink1.11新的API去开发的话,如何获取到DataStream?并列举了几个使用场景: 1. 我们现在有某种特定的Kafka数据格式,1条Kafka数据 会对应转换n(n为正整数)条Row数据,我们的做法是在emitDataStream的时候增加了一个process/FlatMap阶段, 2. 用于处理这种情况,这样对用户是透明的。 3. 我们目前封装了一些自己的Sink,我们会在Sink之前增加一个process/Filter 用来做缓冲池/微批/数据过滤等功能 4. 调整或者指定Source/Sink并行度为用户指定值,我们也是在DataStream层面上去做的 5. 对于一些特殊Source Sink,他们会和KeyBy操作组合(对用户透明),我们也是在DataStream层面上去做的 云邪进行了回答, 1. 场景1建议做在 DeserializationSchema。 2. 场景2建议封装在 SinkFunction。 3. 场景3社区有计划在 FLIP-95 之上支持,会提供并发(或者分区)推断的能力。 4. 场景4可以通过引入类似 SupportsPartitioning 的接口实现。 并建了一个issue来跟进 [https://issues.apache.org/jira/browse/FLINK-18674] http://apache-flink.147419.n8.nabble.com/1-11Flink-SQL-API-td5261.html#a5275 [sql] Dream-底限 提问如何在eval()方法中传递Row类型? godfrey he、云邪和李本超进行了回答,可以参考[ https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/functions/udfs.html#implementation-guide ]进行实现, 但是Dream-底限需要的是 Row[] 作为eval参数,目前并不支持,社区有 issue[ https://issues.apache.org/jira/browse/FLINK-17855] 正在跟进解决,针对 Dream-底限 打平array的具体场景, 本超提出参考 [ https://ci.apache.org/projects/flink/flink-docs-master/dev/table/sql/queries.html#joins] 的”Expanding arrays into a relation“部分使用flink内置方法解决 http://apache-flink.147419.n8.nabble.com/flink1-11-tablefunction-td5229.html [sql] junbaozhang 提出flink 1.11 executeSql查询kafka表print没有输出? godfrey he进行了回答,1.11的 TableResult.collect() 和 TableResult.print() 方法在流模式下, 都是exactly once语义,需要配置checkpoint才能得到结果。 http://apache-flink.147419.n8.nabble.com/flink-1-11-executeSql-kafka-print-td5367.html#a5370 活动博客文章及其他 共享很重要 —— Flink SQL 中的 catalogs https://flink.apache.org/2020/07/23/catalogs.html Flink 1.11 SQL 使用攻略 https://mp.weixin.qq.com/s/BBRw3sR323d-jaxxONYknQ 高能预警!Apache Flink Meetup · 上海站返场啦 https://mp.weixin.qq.com/s/2k4os3FakPde8IGPtSvglA 你与30W奖金只差一个 Apache Flink 极客挑战赛的报名 https://mp.weixin.qq.com/s/IW6VKWVTrzO1lTDZxJfPXQ |
Free forum by Nabble | Edit this page |