|
各位大家好:
在我的项目遇到需要解析大量xml文件的需求,具体描述为以下几点:
1. xml文件按照一定时间周期提供:每15分钟一批
2. 文件以gz方式压缩,基本都是小文件:1M以内
3. 小文件很多,每一批有2万左右
4. 需要解析xml文件中所有标签内的数据
5. 将标签内的数据进行简单的加减乘除后sink到clickhouse
由于没有使用PyFlink的经验,想咨询一下,使用PyFlink实现以上目标的路径,最好有
Source的例子:监控本地文件系统的目录、解压缩并读取新生成的xml文件。
非常期待和感谢您们的时间和解答!
|