flink正则读取hdfs目录下的文件

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

flink正则读取hdfs目录下的文件

阿华田
input_data = "hdfs://localhost:9002/tmp/match_bak/%s*[0-9]" % ('2018-07-16’)
result = sc.textFile(input_data)
flink可以像spark一样正则读取hdfs目录下的文件吗?目前测试好像不行,如果不支持,最早什么版本会支持呢?


| |
王志华
|
|
[hidden email]
|
签名由网易邮箱大师定制

Reply | Threaded
Open this post in threaded view
|

Re: flink正则读取hdfs目录下的文件

Jingsong Li
Hi,

我们在1.11已经支持了较完整的filesystem支持,并且支持分区。(csv,json,avro,parquet,orc)

对于灵活的read,争取在1.12完成。已经有issue了:
https://issues.apache.org/jira/browse/FLINK-17398

Best,
Jingsong Lee

On Fri, May 22, 2020 at 10:47 AM 阿华田 <[hidden email]> wrote:

> input_data = "hdfs://localhost:9002/tmp/match_bak/%s*[0-9]" %
> ('2018-07-16’)
> result = sc.textFile(input_data)
> flink可以像spark一样正则读取hdfs目录下的文件吗?目前测试好像不行,如果不支持,最早什么版本会支持呢?
>
>
> | |
> 王志华
> |
> |
> [hidden email]
> |
> 签名由网易邮箱大师定制
>
>

--
Best, Jingsong Lee