Flink catalog的几个疑问

classic Classic list List threaded Threaded
6 messages Options
Reply | Threaded
Open this post in threaded view
|

Flink catalog的几个疑问

dixingxing85@163.com
Hi Flink社区:
有几个疑问希望社区小伙伴们帮忙解答一下:
1.个人感觉Flink很有必要提供一个官方的catalog,用来支持各种connector,比如:kafka,jdbc,hbase等等connector。不知道社区有没有这个打算,目前没有看到对应的flip
2.社区对hive catalog的定位是什么,后续有可能转正为flink 默认的catalog实现吗?
3.hive catalog是不支持大小写敏感的(字段名都是小写),这个后续会带来哪些问题?想征集下大家的意见避免我们以后踩大坑。




Best,
Xingxing Di
Reply | Threaded
Open this post in threaded view
|

Re: Flink catalog的几个疑问

godfrey he
hi Xingxing,

1. Flink 提供了一套catalog的接口,提提供了几个内置的实现:in-memory catalog, hive catalog,
postgres catalog,
可以根据自己的需求选择。也可以实现自定义的catalog。参考 [1]
2. hive catalog 主要是对接 hive,方便读取现有的hive catalog的meta信息。当然也可以往hive
catalog写新的meta。
是否会转为默认catalog,据我所知,目前没有。
3. 一般没什么问题。在和其他区分大小写的db对接的时候,可能有问题。

Best,
Godfrey

[hidden email] <[hidden email]> 于2020年7月21日周二 下午11:30写道:

> Hi Flink社区:
> 有几个疑问希望社区小伙伴们帮忙解答一下:
>
> 1.个人感觉Flink很有必要提供一个官方的catalog,用来支持各种connector,比如:kafka,jdbc,hbase等等connector。不知道社区有没有这个打算,目前没有看到对应的flip
> 2.社区对hive catalog的定位是什么,后续有可能转正为flink 默认的catalog实现吗?
> 3.hive catalog是不支持大小写敏感的(字段名都是小写),这个后续会带来哪些问题?想征集下大家的意见避免我们以后踩大坑。
>
>
>
>
> Best,
> Xingxing Di
>
Reply | Threaded
Open this post in threaded view
|

Re: Flink catalog的几个疑问

Jingsong Li
Hi,

HiveCatalog就是官方唯一的可以保存所有表的持久化Catalog,包括kafka,jdbc,hbase等等connectors。

> 后续有可能转正为flink 默认的catalog实现吗?

目前不太可能,你看,Flink连Hadoop的依赖都没有打进来。Hive的依赖更不会默认打进来。 依赖都没有,也不会成为默认的。

> hive catalog是不支持大小写敏感的

是的,就像Godfrey说的,特别是JDBC对接的某些大小写敏感的db,这可能导致字段名对应不了。

Best,
Jingsong

On Wed, Jul 22, 2020 at 10:39 AM godfrey he <[hidden email]> wrote:

> hi Xingxing,
>
> 1. Flink 提供了一套catalog的接口,提提供了几个内置的实现:in-memory catalog, hive catalog,
> postgres catalog,
> 可以根据自己的需求选择。也可以实现自定义的catalog。参考 [1]
> 2. hive catalog 主要是对接 hive,方便读取现有的hive catalog的meta信息。当然也可以往hive
> catalog写新的meta。
> 是否会转为默认catalog,据我所知,目前没有。
> 3. 一般没什么问题。在和其他区分大小写的db对接的时候,可能有问题。
>
> Best,
> Godfrey
>
> [hidden email] <[hidden email]> 于2020年7月21日周二 下午11:30写道:
>
> > Hi Flink社区:
> > 有几个疑问希望社区小伙伴们帮忙解答一下:
> >
> >
> 1.个人感觉Flink很有必要提供一个官方的catalog,用来支持各种connector,比如:kafka,jdbc,hbase等等connector。不知道社区有没有这个打算,目前没有看到对应的flip
> > 2.社区对hive catalog的定位是什么,后续有可能转正为flink 默认的catalog实现吗?
> > 3.hive catalog是不支持大小写敏感的(字段名都是小写),这个后续会带来哪些问题?想征集下大家的意见避免我们以后踩大坑。
> >
> >
> >
> >
> > Best,
> > Xingxing Di
> >
>


--
Best, Jingsong Lee
Reply | Threaded
Open this post in threaded view
|

Re: Flink catalog的几个疑问

Jark
Administrator
非常欢迎贡献开源一个轻量的 catalog 实现 :)

On Wed, 22 Jul 2020 at 10:53, Jingsong Li <[hidden email]> wrote:

> Hi,
>
> HiveCatalog就是官方唯一的可以保存所有表的持久化Catalog,包括kafka,jdbc,hbase等等connectors。
>
> > 后续有可能转正为flink 默认的catalog实现吗?
>
> 目前不太可能,你看,Flink连Hadoop的依赖都没有打进来。Hive的依赖更不会默认打进来。 依赖都没有,也不会成为默认的。
>
> > hive catalog是不支持大小写敏感的
>
> 是的,就像Godfrey说的,特别是JDBC对接的某些大小写敏感的db,这可能导致字段名对应不了。
>
> Best,
> Jingsong
>
> On Wed, Jul 22, 2020 at 10:39 AM godfrey he <[hidden email]> wrote:
>
> > hi Xingxing,
> >
> > 1. Flink 提供了一套catalog的接口,提提供了几个内置的实现:in-memory catalog, hive catalog,
> > postgres catalog,
> > 可以根据自己的需求选择。也可以实现自定义的catalog。参考 [1]
> > 2. hive catalog 主要是对接 hive,方便读取现有的hive catalog的meta信息。当然也可以往hive
> > catalog写新的meta。
> > 是否会转为默认catalog,据我所知,目前没有。
> > 3. 一般没什么问题。在和其他区分大小写的db对接的时候,可能有问题。
> >
> > Best,
> > Godfrey
> >
> > [hidden email] <[hidden email]> 于2020年7月21日周二 下午11:30写道:
> >
> > > Hi Flink社区:
> > > 有几个疑问希望社区小伙伴们帮忙解答一下:
> > >
> > >
> >
> 1.个人感觉Flink很有必要提供一个官方的catalog,用来支持各种connector,比如:kafka,jdbc,hbase等等connector。不知道社区有没有这个打算,目前没有看到对应的flip
> > > 2.社区对hive catalog的定位是什么,后续有可能转正为flink 默认的catalog实现吗?
> > > 3.hive catalog是不支持大小写敏感的(字段名都是小写),这个后续会带来哪些问题?想征集下大家的意见避免我们以后踩大坑。
> > >
> > >
> > >
> > >
> > > Best,
> > > Xingxing Di
> > >
> >
>
>
> --
> Best, Jingsong Lee
>
Reply | Threaded
Open this post in threaded view
|

答复: Flink catalog的几个疑问

刘首维
hi all, 我在想如果社区提供一个unified metastore server是不是会解决这个问题,然后写一个(一系列)catalog和这个metastore对应

________________________________
发件人: Jark Wu <[hidden email]>
发送时间: 2020年7月22日 11:22:56
收件人: user-zh
主题: Re: Flink catalog的几个疑问

非常欢迎贡献开源一个轻量的 catalog 实现 :)

On Wed, 22 Jul 2020 at 10:53, Jingsong Li <[hidden email]> wrote:

> Hi,
>
> HiveCatalog就是官方唯一的可以保存所有表的持久化Catalog,包括kafka,jdbc,hbase等等connectors。
>
> > 后续有可能转正为flink 默认的catalog实现吗?
>
> 目前不太可能,你看,Flink连Hadoop的依赖都没有打进来。Hive的依赖更不会默认打进来。 依赖都没有,也不会成为默认的。
>
> > hive catalog是不支持大小写敏感的
>
> 是的,就像Godfrey说的,特别是JDBC对接的某些大小写敏感的db,这可能导致字段名对应不了。
>
> Best,
> Jingsong
>
> On Wed, Jul 22, 2020 at 10:39 AM godfrey he <[hidden email]> wrote:
>
> > hi Xingxing,
> >
> > 1. Flink 提供了一套catalog的接口,提提供了几个内置的实现:in-memory catalog, hive catalog,
> > postgres catalog,
> > 可以根据自己的需求选择。也可以实现自定义的catalog。参考 [1]
> > 2. hive catalog 主要是对接 hive,方便读取现有的hive catalog的meta信息。当然也可以往hive
> > catalog写新的meta。
> > 是否会转为默认catalog,据我所知,目前没有。
> > 3. 一般没什么问题。在和其他区分大小写的db对接的时候,可能有问题。
> >
> > Best,
> > Godfrey
> >
> > [hidden email] <[hidden email]> 于2020年7月21日周二 下午11:30写道:
> >
> > > Hi Flink社区:
> > > 有几个疑问希望社区小伙伴们帮忙解答一下:
> > >
> > >
> >
> 1.个人感觉Flink很有必要提供一个官方的catalog,用来支持各种connector,比如:kafka,jdbc,hbase等等connector。不知道社区有没有这个打算,目前没有看到对应的flip
> > > 2.社区对hive catalog的定位是什么,后续有可能转正为flink 默认的catalog实现吗?
> > > 3.hive catalog是不支持大小写敏感的(字段名都是小写),这个后续会带来哪些问题?想征集下大家的意见避免我们以后踩大坑。
> > >
> > >
> > >
> > >
> > > Best,
> > > Xingxing Di
> > >
> >
>
>
> --
> Best, Jingsong Lee
>
Reply | Threaded
Open this post in threaded view
|

Re: Re: Flink catalog的几个疑问

dixingxing85@163.com
In reply to this post by Jark
@Godfrey @Jingsong 感谢回复,很好的解答了我的疑惑!
背景是这样的,目前我们正打算实现一套支持持久化的catalog,同时基于这个catalog实现一个metaserver,对外暴露REST接口,用来支持日常管理操作,比如:
1.基于原生DDL管理source,sink,支持多种connector,并将这些元数据持久化到mysql中。
2.做统一的权限控制

我们面临两种选择:
1.基于hive catalog建设自己的catalog(或者说直接使用hive catalog):
优势:鉴于hive catalog已经相对比较完善,直接使用可以减少开发量。
劣势:不太明确社区对hive catalog的定位;大小写不敏感带来的麻烦。(大致是之前提到的3个问题)

2.完全自建catalog:
优势:灵活可控;依然可以利用已有的catalog
劣势:设计开发成本高,引入大量代码可能需要持续维护(比如后续catalog api发生变动);同时如果社区后续提供官方的catalog默认实现,我们会再次面临是否切换的问题。

目前我们是倾向于自建catalog的。

@Jark 默认的catalog应该算是个通用的需求,感觉在批流一体的大势下,是挺重要的一步(目前hive catalog可能还不够)。另外很多公司都在基于开源Flink做计算平台,如果Flink有默认catalog并提供metaserver,那么无疑是十分友好的。
我们优先实现内部版本,实现既定目标。有机会的话,我们也希望能回馈社区。

@All 目前我们想的还不够多,考虑可能不全面,还希望大家给些建议。



Best,
Xingxing Di
 
Sender: Jark Wu
Send Time: 2020-07-22 11:22
Receiver: user-zh
Subject: Re: Flink catalog的几个疑问
非常欢迎贡献开源一个轻量的 catalog 实现 :)
 
On Wed, 22 Jul 2020 at 10:53, Jingsong Li <[hidden email]> wrote:
 

> Hi,
>
> HiveCatalog就是官方唯一的可以保存所有表的持久化Catalog,包括kafka,jdbc,hbase等等connectors。
>
> > 后续有可能转正为flink 默认的catalog实现吗?
>
> 目前不太可能,你看,Flink连Hadoop的依赖都没有打进来。Hive的依赖更不会默认打进来。 依赖都没有,也不会成为默认的。
>
> > hive catalog是不支持大小写敏感的
>
> 是的,就像Godfrey说的,特别是JDBC对接的某些大小写敏感的db,这可能导致字段名对应不了。
>
> Best,
> Jingsong
>
> On Wed, Jul 22, 2020 at 10:39 AM godfrey he <[hidden email]> wrote:
>
> > hi Xingxing,
> >
> > 1. Flink 提供了一套catalog的接口,提提供了几个内置的实现:in-memory catalog, hive catalog,
> > postgres catalog,
> > 可以根据自己的需求选择。也可以实现自定义的catalog。参考 [1]
> > 2. hive catalog 主要是对接 hive,方便读取现有的hive catalog的meta信息。当然也可以往hive
> > catalog写新的meta。
> > 是否会转为默认catalog,据我所知,目前没有。
> > 3. 一般没什么问题。在和其他区分大小写的db对接的时候,可能有问题。
> >
> > Best,
> > Godfrey
> >
> > [hidden email] <[hidden email]> 于2020年7月21日周二 下午11:30写道:
> >
> > > Hi Flink社区:
> > > 有几个疑问希望社区小伙伴们帮忙解答一下:
> > >
> > >
> >
> 1.个人感觉Flink很有必要提供一个官方的catalog,用来支持各种connector,比如:kafka,jdbc,hbase等等connector。不知道社区有没有这个打算,目前没有看到对应的flip
> > > 2.社区对hive catalog的定位是什么,后续有可能转正为flink 默认的catalog实现吗?
> > > 3.hive catalog是不支持大小写敏感的(字段名都是小写),这个后续会带来哪些问题?想征集下大家的意见避免我们以后踩大坑。
> > >
> > >
> > >
> > >
> > > Best,
> > > Xingxing Di
> > >
> >
>
>
> --
> Best, Jingsong Lee
>