flink 历史数据join

classic Classic list List threaded Threaded
9 messages Options
Reply | Threaded
Open this post in threaded view
|

flink 历史数据join

jimandlice
先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复



| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master
Reply | Threaded
Open this post in threaded view
|

Re: flink 历史数据join

Benchao Li
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice <[hidden email]> 于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:[hidden email]
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: [hidden email]; [hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:flink 历史数据join

jimandlice
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice <[hidden email]> 于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:[hidden email]
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: [hidden email]; [hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:flink 历史数据join

jimandlice
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice <[hidden email]> 于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:[hidden email]
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: [hidden email]; [hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:flink 历史数据join

shao.hongxiao
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:[hidden email]
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice <[hidden email]> 于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:[hidden email]
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: [hidden email]; [hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:flink 历史数据join

jimandlice
如果要集成公司产品呢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:30,shao.hongxiao 写道:
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:[hidden email]
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice <[hidden email]> 于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:[hidden email]
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: [hidden email]; [hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:flink 历史数据join

shao.hongxiao
1. 搞hive映射表,直接使用spark或者hive sql


| |
邵红晓
|
|
邮箱:[hidden email]
|
签名由网易邮箱大师定制
在2020年5月15日 15:31,jimandlice<[hidden email]> 写道:
如果要集成公司产品呢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:30,shao.hongxiao 写道:
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:[hidden email]
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice <[hidden email]> 于2020年5月15日周五 上午11:16写道:

先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
是用datatream还是dataset  没有一个很好的 解决方案 望给与回复



| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: [hidden email]; [hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:flink 历史数据join

jimandlice
2个不同源的历史数据同步   需要join  这个不是给开发者用的 是客户用的 客户只要选择2个数据源的2个表 join 结果保存  难道还要用sql来做么




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:39,shao.hongxiao 写道:
1. 搞hive映射表,直接使用spark或者hive sql


| |
邵红晓
|
|
邮箱:[hidden email]
|
签名由网易邮箱大师定制
在2020年5月15日 15:31,jimandlice<[hidden email]> 写道:
如果要集成公司产品呢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:30,shao.hongxiao 写道:
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:[hidden email]
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice <[hidden email]> 于2020年5月15日周五 上午11:16写道:

先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
是用datatream还是dataset  没有一个很好的 解决方案 望给与回复



| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: [hidden email]; [hidden email]
Reply | Threaded
Open this post in threaded view
|

回复:flink 历史数据join

shao.hongxiao
底层原理都一样,你要封装接口动态生成映射表,sql等
| |
邵红晓
|
|
邮箱:[hidden email]
|
签名由网易邮箱大师定制
在2020年5月15日 15:42,jimandlice<[hidden email]> 写道:
2个不同源的历史数据同步   需要join  这个不是给开发者用的 是客户用的 客户只要选择2个数据源的2个表 join 结果保存  难道还要用sql来做么




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:39,shao.hongxiao 写道:
1. 搞hive映射表,直接使用spark或者hive sql


| |
邵红晓
|
|
邮箱:[hidden email]
|
签名由网易邮箱大师定制
在2020年5月15日 15:31,jimandlice<[hidden email]> 写道:
如果要集成公司产品呢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:30,shao.hongxiao 写道:
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:[hidden email]
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice <[hidden email]> 于2020年5月15日周五 上午11:16写道:

先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
是用datatream还是dataset  没有一个很好的 解决方案 望给与回复



| |
jimandlice
|
|
邮箱:[hidden email]
|

Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: [hidden email]; [hidden email]