Apache Flink 中文用户邮件列表

flink 历史数据join

Classic

List

Threaded

9 messages Options

小黑

flink 历史数据join

先工作上有一个需求 2个数据源一个是mysql 一个是Hbase 2者上有很多历史数据这2个数据源上已经没有数据写入了都是历史数据现在要把这2个数据源的某两张张表进行join 生成之后的数据存在放在hdfs上导入到hive上去现在就是不知道是用datatream还是dataset 没有一个很好的解决方案望给与回复

zhisheng

Re: flink 历史数据join

所以现在纠结的是使用 DataStream 还是 DataSet ？

可以使用 DataStream，作业 join 完了停掉作业就行了。

小黑 <[hidden email]> 于2020年5月15日周五下午3:28写道：

>
> 先工作上有一个需求 2个数据源一个是mysql 一个是Hbase 2者上有很多历史数据这2个数据源上已经没有数据写入了都是历史数据
> 现在要把这2个数据源的某两张张表进行join 生成之后的数据存在放在hdfs上导入到hive上去现在就是不知道
> 是用datatream还是dataset 没有一个很好的解决方案望给与回复
>
>
>
>
>

jimandlice

回复：flink 历史数据join

是的我想用datastrem 来做 join停的话需要注意什么

| |
jimandlice
|
|
邮箱：[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 19:36，zhisheng 写道：
所以现在纠结的是使用 DataStream 还是 DataSet ？

可以使用 DataStream，作业 join 完了停掉作业就行了。

小黑 <[hidden email]> 于2020年5月15日周五下午3:28写道：

>
> 先工作上有一个需求 2个数据源一个是mysql 一个是Hbase 2者上有很多历史数据这2个数据源上已经没有数据写入了都是历史数据
> 现在要把这2个数据源的某两张张表进行join 生成之后的数据存在放在hdfs上导入到hive上去现在就是不知道
> 是用datatream还是dataset 没有一个很好的解决方案望给与回复
>
>
>
>
>

zhisheng

Re: flink 历史数据join

看看 Flink UI 上作业 task 的 sent 和 receive
的数据是否还在变更一般可以知道作业是否还在进行，等不动了，则意味着你这两个表固定的数据都已经 join 完了，等 checkpoint 也
complete 完成了即可以停掉作业。

实在不放心，不知道啥时候跑完，可以晚上开始跑，第二天白天再去看看就好了

jimandlice <[hidden email]> 于2020年5月15日周五下午7:38写道：

> 是的我想用datastrem 来做 join停的话需要注意什么
>
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱：[hidden email]
> |
>
> Signature is customized by Netease Mail Master
>
> 在2020年05月15日 19:36，zhisheng 写道：
> 所以现在纠结的是使用 DataStream 还是 DataSet ？
>
> 可以使用 DataStream，作业 join 完了停掉作业就行了。
>
> 小黑 <[hidden email]> 于2020年5月15日周五下午3:28写道：
>
> >
> > 先工作上有一个需求 2个数据源一个是mysql 一个是Hbase 2者上有很多历史数据这2个数据源上已经没有数据写入了都是历史数据
> > 现在要把这2个数据源的某两张张表进行join 生成之后的数据存在放在hdfs上导入到hive上去现在就是不知道
> > 是用datatream还是dataset 没有一个很好的解决方案望给与回复
> >
> >
> >
> >
> >
>

jimandlice

回复：flink 历史数据join

好的谢谢哈我先试一试有问题在和你说哈

| |
jimandlice
|
|
邮箱：[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月15日 19:41，zhisheng 写道：
看看 Flink UI 上作业 task 的 sent 和 receive
的数据是否还在变更一般可以知道作业是否还在进行，等不动了，则意味着你这两个表固定的数据都已经 join 完了，等 checkpoint 也
complete 完成了即可以停掉作业。

实在不放心，不知道啥时候跑完，可以晚上开始跑，第二天白天再去看看就好了

jimandlice <[hidden email]> 于2020年5月15日周五下午7:38写道：

jimandlice

Re:Re: flink 历史数据join

In reply to this post by zhisheng

大佬你好！ kafka 写入hive 您这边demo么我这边只完成了hdfs <br/>应该可以写到hive上去能提供一个demo么
在 2020-05-15 19:41:59，"zhisheng" <[hidden email]> 写道：

>看看 Flink UI 上作业 task 的 sent 和 receive
>的数据是否还在变更一般可以知道作业是否还在进行，等不动了，则意味着你这两个表固定的数据都已经 join 完了，等 checkpoint 也
>complete 完成了即可以停掉作业。
>
>实在不放心，不知道啥时候跑完，可以晚上开始跑，第二天白天再去看看就好了
>
>jimandlice <[hidden email]> 于2020年5月15日周五下午7:38写道：
>
>> 是的我想用datastrem 来做 join停的话需要注意什么
>>
>>
>>
>>
>> | |
>> jimandlice
>> |
>> |
>> 邮箱：[hidden email]
>> |
>>
>> Signature is customized by Netease Mail Master
>>
>> 在2020年05月15日 19:36，zhisheng 写道：
>> 所以现在纠结的是使用 DataStream 还是 DataSet ？
>>
>> 可以使用 DataStream，作业 join 完了停掉作业就行了。
>>
>> 小黑 <[hidden email]> 于2020年5月15日周五下午3:28写道：
>>
>> >
>> > 先工作上有一个需求 2个数据源一个是mysql 一个是Hbase 2者上有很多历史数据这2个数据源上已经没有数据写入了都是历史数据
>> > 现在要把这2个数据源的某两张张表进行join 生成之后的数据存在放在hdfs上导入到hive上去现在就是不知道
>> > 是用datatream还是dataset 没有一个很好的解决方案望给与回复
>> >
>> >
>> >
>> >
>> >
>>

jimandlice

回复：flink 历史数据join

使用sql api的方式

| |
jimandlice
|
|
邮箱：[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月16日 22:51，jimandlice 写道：
大佬你好！ kafka 写入hive 您这边demo么我这边只完成了hdfs <br/>应该可以写到hive上去能提供一个demo么
在 2020-05-15 19:41:59，"zhisheng" <[hidden email]> 写道：

Yichao Yang

回复：flink 历史数据join

如果都是历史数据，可能使用dataset api会更加方便，语义更加清楚？

------------------ 原始邮件 ------------------
发件人: "jimandlice"<[hidden email]>;
发送时间: 2020年5月16日(星期六) 晚上10:53
收件人: "user-zh"<[hidden email]>;
主题: 回复：flink 历史数据join

使用sql api的方式

| |
jimandlice
|
|
邮箱：[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月16日 22:51，jimandlice 写道：
大佬你好！ kafka 写入hive 您这边demo么我这边只完成了hdfs <br/>应该可以写到hive上去能提供一个demo么
在 2020-05-15 19:41:59，"zhisheng" <[hidden email]> 写道：
>看看 Flink UI 上作业 task 的 sent 和 receive
>的数据是否还在变更一般可以知道作业是否还在进行，等不动了，则意味着你这两个表固定的数据都已经 join 完了，等 checkpoint 也
>complete 完成了即可以停掉作业。
>
>实在不放心，不知道啥时候跑完，可以晚上开始跑，第二天白天再去看看就好了
>
>jimandlice <[hidden email]> 于2020年5月15日周五下午7:38写道：
>
>> 是的我想用datastrem 来做  join停的话需要注意什么
>>
>>
>>
>>
>> | |
>> jimandlice
>> |
>> |
>> 邮箱：[hidden email]
>> |
>>
>> Signature is customized by Netease Mail Master
>>
>> 在2020年05月15日 19:36，zhisheng 写道：
>> 所以现在纠结的是使用 DataStream 还是 DataSet ？
>>
>> 可以使用 DataStream，作业 join 完了停掉作业就行了。
>>
>> 小黑 <[hidden email]> 于2020年5月15日周五下午3:28写道：
>>
>> >
>> > 先工作上有一个需求  2个数据源一个是mysql 一个是Hbase 2者上有很多历史数据这2个数据源上已经没有数据写入了都是历史数据
>> > 现在要把这2个数据源的某两张张表进行join 生成之后的数据存在放在hdfs上导入到hive上去现在就是不知道
>> > 是用datatream还是dataset  没有一个很好的解决方案望给与回复
>> >
>> >
>> >
>> >
>> >
>>

jimandlice

回复：flink 历史数据join

我还是准备使用datastream

| |
jimandlice
|
|
邮箱：[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月16日 23:00，1048262223 写道：
如果都是历史数据，可能使用dataset api会更加方便，语义更加清楚？

------------------ 原始邮件 ------------------
发件人: "jimandlice"<[hidden email]>;
发送时间: 2020年5月16日(星期六) 晚上10:53
收件人: "user-zh"<[hidden email]>;
主题: 回复：flink 历史数据join

使用sql api的方式

| |
jimandlice
|
|
邮箱：[hidden email]
|

Signature is customized by Netease Mail Master

在2020年05月16日 22:51，jimandlice 写道：
大佬你好！ kafka 写入hive 您这边demo么我这边只完成了hdfs <br/>应该可以写到hive上去能提供一个demo么
在 2020-05-15 19:41:59，"zhisheng" <[hidden email]> 写道：
>看看 Flink UI 上作业 task 的 sent 和 receive
>的数据是否还在变更一般可以知道作业是否还在进行，等不动了，则意味着你这两个表固定的数据都已经 join 完了，等 checkpoint 也
>complete 完成了即可以停掉作业。
>
>实在不放心，不知道啥时候跑完，可以晚上开始跑，第二天白天再去看看就好了
>
>jimandlice <[hidden email]> 于2020年5月15日周五下午7:38写道：
>
>> 是的我想用datastrem 来做  join停的话需要注意什么
>>
>>
>>
>>
>> | |
>> jimandlice
>> |
>> |
>> 邮箱：[hidden email]
>> |
>>
>> Signature is customized by Netease Mail Master
>>
>> 在2020年05月15日 19:36，zhisheng 写道：
>> 所以现在纠结的是使用 DataStream 还是 DataSet ？
>>
>> 可以使用 DataStream，作业 join 完了停掉作业就行了。
>>
>> 小黑 <[hidden email]> 于2020年5月15日周五下午3:28写道：
>>
>> >
>> > 先工作上有一个需求  2个数据源一个是mysql 一个是Hbase 2者上有很多历史数据这2个数据源上已经没有数据写入了都是历史数据
>> > 现在要把这2个数据源的某两张张表进行join 生成之后的数据存在放在hdfs上导入到hive上去现在就是不知道
>> > 是用datatream还是dataset  没有一个很好的解决方案望给与回复
>> >
>> >
>> >
>> >
>> >
>>