先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 |
所以现在纠结的是使用 DataStream 还是 DataSet ?
可以使用 DataStream,作业 join 完了停掉作业就行了。 小黑 <[hidden email]> 于2020年5月15日周五 下午3:28写道: > > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 > > > > > |
是的 我想用datastrem 来做 join停的话 需要注意什么
| | jimandlice | | 邮箱:[hidden email] | Signature is customized by Netease Mail Master 在2020年05月15日 19:36,zhisheng 写道: 所以现在纠结的是使用 DataStream 还是 DataSet ? 可以使用 DataStream,作业 join 完了停掉作业就行了。 小黑 <[hidden email]> 于2020年5月15日周五 下午3:28写道: > > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 > > > > > |
看看 Flink UI 上 作业 task 的 sent 和 receive
的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也 complete 完成了即可以停掉作业。 实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了 jimandlice <[hidden email]> 于2020年5月15日周五 下午7:38写道: > 是的 我想用datastrem 来做 join停的话 需要注意什么 > > > > > | | > jimandlice > | > | > 邮箱:[hidden email] > | > > Signature is customized by Netease Mail Master > > 在2020年05月15日 19:36,zhisheng 写道: > 所以现在纠结的是使用 DataStream 还是 DataSet ? > > 可以使用 DataStream,作业 join 完了停掉作业就行了。 > > 小黑 <[hidden email]> 于2020年5月15日周五 下午3:28写道: > > > > > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 > > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 > > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 > > > > > > > > > > > |
好的 谢谢哈 我先试一试 有问题在和你说哈
| | jimandlice | | 邮箱:[hidden email] | Signature is customized by Netease Mail Master 在2020年05月15日 19:41,zhisheng 写道: 看看 Flink UI 上 作业 task 的 sent 和 receive 的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也 complete 完成了即可以停掉作业。 实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了 jimandlice <[hidden email]> 于2020年5月15日周五 下午7:38写道: > 是的 我想用datastrem 来做 join停的话 需要注意什么 > > > > > | | > jimandlice > | > | > 邮箱:[hidden email] > | > > Signature is customized by Netease Mail Master > > 在2020年05月15日 19:36,zhisheng 写道: > 所以现在纠结的是使用 DataStream 还是 DataSet ? > > 可以使用 DataStream,作业 join 完了停掉作业就行了。 > > 小黑 <[hidden email]> 于2020年5月15日周五 下午3:28写道: > > > > > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 > > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 > > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 > > > > > > > > > > > |
In reply to this post by zhisheng
大佬 你好 ! kafka 写入hive 您这边demo么 我这边 只完成了hdfs <br/>应该可以写到hive上去 能提供一个demo么
在 2020-05-15 19:41:59,"zhisheng" <[hidden email]> 写道: >看看 Flink UI 上 作业 task 的 sent 和 receive >的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也 >complete 完成了即可以停掉作业。 > >实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了 > >jimandlice <[hidden email]> 于2020年5月15日周五 下午7:38写道: > >> 是的 我想用datastrem 来做 join停的话 需要注意什么 >> >> >> >> >> | | >> jimandlice >> | >> | >> 邮箱:[hidden email] >> | >> >> Signature is customized by Netease Mail Master >> >> 在2020年05月15日 19:36,zhisheng 写道: >> 所以现在纠结的是使用 DataStream 还是 DataSet ? >> >> 可以使用 DataStream,作业 join 完了停掉作业就行了。 >> >> 小黑 <[hidden email]> 于2020年5月15日周五 下午3:28写道: >> >> > >> > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 >> > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 >> > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 >> > >> > >> > >> > >> > >> |
使用sql api的方式
| | jimandlice | | 邮箱:[hidden email] | Signature is customized by Netease Mail Master 在2020年05月16日 22:51,jimandlice 写道: 大佬 你好 ! kafka 写入hive 您这边demo么 我这边 只完成了hdfs <br/>应该可以写到hive上去 能提供一个demo么 在 2020-05-15 19:41:59,"zhisheng" <[hidden email]> 写道: >看看 Flink UI 上 作业 task 的 sent 和 receive >的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也 >complete 完成了即可以停掉作业。 > >实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了 > >jimandlice <[hidden email]> 于2020年5月15日周五 下午7:38写道: > >> 是的 我想用datastrem 来做 join停的话 需要注意什么 >> >> >> >> >> | | >> jimandlice >> | >> | >> 邮箱:[hidden email] >> | >> >> Signature is customized by Netease Mail Master >> >> 在2020年05月15日 19:36,zhisheng 写道: >> 所以现在纠结的是使用 DataStream 还是 DataSet ? >> >> 可以使用 DataStream,作业 join 完了停掉作业就行了。 >> >> 小黑 <[hidden email]> 于2020年5月15日周五 下午3:28写道: >> >> > >> > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 >> > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 >> > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 >> > >> > >> > >> > >> > >> |
如果都是历史数据,可能使用dataset api会更加方便,语义更加清楚?
------------------ 原始邮件 ------------------ 发件人: "jimandlice"<[hidden email]>; 发送时间: 2020年5月16日(星期六) 晚上10:53 收件人: "user-zh"<[hidden email]>; 主题: 回复:flink 历史数据join 使用sql api的方式 | | jimandlice | | 邮箱:[hidden email] | Signature is customized by Netease Mail Master 在2020年05月16日 22:51,jimandlice 写道: 大佬 你好 ! kafka 写入hive 您这边demo么 我这边 只完成了hdfs <br/>应该可以写到hive上去 能提供一个demo么 在 2020-05-15 19:41:59,"zhisheng" <[hidden email]> 写道: >看看 Flink UI 上 作业 task 的 sent 和 receive >的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也 >complete 完成了即可以停掉作业。 > >实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了 > >jimandlice <[hidden email]> 于2020年5月15日周五 下午7:38写道: > >> 是的 我想用datastrem 来做 join停的话 需要注意什么 >> >> >> >> >> | | >> jimandlice >> | >> | >> 邮箱:[hidden email] >> | >> >> Signature is customized by Netease Mail Master >> >> 在2020年05月15日 19:36,zhisheng 写道: >> 所以现在纠结的是使用 DataStream 还是 DataSet ? >> >> 可以使用 DataStream,作业 join 完了停掉作业就行了。 >> >> 小黑 <[hidden email]> 于2020年5月15日周五 下午3:28写道: >> >> > >> > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 >> > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 >> > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 >> > >> > >> > >> > >> > >> |
我还是准备使用datastream
| | jimandlice | | 邮箱:[hidden email] | Signature is customized by Netease Mail Master 在2020年05月16日 23:00,1048262223 写道: 如果都是历史数据,可能使用dataset api会更加方便,语义更加清楚? ------------------ 原始邮件 ------------------ 发件人: "jimandlice"<[hidden email]>; 发送时间: 2020年5月16日(星期六) 晚上10:53 收件人: "user-zh"<[hidden email]>; 主题: 回复:flink 历史数据join 使用sql api的方式 | | jimandlice | | 邮箱:[hidden email] | Signature is customized by Netease Mail Master 在2020年05月16日 22:51,jimandlice 写道: 大佬 你好 ! kafka 写入hive 您这边demo么 我这边 只完成了hdfs <br/>应该可以写到hive上去 能提供一个demo么 在 2020-05-15 19:41:59,"zhisheng" <[hidden email]> 写道: >看看 Flink UI 上 作业 task 的 sent 和 receive >的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也 >complete 完成了即可以停掉作业。 > >实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了 > >jimandlice <[hidden email]> 于2020年5月15日周五 下午7:38写道: > >> 是的 我想用datastrem 来做 join停的话 需要注意什么 >> >> >> >> >> | | >> jimandlice >> | >> | >> 邮箱:[hidden email] >> | >> >> Signature is customized by Netease Mail Master >> >> 在2020年05月15日 19:36,zhisheng 写道: >> 所以现在纠结的是使用 DataStream 还是 DataSet ? >> >> 可以使用 DataStream,作业 join 完了停掉作业就行了。 >> >> 小黑 <[hidden email]> 于2020年5月15日周五 下午3:28写道: >> >> > >> > 先工作上有一个需求 2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据 >> > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道 >> > 是用datatream还是dataset 没有一个很好的 解决方案 望给与回复 >> > >> > >> > >> > >> > >> |
Free forum by Nabble | Edit this page |