Re: flink1.11流式写入hive速度慢的问题

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

Re: flink1.11流式写入hive速度慢的问题

Jingsong Li
Hi,
是Hive表吧?
https://issues.apache.org/jira/browse/FLINK-19121 在1.11.3中才fix,这个是影响性能的

可以下载最新的1.11分支的Hive依赖来试下:
https://repository.apache.org/snapshots/org/apache/flink/
(比如你用hive-1.2.2依赖,你可以下载
https://repository.apache.org/content/groups/snapshots/org/apache/flink/flink-sql-connector-hive-1.2.2_2.11/1.11-SNAPSHOT/flink-sql-connector-hive-1.2.2_2.11-1.11-20201008.202441-190.jar
)

Best,
Jingsong

On Fri, Oct 9, 2020 at 3:50 PM me <[hidden email]> wrote:

> dataStream读取速度在5000条每秒,没有其他的处理逻辑,仅仅是将datastream 转换为table
>
>
>  原始邮件
> 发件人: me<[hidden email]>
> 收件人: user-zh<[hidden email]>
> 发送时间: 2020年10月9日(周五) 15:34
> 主题: flink1.11流式写入hive速度慢的问题
>
>
> flink1.11 将datastream转为table之后,再流式的写入hive表中,发现写入速度只有几十条每秒
> val chaitin_test = tableEnv.fromDataStream(dataStream,'test)
> chaitin_test.printSchema()
> tableEnv.executeSql("insert into chaitin_test select test from " +
> chaitin_test)



--
Best, Jingsong Lee
Reply | Threaded
Open this post in threaded view
|

Re:Re: flink1.11流式写入hive速度慢的问题

Michael Ran
不知道现在flink 能否直接获取hive 文件写入。以前直接用jdbc 写hive 速度本来就快不起来,每次都要生成文件。  如果先写文件,文件写好了再进行一次load  就会快很多
在 2020-10-09 15:55:15,"Jingsong Li" <[hidden email]> 写道:

>Hi,
>是Hive表吧?
>https://issues.apache.org/jira/browse/FLINK-19121 在1.11.3中才fix,这个是影响性能的
>
>可以下载最新的1.11分支的Hive依赖来试下:
>https://repository.apache.org/snapshots/org/apache/flink/
>(比如你用hive-1.2.2依赖,你可以下载
>https://repository.apache.org/content/groups/snapshots/org/apache/flink/flink-sql-connector-hive-1.2.2_2.11/1.11-SNAPSHOT/flink-sql-connector-hive-1.2.2_2.11-1.11-20201008.202441-190.jar
>)
>
>Best,
>Jingsong
>
>On Fri, Oct 9, 2020 at 3:50 PM me <[hidden email]> wrote:
>
>> dataStream读取速度在5000条每秒,没有其他的处理逻辑,仅仅是将datastream 转换为table
>>
>>
>>  原始邮件
>> 发件人: me<[hidden email]>
>> 收件人: user-zh<[hidden email]>
>> 发送时间: 2020年10月9日(周五) 15:34
>> 主题: flink1.11流式写入hive速度慢的问题
>>
>>
>> flink1.11 将datastream转为table之后,再流式的写入hive表中,发现写入速度只有几十条每秒
>> val chaitin_test = tableEnv.fromDataStream(dataStream,'test)
>> chaitin_test.printSchema()
>> tableEnv.executeSql("insert into chaitin_test select test from " +
>> chaitin_test)
>
>
>
>--
>Best, Jingsong Lee