hive找出重复数据
2023-01-20阅读(313)
问:hive如何去掉重复数据,显示第一条
- 答:去重没问题啊,distinct 就好了,显示第一条可以用row_number函数,不同版本hive的row_number有所不同,你自己查一下吧,row_number可以对同一个key从1开始编号的。
问:##Hive数据去重
- 答:Hive数据去重 - 菠萝大数据梦工厂(Free World) - 博客频道 -
insert overwrite table ta_customers
select t.ta_id,t.ta_date from
( select ta_id,
ta_date ,
row_number() over(distribute by ta_id sort by ta_date desc) as rn
from ta_customers) t
where t.rn=1;
说明:
问:hive如何去掉重复数据,显示第一条
- 答:去重没问题啊,distinct 就好了,显示第一条可以用row_number函数,不同版本hive的row_number有所不同,你自己查一下吧,row_number可以对同一个key从1开始编号的。