在Hive中,可以使用DISTINCT
关键字进行数据去重。以下是一个简单的示例:
假设我们有一个名为my_table
的表,其中包含以下列:id
, name
, age
。
- 首先,创建一个名为
my_table
的表:
CREATE TABLE my_table ( id INT, name STRING, age INT );
- 向表中插入一些重复的数据:
INSERT INTO my_table (id, name, age) VALUES (1, 'Alice', 30); INSERT INTO my_table (id, name, age) VALUES (2, 'Bob', 25); INSERT INTO my_table (id, name, age) VALUES (1, 'Alice', 30); -- 重复数据 INSERT INTO my_table (id, name, age) VALUES (3, 'Charlie', 22);
- 使用
DISTINCT
关键字查询去重后的数据:
SELECT DISTINCT id, name, age FROM my_table;
这将返回以下结果:
id name age 1 Alice 30 2 Bob 25 3 Charlie 22
请注意,DISTINCT
关键字将应用于所有列。如果你只想针对某些列进行去重,可以在DISTINCT
后面列出这些列,例如:
SELECT DISTINCT id, name FROM my_table;
这将仅根据id
和name
列进行去重。