1、基本语法
```sql
COLLECT_SET(column_name)
```
- `column_name`:指定你想要从中收集并去重值的列名。
2、示例
假设有一个表`orders`,它有两列:`order_id`和`product_id`。
| order_id | product_id |
|----------|------------|
| 1 | A |
| 1 | B |
| 1 | A |
| 2 | A |
| 2 | C |
如果你想要查看每个`order_id`购买了哪些不同的`product_id`,可以使用`collect_set`函数:
```sql
SELECT order_id, collect_set(product_id) AS products
FROM orders
GROUP BY order_id;
```
这条查询可能会返回类似下面的结果:
| order_id | products |
|----------|------------|
| 1 | ["A", "B"] |
| 2 | ["A", "C"] |
注意,由于`collect_set`自动去除了重复项,所以即便`order_id`为1的订单中有两次产品A,结果中只显示了一次。
3、注意事项
- 使用`collect_set`时,需要注意它会消耗大量内存,尤其是当处理大量数据时。因此,在使用这个函数之前,评估数据大小和内存限制是很重要的。
- 返回的数组中元素的顺序是不确定的。
- `collect_set`仅适用于Hive等支持此函数的SQL方言,不是所有的SQL数据库都支持这个函数。