PATINDEX
是 SQL Server 中的一个函数,用于返回字符串中指定模式的起始位置
以下是在 MySQL 数据清洗中使用 LOCATE
和正则表达式的一些技巧:
- 查找子字符串的位置:
SELECT LOCATE('子字符串', '原始字符串');
- 使用正则表达式匹配特定模式:
SELECT * FROM 表名 WHERE 列名 REGEXP '正则表达式';
- 删除特定模式的字符:
SELECT REPLACE(REPLACE(列名, '要替换的字符1', ''), '要替换的字符2', '') AS 新列名 FROM 表名;
- 提取特定模式的字符:
SELECT SUBSTRING_INDEX(SUBSTRING_INDEX(列名, '分隔符', 1), '分隔符', -1) AS 新列名 FROM 表名;
- 根据特定模式对行进行分组:
SELECT CASE WHEN 列名 REGEXP '正则表达式' THEN '分类1' ELSE '分类2' END AS 分类, COUNT(*) as 数量 FROM 表名 GROUP BY 分类;
这些技巧可以帮助你在 MySQL 数据清洗过程中更有效地处理文本数据。请根据实际需求调整示例代码。