duplicated()
函数在 Pandas 库中用于检查 DataFrame 或 Series 中的重复项
以下是 duplicated()
函数的基本用法:
- 对于一个 Pandas Series:
import pandas as pd data = https://www.yisu.com/ask/pd.Series(['A', 'B', 'A', 'C', 'B']) duplicates = data.duplicated() print(duplicates)
输出结果将会是:
0 False 1 False 2 True 3 False 4 True dtype: bool
- 对于一个 Pandas DataFrame:
import pandas as pd data = https://www.yisu.com/ask/{'Column1': ['A', 'B', 'A', 'C', 'B'], 'Column2': [1, 2, 1, 3, 2]} df = pd.DataFrame(data) duplicates = df.duplicated() print(duplicates)
输出结果将会是:
0 False 1 False 2 True 3 False 4 True dtype: bool
你还可以使用 duplicated()
函数的参数来自定义重复项检测的行为。例如,你可以设置 keep
参数来指定保留哪个重复项。默认情况下,keep
参数设置为 'first'
,表示保留第一个出现的重复项,并将其他重复项标记为 True
。你还可以将 keep
设置为 'last'
,这样最后一个出现的重复项将被保留。此外,你还可以将 keep
设置为 False
,这样所有重复项都将被标记为 True
。
例如:
import pandas as pd data = https://www.yisu.com/ask/{'Column1': ['A', 'B', 'A', 'C', 'B'], 'Column2': [1, 2, 1, 3, 2]} df = pd.DataFrame(data) duplicates = df.duplicated(keep='last') print(duplicates)
输出结果将会是:
0 True 1 True 2 False 3 False 4 False dtype: bool