Pandas中可以使用cut
函数进行数据离散化,将连续数据分成不同的区间。下面是一个例子:
import pandas as pd # 创建一个包含连续数据的Series data = https://www.yisu.com/ask/pd.Series([1, 5, 10, 15, 20, 25, 30])'low', 'medium', 'high'] discretized_data = https://www.yisu.com/ask/pd.cut(data, bins, labels=labels)>输出结果如下:
0 low 1 low 2 medium 3 medium 4 medium 5 high 6 high dtype: category Categories (3, object): ['low' < 'medium' < 'high']在上面的例子中,我们将数据分成了3个区间:0-10为低(low)、10-20为中等(medium)、20-30为高(high)。