Scikit-learn中怎么实现文本聚类

2025-01-19 09:39:01 分类：技术问答阅读(200) 评论(0)

在Scikit-learn中，可以使用TfidfVectorizer和KMeans来实现文本聚类。以下是一个简单的示例代码：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# 文本数据
documents = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]

# 使用TfidfVectorizer将文本转换成TF-IDF特征
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)

# 输出聚类结果
clusters = kmeans.labels_
for i, text in enumerate(documents):
    print(f"Document '{text}' belongs to cluster {clusters[i]}")

在上面的代码中，首先使用TfidfVectorizer将文本数据转换成TF-IDF特征，然后使用KMeans进行聚类，最后输出每个文档所属的聚类。可以根据实际情况调整聚类的数量和其他参数来获取更好的聚类效果。

未经允许不得转载 » 本文链接：https://www.117.info/ask/fe19dAzsIBwBfBVI.html

scikitlearn

Scikit-learn中怎么实现文本聚类

推荐文章

Scikit-learn中怎么实现线性回归

Scikit-learn中怎么使用特征提取

Scikit-learn中怎么使用特征选择

Scikit-learn中怎么使用数据归一化

Scikit-learn中怎么实现文本分类

Scikit-learn中怎么实现模型评估指标

Scikit-learn中怎么加载保存的模型

Scikit-learn中怎么实现模型持久化

热门文章

热门标签