非监督学习
非监督学习是一种机器学习方法,不依赖于标注数据集(即没有预先定义的目标变量)。在非监督学习中,常见的任务包括聚类和降维。以下是对两类任务中常用算法的详细介绍:
聚类算法
聚类算法的目标是将数据集中的样本划分为若干个组(簇),使得同一簇内的样本具有较高的相似性,而不同簇之间的样本差异较大。
K-means 聚类
概述:K-means 是一种广泛使用的聚类算法,旨在将数据集划分成 K 个簇,每个簇通过其簇中心(质心)表示。
算法步骤:
1. 初始化:随机选择 K 个初始质心。
2. 分配簇:将每个样本分配到离它最近的质心所在的簇。
3. 更新质心:重新计算每个簇的质心,质心为簇内所有样本的平均值。
4. 重复步骤 2 和 3,直到质心不再变化或达到最大迭代次数。
优点:
* 简单易懂,计算速度快。
* 对大数据集也能高效执行。
缺点:
* 需要预先指定 KKK 的值。
* 对初始质心敏感,