K-means，K-means++方法详解-机器学习分类问题常见算法

最新推荐文章于 2024-08-14 00:10:28 发布

易烊千蝈

最新推荐文章于 2024-08-14 00:10:28 发布

阅读量2.8k

点赞数 5

分类专栏：算法 Python相关人工智能文章标签：算法机器学习 kmeans

本文链接： https://blog.csdn.net/weixin_39490300/article/details/123528579

版权

算法同时被 3 个专栏收录

64 篇文章 10 订阅

订阅专栏

人工智能

59 篇文章 4 订阅

订阅专栏

Python相关

46 篇文章 3 订阅

订阅专栏

文章目录

基本介绍
算法步骤
伪代码
距离计算方法
算法优缺点
- 优点
- 缺点
K-means++

听说点进蝈仔帖子的都喜欢点赞加关注~~
在这里插入图片描述

感谢知乎：
https://zhuanlan.zhihu.com/p/78798251

基本介绍

来自百度百科：

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

在这里插入图片描述

Simply speaking, K-Means clustering is an algorithm to classify or to group your objects based on attributes/features, into K number of groups. K is a positive integer number. The grouping is done by minimizing the sum of squares of distances between data and the corresponding cluster centroid. Thus, the purpose of K-means clustering is to classify the data.

算法步骤：
(1) 首先我们选择一些类/组，并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。
(2) 计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。
(3) 计算每一类中中心点作为新的中心点。
(4) 重复以上步骤，直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点，然后选择运行结果最好的一个。

直观展示一个结果
在这里插入图片描述

伪代码

获取数据 n 个 m 维的数据
随机生成 K 个 m 维的点
while(t)
    for(int i=0;i < n;i++)
        for(int j=0;j < k;j++)
            计算点 i 到类 j 的距离
    for(int i=0;i < k;i++)
        1. 找出所有属于自己这一类的所有数据点
        2. 把自己的坐标修改为这些数据点的中心点坐标
end