K-means,K-means++方法详解-机器学习分类问题常见算法

64 篇文章 10 订阅
订阅专栏
59 篇文章 4 订阅
订阅专栏
46 篇文章 3 订阅
订阅专栏


听说点进蝈仔帖子的都喜欢点赞加关注~~
在这里插入图片描述
感谢知乎:
https://zhuanlan.zhihu.com/p/78798251

基本介绍

来自百度百科:

K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

在这里插入图片描述

Simply speaking, K-Means clustering is an algorithm to classify or to group your objects based on attributes/features, into K number of groups. K is a positive integer number. The grouping is done by minimizing the sum of squares of distances between data and the corresponding cluster centroid. Thus, the purpose of K-means clustering is to classify the data.

算法步骤

算法步骤:
(1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。
(2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。
(3) 计算每一类中中心点作为新的中心点。
(4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。

直观展示一个结果
在这里插入图片描述

伪代码

获取数据 n 个 m 维的数据
随机生成 K 个 m 维的点
while(t)
    for(int i=0;i < n;i++)
        for(int j=0;j < k;j++)
            计算点 i 到类 j 的距离
    for(int i=0;i < k;i++)
        1. 找出所有属于自己这一类的所有数据点
        2. 把自己的坐标修改为这些数据点的中心点坐标
end

距离计算方法

在这里插入图片描述

在这里插入图片描述

算法优缺点

优点

容易理解,聚类效果不错,虽然是局部最优, 但往往局部最优就够了;
处理大数据集的时候,该算法可以保证较好的伸缩性;
当簇近似高斯分布的时候,效果非常不错;
算法复杂度低。

缺点

K 值需要人为设定,不同 K 值得到的结果不一样;
对初始的簇中心敏感,不同选取方式会得到不同结果;
对异常值敏感;
样本只能归为一类,不适合多分类任务;
不适合太离散的分类、样本类别不平衡的分类、非凸形状的分类。

K-means++

定义:k-means++是一种为k-means聚类算法选择初始值(或“种子”)的算法。它是NP-hard k-means问题的一种近似算法,它是一种避免标准k-means算法有时发现的较弱聚类的方法。

K-means与K-means++:原始K-means算法最开始随机选取数据集中K个点作为聚类中心,而K-means++按照如下的思想选取K个聚类中心:假设已经选取了n个初始聚类中心(0<n<K),则在选取第n+1个聚类中心时:距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。在选取第一个聚类中心(n=1)时同样通过随机的方法。可以说这也符合我们的直觉:聚类中心当然是互相离得越远越好。这个改进虽然直观简单,但是却非常得有效。
在这里插入图片描述

聚类算法的理解
weixin_38410551的博客
06-10 1081
1.应用背景:用于进行数据分类。 2. 本质:迭代算法 3. 应用要求:必须事先知道有几个分类中心。 4. 应用步骤:(k-means聚类算法) (1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。 (2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。 (3) 计算每一类中中...
[Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发(K-Means、BIRCH、树状聚类、MeanShift)
杨秀璋的专栏
07-06 1万+
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望
K-Means ++ 算法
weixin_34161083的博客
04-06 157
Kmeans算法的缺陷: • 聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适• Kmeans需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。(可以使用Kmeans++算法来解决) K-Means ++ 算法k-means++算法...
k-means聚类算法&k-means++聚类算法
最新发布
m0_47498690的博客
08-14 1310
是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得。也就是说,聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
K-means聚类算法实战
weixin_41438466的博客
03-26 9638
一、K-means聚类算法 1 K-means算法的相关描述 聚类是一种无监督学习,它将相似的对象归到同一簇中。聚类的方法几乎可以应用所有对象,簇内的对象越相似,聚类的效果就越好。K-means算法中的k表示的是聚类为k个簇,means代表取每一个聚类中数据值的均值作为该簇的中心,或者称为质心,即用每一个的类的质心对该簇进行描述。 聚类和分类最大的不同在于,分类的目标是事先已知的,而聚类事先不知道...
数据挖掘-K-Means算法
热门推荐
二十同学
12-02 5万+
微信搜索:“二十同学” 公众号,欢迎关注一条不一样的成长之路 今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中,其实是给每一条邮件打了一个“标签”,这个标签只有
K-means聚类算法的原理、应用与实例
qqrrjj2011的博客
04-10 4006
K-means聚类算法的原理、应用与实例
K均值聚类即K-Means算法详解PPT
04-13
K-Means聚类算法详解 K-Means聚类算法是一种常用的无监督学习方法,主要用于将数据点分组成不同的簇,以便更好地理解数据的结构和...K-Means聚类算法是一种常用的无监督学习方法,广泛应用于数据挖掘和机器学习领域。
k_means_K-means算法代码_
09-29
K-means算法是一种经典的无监督机器学习方法,广泛应用于数据聚类分析中。它通过迭代优化来寻找数据的最佳分组,将数据点分配到最近的聚类中心,然后更新聚类中心为该组内所有点的均值。以下是K-means算法的关键步骤...
Python机器学习K-Means聚类实现详解
12-24
本文为大家分享了Python机器学习K-Means聚类的实现代码,供大家参考,具体内容如下 1.K-Means聚类原理 K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其...
K_Means_pythonk-means_K-meanspython_机器学习_softlywyk_K._
10-04
在Python中,K-Means算法的实现通常使用scikit-learn库,这是一个强大的机器学习库,提供了丰富的机器学习算法和工具。本文将深入探讨K-Means算法的基本原理,以及如何用Python的scikit-learn库来实现这一算法。 一...
k-means算法实例
11-21
一个聚类算法(k-means)实例,对想实践一下K_means算法的朋友很实用
kmeans聚类案例
03-13
kmeans聚类的案例,包含测试的模拟数据xml文件,kmeans聚类分析代码
Python实现的KMeans聚类算法实例分析
01-20
本文实例讲述了Python实现的KMeans聚类算法。分享给大家供大家参考,具体如下: 菜鸟一枚,编程初学者,最近想使用Python3实现几个简单的机器学习分析方法,记录一下自己的学习过程。 关于KMeans算法本身就不做介绍了,下面记录一下自己遇到的问题。 一 、关于初始聚类中心的选取 初始聚类中心的选择一般有: (1)随机选取 (2)随机选取样本中一个点作为中心点,在通过这个点选取距离其较大的点作为第二个中心点,以此类推。 (3)使用层次聚类等算法更新出初始聚类中心 我一开始是使用numpy随机产生k个聚类中心 Center = np.random.randn(k,n) 但是发现聚类的
K-means聚类模型(超详细,含案例代码)
JiaYu的博客
12-12 2万+
K-means是一种常用的聚类算法,用于将数据集中的观测点分为不同的群组或簇。聚类是一种无监督学习方法,其目标是发现数据中隐藏的结构,将相似的数据点划分为同一组,同时将不相似的数据点划分为不同的组。
K-Means++算法
zhangpinghao的专栏
10-14 1563
k-means算法是一种基本的聚类算法,这个算法的先决条件是   1)必须选择最终结果需要聚为几类,就是k的大小。   2)初始化聚类中心点,也就是seeds。   当然,我们可以在输入的数据集中随机的选择k个点作为seeds,但是随机选择初始seeds可能会造成聚类的结果和数据的实际分布相差很大。既然选择初始的seeds这么重要,那有什么算法可以帮助选择初始的seeds吗?当然
5.1、聚类之Kmeans聚类实例
军军的专栏
02-09 1688
k-means实例 junjun 2016年2月9日 k-means实例 利用k-means对iris分类 #1、加载数据 data(iris) str(iris) ## 'data.frame': 150 obs. of 5 variables: ## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.
K-means 聚类算法的理解与案例实战
weixin_34194087的博客
07-25 1146
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 前言 工作之后,发现对算法和技术的理解和上学时学习...
写文章

热门文章

  • python数组对应元素相乘(multiply)、两个矩阵相乘(dot)、星号(*)乘法-Python中数组、矩阵乘法 22250
  • python快速实现10种聚类算法 12225
  • pip手把手安装pytorch,保姆级教学 9967
  • 论文阅读Evolutionary Computation for Expensive Optimization: A Survey面向昂贵优化的进化计算 7163
  • 论文阅读:大型对抗性不完美信息博弈的均衡发现 AAAI/ACM SIGAI Best Paper 6470

分类专栏

  • 人工智能 59篇
  • 算法 64篇
  • 论文写作 12篇
  • Python相关 46篇
  • 演化算法 11篇

最新评论

  • python sklearn knn快速实现,保姆级教学

    Chordrain: 想问一下,knn可以实现多标签分类吗?

  • python数组对应元素相乘(multiply)、两个矩阵相乘(dot)、星号(*)乘法-Python中数组、矩阵乘法

    geyangyan: 很有用的内容,感谢分享~~

  • 各类经典VRP,车间调度问题,组合优化问题基准测试集Benchmark

    Ddjdjddjdbbbykjg: 博主,可以打包到网盘上分享一下吗

  • 各类经典VRP,车间调度问题,组合优化问题基准测试集Benchmark

    Ddjdjddjdbbbykjg: 混合流水调度HFSP问题链接打开是一个网站登入入口,拿不到数据集

  • 微软自动调参工具—NNI安装与快速上手,AutoML必备工具

    执着理想纯粹当下: 你好,我运行NNI的示例程序时,显示failed,在报错log里面显示的是cmd.exe : python: can't open file 'mnist.py': [Errno 2] No such file or directory,请问是什么原因啊

大家在看

  • 51单片机--(模块化编程手把手) 33
  • wait阻塞函数
  • Llama Factory :百种以上语言模型的统一高效微调框架 478
  • 深度学习-循环神经网络-LSTM对序列数据进行预测
  • vfrok创建进程 73

最新文章

  • 13 个常见概率分布及Python代码,机器学习、深度学习、强化学习必学
  • 进化算法及Python实现(使用DEAP库)
  • python sklearn knn快速实现,保姆级教学
2023年1篇
2022年66篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家玻璃钢卡通动物雕塑定做厂家四川动物玻璃钢雕塑供应商石家庄小区玻璃钢雕塑设计厂家梧州玻璃钢雕塑制作商场内蛋型玻璃钢花盆韶关玻璃钢香蕉雕塑玄武元旦商场美陈湖州玻璃钢雕塑电话上玻璃钢雕塑厂玻璃钢人物雕塑d山东玻璃钢雕塑摆件设计厂家伊川玻璃钢雕塑价格卡通商场美陈的意义江苏大型主题商场美陈价格银川城市玻璃钢雕塑湖北公园水景校园玻璃钢雕塑厂家抚顺商场美陈搭建大同节日商场美陈商场主题创意商业美陈公司附近校园玻璃钢雕塑价格大同景观玻璃钢雕塑张掖玻璃钢关公雕塑江苏城市标志玻璃钢雕塑河池玻璃钢雕塑定制保山市玻璃钢雕塑设计订做浮雕玻璃钢雕塑 博客长沙玻璃钢雕塑摆件客厅武汉佛像玻璃钢雕塑定做陕西大型玻璃钢雕塑多少钱吉林玻璃钢雕塑销售厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化