吴恩达机器学习ex7：Kmeans分类

作者：滒娶伱 | 来源：互联网 | 2023-09-16 10:19

1、K-means分类1.1、执行K-means算法K-means算法能够自动将相似的数据样本分为多个簇。其算法的步骤如下：%Initializecentroids

1、K-means分类
1.1、执行K-means算法
K-means算法能够自动将相似的数据样本分为多个簇。
其算法的步骤如下&＃xff1a;

% Initialize centroids centroids &＃61; kMeansInitCentroids(X, K); for iter &＃61; 1:iterations % Cluster assignment step: Assign each data point to the % closest centroid. idx(i) corresponds to cˆ(i), the index % of the centroid assigned to example i idx &＃61; findClosestCentroids(X, centroids); % Move centroid step: Compute means based on centroid % assignments centroids &＃61; computeMeans(X, idx, K); end

1.1.1、找到样本最近的中心点
对于每个样本i来说&＃xff1a;
在这里插入图片描述
此处ci表示的是样本点xi距离最近簇中心的索引&＃xff0c;uj指的是第j个簇中心的位置。
补充完整idx &＃61; findClosestCentroids(X, centroids)函数有&＃xff1a;

function idx &＃61; findClosestCentroids(X, centroids)K &＃61; size(centroids, 1);idx &＃61; zeros(size(X,1), 1);%distance &＃61; zeros(1,K); %for i &＃61; 1:size(X,1) % for j &＃61; 1:K % distance(j) &＃61; (X(i,:)-centroids(j,:))*(X(i,:)-centroids(j,:))&＃39;; % [temp,idx(i,1)] &＃61; min(distance); % end %enddistance &＃61; zeros(size(X,1),K); for i&＃61;1:Kdistance(:,i)&＃61;sum((X - ones(size(X,1),1)*centroids(i,:)).*...(X - ones(size(X,1),1)*centroids(i,:)),2); end [temp,index] &＃61; min(distance&＃39;); idx &＃61; index&＃39;; end

运行程序有&＃xff1a;

Closest centroids for the first 3 examples: 1 3 2 (the closest centroids should be 1, 3, 2 respectively)

1.1.2、计算簇中心平均值
对于每个新的簇中心&＃xff0c;重新计算其坐标为&＃xff1a;
在这里插入图片描述
完成函数centroids &＃61; computeCentroids(X, idx, K)有&＃xff1a;

function centroids &＃61; computeCentroids(X, idx, K)% Useful variables [m n] &＃61; size(X);% You need to return the following variables correctly. centroids &＃61; zeros(K, n);for i &＃61; 1:Kindex &＃61; find(idx&＃61;&＃61;i);for j &＃61; 1:size(index,1)newXi(j,:) &＃61; X(index(j),:);endcentroids(i, :) &＃61; mean(newXi,1);newXi &＃61; zeros(1,n); end end

运行程序有&＃xff1a;

Centroids computed after initial finding of closest centroids: 2.428301 3.157924 5.813503 2.633656 7.119387 3.616684 the centroids should be[ 2.428301 3.157924 ][ 5.813503 2.633656 ][ 7.119387 3.616684 ]

1.2、样本数据集上的k-means算法
运行下列代码&＃xff1a;

load(&＃39;ex7data2.mat&＃39;); K &＃61; 3; max_iters &＃61; 10; initial_centroids &＃61; [3 3; 6 2; 8 5]; [centroids, idx] &＃61; runkMeans(X, initial_centroids, max_iters, true);

在这里插入图片描述

1.3、簇中心的随机初始化
在实际中&＃xff0c;应该随机选择样本作为簇中心坐标&＃xff0c;对簇中心进行初始化。
补充完整函数centroids &＃61; kMeansInitCentroids(X, K)&＃xff0c;有&＃xff1a;

function centroids &＃61; kMeansInitCentroids(X, K) centroids &＃61; zeros(K, size(X, 2));randidx &＃61; randperm(size(X,1)); centroids &＃61; X(randidx(1:K),:);end

改用随机初始化簇中心的方式执行k-means算法&＃xff0c;执行下列代码&＃xff1a;

clear load(&＃39;ex7data2.mat&＃39;);K &＃61; 3; max_iters &＃61; 10; initial_centroids &＃61; kMeansInitCentroids(X, K); [centroids, idx] &＃61; runkMeans(X, initial_centroids, max_iters, true);

得到的分类为&＃xff1a;
在这里插入图片描述
1.4、使用K-means算法进行图像压缩
在本小节&＃xff0c;将使用K-means算法进行图像压缩。在一个24位的彩色图像中&＃xff0c;每个像素由3个8位不带符号整型构成&＃xff0c;灰度变化范围为0-255&＃xff0c;其分别代表RGB。该图像含有上千种颜色&＃xff0c;本次需要将颜色压缩至16种。
为了进行压缩&＃xff0c;需要存储该16种颜色的RGB值&＃xff0c;并且图像中的每个像素需要存储其分类到16种颜色的索引。
1.4.1、像素的K-means算法
执行下列代码&＃xff1a;

>> A &＃61; double(imread(&＃39;bird_small.png&＃39;)); >> A &＃61; A / 255; >> img_size &＃61; size(A); >> X &＃61; reshape(A, img_size(1) * img_size(2), 3); >> K &＃61; 16; >> max_iters &＃61; 10; >> initial_centroids &＃61; kMeansInitCentroids(X, K); >> [centroids, idx] &＃61; runkMeans(X, initial_centroids, max_iters);

得到16个簇中心为&＃xff1a;
在这里插入图片描述
下面对原图像进行压缩&＃xff0c;其关键的一步即为根据将簇中心&＃xff08;即对应的16种颜色&＃xff09;映射到对应的点。

>> idx &＃61; findClosestCentroids(X, centroids); >> X_recovered &＃61; centroids(idx,:); >> X_recovered &＃61; reshape(X_recovered, img_size(1), img_size(2), 3); >> subplot(1, 2, 1); >> imagesc(A); >> title(&＃39;Original&＃39;); >> subplot(1, 2, 2); >> imagesc(X_recovered); >> title(sprintf(&＃39;Compressed, with %d colors.&＃39;, K));

在这里插入图片描述

推荐阅读

random
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
random
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
random
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
random
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
random
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
utf-8
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
utf-8
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
utf-8
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
utf-8
深切明白ES6笔记（三）函数

重要知识点有：函数参数默许值、盈余参数、扩大运算符、new.target属性、块级函数、箭头函数以及尾挪用优化《深切明白ES6》笔记目次函数的默许参数在ES5中，我们给函数传参数， ... [详细]

蜡笔小新 2024-11-12 14:57:05
utf-8
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
include
利用栈实现四则运算表达式的高效求值方法

本文提出了一种基于栈结构的高效四则运算表达式求值方法。该方法能够处理包含加、减、乘、除运算符以及十进制整数和小括号的算术表达式。通过定义和实现栈的基本操作，如入栈、出栈和判空等，算法能够准确地解析并计算输入的表达式，最终输出其计算结果。此方法不仅提高了计算效率，还增强了对复杂表达式的处理能力。 ... [详细]

蜡笔小新 2024-11-11 14:00:53
include
利用MATLAB实现“逢七必过”游戏规则与数字图像处理技术的应用——第4章深入解析

在《数字图像处理及应用（MATLAB）第4章》中，详细探讨了“逢七必过”游戏规则的实现方法，并结合数字图像处理技术进行了深入分析。本章通过丰富的实例和代码示例，展示了如何利用MATLAB实现这一游戏规则，并介绍了数字图像处理的基本原理和技术应用。内容涵盖了图像增强、滤波、边缘检测等多个方面，为读者提供了全面的技术支持和实践指导。 ... [详细]

蜡笔小新 2024-11-11 11:46:42
select
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52
select
《Linux高性能服务器编程》深入解析：3.2 TCP报头结构与功能

在《Linux高性能服务器编程》一书中，第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分，它不仅包含了源端口和目的端口的信息，还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用，为读者提供了深入理解TCP协议的基础。 ... [详细]

蜡笔小新 2024-11-10 14:18:44
text
18. ChartData类详解（MPAndroidChart中文版解析）

在《ChartData类详解》一文中，我们将深入探讨 MPAndroidChart 中的 ChartData 类。本文将详细介绍如何设置图表颜色（Setting Colors）以及如何格式化数据值（Formatting Data Values），通过 ValueFormatter 的使用来提升图表的可读性和美观度。此外，我们还将介绍一些高级配置选项，帮助开发者更好地定制和优化图表展示效果。 ... [详细]

蜡笔小新 2024-11-09 20:54:36

滒娶伱

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章