热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

kNearestNeighbors实战2使用kNN算法改进约会网站的配对结果

本文《machinelearninginaction》学习笔记数据源码可以在这里获取:https:www.manning.combooksmachine-learni

本文《machine learning in action》学习笔记
数据源码可以在这里获取 :https://www.manning.com/books/machine-learning-in-action




这里Python 3+的code

from numpy import *
import matplotlib.pyplot as plt
import operatordef kNNClassify(inX, dataSet, labels, k):'''put the kNN classification algorithm into action'''dataSetSize = dataSet.shape[0]diffMax = tile(inX,(dataSetSize,1)) - dataSetsqDiffMax = diffMax ** 2sqDistances = sqDiffMax.sum(axis=1)distances = sqDistances**0.5# argsort 返回由大到小的索引值sortedDistIndicies = distances.argsort()classCount= {}for i in range(k):# 找到最大索引值对应数据的labelvoteIlabel = labels[sortedDistIndicies[i]]# returns a value for the given keyclassCount[voteIlabel] = classCount.get(voteIlabel,0) + 1# 按照键值的大小排列sortedClassCount = sorted(classCount.items(), key = operator.itemgetter(1), reverse = True)return sortedClassCount[0][0]def file2matrix(filename):"""process the text information"""fr = open(filename)arrayofLines = fr.readlines()fr.close()numberofLines = len(arrayofLines)returnMat = zeros((numberofLines, 3))classLabelVector = []index = 0for line in arrayofLines:# Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)line = line.strip()# split()通过指定分隔符对字符串进行切片,这里使用tablistFromLine = line.split('\t')returnMat[index,:] = listFromLine[0:3]classLabelVector.append(int(listFromLine[-1]))index += 1return returnMat, classLabelVectordef autonorm(dataset):"""归一化"""# 求每一列最小值和最大值minvalue = dataset.min(0)maxvalue = dataset.max(0)ranges = maxvalue - minvalue# 使用shape获取dataset的shapenormdataset = zeros(shape(dataset))# shape[0] 获取第一行元素个数m = dataset.shape[0]# 使用tile函数将变量内容复制成输入矩阵同样大小的矩阵做矩阵的减法normdataset = dataset - tile(minvalue, (m,1))# 做矩阵的除法normdataset = normdataset / tile(ranges, (m,1))return normdataset, ranges, minvaluedef datingclasstest():horatio = 0.1datingdatamat, datinglabel = file2matrix("datingTestset2.txt")normat, ranges, minvalues = autonorm(datingdatamat)m = normat.shape[0]numtestvec = int(m*horatio)errorcount = 0.0for i in range(numtestvec):#classifierresult = classify0(normat[i,:], normat[numtestvec:m,:], datinglabel[numtestvec:m,:], 3)classifierresult = kNNClassify(normat[i, :], normat[numtestvec:m], datinglabel[numtestvec:m], 3)print("No.%d test data, the classifier came back with : %d, the real answeris: %d" %(i, classifierresult, datinglabel[i]))if (classifierresult != datinglabel[i]):errorcount += 1.0print ("the total error rate is: %f" % (errorcount/float(numtestvec)))if __name__ == '__main__':datingdatamat, datinglabel = file2matrix('datingTestSet2.txt')normdataset, ranges, minvalue = autonorm(datingdatamat)print(normdataset)print("ranges = ", ranges)print("minvalue = ", minvalue)fig = plt.figure()ax = fig.add_subplot(111)# 画散点图 scatterax.scatter(datingdatamat[:,1], datingdatamat[:,2], 15.0*array(datinglabel), 15.0*array(datinglabel))plt.show()datingclasstest()

读取TXT数据

txt

def file2matrix(filename):"""process the text information"""fr = open(filename)arrayofLines = fr.readlines()numberofLines = len(arrayofLines)returnMat = zeros((numberofLines, 3))classLabelVector = []index = 0for line in arrayofLines:# Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)line = line.strip()# split()通过指定分隔符对字符串进行切片,这里使用tablistFromLine = line.split('\t')returnMat[index:1] = listFromLine[0:3]classLabelVector.append(int(listFromLine[-1]))index += 1return returnMat, classLabelVector

txt
normalization result:
norm
plot:
plot

test result:
result
结果与书中的结果并不一致,kNN这么简单的算法,其结果应该一致才对。为什么?


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 本文介绍了如何使用Express App提供静态文件,同时提到了一些不需要使用的文件,如package.json和/.ssh/known_hosts,并解释了为什么app.get('*')无法捕获所有请求以及为什么app.use(express.static(__dirname))可能会提供不需要的文件。 ... [详细]
  • IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出,并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码,并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作,但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]
author-avatar
锋哥很好
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有