热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

如何对数据进行KMeans聚类

如何对数据进行K-Means聚类大家好,我是W前言:可能大家在初步学习机器学习的时候都会想很快的得到直观的效果,最好能用plt展示出来。所以今天我们就学学怎么对数据进行K-Mean
如何对数据进行K-Means聚类

大家好,我是W

前言:可能大家在初步学习机器学习的时候都会想很快的得到直观的效果,最好能用plt展示出来。所以今天我们就学学怎么对数据进行K-Means聚类,并且通过matplotlib.pyplot对记录分类的结果进行展示。

接下来我们需要按照以下步骤去对我们的数据进行操作。

步骤:

  1. 对数据进行清洗
  2. 对数据进行特征抽取
  3. 对数据进行标准化(可选)
  4. 对数据进行K-Means聚类
  5. 对数据进行展示

数据展示

以下是我这次实验使用的数据集(部分),大家若是没有数据的话可以直接贴我的数据来做练习。

id,小区名称,所在区域,总价,单价,房屋户型,所在楼层,建筑面积,户型结构,套内面积,建筑类型,房屋朝向,建筑结构,装修情况,梯户比例,配备电梯,产权年限,挂牌时间,交易权属,上次交易,房屋用途,房屋年限,产权所属,抵押信息,房本备件,经度,纬度
1,鑫苑名家二期,锦江,127.0,17177,2室1厅1厨1卫,高楼层 (共34层),73.9,平层,暂无数据,板塔结合,东南,钢混结构,简装,两梯六户,有,70年,2019-03-29,商品房,暂无数据,普通住宅,暂无数据,非共有,无抵押,未上传房本照片,104.149863,30.604857
2,澳龙名城,锦江,204.0,22756,2室1厅1厨1卫,中楼层 (共33层),89.6,平层,71.59㎡,塔楼,东北,钢混结构,其他,三梯六户,有,70年,2020-02-18,商品房,2016-04-29,普通住宅,满两年,非共有,有抵押 60万元 客户偿还,已上传房本照片,104.118491,30.634294
3,万科金色城市,锦江,131.5,18252,2室2厅1厨1卫,中楼层 (共35层),72.0,平层,暂无数据,板塔结合,西北,钢混结构,精装,三梯八户,有,70年,2019-04-10,商品房,2018-01-12,普通住宅,满两年,共有,无抵押,已上传房本照片,104.179234,30.599793
4,四海逸家二期,锦江,420.0,43299,4室2厅1厨2卫,高楼层 (共34层),9.0,跃层,暂无数据,板塔结合,东南,钢混结构,精装,两梯四户,有,70年,2019-04-22,商品房,2017-05-11,普通住宅,满两年,共有,有抵押 120万元 银行还需要落实一下 客户偿还,已上传房本照片,104.146388,30.608264000000002
5,华都美林湾,锦江,218.0,18590,3室2厅1厨2卫,中楼层 (共28层),117.2,平层,96.36㎡,板塔结合,东南,钢混结构,简装,两梯四户,有,70年,2019-08-13,商品房,2013-11-18,普通住宅,满五年,非共有,有抵押 80万元,已上传房本照片,104.145772,30.596231
6,蓝润锦江春天,锦江,169.0,19883,3室2厅1厨1卫,高楼层 (共27层),8.0,平层,暂无数据,板塔结合,东南 西北,钢混结构,精装,两梯五户,有,70年,2018-04-24,商品房,2017-04-25,普通住宅,满两年,非共有,有抵押 20万元 工行 业主自还,已上传房本照片,104.15915,30.588431
7,锦上花,锦江,75.0,18864,1室1厅1厨1卫,低楼层 (共11层),39.7,平层,暂无数据,板塔结合,南,框架结构,简装,两梯五户,有,70年,2019-06-21,商品房,暂无数据,普通住宅,暂无数据,非共有,无抵押,未上传房本照片,104.08915,30.65162
8,瑞升望江橡树林二期,锦江,225.0,25919,2室1厅1厨2卫,低楼层 (共32层),86.8,平层,65.87㎡,板塔结合,东,钢混结构,精装,三梯八户,有,70年,2019-12-24,商品房,2013-08-30,普通住宅,满五年,非共有,有抵押 21万元 招商银行 业主自还,已上传房本照片,104.099424,30.630257
9,卓锦城五期,锦江,197.0,22283,3室2厅1厨1卫,高楼层 (共29层),88.4,平层,暂无数据,塔楼,东南,钢混结构,精装,三梯六户,有,70年,2019-01-27,商品房,2018-02-08,普通住宅,满两年,共有,无抵押,已上传房本照片,104.14494499999999,30.603167
10,绿地468公馆二期,锦江,195.0,21662,3室1厅1厨1卫,高楼层 (共24层),90.0,平层,72.82㎡,板塔结合,东北,钢混结构,毛坯,两梯六户,有,70年,2019-07-05,商品房,2017-07-24,普通住宅,满两年,非共有,有抵押 35万元 中国工商银行沙河支行 客户偿还,已上传房本照片,104.153774,30.61277
11,锦江城市花园三期,锦江,95.0,16788,2室1厅1厨1卫,高楼层 (共34层),56.5,平层,暂无数据,板塔结合,东南,钢混结构,简装,两梯十一户,有,70年,2020-01-02,商品房,2012-07-11,普通住宅,满五年,共有,有抵押 13万元 建行新华支行 业主自还,已上传房本照片,104.154114,30.603519
12,锦江东湖花园,锦江,420.0,27012,3室2厅1厨2卫,中楼层 (共7层),155.4,平层,暂无数据,板楼,南,钢混结构,精装,一梯两户,有,70年,2019-08-10,商品房,2013-12-10,普通住宅,满五年,共有,无抵押,已上传房本照片,104.092646,30.628441
13,人居锦尚春天B区,锦江,137.0,15102,3室2厅1厨1卫,高楼层 (共32层),90.7,平层,74.02㎡,塔楼,西南,钢混结构,简装,两梯六户,有,70年,2019-09-22,商品房,2015-12-25,普通住宅,满两年,共有,有抵押 15万元 业主自还,已上传房本照片,104.145721,30.612883
14,鑫苑名家一期,锦江,88.0,15064,2室1厅1厨1卫,高楼层 (共34层),58.4,平层,46.16㎡,板塔结合,南,钢混结构,简装,两梯六户,有,70年,2018-07-30,商品房,2012-06-19,普通住宅,满五年,非共有,有抵押 15万元,已上传房本照片,104.148983,30.603784
15,京都印象,锦江,193.6,15534,4室2厅1厨2卫,高楼层 (共6层),124.6,跃层,暂无数据,板楼,东南,钢混结构,精装,一梯两户,无,70年,2019-12-16,商品房,暂无数据,普通住宅,暂无数据,非共有,无抵押,未上传房本照片,104.103844,30.654753000000003
16,雅仕苑,锦江,106.0,16430,2室1厅1厨1卫,高楼层 (共7层),64.5,平层,暂无数据,板塔结合,南,砖混结构,简装,一梯两户,无,70年,2019-05-24,商品房,2006-03-09,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.083667,30.655011
17,均隆街11号,锦江,155.0,16346,3室1厅1厨1卫,高楼层 (共7层),94.8,平层,94.33㎡,板楼,西南,砖混结构,精装,一梯两户,无,70年,2019-11-19,商品房,2012-12-27,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.0949,30.655562
18,卓锦城一期,锦江,220.0,16924,3室2厅1厨2卫,高楼层 (共18层),13.0,平层,111.4㎡,板塔结合,西南,钢混结构,简装,两梯四户,有,70年,2019-11-30,商品房,2010-02-01,普通住宅,满五年,共有,无抵押,已上传房本照片,104.140366,30.603348999999998
19,均隆街11号,锦江,152.0,16029,3室1厅1厨1卫,中楼层 (共7层),94.8,平层,暂无数据,板楼,西,砖混结构,简装,一梯两户,无,70年,2019-03-20,商品房,暂无数据,普通住宅,暂无数据,非共有,无抵押,未上传房本照片,104.0949,30.655562
20,卓锦城二期,锦江,162.0,16652,2室2厅1厨2卫,中楼层 (共24层),97.2,平层,暂无数据,板塔结合,东南,钢混结构,精装,两梯四户,有,70年,2019-08-27,商品房,2010-12-29,普通住宅,满五年,共有,有抵押 35万元 建行 金融公司垫资,已上传房本照片,104.137289,30.605729999999998
21,翡翠城一期,锦江,225.0,27343,2室1厅1厨1卫,中楼层 (共11层),82.2,平层,72.43㎡,板楼,南,钢混结构,简装,一梯四户,有,70年,2018-07-19,商品房,2009-05-12,普通住宅,满五年,共有,无抵押,已上传房本照片,104.09709262,30.61852907
22,庆云北街32号,锦江,97.0,12922,3室1厅1厨1卫,低楼层 (共6层),75.0,平层,暂无数据,板楼,东南,混合结构,精装,一梯两户,暂无数据,70年,2019-11-13,商品房,2017-02-27,普通住宅,满两年,非共有,无抵押,已上传房本照片,104.09415899999999,30.667994
23,比华利国际城二期,锦江,206.0,21279,3室1厅1厨2卫,低楼层 (共32层),96.8,平层,暂无数据,板塔结合,东南,框架结构,简装,三梯六户,有,70年,2019-07-05,商品房,暂无数据,普通住宅,暂无数据,非共有,有抵押 20万元,未上传房本照片,104.135746,30.622805
24,摩玛城,锦江,138.0,17440,2室1厅1厨1卫,低楼层 (共34层),79.1,平层,暂无数据,板塔结合,南,框架结构,简装,三梯七户,有,70年,2019-07-20,商品房,2012-06-12,普通住宅,满五年,非共有,有抵押 20万元 不记得,已上传房本照片,104.097693,30.626789000000002
25,中港悦蓉府,锦江,120.0,17124,2室2厅1厨1卫,高楼层 (共34层),70.0,平层,57.89㎡,板塔结合,北,钢混结构,简装,两梯六户,有,70年,2019-12-04,商品房,暂无数据,普通住宅,暂无数据,非共有,有抵押 30万元,未上传房本照片,104.10083399999999,30.594579
26,中港CCPARK,锦江,270.0,24672,3室2厅1厨2卫,中楼层 (共31层),109.4,平层,暂无数据,板塔结合,东 西,钢混结构,毛坯,两梯六户,有,70年,2018-08-03,商品房,2020-01-13,普通住宅,未满两年,非共有,有抵押 77万元 建设银行,已上传房本照片,104.10351,30.625128000000004
27,卓锦城五期,锦江,300.0,23204,4室1厅1厨2卫,中楼层 (共33层),129.2,平层,107.4㎡,塔楼,东北,钢混结构,精装,两梯四户,有,70年,2019-07-31,商品房,2012-06-20,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.14494499999999,30.603167
28,锦江城市花园三期,锦江,99.0,17348,2室1厅1厨1卫,中楼层 (共34层),57.0,平层,暂无数据,板塔结合,东北,钢混结构,精装,两梯十一户,有,70年,2019-09-13,商品房,2013-05-22,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.154114,30.603519
29,东洪广厦,锦江,110.0,15572,2室1厅1厨1卫,高楼层 (共34层),70.6,平层,56.34㎡,板塔结合,东南,钢混结构,毛坯,两梯六户,有,70年,2019-10-16,商品房,2017-09-26,普通住宅,满两年,共有,无抵押,已上传房本照片,104.158344,30.612008000000003
30,宏济新路95号,锦江,75.0,10446,3室1厅1厨1卫,高楼层 (共6层),71.0,平层,暂无数据,板塔结合,东,混合结构,简装,一梯一户,无,70年,2019-07-04,已购公房,2000-07-20,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.100066,30.645274
31,莲花新区,锦江,163.0,16530,3室1厅1厨1卫,中楼层 (共7层),98.6,平层,98.61㎡,板楼,东南,钢混结构,简装,一梯两户,无,70年,2019-11-12,商品房,2013-05-13,普通住宅,满五年,共有,无抵押,已上传房本照片,104.106548,30.643457
32,锦江城市花园一期,锦江,128.0,15508,2室2厅1厨1卫,中楼层 (共34层),82.5,平层,67.96㎡,板塔结合,东南,钢混结构,简装,两梯八户,有,70年,2019-11-08,商品房,2014-03-28,普通住宅,满五年,共有,有抵押 40万元 渣打银行 客户偿还,已上传房本照片,104.150811,30.599947999999998
33,锦江城市花园三期,锦江,88.0,18239,2室1厅1厨1卫,中楼层 (共34层),48.2,平层,暂无数据,板塔结合,西北,钢混结构,精装,两梯十一户,有,70年,2020-01-09,商品房,2014-06-09,普通住宅,满五年,非共有,有抵押 20万元 中国银行 业主自还,已上传房本照片,104.154114,30.603519
34,莲花新区北一巷3号,锦江,94.0,11899,2室1厅1厨1卫,中楼层 (共7层),7.0,平层,79㎡,板楼,南,砖混结构,简装,一梯两户,无,70年,2019-12-06,商品房,2019-03-01,普通住宅,未满两年,非共有,无抵押,已上传房本照片,104.105577,30.638365000000004
35,柳江新居一期,锦江,112.0,12929,2室2厅1厨1卫,中楼层 (共18层),86.6,平层,73.01㎡,板楼,东,砖混结构,精装,两梯四户,有,70年,2019-12-10,商品房,2013-12-04,普通住宅,满五年,共有,无抵押,已上传房本照片,104.098511,30.609748
36,上东花园二期,锦江,76.0,10753,2室1厅1厨1卫,低楼层 (共6层),70.6,平层,61.64㎡,板楼,东南,砖混结构,简装,一梯四户,无,70年,2019-10-02,商品房,2010-07-07,普通住宅,满五年,共有,无抵押,已上传房本照片,104.11404399999999,30.608327000000003
37,锦江逸家,锦江,165.0,26494,3室1厅1厨1卫,低楼层 (共29层),62.2,平层,暂无数据,塔楼,西北,钢混结构,精装,两梯六户,有,70年,2019-11-24,商品房,2016-09-23,普通住宅,满两年,非共有,有抵押 36万元,已上传房本照片,104.144504,30.609315999999996
38,鑫苑名家二期,锦江,138.0,17038,2室1厅1厨1卫,高楼层 (共34层),8.0,平层,65.2㎡,板塔结合,南,钢混结构,精装,两梯七户,有,70年,2019-10-30,商品房,2011-08-10,普通住宅,满五年,非共有,有抵押 30万元,已上传房本照片,104.149863,30.604857
39,鑫苑名家一期,锦江,129.0,16330,3室1厅1厨1卫,中楼层 (共34层),7.0,平层,暂无数据,板塔结合,东南,钢混结构,精装,三梯六户,有,70年,2019-11-11,商品房,2012-03-23,普通住宅,满五年,共有,有抵押 15万元 农行 业主自还,已上传房本照片,104.148983,30.603784
40,鑫苑名家一期,锦江,125.0,15696,2室1厅1厨1卫,高楼层 (共34层),79.6,平层,61.46㎡,板塔结合,南 北,钢混结构,简装,两梯六户,有,70年,2019-11-11,商品房,2012-06-20,普通住宅,满五年,非共有,有抵押 10万元 业主自还,已上传房本照片,104.148983,30.603784
41,蓝润锦江春天,锦江,135.0,18913,3室1厅1厨1卫,低楼层 (共18层),71.3,平层,暂无数据,板塔结合,东北,钢混结构,精装,两梯六户,有,70年,2019-10-24,商品房,2017-09-07,普通住宅,满两年,非共有,有抵押 20万元,已上传房本照片,104.15915,30.588431
42,东御佲家,锦江,259.5,18910,4室2厅1厨2卫,高楼层 (共30层),137.2,平层,暂无数据,板塔结合,南,钢混结构,毛坯,两梯四户,有,70年,2019-11-19,商品房,暂无数据,普通住宅,暂无数据,非共有,有抵押 40万元 建设银行 客户偿还,未上传房本照片,104.157493,30.598371000000004
43,宏济新路95号,锦江,67.9,12275,1室1厅1厨1卫,中楼层 (共7层),55.3,平层,55.32㎡,板塔结合,东,砖混结构,简装,一梯四户,无,70年,2019-10-26,商品房,2017-03-09,普通住宅,满两年,共有,无抵押,已上传房本照片,104.100066,30.645274
44,大王钰城,锦江,155.0,25582,2室1厅1厨1卫,低楼层 (共28层),60.5,平层,暂无数据,塔楼,北,钢混结构,简装,三梯八户,有,70年,2019-10-06,商品房,暂无数据,普通住宅,暂无数据,非共有,无抵押,未上传房本照片,104.096769,30.670983000000003
45,蓝光凯丽香江,锦江,172.0,19878,3室1厅1厨1卫,低楼层 (共42层),86.5,平层,暂无数据,板塔结合,南 北,钢混结构,精装,三梯六户,有,70年,2019-12-10,商品房,2012-03-20,普通住宅,满五年,共有,有抵押 业主自还,已上传房本照片,104.09097164,30.60456576
46,卓锦城六期,锦江,168.0,21539,2室1厅1厨1卫,中楼层 (共28层),7.0,平层,63.18㎡,板塔结合,东,钢混结构,精装,两梯六户,有,70年,2019-12-10,商品房,2014-01-22,普通住宅,满五年,共有,有抵押 23万元 建设银行 业主自还,已上传房本照片,104.145436,30.601196
47,锦江城市花园一期,锦江,123.0,15449,2室1厅1厨1卫,中楼层 (共34层),79.6,平层,暂无数据,板塔结合,东南,钢混结构,简装,两梯八户,有,70年,2019-11-19,商品房,暂无数据,普通住宅,暂无数据,非共有,有抵押 40万元,未上传房本照片,104.150811,30.599947999999998
48,国嘉新视界,锦江,104.0,18702,2室1厅1厨1卫,高楼层 (共32层),55.6,平层,暂无数据,塔楼,东北,钢混结构,精装,三梯八户,有,70年,2019-07-02,商品房,2011-07-02,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.112175,30.644948
49,卓锦城二期,锦江,152.0,15671,2室2厅1厨2卫,中楼层 (共24层),9.0,平层,暂无数据,板塔结合,东 东北,钢混结构,简装,两梯四户,有,70年,2019-10-25,商品房,2017-06-22,普通住宅,满两年,非共有,有抵押 50万元 未知 客户偿还,已上传房本照片,104.137289,30.605729999999998
50,莲桂西路15号,锦江,95.0,12805,3室1厅1厨1卫,低楼层 (共7层),74.1,平层,暂无数据,板楼,东南,砖混结构,简装,一梯三户,无,70年,2020-02-20,已购公房,暂无数据,普通住宅,暂无数据,非共有,有抵押 8万元 业主自还,未上传房本照片,104.103703,30.640590999999997
51,上东锦城A区,锦江,133.0,14954,3室2厅1厨1卫,中楼层 (共18层),88.9,平层,73.96㎡,板楼,东南,框架结构,其他,两梯六户,有,70年,2019-12-06,限价商品房,2011-05-31,普通住宅,满五年,非共有,有抵押 5万元 建设银行 业主自还,已上传房本照片,104.130652,30.606018
52,摩根中心,锦江,98.0,16488,1室1厅1厨1卫,高楼层 (共40层),59.4,平层,45.94㎡,塔楼,东北,钢混结构,精装,四梯十户,有,70年,2019-09-10,商品房,2017-04-01,普通住宅,满两年,非共有,无抵押,已上传房本照片,104.110738,30.645522999999997
53,学府芳邻社区,锦江,94.8,13541,2室2厅1厨1卫,中楼层 (共6层),70.0,平层,61.64㎡,板楼,东 西,钢混结构,简装,一梯三户,无,70年,2019-10-17,商品房,2006-05-11,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.11879,30.621290000000002
54,江东民居四区,锦江,93.0,13969,2室1厅1厨1卫,中楼层 (共7层),66.5,平层,暂无数据,板楼,东南,砖混结构,简装,一梯两户,无,70年,2019-09-05,商品房,2002-01-04,普通住宅,满五年,非共有,有抵押 35万元,已上传房本照片,104.10332700000001,30.641315000000002
55,瑞升望江橡树林二期,锦江,165.0,27957,1室1厅1厨1卫,中楼层 (共32层),59.0,平层,44.85㎡,板塔结合,南,钢混结构,简装,三梯八户,有,70年,2019-12-03,商品房,2013-10-08,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.099424,30.630257
56,锦江城市花园三期,锦江,98.0,17780,2室1厅1厨1卫,低楼层 (共34层),55.1,平层,44.69㎡,板塔结合,东南 西北,钢混结构,简装,两梯十一户,有,70年,2020-01-02,商品房,2016-10-11,普通住宅,满两年,共有,有抵押 20万元,已上传房本照片,104.154114,30.603519
57,望江橡树林一期,锦江,200.0,22640,2室1厅1厨1卫,中楼层 (共33层),88.3,平层,暂无数据,板塔结合,南,钢混结构,简装,两梯六户,有,70年,2019-11-11,商品房,2010-10-15,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.09855368,30.62856129
58,华韵天府,锦江,205.0,23802,4室2厅1厨1卫,高楼层 (共39层),86.1,平层,暂无数据,板塔结合,西北,钢混结构,精装,两梯四户,有,70年,2019-12-31,商品房,2015-03-30,普通住宅,满两年,共有,有抵押 140万元 民生银行 金融公司垫资,已上传房本照片,104.151557,30.611087
59,绿地468云玺四期,锦江,315.0,24357,4室1厅1厨2卫,中楼层 (共40层),129.3,平层,129.33㎡,板塔结合,南,钢混结构,精装,三梯六户,有,70年,2019-11-14,商品房,2017-11-14,普通住宅,满两年,非共有,有抵押 40万元 工商,已上传房本照片,104.16015,30.609240999999997
60,上东锦城A区,锦江,126.0,14167,3室2厅1厨1卫,高楼层 (共18层),88.9,平层,73.96㎡,板楼,东,框架结构,简装,两梯六户,有,70年,2020-01-03,限价商品房,2011-05-31,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.130652,30.606018
61,万科金色城市,锦江,133.0,18328,2室2厅1厨1卫,中楼层 (共27层),72.5,平层,暂无数据,板塔结合,西北,钢混结构,精装,三梯八户,有,70年,2019-12-31,商品房,2017-07-10,普通住宅,满两年,共有,有抵押 60万元 中信银行 金融公司垫资,已上传房本照片,104.179234,30.599793
62,天涯庭苑,锦江,240.0,26096,2室1厅1厨1卫,高楼层 (共18层),91.9,平层,78.97㎡,塔楼,南,框架结构,精装,六梯四户,有,70年,2020-01-08,商品房,2014-01-20,普通住宅,满五年,非共有,有抵押 30万元 招商银行 金融公司垫资,已上传房本照片,104.095577,30.664697999999998
63,瑞升望江橡树林二期,锦江,330.0,27054,3室2厅1厨2卫,中楼层 (共34层),121.9,平层,暂无数据,板塔结合,东南,钢混结构,精装,三梯五户,有,70年,2019-12-08,商品房,2015-07-20,普通住宅,满两年,共有,有抵押 70万元 业主自还,已上传房本照片,104.099424,30.630257
64,锦江城市花园二期,锦江,119.0,16526,2室1厅1厨1卫,低楼层 (共34层),72.0,平层,58.08㎡,板塔结合,西南,钢混结构,精装,两梯九户,有,70年,2019-11-04,商品房,2012-02-16,普通住宅,满五年,非共有,有抵押 20万元 邮政银行 客户偿还,已上传房本照片,104.15178,30.601865000000004
65,华都美林湾,锦江,208.0,17719,3室2厅1厨2卫,低楼层 (共28层),117.3,平层,暂无数据,板塔结合,南,钢混结构,简装,两梯四户,有,70年,2019-12-20,商品房,2014-02-25,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.145772,30.596231
66,蓝光凯丽香江,锦江,172.0,20000,3室1厅1厨1卫,低楼层 (共42层),8.0,平层,72㎡,板塔结合,东,钢混结构,精装,三梯六户,有,70年,2019-09-05,商品房,2012-09-11,普通住宅,满五年,非共有,有抵押 50万元,已上传房本照片,104.09097164,30.60456576
67,华都美林湾,锦江,215.0,18693,3室1厅1厨2卫,中楼层 (共33层),115.0,平层,92.39㎡,板塔结合,西南,钢混结构,简装,两梯四户,有,70年,2019-12-26,商品房,2013-05-07,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.145772,30.596231
68,莲花新区南一巷2号院,锦江,93.0,12266,3室1厅1厨1卫,中楼层 (共7层),75.8,平层,75.82㎡,塔楼,东南 西南,砖混结构,毛坯,一梯四户,无,70年,2019-10-29,商品房,2001-07-09,普通住宅,满五年,共有,无抵押,已上传房本照片,104.106637,30.637468
69,华都美林湾,锦江,98.0,14374,2室1厅1厨1卫,高楼层 (共30层),68.1,平层,53.96㎡,板塔结合,东南,钢混结构,简装,两梯六户,有,70年,2019-10-25,商品房,2010-12-25,普通住宅,满五年,非共有,有抵押 40万元 有贷款自己还,已上传房本照片,104.145772,30.596231
70,桂王桥南街26号,锦江,117.0,14966,3室1厅1厨1卫,中楼层 (共8层),78.1,平层,暂无数据,板楼,东,砖混结构,简装,一梯两户,无,70年,2019-12-05,商品房,2012-12-08,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.08986,30.667751000000003
71,天悦龙庭,锦江,330.0,19076,4室2厅1厨3卫,高楼层 (共22层),17.0,平层,137.8㎡,板楼,西,钢混结构,毛坯,两梯两户,有,70年,2019-12-06,商品房,2015-10-20,普通住宅,满两年,非共有,无抵押,已上传房本照片,104.09591400000001,30.603027
72,时代豪庭二期,锦江,545.0,31115,3室1厅1厨3卫,高楼层 (共24层),175.1,平层,暂无数据,板塔结合,西,钢混结构,精装,三梯四户,有,70年,2019-12-22,商品房,暂无数据,普通住宅,暂无数据,非共有,有抵押 180万元,未上传房本照片,104.09379,30.652234000000004
73,锦江城市花园二期,锦江,122.0,16943,2室1厅1厨1卫,高楼层 (共34层),72.0,平层,暂无数据,板塔结合,西南,钢混结构,简装,两梯九户,有,70年,2019-10-27,商品房,2011-04-21,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.15178,30.601865000000004
74,财富中心,锦江,165.0,34042,1室1厅1厨1卫,高楼层 (共30层),48.4,平层,暂无数据,板塔结合,西北,框架结构,简装,六梯六十九户,有,70年,2019-08-21,商品房,2014-05-06,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.077166,30.658428000000004
75,万科金色城市,锦江,150.0,17308,3室2厅1厨1卫,中楼层 (共35层),86.6,平层,暂无数据,板塔结合,东北,钢混结构,精装,三梯八户,有,70年,2019-07-22,商品房,暂无数据,普通住宅,暂无数据,非共有,无抵押,未上传房本照片,104.179234,30.599793
76,华韵天府,锦江,212.0,24224,4室1厅1厨1卫,低楼层 (共39层),87.5,平层,暂无数据,板塔结合,西南,钢混结构,简装,三梯六户,有,70年,2019-12-14,商品房,2016-07-19,普通住宅,满两年,非共有,无抵押,已上传房本照片,104.151557,30.611087
77,永兴巷9号,锦江,81.0,12692,2室1厅1厨1卫,中楼层 (共6层),63.8,平层,暂无数据,板楼,东,砖混结构,毛坯,一梯两户,无,未知,2019-11-16,商品房,2003-04-20,普通住宅,满五年,共有,无抵押,已上传房本照片,104.085826,30.666859999999996
78,莲桂南路22号,锦江,83.0,10997,3室1厅1厨1卫,中楼层 (共7层),75.4,平层,暂无数据,板楼,东,砖混结构,简装,一梯三户,无,70年,2019-01-06,商品房,2019-01-06,普通住宅,未满两年,非共有,无抵押,已上传房本照片,104.103677,30.63525
79,昭忠祠街50号,锦江,71.0,13473,2室1厅1厨1卫,低楼层 (共7层),52.0,平层,52.7㎡,板楼,东南,砖混结构,简装,一梯三户,无,70年,2019-09-17,已购公房,2000-10-01,普通住宅,满五年,共有,无抵押,已上传房本照片,104.09645,30.672265999999997
80,锦江城市花园三期,锦江,125.0,16820,3室2厅1厨1卫,低楼层 (共34层),74.3,平层,60.1㎡,板塔结合,东南,钢混结构,简装,两梯九户,有,70年,2019-10-24,商品房,2012-11-13,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.154114,30.603519
81,桂王桥西街56号,锦江,66.6,11809,3室1厅1厨1卫,高楼层 (共6层),56.0,平层,暂无数据,板楼,东 西,砖混结构,简装,一梯两户,无,70年,2019-12-14,商品房,2014-05-13,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.08965,30.6697
82,卓锦城二期,锦江,220.0,17850,3室1厅1厨2卫,中楼层 (共18层),123.2,平层,102.08㎡,板塔结合,东南,钢混结构,精装,两梯四户,有,70年,2019-12-22,商品房,2012-03-12,普通住宅,满五年,非共有,有抵押 35万元 邮政银行 业主自还,已上传房本照片,104.137289,30.605729999999998
83,牛市口路14号,锦江,102.0,10865,3室1厅1厨1卫,高楼层 (共6层),93.8,平层,91㎡,板楼,东南,砖混结构,精装,一梯两户,无,70年,2019-11-07,商品房,2011-11-01,普通住宅,满五年,非共有,有抵押 50万元 业主自还,已上传房本照片,104.113006,30.646113
84,锦江华庭,锦江,175.0,20042,2室2厅1厨1卫,高楼层 (共21层),87.3,平层,暂无数据,板楼,东南,框架结构,简装,两梯四户,有,70年,2019-12-23,商品房,2006-11-14,普通住宅,满五年,共有,无抵押,已上传房本照片,104.09949,30.671353999999997
85,合能锦城,锦江,145.0,17858,3室2厅1厨2卫,低楼层 (共32层),81.0,平层,暂无数据,平房,西南,钢混结构,精装,三梯十九户,有,70年,2018-12-05,商品房,2018-01-23,普通住宅,满两年,共有,无抵押,已上传房本照片,104.148831,30.601656
86,卓锦城三期,锦江,168.0,17419,2室1厅1厨1卫,中楼层 (共24层),96.4,平层,22.39㎡,塔楼,东北,钢混结构,精装,三梯六户,有,70年,2019-07-08,商品房,2015-09-19,普通住宅,满两年,共有,无抵押,已上传房本照片,104.139912,30.604777000000002
87,蓝润锦江春天,锦江,140.0,19614,3室2厅1厨1卫,中楼层 (共18层),71.3,平层,56.99㎡,板塔结合,东北,钢混结构,精装,两梯六户,有,70年,2019-12-30,商品房,2017-11-14,普通住宅,满两年,共有,无抵押,已上传房本照片,104.15915,30.588431
88,瑞升望江橡树林二期,锦江,318.0,25691,4室2厅1厨2卫,中楼层 (共34层),123.7,平层,99.76㎡,板塔结合,东,钢混结构,精装,三梯六户,有,70年,2019-09-26,商品房,2013-04-19,普通住宅,满五年,共有,无抵押,已上传房本照片,104.099424,30.630257
89,海桐一期,锦江,62.0,13192,1室1厅1厨1卫,低楼层 (共11层),4.0,平层,36.94㎡,板塔结合,东南,砖混结构,简装,两梯四户,有,70年,2019-07-19,经济适用房,2013-12-16,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.136756,30.612653
90,华都美林湾,锦江,57.0,15591,1室0厅1厨1卫,高楼层 (共33层),36.5,平层,暂无数据,板塔结合,西南,钢混结构,精装,两梯六户,有,70年,2019-11-07,商品房,2016-09-23,普通住宅,满两年,非共有,无抵押,已上传房本照片,104.145772,30.596231
91,合能锦城,锦江,146.0,18025,3室1厅1厨1卫,低楼层 (共32层),8.0,平层,暂无数据,塔楼,东南 北,钢混结构,精装,三梯八户,有,70年,2019-09-28,商品房,2017-09-09,普通住宅,满两年,共有,有抵押 30万元 工商银行滨江支行,已上传房本照片,104.148831,30.601656
92,天地自由星城,锦江,122.0,19390,2室1厅1厨1卫,中楼层 (共24层),62.9,平层,49.26㎡,塔楼,东南,钢混结构,精装,两梯七户,有,70年,2019-07-21,商品房,2016-09-18,普通住宅,满两年,共有,有抵押 40万元 不清楚 业主自还,已上传房本照片,104.111149,30.641655
93,红星国际,锦江,143.0,29268,1室0厅1厨1卫,低楼层 (共34层),48.8,平层,37.94㎡,塔楼,东 南,钢混结构,精装,三梯十户,有,70年,2019-04-28,商品房,2013-11-28,普通住宅,满五年,非共有,无抵押,已上传房本照片,104.092286,30.66713
94,蓝润锦江春天,锦江,108.0,20165,2室1厅1厨1卫,中楼层 (共29层),53.5,平层,暂无数据,板塔结合,东北,钢混结构,精装,两梯五户,有,70年,2019-11-28,商品房,2017-06-22,普通住宅,满两年,共有,有抵押 25万元 建设银行,已上传房本照片,104.15915,30.588431
95,龙舟路60号,锦江,75.0,10977,2室1厅1厨1卫,中楼层 (共7层),68.3,平层,68.33㎡,板楼,东南,钢混结构,简装,一梯四户,无,70年,2019-11-04,商品房,2016-01-25,普通住宅,满两年,非共有,无抵押,已上传房本照片,104.105491,30.633557
96,人居锦尚春天B区,锦江,125.0,14758,2室2厅1厨1卫,高楼层 (共41层),84.0,平层,69.56㎡,塔楼,东南,钢混结构,简装,三梯八户,有,70年,2019-07-13,商品房,2015-10-23,普通住宅,满两年,非共有,无抵押,已上传房本照片,104.145721,30.612883
97,吉宝凌云峰阁,锦江,415.0,31054,3室2厅1厨2卫,高楼层 (共29层),133.6,平层,暂无数据,板楼,东北,钢混结构,精装,三梯四户,有,50年,2019-08-11,商品房,暂无数据,普通住宅,暂无数据,共有,有抵押 150万元,未上传房本照片,104.112214,30.637476
98,万科金色城市,锦江,130.0,18056,2室2厅1厨1卫,低楼层 (共27层),7.0,平层,暂无数据,板塔结合,东,钢混结构,精装,三梯八户,有,70年,2019-11-13,商品房,2017-10-20,普通住宅,满两年,非共有,有抵押 35万元 工商 客户偿还,已上传房本照片,104.179234,30.599793
99,绿地468公馆一期,锦江,163.0,21169,2室1厅1厨1卫,中楼层 (共29层),7.0,平层,暂无数据,板塔结合,东北,钢混结构,精装,两梯六户,有,70年,2019-12-20,商品房,2016-01-25,普通住宅,满两年,非共有,无抵押,已上传房本照片,104.14998,30.614527000000002
100,绿地锦天府,锦江,580.0,28325,4室1厅1厨2卫,高楼层 (共30层),204.7,平层,暂无数据,板塔结合,北,钢混结构,精装,三梯三户,有,70年,2019-09-28,商品房,2014-11-18,普通住宅,满五年,非共有,有抵押 120万元 汇丰银行 业主自还,已上传房本照片,104.11068900000001,30.636839000000002

先给大家讲解一下数据格式,这是成都2020年二手房数据,一共27列,分别都是每一套房子的特征,也就是一套房子对应27个特征。但是,有的特征我们可能是用不了的,比如说经纬度(也不是不能用,我觉得意义不大),套内面积(有很多暂无数据和nan),所以我们需要对数据进行二次清洗。

数据清洗(代码复制可用)

def format_data(file_path):
"""
对数据进行二次清洗
除去经纬度、删除套内面积、删除有nan的行
:return:处理完成的dataframe
"""
df = pd.read_csv(file_path).iloc[:, 1:-2] # 取所有行,取1~倒数2列
df.drop(labels='套内面积', axis=1, inplace=True)
df.dropna(axis=0, inplace=True)
print(df)
return df
if __name__ == '__main__':
file_path = "cd_lianjia.csv"
df = format_data(file_path)

数据特征抽取

什么是特征抽取

其实这个部分很重要,但是时间关系我就不贴网上的官方说法了,需要了解的可以看特征工程之特征抽取。

接下来就用简单的语言解释一下,所谓特征抽取就是讲机器无法理解的特征进行数字化,形成一个机器可以运算的矩阵,从而使用矩阵对数据进行运算。比如上面的数据有很多户型,机器是无法理解户型的概念与异同,但是我们可以通过特征抽取的方式将他转换为一个矩阵,在这个矩阵里,是A户型的就打1,不是就打0,这样通过穷举的方式就能够形成一个机器可以运算的矩阵。(解释的很简单粗暴,见谅)

如何进行特征抽取

字典特征抽取

# 导包
from sklearn.feature_extraction import DictVectorizer
# 实例化DictVectorizer
dv = DictVectorizer(sparse=True)
# sparse=True:表示返回sparse格式的矩阵,优点是节约内存
# sparse=False:表示返回类似dataframe一样的矩阵,很大程度上是稀疏阵,当数据量比较大的时候会大量消耗内存
# 转成字典列表
df_list = []
for index, item in df.iterrows():
df_list.append(dict(item))
# 将df_list 进行特征抽取
matrix = dv.fit_transform(df_list)
# 实际上网按成fit_transform就已经将数据进行特征抽取了
# 抽取出来的矩阵格式由初始化时的参数sparse决定

《如何对数据进行K-Means聚类》

文本特征抽取

文本特征抽取也差不多,我给大家贴一片博客就可以了,免得每篇都那么多字数。

特征提取方法: one-hot 和 TF-IDF这篇博写的还是很详细的。

本次实验代码(代码复制可用)

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
def format_data(file_path):
"""
对数据进行二次清洗
除去经纬度、删除套内面积、删除有nan的行
:return:处理完成的dataframe
"""
df = pd.read_csv(file_path).iloc[:, 1:-2] # 取所有行,取1~倒数2列
df.drop(labels='套内面积', axis=1, inplace=True)
df.dropna(axis=0, inplace=True)
print(df)
return df
def Vectorizer(df):
"""
对清洗后的数据进行特征抽取
使用dictVectorizer进行字典特征抽取
需要将每一条记录转成字典
:param df:
:return:
"""
# 实例化DictVectorizer
dv = DictVectorizer(sparse=True)
# 转成字典列表
df_list = []
for index, item in df.iterrows():
df_list.append(dict(item))
# 将df_list 进行特征抽取
matrix = dv.fit_transform(df_list)
print(matrix)
return matrix
if __name__ == '__main__':
file_path = "cd_lianjia.csv"
df = format_data(file_path)
vec_matrix = Vectorizer(df)

数据标准化

什么是数据标准化和为什么要数据标准化

其实在使用机器学习算法的时候很多时候需要使用到特征抽取过后的数值而这些数值有高有低,在加权运算的过程中数值低的特征对整体的影响会被忽略,或者说数值高的特征对整体的影响起决定性作用,所以需要对特征进行处理。而处理的方法有标准化和归一化等等。

今天只讲标准化,标准化会使每个特征平均值变为0、标准差变为1,在这种情况下每个特征都可以发挥相应的影响作用。

更多可以参考这篇博客:归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)

如何进行标准化(代码复制可用)

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
def format_data(file_path):
"""
对数据进行二次清洗
除去经纬度、删除套内面积、删除有nan的行
:return:处理完成的dataframe
"""
df = pd.read_csv(file_path).iloc[:, 1:-2] # 取所有行,取1~倒数2列
df.drop(labels='套内面积', axis=1, inplace=True)
df.dropna(axis=0, inplace=True)
print(df)
return df
def Vectorizer(df):
"""
对清洗后的数据进行特征抽取
使用dictVectorizer进行字典特征抽取
需要将每一条记录转成字典
:param df:
:return:
"""
# 实例化DictVectorizer
dv = DictVectorizer(sparse=True)
# 转成字典列表
df_list = []
for index, item in df.iterrows():
df_list.append(dict(item))
# 将df_list 进行特征抽取
matrix = dv.fit_transform(df_list)
print(matrix)
return matrix
def standardize(matrix):
"""
将特征抽取过的数据进行标准化
:param matrix:
:return:
"""
std = StandardScaler(with_mean=False)

# 将经过特征抽取的矩阵传入StandardScaler实例,得到经过标准化的矩阵
# 这样在接下来的处理中只需要对这个矩阵进行操作就可以,而原来的未经过标准化的矩阵因为有失偏颇所以不使用
matrix_std = std.fit_transform(matrix)
print(matrix_std)
return matrix_std
if __name__ == '__main__':
file_path = "cd_lianjia.csv"
df = format_data(file_path)
vec_matrix = Vectorizer(df)
matrix_std = standardize(vec_matrix)

K-Means聚类

相信大家已经提前了解K-Means聚类的原理和特点,不然也不会找到这篇文章,所以我也不再赘述。若是实在没有了解过、希望重新理解的话可以看一看这篇博客:聚类、K-Means、例子、细节

这篇文章只管使用。

def cluster_df(matrix, df):
"""
对经过特征抽取(且标准化)的矩阵进行聚类
:param matrix:
:return:
"""
# n_clusters表示需要聚类的簇的数量
km = KMeans(n_clusters=5)
# 将处理过得矩阵fit,这样在下面的predict的时候就会根据fit时候传入的矩阵来对predict矩阵进行聚类。也就是说使用fit的标准对predict矩阵进行聚类
km.fit(matrix)
predict = km.predict(matrix)
df['类别'] = predict

完整代码(复制不可直接使用)

代码不可以直接使用,需要自己创建csv文件

这是没有经过标准化的聚类

import matplotlib.pyplot as plt
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
def format_data(file_path):
"""
对数据进行二次清洗
除去经纬度、删除套内面积、删除有nan的行
:return:处理完成的dataframe
"""
df = pd.read_csv(file_path).iloc[:, 1:-2] # 取所有行,取1~倒数2列
df.drop(labels='套内面积', axis=1, inplace=True)
df.dropna(axis=0, inplace=True)
print(df)
return df
def Vectorizer(df):
"""
对清洗后的数据进行特征抽取
使用dictVectorizer进行字典特征抽取
需要将每一条记录转成字典
:param df:
:return:
"""
# 实例化DictVectorizer
dv = DictVectorizer(sparse=True)
# 转成字典列表
df_list = []
for index, item in df.iterrows():
df_list.append(dict(item))
# 将df_list 进行特征抽取
matrix = dv.fit_transform(df_list)
print(matrix)
return matrix
def standardize(matrix):
"""
将特征抽取过的数据进行标准化
:param matrix:
:return:
"""
std = StandardScaler(with_mean=False)
matrix_std = std.fit_transform(matrix)
print(matrix_std)
return matrix_std
def cluster_df(matrix, df):
"""
对经过特征抽取(且标准化)的矩阵进行聚类
:param matrix:
:return:
"""
km = KMeans(n_clusters=5)
km.fit(matrix)
predict = km.predict(matrix)
df['类别'] = predict
def SHOW(df):
"""
对数据进行展示
:param df:
:return:
"""
plt.figure(figsize=(20, 8), dpi=80)
colors = ['green', 'orange', 'blue', 'red', 'pink']
# colors = ['green', 'orange']
colr = [colors[i] for i in df['类别']]
plt.scatter(df['建筑面积'], df['总价'], color=colr, alpha=0.5)
plt.savefig("标准化前.png")
plt.show()
if __name__ == '__main__':
file_path = "cd_lianjia.csv"
df = format_data(file_path)
vec_matrix = Vectorizer(df)
# matrix_std = standardize(vec_matrix)
cluster_df(vec_matrix, df)
SHOW(df)

《如何对数据进行K-Means聚类》

在打开标准化后

《如何对数据进行K-Means聚类》

总结

学会使用K-Means聚类算法并不难,只需要严格按照以下步骤就可以了:

  1. 数据清洗
  2. 数据特征抽取
  3. 数据标准化或归一化
  4. K-Means聚类

而sklearn中的api很多都是相近似的,所以我们的学习成本并不高。我一直认为边学边做、一边看到效果一边理解会让人学习更快。所以在学习聚类的时候可以像我这样先找点数据自己试一试,然后数据操作后就可以去扒源码(理解的前提下)。


推荐阅读
author-avatar
与幸福约定2502895163
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有