作者:郭彩凤da | 来源:互联网 | 2023-09-17 14:11
“数据”是机器学习的基础。初学机器学习时,我们通常处理的数据格式通常是以下 的形式:属性(特征)几室几厅供暖(0地热1暖气)临街(1临街2不临街)楼层房价样本13211
“数据”是机器学习的基础。
初学机器学习时,我们通常处理的数据格式通常是以下 的形式:
属性(特征) |
几室 |
几厅 |
供暖(0地热 1暖气) |
... |
临街(1临街 2不临街) |
楼层 |
房价 |
样本1 |
3 |
2 |
1 |
... |
1 |
5 |
300000 |
... |
... |
... |
... |
... |
... |
... |
... |
样本N |
4 |
1 |
0 |
... |
0 |
2 |
400000 |
关于房价评估预测,假设该表反应为一个我们实地采集的数据,我们要从中 “机器学习” 之前首先要学习几个概念:
样本 |
上表中一横行为一个样本,即我们所采集到的一所房子的相关信息。 |
特征 |
上表中一纵列为一个属性(或特征),即一个房子的某些方面,如几室几厅。人们在购买房子时,几室几厅直接影响房子价格,所以我们要采集他,当然一些数据有一些非直观的影响,如当地工业程度对房价的影响。 |
标签 |
上表中最后一列为标签,即我们想要预测的内容。如该例中,我们想预测房价 |
数据集 |
所有样本的集合 |
(未完持续)