第 2 章数据处理基础
2.1将下列属性分类成二元的、分类的或连续的,并将它们分类成定性的(标称的或序数的) 或定量的(区间的或比率的)。
例子:年龄。回答:分类的、定量的、比率的。
(a)用 AM 和 PM 表示的时间。(b)根据曝光表测出的亮度。©根据人的判断测出的亮度。(d)医院中的病人数。
(e)书的 ISBN 号。
(f)用每立方厘米表示的物质密度。答:(a)二元,定量,比率;
(b)连续,定量 ,比率; ©分类,定性,标称; (d)连续,定量,比率; (e)分类,定性,标称; (f)连续,定量,比率。
2.2你能想象一种情况,标识号对于预测是有用的吗?
答:学生的 ID 号可以预测该学生的毕业日期。
2.3在现实世界的数据中,元组在某些属性上缺失值是常有的。请描述处理该问题的各种方法。
答:处理遗漏值问题的策略有如下几种。
(1)删除数据对象或属性。一种简单而有效的策略是删除具有遗漏值的数据对象。然而, 即使部分给定的数据对象也包含一些信息,并且,如果许多对象都有遗漏值,则很难甚至不可能进行可靠的分析。尽