cut:是将数据划分成几个区间,每个区间长度一样,区间数据个数不一定一样 qcut:划分区间只能是0—1之间数,差值是分位数,包含0和1,按分位数划分,如果差值a小于1,就没有1000个值,共a*1000个数
np.random.seed(number) number是生成随机数的种子 np.random.randn() 默认生成随机数的种子数是当前时间的时间戳 定义一个种子数,种子数只能用一次
(1)pd.read_csv() (2)pd.read_table(),默认逗号分隔,使用sep指定分隔符 (3)读取没有标题的csv文件,手动指定数据标题 添加names,即指定列索引 通过添加columns,指定行索引 (4).将读取的数据进行层次化索引
指定行索引 将文件以list形式打开 添加分隔符 (5)通过skiprows读取不规则文件 (6)处理存在NA的数据文件 (7)na_values=将数据进行NaN替换
(1)sys.stdout 不生成文件,不改变文件本身,如果要保存就将sys.stdout替换成要保存的文件名 (2)na_rep=’NULL’对缺失值进行NULL标记