DataFrame
DataFrame是将数个Series按列组合而成的二维数据结构,
1.由Series创建DataFrame
指定好每个Series的列索引
df=DataFrame({'one':s1,'two':s2})
2.选取数据
#选取列,一般是按索引
df.a 或者 df['a'] #选取特定的一列,数据类型是Series
df[['a','c']] #输出不连续的'a'和'c'列
#选取行,一般是按下标
df[:2] #输出前两行(不包含行号为2的行)
#选取行和列,使用.ix
df.ix[:2,'a':'c'] #选取连续的前3行(包含行号为2的行)和连续的'a'到'c'列
df.ix[[1,4],['a','c']] #下标为1,4的行(下标从0开始),不连续的'a','c'列
布尔掩码数组(True和False的数组)可以直接作为Series或者DataFrame的索引,通常在提取出特定的Series或DataFrame数据时用到
df.Pclass[data_train.Survived==0] #提取出Pcalss列中Survived==0的数值,是Series类型
#isnull()和notnull()的使用,是否为空值
df[df.Age.isnull()] #提取出Age列中是空值的所有行,是DataFrame类型
df[df.Age.notnull()] #提取出Age列中不是空值的所有行,是DataFrame类型
data_test.ix[(data_test.Fare.isnull()),'Fare']=data_test.Fare[data_test.Pclass==3].mean() #Fare属性为空的,用Pclass==3的样本均值填充
3.dataframe转为ndarray
df.as_matrix()
4.读取文件和输出到文件
df=pd.read_csv('train.csv') #读取csv文件,得到DataFrame类型的数据
df.to_csv("result.csv",index=False) #将DataFrame类型的数据输出到csv文件,index=False表示不要行index