DataFrame

DataFrame是将数个Series按列组合而成的二维数据结构，

1.由Series创建DataFrame

指定好每个Series的列索引

df=DataFrame({'one':s1,'two':s2})

2.选取数据

#选取列，一般是按索引
df.a 或者 df['a'] #选取特定的一列,数据类型是Series
df[['a','c']] #输出不连续的'a'和'c'列

#选取行，一般是按下标
df[:2] #输出前两行（不包含行号为2的行）

#选取行和列，使用.ix
df.ix[:2,'a':'c'] #选取连续的前3行（包含行号为2的行）和连续的'a'到'c'列
df.ix[[1,4],['a','c']] #下标为1,4的行（下标从0开始），不连续的'a','c'列

布尔掩码数组（True和False的数组）可以直接作为Series或者DataFrame的索引，通常在提取出特定的Series或DataFrame数据时用到

df.Pclass[data_train.Survived==0] #提取出Pcalss列中Survived==0的数值，是Series类型

#isnull()和notnull()的使用，是否为空值
df[df.Age.isnull()] #提取出Age列中是空值的所有行，是DataFrame类型
df[df.Age.notnull()] #提取出Age列中不是空值的所有行，是DataFrame类型
data_test.ix[(data_test.Fare.isnull()),'Fare']=data_test.Fare[data_test.Pclass==3].mean() #Fare属性为空的，用Pclass==3的样本均值填充

3.dataframe转为ndarray

df.as_matrix()

4.读取文件和输出到文件

df=pd.read_csv('train.csv') #读取csv文件，得到DataFrame类型的数据
df.to_csv("result.csv",index=False) #将DataFrame类型的数据输出到csv文件，index=False表示不要行index

DataFrame

DataFrame

results matching ""

No results matching ""