Python数据分析之数据变换

Posted on 2016-06-22(星期三) 10:00 in Python数据分析

Python数据分析之数据变换

通常数据并不是那么的完美，需要进行一些处理，移除一些不需要的数据

先看下数据是什么样子

# Head of the data
print df.head()

# OUTPUT
 Abra Apayao Benguet Ifugao Kalinga
0 1243 2934  148 3300 10553
1 4158 9235  4287 8063 35257
2 1787 1922  1955 1074  4544
3 17152 14501  3536 19607 31687
4 1266 2385  2530 3315  8520

# Tail of the data
print df.tail()

# OUTPUT
 Abra Apayao Benguet Ifugao Kalinga
74 2505 20878  3519 19737 16513
75 60303 40065  7062 19422 61808
76 6311 6756  3561 15910 23349
77 13345 38902  2583 11096 68663
78 2623 18264  3745 16787 16900

这分别是显示前五行和后五行数据

在Python中，使用columns和index属性来提取列和行，如下：

# Extracting column names
print df.columns

# OUTPUT
Index([u'Abra', u'Apayao', u'Benguet', u'Ifugao', u'Kalinga'], dtype='object')

# Extracting row names or the index
print df.index

# OUTPUT
Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78], dtype='int64')

数据转置使用T方法

# Transpose data
print df.T

# OUTPUT
  0  1  2  3  4  5  6  7  8  9
Abra  1243 4158 1787 17152 1266 5576 927 21540 1039 5424
Apayao 2934 9235 1922 14501 2385 7452 1099 17038 1382 10588
Benguet 148 4287 1955 3536 2530 771 2796 2463 2592 1064
Ifugao 3300 8063 1074 19607 3315 13134 5134 14226 6842 13828
Kalinga 10553 35257 4544 31687 8520 28252 3106 36238 4973 40140

  ...  69  70  71  72  73  74  75  76  77
Abra  ... 12763 2470 59094 6209 13316 2505 60303 6311 13345
Apayao ... 37625 19532 35126 6335 38613 20878 40065 6756 38902
Benguet ...  2354 4045 5987 3530 2585 3519 7062 3561 2583
Ifugao ...  9838 17125 18940 15560 7746 19737 19422 15910 11096
Kalinga ... 65782 15279 52437 24385 66148 16513 61808 23349 68663

   78
Abra  2623
Apayao 18264
Benguet 3745
Ifugao 16787
Kalinga 16900

其他变换，排序用sort属性；iloc或者ix属性提取特定的某列数据。假设我们需数据第一列的前5行，我们有：

print df.ix[:, 0].head()

# OUTPUT
0  1243
1  4158
2  1787
3 17152
4  1266
Name: Abra, dtype: int64

Python的索引是从0开始而非1

print df.ix[10:20, 0:3]

# OUTPUT
Abra Apayao Benguet
10 981 1311  2560
11 27366 15093  3039
12 1100 1701  2382
13 7212 11001  1088
14 1048 1427  2847
15 25679 15661  2942
16 1055 2191  2119
17 5437 6461  734
18 1029 1183  2302
19 23710 12222  2598
20 1091 2343  2654

上述命令相当于df.ix[10:20, ['Abra', 'Apayao', 'Benguet']]。

drop属性用来舍弃数据中的列，列1(Apayao)和列2(Benguet)，如下：

print df.drop(df.columns[[1, 2]], axis = 1).head()

# OUTPUT
Abra Ifugao Kalinga
0 1243 3300 10553
1 4158 8063 35257
2 1787 1074  4544
3 17152 19607 31687
4 1266 3315  8520

axis 参数告诉函数到底舍弃列还是行。如果axis等于0，那么就舍弃行。