要用到的東西
import pandas as pd
pd.read_csv(fname,names=head,header=0,usecols=head,nrows=r,skiprows=s)
# fname: filename
# names: column_names
# header: csv 的 column_names 放在第幾個 row ,沒有個畫填None
# usecols: 讀哪些 column 就好
# nrows: 讀幾個 row # 先讀 header ,然後先跳過(skiprows)再算讀了幾個
# skiprows: 跳過幾個 row
type(pd.DataFrame['column_name']) == pd.Series
# pd.DataFrame 取某1個 column 是 pd.Series
pd.DataFrame[['column_name_1', ...]]
# 中括號裡面放list 取多個 column 會有 .index
pd.DataFrame(data={'column_name_1':array_like_data,'column_name_2':array_like_data ...})
pd.concat([DataFrame1,DataFrame2],ignore_index=True)
# ignore_index=True: DataFrame.index 不重新標號
pd.merge(left_DataFrame,right_DataFrame,how='inner',on=['column_name_1', ...])
# 傳說中的 join ,如果用inner以外的可能會產生 null value ,這時可以用
.fillna(某個值) # 解決他
# 某個值也可以給 pd.DataFrame ,好像會用DataFrame.index對齊
# pd.Series 也可以 .fillna(某個值)
DataFrame.groupby('column_name') or DataFrame.groupby(['column_name1', ...])
# 根據給的東西做分類,分類完後
# .agg('something') # something: sum,mean...
# 或是
# .size() # 看有幾個
# 不管用上面哪一個,都可以把產生的column標名字
.reset_index(name='flow_mean')
DataFrame.sort_values('column_name',ascending=False) # sort
DataFrame.head(N) # 取前面N個
# 官方doc看完只懂一半是怎樣