一、numpy模塊 NumPy(Numeric Python)模塊是Python的一種開源的數(shù)值計(jì)算擴(kuò)展,。這種工具可用來存儲和處理大型矩陣,,比Python自身的嵌套列表(nested list structure)結(jié)構(gòu)要高效的多(該結(jié)構(gòu)也可以用來表示矩陣(matrix))。據(jù)說NumPy將Python相當(dāng)于變成一種免費(fèi)的更強(qiáng)大的MatLab系統(tǒng),。 NumPy模塊提供了許多高級的數(shù)值編程工具,,如:矩陣數(shù)據(jù)類型、矢量處理,,以及精密的運(yùn)算庫等,。 1)、一個(gè)強(qiáng)大的N維數(shù)組對象Array,; 2),、比較成熟的(廣播)函數(shù)庫,; 3)、用于整合C/C++和Fortran代碼的工具包,; 4),、實(shí)用的線性代數(shù)、傅里葉變換和隨機(jī)數(shù)生成函數(shù),。 二,、pandas模塊 Pandas(Python Data Analysis Library )是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的,。Pandas 納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法,。 Pandas中的數(shù)據(jù)結(jié)構(gòu)有如下幾種:
1,、Series:一維數(shù)組,與Numpy中的一維array類似,。二者與Python基本的數(shù)據(jù)結(jié)構(gòu)List也很相近,,其區(qū)別是:List中的元素可以是不同的數(shù)據(jù)類型,而Array和Series中則只允許存儲相同的數(shù)據(jù)類型,,這樣可以更有效的使用內(nèi)存,,提高運(yùn)算效率。
2,、Time-
Series:以時(shí)間為索引的Series,。
3、DataFrame:二維的表格型數(shù)據(jù)結(jié)構(gòu),。很多功能與R中的data.frame類似,。可以將DataFrame理解為Series的容器,。
4,、Panel
:三維的數(shù)組,可以理解為DataFrame的容器,。
三,、Linux下 pandas 的安裝
在linux下,安裝pandas的方式是:
sudo apt-get
install python-pandas
需要注意的是,, 使用
sudo pip install pandas 會報(bào)錯(cuò),,可能是依賴的問題。
但使用apt-get
install的方式卻可以成功安裝,。
|
|