Python pandas處理（提取/刪除）DataFrame中的重復(fù)行

禁忌石 2022-02-27

展開全文

在處理數(shù)據(jù)的時候,，我們經(jīng)常會遇到處理重復(fù)數(shù)據(jù)的情況。根據(jù)需求一般有兩種情況,，下面我們分別針對兩種情況舉?：

第一種情況,，去掉重復(fù)的數(shù)據(jù)：

### 構(gòu)造數(shù)據(jù)

data = pd.DataFrame(data=[['a',1],['a',2],['b',1],['b',2],['a',1]],columns=['label','num'])

data

Out[17]:

label num

0 a 1

1 a 2

2 b 1

3 b 2

4 a 1

Dataframe已經(jīng)有相關(guān)的函數(shù)來處理這個問題，就是drop_duplicates()函數(shù),。我們看到下面已經(jīng)把重復(fù)的（’a',1)已經(jīng)刪除了,。具體的參數(shù)大家可以點擊鏈接，參考官方文檔,?？偣仓挥腥齻€參數(shù)。

data.drop_duplicates()

Out[18]:

label num

0 a 1

1 a 2

2 b 1

3 b 2

我們也可以利用subset參數(shù)指定去除某一列的重復(fù)值,。

data.drop_duplicates(subset='label')

Out[20]:

label num

0 a 1

2 b 1

第二種情況,，從數(shù)據(jù)中提取重復(fù)的數(shù)據(jù)：

DataFrame也提供了相關(guān)的函數(shù)來處理這個問題，就是duplicated()函數(shù),。我們可以看到duplicated函數(shù)返回的是布爾類型,，重復(fù)出現(xiàn)就返回True。該函數(shù)只有兩個參數(shù),，大家可以參考官方文檔,。

data.duplicated()

Out[40]:

0 False

1 False

2 False

3 False

4 True

dtype: bool

因為keep參數(shù)默認(rèn)為First，就是除了第一次出現(xiàn)的數(shù)據(jù),，其他重復(fù)的數(shù)據(jù)都標(biāo)記為True,；如果我們想要獲取所有重復(fù)的數(shù)據(jù)，可以將keep的值賦值為False,。如下所示,，就可以提取出所有重復(fù)的數(shù)據(jù)。

data.duplicated(keep=False)

Out[41]:

0 True

1 False

2 False

3 False

4 True

dtype: bool

因為duplicated函數(shù)返回的是布爾類型,，所以要想得到具體的數(shù)據(jù)可以做如下操作：

data[data.duplicated(keep=False)]

Out[42]:

label num

0 a 1

4 a 1

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：禁忌石 > 《python》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

Python pandas處理（提取/刪除）DataFrame中的重復(fù)行