久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Python pandas處理(提取/刪除)DataFrame中的重復(fù)行

 禁忌石 2022-02-27

在處理數(shù)據(jù)的時候,,我們經(jīng)常會遇到處理重復(fù)數(shù)據(jù)的情況。根據(jù)需求一般有兩種情況,,下面我們分別針對兩種情況舉?:

第一種情況,,去掉重復(fù)的數(shù)據(jù):

### 構(gòu)造數(shù)據(jù)

data = pd.DataFrame(data=[['a',1],['a',2],['b',1],['b',2],['a',1]],columns=['label','num'])

data

Out[17]: 

  label  num

0     a    1

1     a    2

2     b    1

3     b    2

4     a    1

Dataframe已經(jīng)有相關(guān)的函數(shù)來處理這個問題,就是drop_duplicates()函數(shù),。我們看到下面已經(jīng)把重復(fù)的(’a',1)已經(jīng)刪除了,。具體的參數(shù)大家可以點擊鏈接,參考官方文檔,??偣仓挥腥齻€參數(shù)。

data.drop_duplicates()

Out[18]: 

  label  num

0     a    1

1     a    2

2     b    1

3     b    2

 我們也可以利用subset參數(shù)指定去除某一列的重復(fù)值,。

data.drop_duplicates(subset='label')

Out[20]: 

  label  num

0     a    1

2     b    1

第二種情況,,從數(shù)據(jù)中提取重復(fù)的數(shù)據(jù):

DataFrame也提供了相關(guān)的函數(shù)來處理這個問題,就是duplicated()函數(shù),。我們可以看到duplicated函數(shù)返回的是布爾類型,,重復(fù)出現(xiàn)就返回True。該函數(shù)只有兩個參數(shù),,大家可以參考官方文檔,。

data.duplicated()

Out[40]: 

0    False

1    False

2    False

3    False

4     True

dtype: bool

因為keep參數(shù)默認(rèn)為First,就是除了第一次出現(xiàn)的數(shù)據(jù),,其他重復(fù)的數(shù)據(jù)都標(biāo)記為True,;如果我們想要獲取所有重復(fù)的數(shù)據(jù),可以將keep的值賦值為False,。如下所示,,就可以提取出所有重復(fù)的數(shù)據(jù)。

data.duplicated(keep=False)

Out[41]: 

0     True

1    False

2    False

3    False

4     True

dtype: bool

 因為duplicated函數(shù)返回的是布爾類型,,所以要想得到具體的數(shù)據(jù)可以做如下操作:

data[data.duplicated(keep=False)]

Out[42]: 

  label  num

0     a    1

4     a    1

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多