数据预处理—重复值处理

2021-10-03 分类：Pandas 阅读(1738) 评论(0)

重复数据就是同样记录有多条，一般做删除处理。
首先生成一个包含重复数据的表

data = pd.DataFrame({'A':[1,2,3,4,2,5,4],"B":[4,5,6,7,5,8,7],'C':[7,8,9,3,8,9,3]})

QQ图片20200627092308.png

使用duplicated()函数，如果某行跟前面行有重复，会显示True。

data.duplicated()

QQ图片20200627092519.png

使用drop_duplicates()函数，默认对所有制进行重复值判断，且保留第一个（行）值。

data.drop_duplicates()

QQ图片20200627093119.png

上面代码时对所有字段进行重复值判断，也可以值对某一列或某几列进行重复值判断，只需要在drop_duplicates()函数中加入参数subset=['column name1', 'column name2']。

版权声明：本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权，转载请注明出处。
文章名称：《数据预处理—重复值处理》
文章来自：泰恩数据
文章链接：https://tyne.cc/844.html
本站资源仅供个人学习使用，请勿用于商业用途。

标签：pandas