数据预处理—重复值处理

重复数据就是同样记录有多条,一般做删除处理。
首先生成一个包含重复数据的表

data = pd.DataFrame({'A':[1,2,3,4,2,5,4],"B":[4,5,6,7,5,8,7],'C':[7,8,9,3,8,9,3]})

QQ图片20200627092308.png

重复值查看

使用duplicated()函数,如果某行跟前面行有重复,会显示True。

data.duplicated()

QQ图片20200627092519.png

重复值删除

使用drop_duplicates()函数,默认对所有制进行重复值判断,且保留第一个(行)值。

data.drop_duplicates()

QQ图片20200627093119.png

上面代码时对所有字段进行重复值判断,也可以值对某一列或某几列进行重复值判断,只需要在drop_duplicates()函数中加入参数subset=[‘column name1’, ‘column name2’]。

赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权,转载请注明出处。
文章名称:《数据预处理—重复值处理》
文章来自:泰恩数据
文章链接:https://tyne.cc/844.html
本站资源仅供个人学习使用,请勿用于商业用途。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址