重复数据就是同样记录有多条,一般做删除处理。
首先生成一个包含重复数据的表
data = pd.DataFrame({'A':[1,2,3,4,2,5,4],"B":[4,5,6,7,5,8,7],'C':[7,8,9,3,8,9,3]})
重复值查看
使用duplicated()函数,如果某行跟前面行有重复,会显示True。
data.duplicated()
重复值删除
使用drop_duplicates()函数,默认对所有制进行重复值判断,且保留第一个(行)值。
data.drop_duplicates()
上面代码时对所有字段进行重复值判断,也可以值对某一列或某几列进行重复值判断,只需要在drop_duplicates()函数中加入参数subset=[‘column name1’, ‘column name2’]。