科创网 关注科创领域的新机会

简述常见类型的数据清洗

简述常见类型的数据清洗。 

常见的数据清洗主要针对缺失值、重复值和错误值进行处理。具体如下:

1. 缺失值的清洗:缺失值的清洗方法主要分为两类,即忽略缺失值数据和填充缺失值数据。

2. 重复值的清洗:清洗重复值的基本思想是“排序和合并”。清洗重复值的方法主要有相似度计算和基于基本近邻排序算法等方法。

3. 错误值的清洗:错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值、使用简单规则库检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。

版权说明:文章均为账号作者发布,不代表本网站观点与立场,如有侵权请联系我们删除

热门