什么是数据清洗?
数据清洗定义了通过填充缺失值、平滑噪声数据、分析和去除异常值以及去除数据中的不一致来清洗数据。有时多个详细级别的数据可能与所需的数据不同,例如,它可能需要20-30、30-40、40-50的年龄范围,并且导入的数据包括出生日期。可以通过将数据拆分为适当的类型来清理数据。
数据清洗的类型
有各种类型的数据清理如下-
缺失值-缺失值填充了适当的值。有以下方法来填充值。
当元组包含多个缺失值的属性时,它会被忽略。
手动填充缺失值的值。
相同的全局常量可以填充这些值。
属性均值可以填补缺失值。
最可能的值可以填补缺失值。
噪声数据-噪声是测量变量中的随机误差或方差。有以下平滑方法来处理噪声,如下所示-
Binning-这些方法通过查询其“邻域”来平滑排列数据值,尤其是噪声信息周围的值。排列的值分布到多个桶或箱中。因为分箱方法会参考值的邻域,所以它们实现了局部平滑。
回归-可以通过将信息拟合到函数来平滑数据,包括回归。线性回归包含找到适合两个属性(或变量)的“最佳”线,以便一个属性可用于预测另一个。多元线性回归是线性回归的发展,其中包含两个以上的属性并且数据适合多维区域。
聚类-聚类支持识别异常值。相同的值被组织成集群,那些落在集群之外的值被称为异常值。
结合计算机和人工检查-在计算机和人工检查的支持下也可以识别异常值。异常值模式可以是描述性的,也可以是垃圾。具有惊人价值的模式可以输出到列表中。
不一致数据-不一致可以记录在各种事务中,在数据输入期间,或由于集成来自多个数据库的信息而引起。一些冗余可以通过相关分析来识别。准确和适当地整合来自各种来源的数据可以减少和避免冗余。
热门推荐
5 怎么说祝福语简短
10 孙子结婚祝福语大全简短
11 拜年啦祝福语大全简短
12 嫂子生日的祝福语简短
13 六十岁大寿祝福语简短
14 开店大吉文案祝福语简短
15 六一婚礼文案祝福语简短
16 孙女结婚姥姥祝福语简短
17 简短对公司的祝福语
18 杨奕老师祝福语简短