什么是数据集成?
数据集成是组合来自多个不同来源的数据的阶段。在实施数据集成时,要处理数据的冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种数据预处理技术,包括将来自众多异构数据源的数据合并成一致的数据,以保留和支持统一的观点的信息。
它将来自各种来源的数据组合到一个连贯的数据存储中,包括在数据仓库中。这些来源可能涉及多个数据库、数据立方体或平面文件等。在数据集成过程中需要考虑多个问题。
模式集成和对象匹配可能很复杂。例如,匹配实体标识(一个数据库中的emp_id和另一个数据库中的emp_no),可以使用元数据来防止此类问题。
冗余是另一个问题。例如,如果包含年收入的属性可以从另一个属性或一组属性导出,则它可能是多余的。属性或维度命名的不一致也会在出现的数据集中产生冗余。
通过相关分析可以发现一些冗余。给定两个属性,这种分析可以根据可用数据计算一个属性对另一个属性的暗示程度。对于数值属性,它可以通过计算相关系数(也称为Pearson积矩系数,以其发明者KarlPearson的名字命名)来评估A和B两个属性之间的相关性。这是
$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N\sigma_{A}\sigma_{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}}{N\sigma_{A}\sigma_{B}}$$
其中N为元组数,ai和bi分别为元组i中A和B的值,A'和B'分别为A和B的平均值,σA和σB分别为标准偏差A和B和Σ(aibi)是AB叉积的总和,即对于每个元组,A的值乘以该元组中B的值。
相关性并不意味着因果关系。也就是说,如果A和B相关,这并不一定意味着A导致B或B导致A。例如,在分析人口统计数据库时,它可以找到定义多个医院和几个汽车盗窃的属性区域是相关的。这并没有定义一个导致另一个。两者通常都与第三个属性有关,例如人口。
数据集成中的第三个重要问题是数据值冲突的检测和解决。例如,对于同一个现实世界的实体,来自多个来源的属性值可能不同。这可能是因为表示、缩放或编码的差异。