什么是数据集成？

2024-05-21 13:20:08 465

数据集成是组合来自多个不同来源的数据的阶段。在实施数据集成时，要处理数据的冗余、不一致、重复等问题。在数据挖掘中，数据集成是一种数据预处理技术，包括将来自众多异构数据源的数据合并成一致的数据，以保留和支持统一的观点的信息。

它将来自各种来源的数据组合到一个连贯的数据存储中，包括在数据仓库中。这些来源可能涉及多个数据库、数据立方体或平面文件等。在数据集成过程中需要考虑多个问题。

模式集成和对象匹配可能很复杂。例如，匹配实体标识（一个数据库中的emp_id和另一个数据库中的emp_no），可以使用元数据来防止此类问题。

冗余是另一个问题。例如，如果包含年收入的属性可以从另一个属性或一组属性导出，则它可能是多余的。属性或维度命名的不一致也会在出现的数据集中产生冗余。

通过相关分析可以发现一些冗余。给定两个属性，这种分析可以根据可用数据计算一个属性对另一个属性的暗示程度。对于数值属性，它可以通过计算相关系数（也称为Pearson积矩系数，以其发明者KarlPearson的名字命名）来评估A和B两个属性之间的相关性。这是

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N\sigma_{A}\sigma_{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}}{N\sigma_{A}\sigma_{B}}$$

其中N为元组数，a_i和b_i分别为元组i中A和B的值，A^'和B^'分别为A和B的平均值，σ_A和σ_B分别为标准偏差A和B和Σ(a_ib_i)是AB叉积的总和，即对于每个元组，A的值乘以该元组中B的值。

相关性并不意味着因果关系。也就是说，如果A和B相关，这并不一定意味着A导致B或B导致A。例如，在分析人口统计数据库时，它可以找到定义多个医院和几个汽车盗窃的属性区域是相关的。这并没有定义一个导致另一个。两者通常都与第三个属性有关，例如人口。

数据集成中的第三个重要问题是数据值冲突的检测和解决。例如，对于同一个现实世界的实体，来自多个来源的属性值可能不同。这可能是因为表示、缩放或编码的差异。

什么是数据集成？

热门推荐

随机推荐