NEWS
新闻观点

大数据科普系列之数据预处理篇

标签:   | 作者:andy | VISITORS: | 来源:未知
16
Jul
2021

基本介绍  

    数据预处理是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。

    现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。 

  数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。

数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。

预处理内容

数据审核

    从不同渠道取得的统计数据,在审核的内容和方法上有所不同。

    对于原始数据应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全。准确性审核主要是包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。

数据审核的内容主要包括以下四个方面:

  1.准确性审核:主要是从数据的真实性与精确性角度检查资料,其审核的重点是检查调查过程中所发生的误差。

2.适用性审核:主要是根据数据的用途,检查数据解释说明问题的程度。具体包括数据与调查主题、与目标总体的界定、与调查项目的解释等是否匹配。 

3.及时性审核:主要是检查数据是否按照规定时间报送,如未按规定时间报送,就需要检查未及时报送的原因。 

 

4.一致性审核:主要是检查数据在不同地区或国家、在不同的时间段是否具有可比性。

四大方法

数据清理

    数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

数据集成

    数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

数据变换

    通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。

数据归约

    数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

相关新闻
  • 怎么分析及搜集整理SE
    1、重视数据但不清楚如何搜集,这是被数据类型。 对数据处于模糊了解状态,由于生活在这个信息爆炸化时代, 耳濡目染...
  • SEO外链平台大全!
    从新认识外链平台 首先你要明白,什么才是外链平台。我对外链平台的定义其实非常简单,只要是能发自己网址的网站,都...
  • SEO优化:做SEO需要监测的
    网站的页面收录量直接决定网站Landing Page页面的流量。通过网站的收录数据来找到竞争对手网站权重较高的频道页面从而进...
  • SEO优化:如何分析SEO数据
    做seo很长时间了,一直没有真正的做过seo数据分析,就像一个朋友说的那样,不会seo数据分析,不是一个seo高手,看来我离...
  • 影响百度自然排名的几大
    我们经常说到百度排名,排名靠前主要是可以给网站带来更多的流量,从流量中找到潜在的客户,但同样会出现一个问题,...
首页 | 品牌建设 | 品牌方案 | 服务范围 | 新闻观点 | 服务客户 | 关于我们
新闻观点
SHARE
品牌是无价之宝,知识是智慧的明灯,策略比知识更好的朋友。
分享按钮