创作

大数据营销中的离群数据

[复制链接]
2013年,天文学家发现了一个小型椭圆星系,然而这个椭圆星系一直是个谜。该星系没有任何特征、没有其他星系的螺旋结构,看起来像是一个被孤立的星系,仿佛与宇宙中所有的外层恒星没有任何关联。
为解开离群星系之谜,天文学家对公开的天文数据库进行了大规模搜索,最终找到195个小型椭圆星系,其中大多数都在星系群中,只有11个是离群星系。对这11个星系分别进行研究之后,科学家终于得出了结论:这些离群星系原本也是处于星系群中的,但在围绕更大的星系旋转的过程中,这些星系的外围恒星不断被剥离,紧接着第三个星系从这些星系的底部与其近距离相遇,这时这些星系就会受其重力作用像弹弓上的弹子一样被扔出了星团,成为离群星系。
就像宇宙中存在着少数的离群星系,数据库中也存在着少数的离群数据。离群数据就是在众多数据中明显与其他数据不同、不满足数据的普遍行为模式、与大部分数据不一致的数据。离群数据的产生原因有很多,比如计算机录入错误、人为错误等。大家应该尽量避免人为原因造成的离群数据,否则将会给公司或者个人带来无法预见的损失。
中国强大的个案市场调查公司之一——普瑞辛格调研公司给《中国财富》出示的两组数据,证明了调研数据的严谨性。两份相同的调研问卷,两种结构完全相同的抽样,却产生了差异巨大的两组数据。普瑞辛格公司的副总经理邵志刚称,国内某家知名电视机生产公司因这次调研将20多人的市场研究部门注销、人员全部被裁剪。
该调查问卷的问题是:列举您比较青睐的电视机品牌。第一组得出的结论是:15%的消费者首选被公司的电视机;第二组得出的结论是:将近40%的消费者认为购买电视机首选本公司。公司高层面对两种巨大差异的数据非常生气。两个完全相同的调研抽样,为何会出现如此矛盾的结果?公司随即进行了调研诊断,找出了问题所在。
QQ截图20180320135605.jpg
普瑞辛格接受了这个任务。执行人员与调研小组进行了深入交流,很快得出了诊断结论:第二组调研小组的数据存在异常,是不可信的。调研小组在调研的过程中对被访问者存在误导行为。原来,第二小组在进行访问的时候,所有成员同佩戴了公司发放的领带,而领带上有明显的本公司标志。被访问者通过观察一般都可以猜测出调研的主办方是谁。第二组还犯了一个错误,就是在调研的过程中,向被访问者出示的选项记录板,把本公司的名字放在了预备选项的第一位。这样,被访问者接收到了调研的主办方信息,从而影响了本身的客观选择。
公司董事长开除调研部门主管时说:“如果我相信了你们的数据,公司将增加一倍的生产计划,这给公司带来的损失可能超过千万,这个责任不知谁能承担得起。”尽管大数据对公司发展来说有着重要意义,但是由于人为原因导致统计出现了错误数据还不如没有数据。
在一个数据丰富的数据库中,离群数据与非离群数据之间并没有根本区别。实际上,用户对于离群数据的挖掘必须通过一个阈值的界定。将偏差度高于阈值的所有集群标记为离群值集群,集群中的成员都是离群数据。
在统计学上,人们经常用线性回归的方法判断离群值,从而达到清洗数据与挖掘数据的目的。通过离群数据的检测可以发现数据的“小众模式”,即数据特征显著不同于其他数据的对象。大家会有这样的经验,很多例外事件总是显得比普通事件更有趣,也更有研究价值。因此离群数据的检测将会不断深入发展。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2019 Comsenz Inc.  Powered by Discuz! X3.4  渝ICP备17007481号-6