统计2.0 - 统计学的进化

本文关键词推荐标签
推荐 大数据 社区 工业 国家 设计 美国 存量 人口 调查 国际 如何 数据 探索 活力 创新 报告 理论 研究 教育 管理 研究院
🔊 提醒:这是一篇2014年发布的文章,由于机构改革的原因,请注意内容的时效性。



统计是一门研究数据的科学,无论数据是大还是小。

19世纪晚期,随机抽样的概念首次被引入,经过40多年的争论,才被完全接受成为一门科学学科。一部份人慢慢开始关注随机现象,并逐渐聚焦分析以随机概率收集到的有代表性的数据,使统计成为专业,数理统计才因此迅速发展。

的确,随机样本的样本量相对很小。不过在对总体的推论方面,统计1.0却建立了卓尔有效的理论研究和实践方法。

具体来说,做统计推论时,5%的随机样本明显优于5%的非随机样本。由于非随机数据包含未知的偏差以及夸大的方差,统计专家强烈建议不要随意使用非随机数据,并谴责滥用非随机数据可能产生的误导结果,缺乏科学严谨性,甚至是接近罪恶的一种行为。

2000年以来,廉价捕获和储存大量电子数据的能力暴升,新方法也在不断被发现和拓宽,大数据时代因此来临。但大数据的收集几乎从不依照概率设计,且通常没有结构,也就无法进行传统的统计分析。

这暴露出当前统计专业的两个明显弱点:对非随机数据长久的怱视和冷漠和对随机数据这个重要概念未能广泛传播到非专业人士。

早在1850年,美国就已有意要揭示国家贫富程度,什么样的人需要工作以及人们在说什么语言等种种社会问题。多方开始随意抽取住户调查,收集和分析数据。

但按照主观随意收集和分析数据存在很大的一个问题是:张三李四都可作报告,视乎目的,各有说法,参差不齐。谎言和统计混淆不清,缺乏科学可靠性。

数理统计以概率为专业理论基础,达成国际一致的标准认同,开启统计1.0,成为划时代的分水岭。

美国普查局进行全国性随机抽取住户调查,是以6抽1的频率,与10年一次的人口普查同时进行。虽然这个所谓“普查长表”的抽样调查相当详细,但10年才只有一次新信息,不久就被认为不能满足及时的需求。

2000年后,美国普查局推出“美国社区调查”,每年随机抽取全国3%的户口取代“普查长表”,这个调查是全美最大全国性抽样调查之一。

但2012年5月份美国众议院投票要终止这项调查,其中一名众议员表态认为“美国社区调查”不科学,给出的理由却是因为它是一个随机调查!这对于统计1.0的未来而言,是一个多么具标志性、令人震惊的事件。百年沧桑,但一些决策官员还没有最基本的认识。

这也警示了我们:无论是出于傲慢、自满抑或是恐惧,若对非随机收集的数据的继续忽视,将很可能降低统计专业对公众的影响力和公信力。统计学要得到各方长期信任和支持,必须教育普罗大众,把专业知识化为常识。

大数据和先进技术提供了一个启动统计2.0的理想时机。

描述性统计和探索性数据分析一直是许多科学研究的出发点。最近美国国家研究委员会重申:“如何发掘庞大复杂数据的信息并实现可视化是基础分析中至关重要的一个环节。”

对复杂数据的可视化和处理便必然成为统计2.0的核心环节,从而能够实现用统计的方法讲故事。动态框架保留了传统框架的原始功能,并能及时捕获最新数据,有利于实时分析,并且动态框架能够灵活拓展,促进创新实践和创新产品。

倘若成本合适,并且能够如同一个随机样本般呈现出高效率和高质量数据分析,我们有什么理由不去研究整个总体呢?

数据中所谓的“大”是一个相对的概念,它是根据样本量在总体中所占的百分比而定,而并非是关于数据储存量而定的绝对概念。

举例来讲,一个60000户的样本,占全县总户数的90%。尽管这个60000户样本并不是一个随机样本,但它包含了这个县的重大信息。相对而言,倘若同样是一个60000户的样本,但它是从全美1亿2千万的住户中抽取的,这个样本的现实统计推论意义就微乎其微了,除非它是根据概率论收集而来。至于样本储存量是1兆还是1千兆都没有关系。

由于包含未知幅度的偏差,非随机数据会造成误导性结论,这一点必须要承认。然而,无论是随机样本还是非随机样本,其样本估计会随着样本量的增大而收敛于总体的数值。在样本量达到总体的100%时,其偏差也将会消散。

统计学家很少会研究到偏差与非随机样本量之间权衡取舍的问题。在这个问题上,哈佛大学文理研究院院长孟晓犁近期关于统计推论的开创性论文毫无疑问值得获取诺贝尔提名或相关荣誉。

当工业界和政府每年对大数据相关项目投入重金同时,很多统计专家还在琢磨或感叹该如何应对大数据的存在,不知所措。

在过去的一个世纪里,统计学家们不断积累统计思想和专业知识,精于统计设计,进行统计描述和推论提取最优信息,并针对数据质量进行控制及管理。

试问,还有谁更有资格带着开阔的视野和当代理论及方法去拥抱大数据,开创统计2.0?

距离大数据时代的到来已过去十多年了,随机抽样也是在漫长的40年后才完全被接受。我们衷心希望统计2.0能够早日被讨论、培育、发展成为一门更有用、更有活力、更与实际相关的数据研究学科。

原文链接:http://www.ipivot.cn/Read/essays/2432.aspx
原文来自:经济观察月刊
原文作者:胡善庆


END
本站无留言讨论功能。交流讨论,欢迎加入国匠城知识星球APP。知识星球为学习型付费社群。在各大应用商店搜索“知识星球”即可下载安装。微信扫码加入。
城市规划学社
每日分享,每周专题
专题PPT,交流社群
城市数据学社
数据新闻,数据申请
数据教程,交流社群
规划管理交流
规划管理,经验交流
仅限规划管理工作人员加入
小编工具:无版权免费可商用图片搜索 规划行业搜索聚合
规划搜索
规划云-规划行业搜索
规划搜索,规划知识图谱

如有版权问题请联系 13132097@qq.com:规划头条 » 统计2.0 - 统计学的进化