分享

有趣的统计学小知识——误差

 liyu_sun 2021-05-26
图片
图片

视听率调查在我国已有二十余年发展历史,借助于统计学的创立和日臻成熟,视听率调查得以借助较少的样本对一个城市、省乃至全国的受众的视听行为进行推断。可以说,在视听率调查的整个流程中,统计学的理论和方法贯穿在从样本量确定、抽样方法的制定、抽样的执行乃至于数据处理的每一个环节中,在接下来的几期中,我们即以此为切入点,对视听率调查中蕴含的统计学小知识加以介绍。

本期介绍的概念是误差。传统收视率调查是一种抽样调查,是从研究对象的全部单位中抽取一部分单位进行考察和分析,并用这部分单位的数量特征去推断总体的数量特征的一种调查方法[1]。与抽样调查相对应,近年来随着数据技术的迅猛发展,大数据日益融入受众的生活日常。大数据的“大”不仅是就其数据量本身而言,更重要的是其所宣扬的“要总体而非样本”的数据采集理念。抽样调查由于只抽取部分样本对总体进行推断,因而不可避免存在着一定的误差;而大数据因为强调的是全量调查,所以有大数据搜集者宣称其已经没有误差。但是事实真是如此吗?

伴随着抽样调查方法、大数据运用等在社会统计中的适用范围不断扩大,研究者一直致力于调查质量的不断提升,而在各种调查方法中,基于不同的操作和原因,会产生如下三种误差[2]

第一种误差是抽样误差(Sampling Error)。抽样误差是由于只抽取部分群体进行调查(非普查)而造成的误差,抽样误差不可避免,但是可以通过科学的抽样设计和样本量的提升将其控制在允许的范围之内,并且抽样误差是可以计算的。

第二种误差是覆盖误差(Coverage Error)。覆盖误差主要是指在确定抽样框时,因一些目标群体没有被包括进抽样框而造成的undercoverage。

第三种误差是无应答误差(Nonresponse Error)。无应答误差是指当应答者和无应答者之间存在差异的时候所造成的误差。无应答分为两种情况,受访者拒访的“个体无应答”,受访者不愿意回答某些题目的“项目无应答”。

可以看到,在传统的小样本抽样调查中,第一种误差(抽样误差)是不可避免的,但可以通过抽样设计的精进和样本量的提升大大降低抽样误差,如CSM所采取的多阶段、PPS、整群抽样较简单随机抽样能进一步提高精度,且近年来CSM也一直致力于不同调查区域样本量的提升,许多单城市的样本量已经达到500-1000户,实际的抽样误差远低于3%这个成本与精度的平衡标准。相对而言,号称全体数据的大数据,其数据量的急剧增加所能降低的抽样误差其实是比较有限的,较抽样调查而言并不经济。

而大数据也并非如传说中的完美无瑕。实践中,大数据中出现第二种误差(覆盖误差)的情况并不少见,最著名的如当年美国“兰顿总统”事件由于调查的1000万人与研究总体不对应而产生的覆盖偏差。“数据规模N=全部”并不成立,我们能获取到的数据,仍然只是一些有着或多或少偏差的样本数据[3]。大数据的“大”更容易使人忽视抽样框(大数据使用者往往称其为全体)选择不当而导致的代表性问题。尽管传统抽样调查也可能产生覆盖误差,但科学的抽样设计在一定程度上能减少这种误差,但是大数据的覆盖误差问题比传统抽样调查更严重、更隐蔽。

在大规模的以人群为基础的调查研究中心,项目无应答现象普遍存在,第三种无应答误差也不可避免,如调查对象拒绝回答或忘记某项或某些问题、结局变量的缺失、回答变量不可用等,这在一定程度上会导致估计偏性或降低统计效率[4]。收视率固定样组调查,成功建立的固定样组,相当于已经将不愿意配合或参加调查的群体排除,且随着技术的发展而不断更新的收视测量设备,不断降低被调查者配合的难度,大大减少了无应答误差。在实际应用中,成功回传数据的样户比例达到一定的标准(通常在90%以上),才生成商业化的视听率数据,同时通过后期的加权也可以降低无应答带来的偏差。而大数据是对痕迹的自动记录,本身不具备甄别和筛选功能,不仅会受到大量没有实际意义、无价值甚至虚假信息的干扰,同时对于研究有重大意义的个体或者项目信息的缺失也无从得知,误差更加难以控制。

上述三种误差是传统抽样调查数据和当前发展得如火如荼的大数据都不可避免存在的误差,第一种误差属于抽样误差,可知可控但不可避免;后两种误差则都属于非抽样误差,相较于抽样误差而言更加复杂且难以测量。仅以数据量的大小来评判数据本身的优劣,难免有失偏颇,而通过更加严谨的方法和手段尽量减少各种误差,提高分析和预测的精度才是数据分析的应有之义。

[1]百度百科:https://baike.baidu.com/item/%E6%8A%BD%E6%A0%B7%E8%B0%83%E6%9F%A5%E6%B3%95/1337766

[2]整理自《Internet, Phone, Mail and Mixed-Mode Surveys: The Tailored Design Method》第一章,2014年第四版,by Don A. Dillman。

[3]https://blog.csdn.net/a_step_further/article/details/51043238

[4]刘世炜王春平杨功焕:《调查研究中心项目无应答误差的识别与处理》,《中国卫生统计》,2008年第2期。

《有用的统计学》: 抽样调查与误差

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多