2010年12月20日星期一

理论与现实的差距

看到网友荒言W. Wong谈到抽样调查,作为一个被统计学折磨过多年的人,我也说上几句。

就理论上来说,Wong说的是对的。其实总体规模大到一定程度,对样本量的影响已很微小,这正是抽样调查的好处。别说是在七百万人口的香港,即使在北京,如果我们只是简单估计一下某个特征的人群占总体的比例P,若按简单随机抽样计算,抽查400人(算下来应是380多),即可以95%的把握保证总体比例P在样本比例p±5%的范围内。只要不是什么稀有事件(如在现实中只有个百分之几),这个样本量就可以说得过去了。

但是荒言的质疑是不是有道理呢?也绝对是有的,因为理论和现实是两回事。我曾参与过多次抽样调查,包括非常大型的。一个抽样调查从设计到实施,各个层面都可能产生误差。如果控制得当,误差可以控制到很小,反之则可能很大,直接影响到调查结果的可信性。比如台湾的蓝媒和绿媒,同样做民调,结果差很大。他们所做的多是电话调查,本来应答率就低,假设为成功访问到400人,需要打1200个电话,接电话者的选择性就可能对结果有直接影响。假如抽到的偏蓝者不愿意接受绿媒的访问,偏绿者不愿意接受蓝媒的访问,这样的人稍多,算下来的样本比例就有偏差。这还没考虑其它环节可能带来的影响,要列举起来可太多了。

说到底统计不过是个工具,如果使用者能够善加运用,就可以取得很好的效果,否则也可能是骗人的幌子。我不是专业学统计的,但由于统计学现在应用很广,也必须得学。有一段时间我耐心钻研一些高级统计方法,但后来发现常常有人滥用高级统计来吓唬人,其实基础的统计方法才是最重要的。

大陆官方机构公布的一些统计数字常常受到质疑,并不是老百姓不相信统计,而是不相信整个官僚系统,连带这些依靠层层上报得来的数字。而有些号称专家者,不懂统计或者受到利益诱惑,误导媒体和公众。比如前段时间的富士康的工人自杀事件,就有专家跳出来说“富士康的自杀率远低于全国平均水平”,这是猪脑子才能说出来的话。还有某公安大学的教授,一本正经写文章论强奸案与季节的相关性。这个问题是个统计学上的经典笑话,只要学过一点点统计的人,就应该知道。都当上教授了,还是这么个水平,真是给中国高等教育抹黑。

4 评论:

  1. 統計學在應用上當然有很多問題(有好幾本有趣的書就是談這個),不過荒言對樣本太少的質疑,也的確反映了不少人不理解抽樣調查的方法。

    回覆刪除
  2. 應用起來確實有不少問題。迷信數目字、濫用統計也常見。有時把數據來回折騰,弄出個想要的結果來,這就是遊戲了。

    回覆刪除
  3. 拿少数的Cases组成的样本来推断总体,就会存在抽样误差,因此统计的应用需要保持足够的谨慎。此外,复杂的多元的统计方法出来的结果很“可人”,但是其限制条件非常多,不可乱用。最后,就是非抽样误差,这点是被排除在统计知识外的,一个不规范的抽样调查,还不如严谨的配额调查!

    回覆刪除
  4. 你自然比我更精通,呵呵。抽樣誤差是已知的,非抽樣誤差就難以估計,大概只有實際去做的人才心裡有數。的確,不規範的抽樣調查還不如嚴謹的配額調查,蓋洛普的大選民調其實都是配額調查。

    回覆刪除