- 最大赞力
- 0.14
- 当前赞力
- 100.00%
前两天,我在自己的Youtube频道上,做了一个副总统辩论的民调测验。从已经投票的341位观众中,我得出的结果是,有96%的人认为副总统彭斯赢得辩论,认为贺锦丽赢得只有4%。那么我可不可以用这个民调作为依据,说全美国有9成以上的民众认为彭斯获得胜利呢?实际是不行的。因为我这个民调对于国家范围的民众意见没有任何借鉴价值,因为它不符合基本统计原则。那么是不是代表我这个调查问卷没有任何意义呢?也不是,因为这个结果其实能够准确的反应我这个频道的受众群体,帮助我分析他们的喜好和观点,也可以让我将未来的节目做得更有吸引力。其实啊,当前关于美国2020年大选的民调结果,也存在类似的现象。但是经过媒体错误的解读和刻意的煽动之下,无知的普通民众往往容易根据这些数据产生错误的理解。至于为什么,咱们今天就来好好的聊一聊。
要想把这个问题说清楚,我们需要涉及到一些统计学方面的专业知识。首先一个普通民众常见的错误观念,就是数字更加真实,所以他们就更加愿意通过媒体、机构提供的数字,而不是语言来做判断。但实际的情况却是,在社会学中,一些极其聪明的人完全可以通过巧妙调整模型设计的方式,让统计数字变得比语言更具有欺骗性。不只是普通人会上当,即便是经济学和金融学方面的专家,也有被忽悠的可能。只是,对于专业的研究者来说,欺骗同行或许需要花费更多的心机,但是想要蒙蔽一个没有专业知识却迫切想要知道答案的普通人,那简直是信手拈来,轻而易举。这里面要说花活最多的领域,恐怕要数金融行业和博彩业了。像什么,短期操盘股票、期货啦,赔率计算啦,越是高收益、高风险的领域都是一帮智商极高的人,在利用各种计算模型上的漏洞和骗术进行的赌场博弈。
而我们这里说的民调统计,也是具备这样一种特性。本来设立这些民意调查的初衷,也是为了帮助一些专业领域的人,比如政治家或者企业投资人,去了解整个社会市场的。这些客户付给你钱,就是让这些调查机构,能够获得尽可能准确的信息,以便他们去做判断。但是,随着政府,尤其是联邦政府能公权力越来越强大,控制政治资源本身的利益回报率变得越来越高,风险却越来越小。最终,对于这些民调机构背后的客户们来说,通过民调去影响直接影响民意,甚至公共决策的结果,就变成一种切实可行的选择了。比如,对于一个美国智库来说,如果他发现帮助中共阻拦新冠疫情,能够获得来自中国官方数以百万计的资金支持。那么他们就有足够的动机,去做一些哄抬中共抗议战绩,贬低美国疫情控制的数据出来。而且,因为这样的民调更多是在欺骗普通民众,所以它的骗术本身并不需要特别的高明。基本上只要公布一个数据,在加上媒体的大力宣传,民众就会因为自以为是的愚昧,而上当受骗,因为他们对于统计方法和统计数字含义的理解是通常是错误的。最简单的例子,中国国内所有的民调都显示共产党政权的国内支持率为90%以上,甚至百分之百。即便这些民调都是假的,从专业的角度来看没有任何参照价值,但是永远有无数的普通人会拿着这些数据,标榜厉害国的伟大。当然如果只是标榜伟大也就算了,更可怕的,是有相当多的人,真的将这些数据作为实际生活、事业、投资方面的决策依据,那就很难摆脱沦为韭菜,任人宰割的命运了。
对于2020美国大选民调的结果,网上不同立场的人士和媒体,都有截然不同的说法。有的人将民调结果信以为真;有的人有怀疑,但是认为民调是唯一可以拿来参照的信息,所以不信也不行;也有人坚信这些民调完全是假的,反着看就行了。其实这三种态度,从统计的角度来看,都是不正确的。
在统计学中,我们在使用一个统计数字做参考标准之前,必须先要确认这个数据本身,对于我们自己判断的目标,有没有参照价值。如果有价值,我们才需要进一步了解其中的误差,然后纳入到我们的判断当中。如果没有参照价值,也就是统计数字根本显示不出目标对象的真实情况,我们要做的不是断言真假,而是放弃对这些数据的关注,然后寻找其他可以反应情况的信息。比如,我们判断中国的外汇储备情况,如果光看外汇储备总数会发现2020年,中国的外汇总量增加了7000多亿美元,但是根据这个数据,我们并不能断定中国的外汇储备状况良好,因为我们没有看外汇负债的数字。根据程晓农博士的估算,如果将中国的外汇总负债算减掉,那么2019年底中国的净外汇应该比2014年同期减少了一万亿美元。也就是说,中国官方公布的外汇总额其实对中国外汇储备情况的判断是没有太大帮助的。
除了要确认数据和目标本身的相关性之外,统计学中影响参照价值的其他因素还有很多。比如样本的规模和多样性,计算模型本身的合理性,可能存在的误差,以及造成误差的原因,等等。你比如说,前面我自己频道的调查就不能用来判定整个美国的民意,因为我这个频道的受众太小,也就是样本规模太小。而且我有自己的价值倾向,频道吸引的观众也就有类似的价值取向。所以,他们的判断相对于全美国的所有人来说,是非常趋同的,也就是样本没有足够的多样性,根本就无法代表美国国内大部分的情况。我们看,在新冠疫苗的研发过程,很多公司都会卡在临床三期临床实验的这一个阶段,真正原因就是三期临床对于实验目标的规模和多样性有严格的要求。像疫苗这种东西,任何一家疫苗研发公司,不管在哪一国,都必须在全球范围内寻找足够多,并且涵盖种族、肤色、年龄、性别、病史等各种差异因素的实验对象才行。这就需要巨量的投资才可以,很多公司根本不具备这样的资金实力。川普政府在三期临床之前给几家美国进展突出的公司提供数以十亿计的资金援助,从根本上也是这个原因。另外,我们常常看到中共享平均收入的提升,来标榜中国社会的财富提升。但常识是,平均数的收入计算法,在统计学中根本不具备评判国家财富水平的能力,一般要把收入中位数,甚至是整个收入分布情况拿出来一起比较,才有意义。至于误差,除非统计涵盖所有情况,不然统计过程中的自然偏差是一定会存在的。误差有的时候是统计者自己的主观偏向带来的,也有可能是统计样本和方法本身的缺陷造成的。相对来说,统计方法上的误差是比较容易量化的,但是主观偏向和样本选择只要造成误差往往都是难以估计的,所以我们一般看到的统计误差,都是方法误差。那是在确保基本不存在主观偏向性,样本选择方法足够严谨、客观的前提下,才能参考的数字。大家常常听到药物测试中有双盲实验这个概念。所谓双盲,就是参与实验的研究者和实验对象都不知道自己在实验的哪个组别。比如,在疫苗临床试验的时候,可能分成疫苗组和生理盐水组,也就是有的人接打的真疫苗,有的人接打的是生理盐水,而施打的医生和病人实先是不知情的。这就是为了降低人的主观偏向性带来的误差。反过来,很多国内的药物研发,尤其是中草药的研发,根本就是在没有经过双盲实验的情况下,就公布了药物疗效和副作用,这完全是违背统计原则的。
现在大家基本上了解了统计学的一些基本常识。咱们回过头来看大选的民调统计。先说我自己的结论,从之前说的统计学标准来看,美国大部分民调机构的选情数据,其实本身根本就没有参照价值。不是说真假的问题,而是这些数据根本就反应不了真实情况,所以我根本就没有将民调数字纳入到我自己的判断中。理由也很简单,首先,对于任何民调统计,有一个拒答率的概念。什么是拒答率呢?就是民调机构在做调查的时候,被拒绝的概率。比如,CNN做一个民调,他们给5000人打电话,如果有1000人拒绝回答或者直接挂断电话,那么这次民调的拒答率就是20%或者五分之一。而对于一场选情差距本来就在10%以内的总统大选,10%以上的拒答率就代表这样的民调基本失去了参考价值。可实际上,美国这些民调机构多数是不公布拒答率这个关键数值的,即便公布出来的,也都在50%以上。也就是说每次民调的样本中,都有一半以上的人没有透露或者不愿意透露自己的倾向。那这种民调的误差就完全超过可以接受的区间了。其次,调查机构本身的政治偏向性可能比前一个因素,更加影响统计结果。因为偏向性本身,就对调查问卷的设计和样本选择产生重大的影响。这就和我自己频道的调查结果,不具备普遍性是一样的。相对来说,CNN这些大媒体只不过是大号版的惊风堂频道而已,关注这些媒体和愿意参与调查的都是观点一致的人群。这个现象,在2016年这些民调机构和媒体严重失误,尤其再加上过去四年完全针对川普个人的批判性报道方式,就已经完全将自己的受众群体固化下来了。所以,无论他们怎么调查,结果都是和他们自己的偏向相吻合的。
可能有人会说,你看这些民调数字也有上下浮动的现象,难道这些趋势也没有参照价值吗?你别说,还真的就没有,因为误差大到这种程度的话,所有的浮动变化其实都在误差值的范围之内。我们基本可以判定,这种数值上的波动,更有可能是误差导致的,而选情上的真实变化根本就不可能从这些数字中体现出来。这就是为什么,我认为我们根本就应该完全忽略这些民调数字,除了美国左派的喉舌媒体,其他新闻机构、自媒体也根本不应该将这些统计数据,一而再再而三的拿出来。
相对来说,我认为真正有效的办法是亲身到美国各州,去实地了解真实的选情。对于没有这种条件的朋友,了解两位选举人的造势活动的规模和参与人数,看一看各国政要或者股市的反应,恐怕才是我们一般人能够拿来参照的信息。
转自:wenzhao.ca
要想把这个问题说清楚,我们需要涉及到一些统计学方面的专业知识。首先一个普通民众常见的错误观念,就是数字更加真实,所以他们就更加愿意通过媒体、机构提供的数字,而不是语言来做判断。但实际的情况却是,在社会学中,一些极其聪明的人完全可以通过巧妙调整模型设计的方式,让统计数字变得比语言更具有欺骗性。不只是普通人会上当,即便是经济学和金融学方面的专家,也有被忽悠的可能。只是,对于专业的研究者来说,欺骗同行或许需要花费更多的心机,但是想要蒙蔽一个没有专业知识却迫切想要知道答案的普通人,那简直是信手拈来,轻而易举。这里面要说花活最多的领域,恐怕要数金融行业和博彩业了。像什么,短期操盘股票、期货啦,赔率计算啦,越是高收益、高风险的领域都是一帮智商极高的人,在利用各种计算模型上的漏洞和骗术进行的赌场博弈。
而我们这里说的民调统计,也是具备这样一种特性。本来设立这些民意调查的初衷,也是为了帮助一些专业领域的人,比如政治家或者企业投资人,去了解整个社会市场的。这些客户付给你钱,就是让这些调查机构,能够获得尽可能准确的信息,以便他们去做判断。但是,随着政府,尤其是联邦政府能公权力越来越强大,控制政治资源本身的利益回报率变得越来越高,风险却越来越小。最终,对于这些民调机构背后的客户们来说,通过民调去影响直接影响民意,甚至公共决策的结果,就变成一种切实可行的选择了。比如,对于一个美国智库来说,如果他发现帮助中共阻拦新冠疫情,能够获得来自中国官方数以百万计的资金支持。那么他们就有足够的动机,去做一些哄抬中共抗议战绩,贬低美国疫情控制的数据出来。而且,因为这样的民调更多是在欺骗普通民众,所以它的骗术本身并不需要特别的高明。基本上只要公布一个数据,在加上媒体的大力宣传,民众就会因为自以为是的愚昧,而上当受骗,因为他们对于统计方法和统计数字含义的理解是通常是错误的。最简单的例子,中国国内所有的民调都显示共产党政权的国内支持率为90%以上,甚至百分之百。即便这些民调都是假的,从专业的角度来看没有任何参照价值,但是永远有无数的普通人会拿着这些数据,标榜厉害国的伟大。当然如果只是标榜伟大也就算了,更可怕的,是有相当多的人,真的将这些数据作为实际生活、事业、投资方面的决策依据,那就很难摆脱沦为韭菜,任人宰割的命运了。
对于2020美国大选民调的结果,网上不同立场的人士和媒体,都有截然不同的说法。有的人将民调结果信以为真;有的人有怀疑,但是认为民调是唯一可以拿来参照的信息,所以不信也不行;也有人坚信这些民调完全是假的,反着看就行了。其实这三种态度,从统计的角度来看,都是不正确的。
在统计学中,我们在使用一个统计数字做参考标准之前,必须先要确认这个数据本身,对于我们自己判断的目标,有没有参照价值。如果有价值,我们才需要进一步了解其中的误差,然后纳入到我们的判断当中。如果没有参照价值,也就是统计数字根本显示不出目标对象的真实情况,我们要做的不是断言真假,而是放弃对这些数据的关注,然后寻找其他可以反应情况的信息。比如,我们判断中国的外汇储备情况,如果光看外汇储备总数会发现2020年,中国的外汇总量增加了7000多亿美元,但是根据这个数据,我们并不能断定中国的外汇储备状况良好,因为我们没有看外汇负债的数字。根据程晓农博士的估算,如果将中国的外汇总负债算减掉,那么2019年底中国的净外汇应该比2014年同期减少了一万亿美元。也就是说,中国官方公布的外汇总额其实对中国外汇储备情况的判断是没有太大帮助的。
除了要确认数据和目标本身的相关性之外,统计学中影响参照价值的其他因素还有很多。比如样本的规模和多样性,计算模型本身的合理性,可能存在的误差,以及造成误差的原因,等等。你比如说,前面我自己频道的调查就不能用来判定整个美国的民意,因为我这个频道的受众太小,也就是样本规模太小。而且我有自己的价值倾向,频道吸引的观众也就有类似的价值取向。所以,他们的判断相对于全美国的所有人来说,是非常趋同的,也就是样本没有足够的多样性,根本就无法代表美国国内大部分的情况。我们看,在新冠疫苗的研发过程,很多公司都会卡在临床三期临床实验的这一个阶段,真正原因就是三期临床对于实验目标的规模和多样性有严格的要求。像疫苗这种东西,任何一家疫苗研发公司,不管在哪一国,都必须在全球范围内寻找足够多,并且涵盖种族、肤色、年龄、性别、病史等各种差异因素的实验对象才行。这就需要巨量的投资才可以,很多公司根本不具备这样的资金实力。川普政府在三期临床之前给几家美国进展突出的公司提供数以十亿计的资金援助,从根本上也是这个原因。另外,我们常常看到中共享平均收入的提升,来标榜中国社会的财富提升。但常识是,平均数的收入计算法,在统计学中根本不具备评判国家财富水平的能力,一般要把收入中位数,甚至是整个收入分布情况拿出来一起比较,才有意义。至于误差,除非统计涵盖所有情况,不然统计过程中的自然偏差是一定会存在的。误差有的时候是统计者自己的主观偏向带来的,也有可能是统计样本和方法本身的缺陷造成的。相对来说,统计方法上的误差是比较容易量化的,但是主观偏向和样本选择只要造成误差往往都是难以估计的,所以我们一般看到的统计误差,都是方法误差。那是在确保基本不存在主观偏向性,样本选择方法足够严谨、客观的前提下,才能参考的数字。大家常常听到药物测试中有双盲实验这个概念。所谓双盲,就是参与实验的研究者和实验对象都不知道自己在实验的哪个组别。比如,在疫苗临床试验的时候,可能分成疫苗组和生理盐水组,也就是有的人接打的真疫苗,有的人接打的是生理盐水,而施打的医生和病人实先是不知情的。这就是为了降低人的主观偏向性带来的误差。反过来,很多国内的药物研发,尤其是中草药的研发,根本就是在没有经过双盲实验的情况下,就公布了药物疗效和副作用,这完全是违背统计原则的。
现在大家基本上了解了统计学的一些基本常识。咱们回过头来看大选的民调统计。先说我自己的结论,从之前说的统计学标准来看,美国大部分民调机构的选情数据,其实本身根本就没有参照价值。不是说真假的问题,而是这些数据根本就反应不了真实情况,所以我根本就没有将民调数字纳入到我自己的判断中。理由也很简单,首先,对于任何民调统计,有一个拒答率的概念。什么是拒答率呢?就是民调机构在做调查的时候,被拒绝的概率。比如,CNN做一个民调,他们给5000人打电话,如果有1000人拒绝回答或者直接挂断电话,那么这次民调的拒答率就是20%或者五分之一。而对于一场选情差距本来就在10%以内的总统大选,10%以上的拒答率就代表这样的民调基本失去了参考价值。可实际上,美国这些民调机构多数是不公布拒答率这个关键数值的,即便公布出来的,也都在50%以上。也就是说每次民调的样本中,都有一半以上的人没有透露或者不愿意透露自己的倾向。那这种民调的误差就完全超过可以接受的区间了。其次,调查机构本身的政治偏向性可能比前一个因素,更加影响统计结果。因为偏向性本身,就对调查问卷的设计和样本选择产生重大的影响。这就和我自己频道的调查结果,不具备普遍性是一样的。相对来说,CNN这些大媒体只不过是大号版的惊风堂频道而已,关注这些媒体和愿意参与调查的都是观点一致的人群。这个现象,在2016年这些民调机构和媒体严重失误,尤其再加上过去四年完全针对川普个人的批判性报道方式,就已经完全将自己的受众群体固化下来了。所以,无论他们怎么调查,结果都是和他们自己的偏向相吻合的。
可能有人会说,你看这些民调数字也有上下浮动的现象,难道这些趋势也没有参照价值吗?你别说,还真的就没有,因为误差大到这种程度的话,所有的浮动变化其实都在误差值的范围之内。我们基本可以判定,这种数值上的波动,更有可能是误差导致的,而选情上的真实变化根本就不可能从这些数字中体现出来。这就是为什么,我认为我们根本就应该完全忽略这些民调数字,除了美国左派的喉舌媒体,其他新闻机构、自媒体也根本不应该将这些统计数据,一而再再而三的拿出来。
相对来说,我认为真正有效的办法是亲身到美国各州,去实地了解真实的选情。对于没有这种条件的朋友,了解两位选举人的造势活动的规模和参与人数,看一看各国政要或者股市的反应,恐怕才是我们一般人能够拿来参照的信息。
转自:wenzhao.ca