【文/观察者网专栏作者 林兆楠】
随着2024年美国两党完成令人眼花缭乱的一系列政治作秀,总统大选正在进入最后的冲刺阶段。民调作为实时反映候选人当选概率的参考指标,正四年一度地占据各大新闻版面头条。不少人都试图通过民调来证明自己对选举预测的正确性。
但伴随着不断出现的"十月惊奇",尤其是以色列升级中东战争(包括刺杀真主党领导人、开展南黎地面战等等),无疑刺激了民主党左翼选民和穆斯林选民,使得包括密歇根州在内的关键战场州的关键少数选民,在选举日拒绝投票甚至投票支持特朗普的可能性在逐步增大。
这时有人会质疑既然那么多事件发生了,为什么民调整体还是显示哈里斯领先呢?很多人都在引用之前2016、2020年大选民调数据与最终结果有显著差异这一点来反驳民调的有效性。一些局外人也开始将少数几份甚至一份的民调结果视作一个不变的参考答案,完全无视民调所反映的包括穆斯林对民主党支持率下降40%之类的趋势性变化。
最近有两件事情更是再次让民调再次登上热搜。第一个事情是,全球最大的使用虚拟货币的预测市场PolyMarket上,从十月初开始,押注特朗普胜选的筹码急速增加,这被认为一些聪明资金正在对本次美国总统大选做出真金白银的判断。第二件事是,特朗普转发了博弈公司的选举赌盘数据以证明自己处于优势。由于博彩公司的盘口似乎与当时很多民调所显示的结果相反,这也成为不少人认为欧美民调没有参考价值的证据。
那么民调究竟准不准?民调是否有用?要回答这些问题,我们就要回到八年前,那个让民调挥之不去的梦魇时刻了。
绕不开的"滑铁卢"
2016年和2020年两次总统大选预测的连续失误,是许多人对民调产生"不靠谱"印象的源头。这两次大选中,美国的民调都出现了偏差--2016年的民调普遍预测希拉里有70%到80%的胜算,而2020年虽然预测拜登获胜正确,却高估了他的优势。
这其中,无疑以2016年美国总统大选的结果对民调冲击最大。在八年前那场选战中,不仅特朗普出乎意料获胜,其最终得到的支持率甚至与有些民调预测结果的偏差达到十几个百分点。部分民主党人以无法接受失败的姿态发起"通俄门"调查,试图挽回一些颜面;随后三年里,华盛顿政坛陷入一片混乱。
特朗普 资料图
同时,民调行业的从业者们开始深入探讨现实与数据之间的偏差原因。在2020年总统大选中,尽管美国民调机构成功预测了民主党候选人拜登的胜选,在某种程度上挽回声誉,但其预测仍存在显著偏差:93%的民调机构过高估计了拜登的优势。
两次连续失误严重损害了民调行业的公信力,甚至就在2020年大选次日,美国知名政治新闻网站"Politico"在其主要栏目中以醒目字体宣称:"民调产业一团糟,应该被炸掉"。
但是,伴随民调预测失准的是,美国民调产业几乎翻倍增长。全美对民调数据的关注不降反升,各个机构的数据依然充斥着媒体头条。在2022年中期选举中,就有部分民调机构进一步调整预测方向,认为中期选举会出现共和党大胜的"红潮"。但最后,预期中的"红潮"并未出现,共和党只获得众议院多数席位,民主党阵营仍实际控制着参议院。
经过一轮轮的钟摆,自认已经搞清楚美国选举状况的民调产业在2024年摩拳擦掌,想要一雪前耻。更多的吃瓜群众也在等着看民调机构的"乐子"。
当然,以上过于简略的回顾并不能代表民调产业的全部故事。民调的价值远非"被炸掉的一团糟"所能总结的。最好的例子莫过于之前两场共三位候选人(拜登、特朗普、哈里斯)参加的大选辩论中,民调数据成为各方评判辩论胜负的焦点。甚至民主党还依据民调和民众观感,直接通过内部协商方式换掉现任总统拜登,让他不能担任民主党的下一任总统候选人。
如果那些将自己的政治生命甚至是自由下注于本次选举的人都在关注民调,那么外界观察者也更不应该将其忽略,以民调为引子了解美国的"里世界"。
预测越失败民调越发展
从民调产业的历史看,由于有为选举提供参考这个硬性需求,每次上一代预测模型出现大问题的时候,民调产业就会迎来一波发展。
美国民调产业的发展历程始于19世纪20年代,但是早期民调就依赖于单纯的问卷调查回访。改变时代的那一刻发生在1936年,当年为了预测大选结果,《文学文摘》基于向读者和潜在读者邮寄的一千万份问卷,并回收了其中238万份。由于《文学文摘》曾准确预测过过去五次选举的获胜者,所以它在当年的10月31日宣布兰登将以57.08%的得票率(对阵罗斯福)和370张选举人票获胜。但是它忽略了,《文学文摘》的受众多是共和党支持者,这直接导致了预测翻车,1936年,罗斯福赢得了胜利。
而作为竞争对手的乔治·盖洛普的科学民调却仅通过几千份的配额控制调查就准确预测了选举结果。这一事件展示了抽样方法的威力,也为如今我们熟悉的民调奠定了基础。
之后,到了20世纪80年代,民调数据急剧增加。特别是在1984年至2000年之间,民调的数量增加了900%。而在今年大选,美国全国预计将会出现1500份各式民调,令人目不暇接。
根据统计,1998年来,在选举前21天内的民调在78%的情况下正确预测了胜负(图中高亮) 网络截图
虽然我们现在看到,2016至2020年,乃至2020至2024年大选周期的美国民调并不甚准确,但是如果置于更广泛的背景中来看,其实整个民调产业在更长周期中,反复证明了其准确性和存在价值。只是由于我们现在处于美国社会长期积累的多重变化集中爆发的阶段,例如2020年民调产业的原有误差在新冠疫情导的背景下进一步放大,甚至导致短期结果参考价值下降。
从民调机构的角度看来,这样的"失误-调整"周期实际上是不可避免,甚至是正常的。毕竟基于民调来预测大选结果的模型,需要通过真实数据不断校准以获得准确结果。与普通模型只需要基于统计快速迭代就能取得比较好成果不同,而现有的大选数据量对于美国大选这样复杂的系统来说无异于杯水车薪。根据一些计算显示,验证预测模型的高准确度需要约4000年的选举数据积累。这意味着现有民调统计中,天然存在大量的无法通过历史数据校正的部分,只能依赖人的判断。
而且民调产业天生就是"事后诸葛亮",无论是哪一种模式来校正,都只能在大选之后完成。因此,民调的重点就在于,能否在这个过程中形成正负反馈,不断调整迭代民调方法以跟上美国社会的变化。这种调整背后的不确定性也导致一些在2022年中期选举准确率最低的民调公司在2020年的准确率处于最高一档。
"Election Poll"这一关键词的谷歌趋势 Google
随着网络时代的到来,民调的失误显得尤为刺眼。谷歌趋势显示,在2016年11月与2020年11月,美国"大选民调"(Election Poll)这一关键词的搜索量达到了04年以来的两个高峰。20年的搜索量甚至在16年之上仍有增长,达到了08年与12年的两倍有余。
其实,事后分析指出,当时民调的不足之处在事前难以预见。而民调行业也在事后总结经验教训,调整和改进了他们的方法。这使得在2022年中期选举中,虽然一些民调公司严重偏离了目标,甚至在媒体上预言会出现红潮,但总体而言,那次的民调是近年来最准确预测之一。
21-22年的选举中,在选举前21天内的民调实现了1998年来的最高准确度 网络截图
现代民调的统计学魔法
如今,调查民意的方法可以分为三个步骤:抽样、调查和计算。其核心是通过统计学方法,对一部分民众进行调查,以科学地推算出全体民众的意见。这个"以小见大"的过程就是抽样,也是现代科学民调的核心。
而且相比于最开始的随机抽样调查,由于美国身份政治因素越来越明显,许多机构已转向分层抽样。将调查对象按族裔、居住地、阶层等标签划分为不同群体后再进行调查。当然这也导致,如果在划分或调查过程中有意无意地忽略某些群体,调查结果会出现显著偏差。
进入实际调查阶段,现代民调主要手段涵盖了登门访问、邮寄问卷、电话调查以及互联网调查。每种方式都有其优缺点:登门访问更易获得结果,但可能给受访者带来压力导致回答不准确;电话或邮件调查可能更真实,但其本身也会造成可靠性问题;互联网调查虽然看似理想,但因完全基于被调查者的自愿,可能导致样本偏差,而且其中不乏用现金奖励来吸引被调查者的手段更是助长了潜在的偏差。
由于不存在完美的调查手段,民调机构需对收集的原始数据进行加权处理以修正受调查人口样本偏差,尽可能反映现实,而这就是统计学的魔法时刻了。
理论上说,可靠的修正需民调机构根据人口统计数据、历史投票行为等因素对原始数据背后的整体情况进行动态加权调整。但是由于美国太大,不同民调机构在加权处理上的策略会根据经验有所不同。这使得经验丰富的机构在设计和应用这些模型方面可能会具有显著优势,当然如果不能正确调整那现的大眼也将是前所未有的。
在2016年特朗普意外当选后,民调产业回顾了失误的原因:未完成大学学业的白人中有64%支持他。许多支持者是"铁锈带"的前制造业工人,他们受到特朗普对外贸易强硬态度和对多元价值观攻击政策的吸引。
而在2020年大选中,影响民调准确的因素中首当其冲的则是疫情以及特朗普政府糟糕的应对。同时,疫情也导致选民投票途径较以往更为多样:邮寄选票或者缺席投票。此外,还有许多对政治抱有兴趣的新成年选民在2020年首次投票。这导致了2020年出现了1932年有数据以来美国大选史无前例的高投票率--66.5%,这一投票率相较于上届上涨6.5%。这使得2020年也出现了40年来最大的民调误差。
回到当下,民调产业是否有从这两次错误中吸取教训呢?答案是肯定的。
例如2016年的最大教训就是需要重视教育水平对一个人投票选择的影响和调查方法对于结果的影响。自2016年以后,教育水平已然成为各家民调机构关注的重点,其经验也被推广开来。现在的民意调查会关注尽可能多的特征与投票选择的关系,力求不遗漏关键因素。比如盖洛普和《纽约时报》/锡耶纳学院在之后的民调中分别对8个和12个变量进行了调整。
而且考虑到美国糟糕的基础设施,民调常用邮件、电话之类的手段进行调查。这使得民调在调查集中于乡村的共和党选民时出错的概率远高于调查集中在城市的民主党选民。这也导致共和党的实际支持率被普遍低估的情况时有出现,这使得各家民调机构也在不断调整抽样中共和党支持率的加权。
2000年来美国民调产业飞速整张,调查手段(用不同颜色标注)也更为多样化 网络
对比2020年大选,可以说,从2024年大选季开始到现在,并没有出现与2020年新冠疫情等量齐观的"核弹级"事件。无论是特朗普遭遇刺杀未遂与民主党"换将",充其量是占领几天甚至几周的新闻头条,强化已下定决心选民的信念。新冠则是数以月计地成为新闻头条并无时无刻不在提醒着人们要用选票去惩罚那些让他们亲人去世,让自己面临断纸、断水、断粮的候选人。
只有足够的冲击、足够的"十月惊奇"才可能让一个选民重新考虑自己去不去投票,或者是投给谁。从现在看来,短期局部冲击中唯一与新冠影响可比的事件就是"米尔顿"和"海伦娜"那两场飓风了。
看最新民调,就找538
对于我们普通人来说,如果要直观了解现在的美国民调,其中的代表就是"538"网站和"真实清晰民调"网站。二者以各自的民调数据汇总算法见长--收集全美各个民调数据并筛选、评级、汇总。其中"538"网站更是在美国学界与业界得到普遍认可,成为各行各业观察者的重要参考。
截至编辑时,538网站汇总民调数据 网络截图
"538"网站的招牌是其对民调机构的排名。这一排名是在汇总全国民调机构的调查之后,通过比对民调机构的数据与现实结果,再结合其在调查方法的透明度,最终对民调机构进行排名。
538网站的民调机构排名 网络截图
具体来说,"538"网站会对比民调机构预测的"平均误差"与"平均偏见",将二者平均得到名为POLLSCORE的准确性分数,负数代表表现比较好,数字越小民调越准确,意味着该民调的误差与偏见更小。其中"平均误差"是指民调数字与实际结果之差,"平均偏见"指的是该民调机构是否会系统性地偏向某一方。后者的存在是为了尽可能标注出存在偏见的民调机构,因为这些偏见可能在未来成为误差的源头,拉低民调的可靠程度。
"538"网站打分的第二个维度是透明度,指民调机构对于他们调查过程与结果的公开程度。在图中靠前的几个机构:纽约时报/锡耶纳学院、YouGov等,都会公开民调的详细原始数据,包括调查对象的特征以及不同群体的具体回答等。这一榜单中排名靠前的机构,如纽约时报/锡耶纳学院、ABC新闻/华盛顿邮报,都是十分可靠的民调调查机构,即便这些新闻机构都是以强烈偏民主党而著称。
但是这并不意味着,大新闻媒体所采用的民调一定会在选举中表现良好。比如在21-22年选举季的民调机构排名中。益普索(Ipsos)公司常常与路透社联合发布民调,并借由路透社的名头获得极高关注。
21-22年选举季的民调机构排名 网络截图
但实际上,根据图中数据,该公司的平均误差达到3.8(预测结果与实际结果平均差距3.8%),是最准确的萨福克大学或纽约时报/锡耶纳学院的两倍,并且只在17%的民调中正确预测了输赢。该机构的偏见值到达了D+3.7(D代表偏向民主党,+3.7代表比最终结果多了3.7%支持率)。
此外,在这一榜单的底部也能看到许多附属于共和党的民调机构,如RRH Elections、Insider Advantage、co/efficient、Moore Information Group等,这些机构在调查中对共和党的倾向巨大。其中最为著名的是特拉法加集团(Trafalgar Group)。2020年特拉法加集团的民调数据十分准确,但并不是因为其在调查方法上具有优越性,(图中可见其平均误差在5.3左右)而是因为该机构持续高估共和党,在普遍高估拜登的2020年"碰上了",数字上显得准确。但实际上其有明显偏向的调查结果出现误差才是常态,该机构也是2022年大力鼓吹"红潮"的机构。这也说明了"538"网站将"平均偏见"纳入考量的必要性。
对于一般的观察者来说,"538"网站的实用之处在于,除了对机构打分评级,该网站还对收集的民调信息按统一标准将关键信息在网站上呈现。其中不仅有日期(Dates)、调查样本数与类型(SAMPLE)、调查机构(POLLSTER)、结果(RESULT)、净结果(NET RESULT)等信息,还包括赞助方(SPONSOR)的信息。
"538"网站汇总的民调数据 网络截图
这无疑帮我们从机构的角度评估一份民调的可靠性,如下图中被用红色菱形标出的红鹰政治(Red Eagle Politics),这是一个共和党相关的组织,提醒读者注意该民调数据的可信度。
被标注由共和党相关组织赞助的民调数据 网络截图
由于美国大选的"选举人"制度,大选的最终结果实际上是由几个"摇摆州"决定,因此近年来越来越多的民调将更多注意力放在这些摇摆州上,以求更直接准确地观察和预言大选结果。
落实到2024年大选,这里我们可以选择538中排名最前的,亲民主党的《纽约时报》在10月14日和10月21日更新的两份民调进行对比。在10月14日的民调中,哈里斯在全国范围内以百分之二到三的优势领先。七个"摇摆州"从图中可见,哈里斯在内华达、密歇根、威斯康星州和宾夕法尼亚领先,但是除了宾夕法尼亚外领先幅度都不足1个百分点;特朗普仅仅只在亚利桑那领先两个百分点,在北卡罗来纳、佐治亚都不足一个百分点。可以说这七个州的民调基本都在误差范围内,事实上高下难分。纽约时报的民调中,特朗普与哈里斯两人在摇摆州的十分焦灼 网络截图
《纽约时报》14日的民调显示,近期民调方向在往不利于哈里斯的方向演变 网络截图
但这份民调还显示,不论是全美还是包括威斯康星、密歇根、内华达和北卡罗来纳在内的四个摇摆州,民调数据都在往不利于哈里斯的方向移动。更重要的是,此前有不少调查指出,经济是美国民众最关心的问题,而哈里斯在这一问题上的信任度低于特朗普。可以说,仅凭这一份民调,我们就可以判断,未来随着时间推移,飓风影响扩散、哈里斯新人"蜜月期"逐步结束,更多摇摆州在民调上翻红是可能的。
而在10月21日的民调中,这一趋势得到了进一步确认。哈里斯的全国民调领先已经缩小到1%左右。同时七个摇摆州则出现了更明显的翻红趋势:在宾州、内华达州、威斯康星州,哈里斯的领先幅度已经不足1%;剩余四州,特朗普在保持领先的同时,依旧在亚利桑那州保持了2%的领先优势。
《纽约时报》10月21日民调显示特朗普获胜的可能性正在加大 网络截图
同时相比于上一份民调,特朗普在威斯康星、内华达、宾州、密歇根州翻红的趋势更加明显。可以说虽然两位候选人在民调上差距依旧在统计误差范围内,但无疑再次印证了美国大选正在反转的势头。
而21日,反转趋势更加明显 网络截图
民调的价值及它能影响美国政治
在2024年距离大选仅有10多天、双方关键州选情差距急剧缩小到低于统计误差的当下,如果你要问笔者民调到底准不准?笔者只能回答:看情况。但是如果你要问它到底有没有价值?笔者的回答只有一个字:有。
民调天生就是一个"事后诸葛亮"的行业。在写作时,笔者浏览了大量双方的材料,从为民调产业辩护到将民调产业批倒的,不一而足,浩如烟海。但所有的材料都存在一个共性,无论辩护还是批评全部只能是拿过去说事。
这意味着,所有对民调的批评者都和民调机构处于一个起跑线上,要么拿着某些历史数据说事,"事后诸葛亮",要么对着当下的方法论做一些似是而非的批判。但是我们要明白,再准确的民调数据本质上也还是对过去的感知。
就在最近几个月,世界发生着快速地变化:特朗普第三次刺杀未遂、以色列升级中东战争、两场飓风袭击了美国东部。每一场短促的变动都会以分钟为单位不停的吸引人们的眼球,不断提醒着我们生活在一个怎么飞速前进的世界中。而这些变化对民众的冲击是进行民意调查时无法预料的。
对于很多人来说,民调的价值就是要在这个飞速变化的世界中做一个最难的工作--预知未来人们心里会怎么想的。但如果仅仅把民调视为一个输赢的风向标,或将美国大选这一复杂的选举简化为两个数字之间的游戏,那么执着于民调的结果以预测未来的人可能会失望。事实上,民调最重要的作用或许是可以让政治参与人对一些事件做出反应,比如民主党高层借用民调数据迫使拜登退选。
如果我们不再把民调的关注重点放在两个数字的大小与一时的输赢比较,而是数字背后的人时,那么它就有着独特的价值。民调是一个窗口,让观察者们能够将思考的权利从选举宣传机器手中夺回来,自己去探究美国社会的现实 。
理论上,所有的选举政客们都希望选民忘记这个世界的现实,让选民沉浸在他们精心打造的,围绕两个数字此消彼长而你死我活的世界中。此时,民调最大的价值恰恰在于,它不断提醒着政客们,复杂现实不是两个数字所能够概括的。在数字之外,是一个广大的世界与活生生的人,而这些人正在和这些数字以及关注这些数字的人互动,而他们的言行正在被人们所评价。
只不过,目前的美国看起来已如一些政客所愿:2020大选前一个月的民调中,两个阵营中大约80%的登记选民表示,他们与对方的分歧在于美国的核心价值观,而大约90%的人担心对方的胜利将对美国造成"持久伤害"。