Benotung der Wahlprognosen 2016

Anfang dieses Monats bei BuzzFeed News, wir haben angekündigt, dass wir die diesjährigen Wahlprognosen bewerten werden . Am Montagnachmittag endlich Michigans Board of Canvassers bestätigte Trumps Sieg . Nachdem nun endlich jeder Staat aufgerufen wurde – vorausgesetzt Jill Steins Nachzählungsversuch ändert nichts – wir haben die Ergebnisse.



Ja das Umfragen waren falsch . Aber einige Prognostiker, die sich normalerweise auf Umfragen verlassen und diese oft mit anderen Daten kombinieren, um Gewinnchancen zu ermitteln, lagen weniger falsch als andere. Um das zu bestimmen, bedarf es keiner ausgefallenen Mathematik Die FiveThirtyEight-Prognosen von Nate Silver , obwohl sie Hillary Clinton bessere Chancen einräumten als Trump, lagen sie am wenigsten falsch. Er hat Trump nicht nur mehr als eine 1:4-Chance auf den Wahlsieg gegeben, sondern er hat auch wiederholt verteidigt seine Prognosen bullishness auf Trump , aus Gründen, die später bewiesen vorausschauend . Andere hochkarätige Prognosen gaben Trump geringe bis verschwindende Chancen.

Um es noch einmal zusammenzufassen, hier sind die von uns untersuchten Prognosen – aufgelistet nach der Wahrscheinlichkeit, dass Trump Clinton im Wahlkollegium schlagen oder binden würde:



Diese Prognosen basieren darauf, wie jeder der 50 Bundesstaaten und der District of Columbia abstimmen sollten. Wir können ein besseres - wenn auch immer noch unvollkommenes - Gefühl für das Urteil der Prognostiker bekommen, wenn wir uns ansehen, wie sie die einzelnen Staatsrassen vorhergesagt haben.

Die Grundlagen laufen auf folgendes hinaus: Welche Prognostiker haben die meisten Anrufe richtig? Welcher kam den letzten Rändern zwischen Clinton und Trump am nächsten? Welche Prognostiker balancierten am besten Vertrauen und Korrektheit? (Zum Beispiel: Gaben sie Clinton eine Chance von 99%, Michigan zu gewinnen, oder eine Chance von 80%? Und hatten sie Recht?)

Der einfache Ansatz zur Beurteilung komplizierter Prognosen

Der einfachste Ansatz besteht darin, einfach die Anzahl der Zustände zu zählen, die jeder Prognostiker korrekt aufgerufen hat. Aber das verfehlt kritische Nuancen. Beispielsweise wird der Unterschied zwischen 51% Quote und 99% Quote nicht berücksichtigt. Trotzdem ist es ein einfacher Ausgangspunkt.

Sam Wang vom Princeton Election Consortium schätzte mehr Staaten richtig ein als alle anderen, die wir untersucht haben: 46 plus der District of Columbia. Silvers FiveThirtyEight und fast alle anderen Prognosen waren mit 45 richtig. (Wang dachte im Gegensatz zu den anderen Prognostikern, dass Trump North Carolina gewinnen würde.)

Dies unterstreicht ein Paradox: Trotz seines fehlgeleiteten Selbstvertrauens, dass Clinton das Weiße Haus einnehmen würde – was ihr eine Chance von 99% gab – schätzte Wang mehr Staaten richtig als jeder andere.

Warum also glaubte er, dass Trump eine so geringe Gewinnchance hatte? Nicht nur Landesumfragen scheitern , aber die meisten scheiterten auf die gleiche Weise: Trump zu unterschätzen. Dies wird als korrelierter Fehler bezeichnet. Alle Prognostiker wissen, dass Umfragen nicht perfekt sind; manchmal interviewen sie die falschen Leute oder gewichte ihre Antworten falsch . Ein Teil der Aufgabe eines Prognostikers besteht jedoch darin, abzuschätzen, wie wahrscheinlich – und wie umfangreich – korrelierte Fehler sein könnten. Viele Prognostiker hielt diese Aussicht für unwahrscheinlich , aber Nate Silver nicht .

In dieser Nachwahl bin ich schuld , bezeichnete Wang diesen Fehler als Achillesferse seiner Prognose. Ich habe die Größe des korrelierten Fehlers nicht richtig geschätzt – um den Faktor fünf, schrieb er. Umfragen sind fehlgeschlagen, und ich habe diesen Fehler verstärkt.

Ein differenzierterer Ansatz

Bereit für ein bisschen mehr Mathematik? Eine Metrik namens Brier-Score wird häufig verwendet, um die Genauigkeit von Prognostikern zu quantifizieren – bei Wahlen und darüber hinaus. (Es ist die Hauptkennzahl Wir sagten, wir würden es für die Benotung verwenden . Wir haben die gepostet Daten und Code hinter diesen Berechnungen auf GitHub .)

Brier-Scores berücksichtigen nur zwei Dinge: Für wie wahrscheinlich hielt der Prognostiker, dass etwas passieren würde, und tat es das? Brier-Scores belohnen Selbstvertrauen, wenn Sie richtig liegen, aber bestrafen Selbstvertrauen, wenn Sie falsch liegen.

Kleinere Werte sind besser. Null ist die bestmögliche Punktzahl – das bedeutet, dass Sie Ihren Vorhersagen zu 100 % sicher waren und sie alle richtig waren. Die schlechtestmögliche Punktzahl ist 1 – Sie waren zu 100 % von Ihren Vorhersagen überzeugt, und sie waren alle falsch.

Unten sind zwei Arten von Brier-Scores für jede Prognose. Die erste wird nach den Wahlstimmen jedes Bundesstaates gewichtet, sodass Pennsylvania (20 Stimmen) fünfmal so viel zählt wie New Hampshire (4 Stimmen). Die zweite zählt jeden Zustand gleich:

Wie Sie sehen können, schnitten die Prognosen von FiveThirtyEight am besten ab. Die New York Times und PollSavvy – die einer Trump-Präsidentschaft die nächstbesten Chancen nach FiveThirtyEight einräumten – schnitten auch auf Landesebene relativ gut ab. Die schlechtesten Prognosen waren die von der Huffington Post und Täglich Kos , die beide fast sichere Chancen für Clinton gaben, Pennsylvania, Wisconsin und Michigan zu gewinnen. (Kurz nach der Wahl, die Huffington Post 's Umfrageredakteur hat einen Artikel geschrieben, in dem es erklärt wird wie wir es vermasselt haben und was wir tun, um eine Wiederholung zu verhindern .)

In der obigen Grafik werden Sie feststellen, dass alle Prognosen in der gewichteten Spalte schlechter abschneiden als in der ungewichteten. Das heißt im Wesentlichen: Insgesamt waren die Prognostiker in bevölkerungsreicheren Staaten schlechter darin, das Ergebnis vorherzusagen als in kleineren. (Randnotiz: Selbst die genauesten Prognosen in diesem Jahr schnitten beim Brier-Score schlechter ab als eine der hochkarätigen Prognosen im Jahr 2012 , eine Wahl mit viel weniger Überraschungen.)

Eine weitere gängige Metrik, die logarithmische Bewertungsregel – was fehlgeleitetes Selbstvertrauen noch stärker bestraft – erzeugt ähnliche Platzierungen an der Spitze und am Ende, mit einigen Verschiebungen in der Mitte des Feldes, und bestraft Täglich Kos extra für seine extreme bullishness auf Clinton in Michigan :



Hinweis: Um die Rundung zu berücksichtigen, betrachten die obigen Log-Werte alle 0%-Chancen als 0,01% (oder 1 zu 10.000) Chancen.

Wo ist Arielle Charnas aufs College gegangen?

Wenn Sie sich die Vorhersagen der Prognostiker im Laufe der Zeit ansehen, können Sie sehen, dass sich die Vorhersage von FiveThirtyEight Anfang November vom Rest der Packung abhebt:



Vorhersage der Abstimmung

Es ist klar, dass die Umfragen Trumps Unterstützung unterrepräsentiert haben. Aber welche Prognose sagte die Stimmenanteile auf Landesebene am genauesten voraus? Diese Frage ist etwas schwieriger zu beantworten, da die Prognostiker Trumps erwartete Siegesspanne auf etwas andere Weise darstellten. Wir können die Vorhersagen in zwei Typen gruppieren, mit einigen Überschneidungen:

  • Prognosen, die eine Berechnung der von Trump erwarteten . ermöglichen prozentualer Vorsprung des Sieges über Clinton, unter allen Stimmen. Diese Gruppe enthält FiveThirtyEight, PollSavvy, die New York Times , das Princeton Election Consortium und die Huffington Post .

  • Prognosen, die eine Berechnung der von Trump erwarteten . ermöglichen Anteil der Zwei-Parteien-Stimme (d. h. ohne Johnson, Stein und McMullin). Diese Gruppe enthält FiveThirtyEight, PollSavvy, Täglich Kos , Kremp / Schiefer und Desart und Holbrook. (PredictWise hat keine Prognosen zum Stimmenanteil erstellt.)

Für jede Prognose des Präsidentenstaates – mit Ausnahme von DC (was einige Prognosen nicht geschätzt haben) und Utah (wo die Prognostiker unterschiedliche Ansätze für McMullins Kandidatur verfolgten) – berechneten wir die Root-Mean-Square-Fehler der prognostizierten Margen der Prognostiker im Vergleich zu den tatsächlichen Ergebnissen. (Einige Staaten haben ihre Stimmen noch nicht vollständig gemeldet, aber die aktuellen Margen für jedes Rennen scheinen stabil zu sein. Wir werden den Beitrag aktualisieren, wenn die endgültigen Auszählungen vorliegen.)

Von der ersten Gruppe schnitt FiveThirtyEight am besten ab (kleinere Zahlen sind besser):



Unter den zweiten schnitt FiveThirtyEight schlechter ab, zum Teil weil es Trumps Unterstützung in republikanischen Hochburgen wie West Virginia und South Dakota stärker unterschätzte als beispielsweise Täglich Kos Tat:



Die Senatsrennen

Viele der Prognostiker veröffentlichten auch Vorhersagen für die diesjährigen Senatsrennen. Die folgende Tabelle zeigt, wie sie in den 32 von uns bewerteten Rennen abgeschnitten haben. (Wir haben weder das kalifornische Senatsrennen, bei dem zwei Demokraten gegeneinander antraten, noch das von Louisiana, das technisch gesehen eine Vorwahl war, bewertet.)



Hier, FiveThirtyEight und die New York Times führte das Feld an, obwohl die genaue Rangliste davon abhängt, wie Sie es erzielen. Laut Brier-Ergebnissen hat das Umfragen-plus-Modell von FiveThirtyEight die Mal . Aber die logarithmische Scoring-Regel hat gerade genug zusätzliche Strafen gegen die Umfragen und das übermäßige Vertrauen in die Chancen von Russ Feingold in Wisconsin ausgesprochen, um die Mal der Spitzenplatz.

Das war's für dieses Jahr.