Was lange währt, wird endlich gut. Oder auch nicht.
Im Teil 1 hatte ich Zeitreihen als eine Möglichkeit erwähnt, die Übersterblichkeit zu schätzen. Irgendjemand hatte auf Twitter mal erwähnt, dass Zeitreichen doch viel besser wären, weil sie einen Trend berücksichtigen können. Sie könnten zum Beispiel eine höhere Lebenserwartung als Trend erkennen.
Kleiner Spoiler:
Für 2021 ergibt sich in Deutschland – trotz Pandemie und Impfungen – eine Untersterblichkeit von 18 % oder 225.000 Todesfälle.
Ja, Du hast richtig gelesen, Untersterblichkeit. Aus ist es mit der angeblichen Übersterblichkeit. Das sagt die Mathematik oder Statistik.
Warum eine Zeitreihe diese – zugegeben unsinnige – Untersterblichkeit ergibt, wollen wir Schritt für Schritt erkunden.
Eine Theorie muss an der Wirklichkeit scheitern können
Was könnte eine Zeitreihe im Vergleich zu den anderen Methoden wie der Median oder Mittelwert der absolute Zahlen oder adjustierten Werte leisten.
Nicht lange reden, einfach probieren. Lassen wir die Zeitreihen an den Daten scheitern.
Probieren wir aus, was passiert, wenn wir für die (Über-) Sterblichkeitsschätzung Zeitreihen verwenden. Dazu nehmen wir aus R einfach die Funktion forecast und wandeln die Sterberaten einer Altersgruppe nach Wochen oder Monaten in eine Zeitreihe um. Berechnen die zu erwartenden Werte und subtrahieren diese von den tatsächlichen Sterbefällen im jeweiligen Zeitraum. Diese Werte summieren wir über die Wochen oder Monate des Jahres und erhalten die Unter- oder Übersterblichkeit im jeweiligen Jahr. Wir wollen hier nur Wochenwerte betrachten.
Als Daten nehmen wir die Sterbefälle der Sonderauswertung DESTATIS und die Altersstruktur der Tabelle 12411-6, die wir auf die Altersstruktur der Sonderauswertung umrechnen müssen. Am Ende haben wir 13 Altersgruppen nach Männern und Frauen getrennt.
Die Zeitreihe sollte saisonale Schwankungen und den Trend der steigenden Lebenserwartung erkennen.
Erste Frage: Wie lang sollte die Zeitreihe sein? Ab wann sollen wir starten?
Nun, wir haben monatliche und wöchentliche Daten der Sonderauswertung von DESTATIS ab 2000. Früher und länger geht nicht. Allerdings könnte dieser Zeitspanne wegen wechselnder Trends zu lang sein. Der Computer wird es richten und alle Zeitspannen für uns berechnen.
Grafisch dargestellt sieht das Ergebnis einer solchen Berechnung für die Gruppe der Männer 85 Jahr und älter zum Beispiel folgendes Bild.
Im obigen Diagramm wird das Ergebnis der Zeitreihe der wöchentlichen Sterbefälle der Altersgruppe Männer 85 Jahre und älter dargestellt. Die Berechnung der Zeitreihe liefert ein Vertrauensintervall (CI). Dieses CI 95 % ist jedoch so breit, dass ich aus praktischen Gründen nur ein CI 80 % dargestellt habe.
Die Zeitreihe erkennt sogar einen kleinen Sommerpeak, der in vielen Jahren durch sogenannte Hitzewellen erzeugt wird. Er ist nur etwas höher als erwartet. Sieht schon mal gut aus.
Eine Alternative wäre, die Zeitreihe nicht mit dem Jahr 2018 starten zu lassen, sondern mit dem Jahr 2000 starten zu lassen. Je mehr Daten, desto besser.
Die längere Zeitreihe schätzt teilweise etwas höhere Sterbefälle. Klar zu sehen sind zwei Spitzen im zweiten Halbjahr 2022. Die erste Sommerspitze könnte durch die Hitze im Sommer verursacht sein und die zweite Spitze ab September / Oktober eine frühe Winterwelle sein.
Nun gibt es auch weniger »schöne« Ergebnisse. In der Gruppe der Frauen 40 – 44 Jahre ist das Ergebnis von Zufall kaum zu unterscheiden. Die Zahl der Todesfälle schwankt ungefähr um 45 Fälle pro Woche und ist nur ein Bruchteil der 3.000 Fälle der Altersgruppe 85+.
Ein längerer Zeitraum mach die Sache auch nicht besser.
Also lassen wir den Rechner einfach laufen und variieren den Zeitraum der Zeitreihe. Wir beginnen mit längsten Zeitraum ab 2000 und verkürzen bis auf vier Jahre. Kürzere Zeiten sind eher wenig sinnvoll.
Für jedes Geschlechts- und Altersgruppe bestimmen wir die Unter-/ Übersterblichkeit jede Woche getrennt und summieren dann die Gruppen und Wochen auf, um die Jahres-Unter-/Übersterblichkeit zu erhalten.
Um dieses Verfahren zu testen, berechnen wie nicht nur die Übersterblichkeit 2022, sondern auch die Übersterblichkeit 2014 bis 2021. Um es nicht zu kompliziert zu machen, ignorieren / zensieren wir die 53 Kalenderwoche, die nicht jedes Jahr vorhanden ist.
Anhand der Ergebnisse können wir dann die Qualität des Verfahrens prüfen. Fangen wir mit 2014 an und lassen die Zeitreihen an den Daten der Vergangenheit scheitern – oder auch nicht.
Übersterblichkeit 2014
Beginnen wir die Zeitreihe im Jahr 2000 (bis 2013), so ergibt sich eine Übersterblichkeit für 2014 von 19.811 (2003) bis 11.872 (2010). Ersteres wäre wäre bei 868.356Todesfällen eine Übersterblichkeit von 2,3 %, letzteres von 1,4 %.
Übersterblichkeit 2015
Das Jahr 2015 zeigt ein ähnliches Bild. (Die längste Zeitreihe ist jetzt ein Jahr länger, als beim Jahr 2014.) Die errechnete Übersterblichkeit liegt zwischen 0,47 % und 1,75 %. Das ist fast ein Faktor 4.
Im Prinzip gilt auch für dieses Jahr: Je länger die Zeitreihe, desto höher die Übersterblichkeit.
Weil es so schön ist, und weil es jetzt spannend wird, schauen wir uns jedes Jahr an.
Übersterblichkeit 2016
Das Jahr 2016 hat eine richtig schöne Übersterblichkeit zwischen 22.521 und 42.115, was 2,5 % bis 4,8 % ergibt. Alles noch irgendwie plausibel, aber nun kommt es hart.
Unerwartet hohe Untersterblichkeit 2017
Das Jahr 2017 bringt uns Untersterblichkeit. Aber eigentlich wir es in den Medien nicht als Jahr großer Untersterblichkeit gehandelt. Nach drei Jahren Übersterblichkeit haben wir das erste Mal Untersterblichkeit – ein erfreuliches Ergebnis. Es wäre schlecht, wenn die Methode der Zeitreihen immer zu Übersterblichkeit tendieren würden.
Auch hier fällt die Schätzung nach links ab. Die »Übersterblichkeit« schwankt zwischen -52.821 -42.923 Sterbefällen oder -4,5 % und -5,5 %. Das Gleicht die bisherige Übersterblichkeit teilweise wieder aus.
Übersterblichkeit 2018
Mit dem Jahr 2018 kommt es nun wieder zu Übersterblichkeit.
Mit einer Übersterblichkeit von 24.709 bis 30.038 oder 2,7 % bis 3,3 % entspricht das Jahr 2018 den üblichen Vorstellungen der Übersterblichkeit aufgrund einer Grippewelle. Verglichen mit 2016 ist die Übersterblichkeit in der oberen Schätzung allerdings geringer.
Übersterblichkeit 2019
Das Jahr 2019 ist allgemein als ein Jahr mit geringer Sterblichkeit bekannt und es wäre zu erwarten, dass die Zeitreihe eine Untersterblichkeit ergibt. Mit 17.067 bis 19.502 Sterbefälle oder 1,8 % bis 2,1 % hat es entgegen der Erwartung eine – zwar geringe – Übersterblichkeit.
Übersterblichkeit 2020
Nun kommen wir zum Jahr 2020, dem ersten hier sollte sich unser Modell erstmals wirklich bewähren.
Mit 21.821 bis 23.988 über der Erwartung liegenden Sterbefälle oder 2,4 % bis 2,6 % Übersterblichkeit ist das Pandemiejahr 2020 ein ganz normales Jahr und mit 2018 vergleichbar.
Bei 51.188 Corona-Todesfällen nach Meldedatum RKI ist die Übersterblichkeit deutlich geringer, als zu erwarten. Allerdings lag die Spitze der Todesfälle nach Meldedatum / Erkrankungsbeginn zum Jahresende und viele dieser Todesfälle werden erst 2021 gestorben sein. Insofern sind die Zahlen nicht vergleichbar.
Unrealistische Untersterblichkeit in 2021
Aber nun kommt es richtig Dicke. Das Jahr 2021 hat eine Untersterblichkeit von -222.283 bis -230.658 oder -18,4 % bis -19,0 %. Die Schätzungen liegen alle dicht beieinander. Da sieht auf den ersten Blick gut aus. Aber offensichtlich erwartet die Zeitreihe viel zu viele Todesfälle. Es sich nämlich in 2021 nur 1.023.687 Menschen verstorben. Also mehr als in den Vorjahren und nicht 20 % weniger. (2019: 939520; 2020: 985.572).
Wie kann das sein? Bevor wir das klären, schauen wir und 2022 an.
Unter- oder Übersterblichkeit 2022?
In 2022 reicht das Spektrum der Schätzungen von einer Untersterblichkeit von bis Übersterblichkeit. Untersterblichkeit -38.762 Fälle oder -4,3 % bis Übersterblichkeit 11.420 oder 1,4 %. Das widerspricht der geschätzten Übersterblichkeit nach anderen Methoden extrem.
Je nach gewünschtem Ergebnis müssen wir die Zeitreihe nur in einem anderen Jahr beginnen. Aber wir sind hier nicht bei »Wünsch-Dir-Was«.
Ursachen?
Alles begann doch recht »schön«. Aber schauen wir zurück auf die Jahre 2016 und 2017.
Ende 2016 steigen die Sterbefälle sehr stark an. Dies wird als Trend interpretiert und führt zu einer höheren Schätzung der Sterbefälle im gesamten Jahr 2017
2021 passiert das Gleiche, aber mit viel drastischeren Folgen. Der steile Anstieg der Todesfälle pro Woche Ende 2020 liegt früher als 2016 und erreicht sein höhere Spitze noch in 2020. Er wird als steiler Trend auf das ganze Jahr 2021 übertragen.
Das ist sogar unabhängig davon, ob die Zeitreihe bei 2000 oder 2018 beginnt. Offensichtlich gehen Trends zum Ende des Zeitraumes stark in die Extrapolation ein.
Fazit
Zeitreihen sind für die Schätzung der Übersterblichkeit eher ungeeignet und führen zu unrealistischen Schätzungen. Es gibt zwar verschiedene Modelle für Zeitreihen, aber alle dürften unter ähnlichen Beschränkungen leiden.
Niemals auf Verfahren / Methoden und ihre Ergebnisse verlassen, ohne sie gegen die Realität geprüft und in die Details geschaut zu haben. Warum ist das Ergebnis so, wie es ist. Sie mögen im Normalfall zu plausiblen, aber nicht unbedingt richtigen Ergebnissen führen.
Wichtig ist, zu verstehen, was eine Methode / ein Verfahren macht.
Neueste Kommentare