Regressionsanalyse der Daten vom 29.06. bis 08.10. und Prognose bis 31.12.2020 (Tagesfallzahlen)

COVID-19: Grenzen der Vorhersagbarkeit

Update 10.10.2020: Bei der Betrachtung der Kalenderwochen hatte meine SQL Abfrage einen kleinen Fehler. Ich habe die Wochen mit einem Sonntag begonnen und bei Null angefangen zu zählen. Die 27. Kw war also in den Betrachtungen die 28. Kw. Aus Fehlern kann man lernen, und so hat dieser Fehler zu weiteren Einsichten geführt. Ich habe den Artikel korrigiert und die Betrachtungen ergänzt.

Es ist nicht  einfach, die Entwicklung der CoViD-19 Fallzahlen für DE vorherzusagen. Zum einen schwanken die Zahlen von Tag zu Tag stark, zum anderen sind sie vom Wochentag abhängig. Zum anderen sind sie vor bestimmten Ereignissen abhängig. So wurden in der Urlaubszeit mehr Menschen angesteckt, als danach. Im Herbst wird wieder mit der Zunahme der Infektionen gerechnet.

Überblick

Schauen wir zuerst in den Verlauf der Fallzahlen seit den ersten Fällen am 24.02.2020 in Deutschland.

Fallzahlen DE vom 24.02. bis 08.10.2020

Sonntag ist in der Regel der Tag mit den niedrigsten Meldungen/Erkrankungen (im Diagramm rot). Stabiler als die täglichen Werte sind Wochenwerte oder gleitende Mittelwerte.

Epidemiologischer Modelle wird ein annähernd exponentielles Wachstum zu Beginn einer Krankheitsausbreitung angenommen. Aufgrund der sehr kleinen Zahl Infizierter im Vergleich zur Bevölkerung (~0,4%) ist diese Annahme für Deutschland derzeit hinreichend genau.

Prognose A

Zuerst wollen wir die Hypothese des exponentielle Wachstums anhand der Anfangsphase prüfen. Dazu führen wir eine lineare Regressionsanalyse auf den Logarithmus der Fallzahlen des Zeitraumes 07. bis 27.03.2020 durch.  Das Ergebnis extrapolieren bis zum 03.04.2020, also eine Woche voraus.

Regressionsanalyse und Prognose A

Das Diagramm zeigt, dass die Fallzahlen innerhalb des 95%-Vertrauensintervalls [CI 95%] verlaufen, aber am 27.03. zur Seite ausbrechen. Die Ursache ist klar: Wir haben am 23.03. Maßnahmen ergriffen, die die Infektionen reduziert haben.  Bis zum 27.03. stimmt unsere Annahme des exponentielle Wachstums. Das lag zwischen 17% und 23%.

Prognose B

Regressionsanalyse und Prognosen B

Im April ging es bergab. Grafisch deutet sich eine exponentielle Schrumpfung an. Um das zu prüfen, führen wir wieder eine lineare Regressionsanalyse auf den Zeitraum 01. – 30.04. durch. Wieder verlaufen die Fallzahlen innerhalb des CI 95%. Auch die Fallzahlen nach dem 30.04. verlaufen innerhalb des CI 95%. Diese Prognose funktioniert, obwohl Anfang Mai erste Maßnahmen aufgehoben wurden.

Prognose C

Regressionsanalyse der Daten vom 29.06. bis 08.10. und Prognose bis 31.10.2020
Regressionsanalyse der Daten vom 29.06. bis 08.10. und Prognose bis 31.10.2020

Nun schauen wir auf den Zeitraum vom 29.06. bis heute und wagen eine Prognose bis Ende Oktober. Die Fallzahlen schwanken stark mit den Wochentagen. Sonntags werden die wenigsten Fälle gemeldet. Wahrscheinlich gehen Sonntags auch weniger zum Arzt. Deshalb wollen wir zu etwa stabileren Wochenfallzahlen übergehen. Der Preis sind weniger Datenpunkte, die aber geglättet sind.

Prognosen ab 27. Kalenderwoche

In der Folge bewegen sich die Fallzahlen im Juni und Anfang Juli seitwärts. Ab der 27. und 28. Kw wendet sich das Blatt.  Auch wenn die Fallzahlen in er 23. Kw niedriger waren, wollen wir die Regressionsanalyse mit der 27. Kw starten.

Kalenderwoche 33

Regressionsanalyse und Prognose Kw 27 - 33
Regressionsanalyse und Prognose Kw 27 – 33

Versetzen wir uns zürck an den Anfang der 34. Kw. Uns liegen die Fallzahlen der 27.  bis 33. Kw vor. Eine Regressionsanalyse ergibt folgendes Diagramm. Schauen wir uns nun ab der 33. Kw die Fallzahlen an und extrapolieren diese auf die 40. Kw.

Regressionsanalyse und Prognose Kw 28 - 33
Regressionsanalyse und Prognose Kw 28 – 33

Hätten wir unsere Analyse in der mit 28. Kw begonnen, wäre die Prognose anhand der 6 Wochen ziemlich daneben gegangen. Ein  Grund ist der Ferien- und Urlaubsbuckel. Die Fallzahlen laufen zwar exakt an der mittleren Linien, aber mit Wegfall der Ursache, sinkt die Steigerung der Fallzahlen aus dem CI 95%. Es dauert zwei Wochen, bis die Fallzahlen im CI 95% ankommen. Prognosen aufgrund weniger Daten sich eben sehr unsicher.

Kalenderwoche 34

Regressionsanalyse und Prognose Kw 27 - 34
Regressionsanalyse und Prognose Kw 27 – 34
Regressionsanalyse und Prognose Kw 28 - 34
Regressionsanalyse und Prognose Kw 28 – 34

In der 34. Kalenderwoche sieht es schon besser aus. Nur eine zusätzliche Wochen das das Intervall der geschätzten Zahlen wird enger. Die tatsächlichen Fallzahlen werden entlang der unteren Grenze verlaufen. Eine Schätzung mit Werten ab der 28. Kw liegt immer noch weit daneben.

Kalenderwoche 35

Regressionsanalyse und Prognose Kw 27 - 35
Regressionsanalyse und Prognose Kw 27 – 35

Mit der 35. Kalenderwoche werden sich die Fallzahlen im unteren Bereich unserer Prognose bewegen. Das liegt natürlich auch daran, dass wir nur noch sechs Wochen nach vorne schauen. Nun könnte jemand behaupten, die Fallzahlen steigen linear, nicht exponentiell. Die Frage werden wir betrachten, wenn wir  zur 40. Kw kommen.

Kalenderwoche 36

Regressionsanalyse und Prognose Kw 27 - 36
Regressionsanalyse und Prognose Kw 27 – 36
Regressionsanalyse und Prognose Kw 28 - 36
Regressionsanalyse und Prognose Kw 28 – 36

Mit der 36. Kalenderwoche bewegen sich die realen, künftigen Fallzahlen auf die näher an die Mittellinie.  Der Ferien- und Urlaubsbuckel wird langsam ausgeglichen. Unsere Schazung für die 41. Kw liegt jetzt zwischen ~11.000 und ~55.000 Fällen.  Im Mittel würden wir ~24.500 Fälle erwarten. Für die 41. Kw fehlen noch die Werte für Samstag und Sonntag. Es ist also noch Chance dem Wert Mittelwert nahe zu kommen. Auch eine Prognose mit Werten ab der 28. Kw würde ~ 27.000 Fällen wieder im tatsächlichen Bereich liegen. deshalb verzichte ich ab jetzt darauf, die Werte der 28. Kw zu betrachten.

Kalenderwoche 37

Regressionsanalyse und Prognose Kw 27 - 37
Regressionsanalyse und Prognose Kw 27 – 37

Mit der 37. Kalenderwoche bewegen sich die realen, künftigen Fallzahlen auf die näher an die Mittellinie.  Der Ferien- und Urlaubsbuckel wird langsam ausgeglichen. Wir würden 21.334 Fälle erwarte. Von Montag bis Freitag haben wir in dieser Woche schon 18.762. Mit den Fallzahlen Wochenende werden wir am Montag nahe der Mittellinie landen.

Kalenderwoche 38

Regressionsanalyse und Prognose Kw 27 - 38
Regressionsanalyse und Prognose Kw 27 – 38

Mit der 38. Kalenderwoche bewegen sich die realen, künftigen Fallzahlen auf die näher an die Mittellinie.  Dies ist natürlich nicht weiter verwunderlich, denn die Werte der nächsten Wochen werden sich natürlich nicht dramatisch von den Vorwochen unterscheiden.

Kalenderwoche 39

Regressionsanalyse und Prognose Kw 27 - 39
Regressionsanalyse und Prognose Kw 27 – 39

Die 39. Kw ist natürlich nochmals  stabiler. Der Verlauf läuft entlang der Mitellinie. Dass das „Zielfenster“ so breit ist, ist dem Urlaubsbuckel geschuldet.

 

Kalenderwoche 40

Regressionsanalyse und Prognose Kw 27 - 40
Regressionsanalyse und Prognose Kw 27 – 40

Wenn jetzt die Prognose einigermaßen mit dem Mittelwert zusammen fällt, ist die nicht weiter verwunderlich.

Heute ist Samstag der 41. Kalenderwoche. Unsere Daten reichen bis zum Freitag. Wir haben bereits 18.762 Fälle, und es fehlen noch drei Tage. Unsere beste Prognose wären 18.826 Fälle für die 41. Kw da werden wir am Montag sicher ein 2.000 bis 4.000 Fälle drüber liegen.

Prognose bis Jahresende

Regressionsanalyse Kw 27 - 40 und Prognose bis 52 Kw
Regressionsanalyse Kw 27 – 40 und Prognose bis 52 Kw

Nun wagen wir eine Prognose bis Jahresende. Wir kommen auf 88.958 Fälle pro Woche oder 12.708 Fälle pro Tag.

Starten wir erst mit der 28. Kw liegen wir bei 92.778 Fälle pro Woche oder 13.254 Fälle pro Tag. Auf diesen Zeitraum ist ein Unterschied von 500 Fällen pro Tag nicht sonderlich groß.

Regressionsanalyse der Daten vom 29.06. bis 08.10. und Prognose bis 31.12.2020
Regressionsanalyse der Daten vom 29.06. bis 08.10. und Prognose bis 31.12.2020

Betrachten wir die täglichen Fallzahlen, so liegt unsere Prognose bei 16.023 Fälle für den 31.12.2020. Das ist etwa 3.000 Fälle von der Prognose der Fälle pro Woche. Allerdings ist hier auch der Ausbruch der Fälle nach oben in dieser Woche berücksichtigt.

Auffällig ist der steile Ausbruch der letzten zwei Tage über die rote Linie nach oben. Die nächsten Wochen  werden zeigen, ob dies eine natürliche Schwankung ist, oder sich vorsetzt und die Infektionen stärker steigen. Es bleibt spannend.

Bewertung

Unser letzte Prognose ist wahrscheinlich falsch, weil durch die Politik bereits neue Maßnahmen zur Eindämmung der Ausbreitung beschlossen worden sind. Wie wirksam diese Maßnahmen sind, wird sich zeigen.

Schauen wir auf die Prognose A, so sehen wir, dass die Maßnahmen einen dramatischen Effekt auf die Ausbreitung des Virus hatten. Aus Wachstum wurde Schrumpfung. Ob dies mit sanften, nicht so einschneidenden Maßnahmen nochmals gelinkt ist fraglich.

Schauen wir auf die Prognose B, sehen wir, dass die Öffnung der Geschäfte Anfang Mai keine negativen Auswirkungen hatte. Abstand, Masken und Hygiene statt Kontaktvermeidung hat verhindert, dass die Fallzahlen trotz Lockerungen wieder stiegen

Fazit

Aber wir haben auch gesehen, dass die Fallzahlen der Pandemie unter konstanten Bedingungen exponentiell wachsen. Zur Prognose ist dies jedoch bedingt geeignet, weil die Politik ständig gegensteuert, um die Ausbreitung zu begrenzen. Wenn sich die Rahmenbedingungen der Ausbreitung alle zwei Wochen ändern, ist eine Prognose über zwei Wochen hinaus sinnfrei. Oder vielleicht auch nicht. Am Jahresende können wir die Prognosen prüfen. So lange müssen wir uns gedulden.