1 Übersicht

Das Sozio-Oekonomische Panel (SOEP) ist eine Längsschnittstudie am Deutschen Institut für Wirtschaftsforschung (DIW Berlin), die beginnend im Jahr 1984, eine jährliche Befragung von Haushalten und deren Haushaltsmitgliedern in Deutschland durchführt. Somit können anhand von Daten des SOEP Verläufe und Veränderungen durch externe Einflüsse sehr gut beschrieben und analysiert werden. Im Frühjahr 2020 wurden die SOEP Haushalte neben der regulären, persönlichen Befragung zusätzlich telefonisch (d.h. in einem CATI) zu ihren Erfahrungen durch die Corona-Krise befragt. Weitere Informationen zum Design und der Inhalte der SOEP-CoV-Studie bieten Kühne et al. (2020). Die Ergebnisse und Spotlights der Studie werden unter www.soep-cov.de gesammelt.

Der zuletzt veröffentlichte Scientific Use File (SUF) des SOEP in der Version 35 umfasst die Erhebungsjahre von 1984 bis einschließlich 2018. Die Daten aus dem Erhebungsjahr 2019 liegen der SOEP Abteilung im DIW Berlin ebenfalls vor, sind allerdings noch nicht aufbereitet und veröffentlicht. Aufgrund von Zuzügen zu und Auszügen aus Haushalten, ebenso wie durch Geburten neuer Personen in den Haushalt und das Sterben von Haushaltsmitgliedern verändert sich die Zusammensetzung der Haushalte über die Zeit. Zudem ist es möglich, dass Haushalte oder einzelne Haushaltsmitglieder in einem Erhebungsjahr ihre Teilnahme aussetzen. Aufgrund all dieser Veränderungen in Haushaltsstrukturen, werden für die SOEP-CoV-Studie diejenigen Haushalte ausgewählt, die in den Erhebungsjahren 2018 und 2019 mindestens an einer Erhebung teilgenommen haben und bis zum Feldbeginn 2020 nicht explizit ihre Teilnahme verweigert haben. Von den verbleibenden Haushalten werden darüber hinaus folgende Haushalte ausgeschlossen:

  • Haushalte der Geflüchteten-Stichproben M3, M4 und M5. Diese werden im Rahmen einer gesonderten Befragung unter der Verantwortung des Instituts für Arbeitsmarkt und Berufsforschung (IAB) telefonisch zu ihren Erfahrungen in der Corona-Krise befragt.
  • Haushalte der Stichproben, die 2019 erstmals befragt wurden (d.h. die Teilstichproben P und Q), um deren Teilnahmebereitschaft an der regulären 2. Welle nicht zu gefährden.
  • Haushalte der sogenannten “zentralen Bearbeitung”. Die “zentrale Bearbeitung” des SOEP Erhebungsinstituts (Kantar Public) kümmert sich um Haushalte, die über die üblichen Kontaktwege des SOEP (nämlich über Interviewer) nicht kontaktiert werden wollen oder können. Die Befragten der “Zentralen Bearbeitung” werden in der Regel telefonisch kontaktiert und füllen den Fragebogen selbständig oder telefonisch assistiert aus. Somit handelt es sich bei den zentral bearbeiteten Haushalten um Haushalte, die bereits im Rahmen der regulären SOEP Befragung eine große Neigung der Nichtteilnahme zeigen. Diese Haushalte sollen durch Sonderbefragungen nicht zusätzlich belastet werden.
  • Haushalte ohne gültige Telefonnummer, da diese im Rahmen der SOEP-CoV-Studie nicht telefonisch befragt werden können.

Die Stichprobe der verbleibenden Haushalte wurde hinsichtlich ihrer Zusammensetzung und der Kontaktinformationen durch das Erhebungsinstitut des SOEP auf den Zeitpunkt März 2020 aktualisiert und als Bruttostichprobe für die CoV-Studie an das SOEP zurückgespielt. Diese wurde zufällig auf insgesamt neun Tranchen verteilt. Diese werden zeitlich aufeinander folgend befragt. Dabei sind die Tranchen so konstruiert, dass ihre Stichprobengröße über die Zeit abnimmt. Dieser Ansatz hat der Tatsache Rechnung getragen, dass die Menschen in Deutschland in den ersten Wochen des kompletten Lockdowns (und somit während der Feldzeit der ersten vier Tranchen) den größten Herausforderungen und somit Änderungen im alltäglichen Leben gegenüberstanden.

Die ersten vier Tranchen sind die größten mit einem Befragungszeitraum von jeweils zwei Wochen. Die restlichen fünf Tranchen fallen kleiner aus und ihr Befragungszeitraum erstreckt sich auf eine Woche. Einzelne Interviews konnten erst mit einigen Tagen Verzögerung realisiert werden, so dass die tatsächlichen Befragungszeiträume zwischen den Tranchen nicht disjunkt sind. Die Befragungszeiträume und Stichprobenumfänge sind in Tabelle 1.1 nach den einzelnen Tranchen ausgewiesen.

Tabelle 1.1: Befragungszeiträume und Stichprobenumfänge nach Tranchen.
Befragungszeitraum
Status der Haushalte in der Stichprobe
Tranche Feldstart Feldende Eingesetzt Erreicht Realisiert
1 01.04.2020 18.04.2020 2.756 2.068 1.689
2 14.04.2020 02.05.2020 3.296 2.450 1.932
3 27.04.2020 16.05.2020 1.767 1.310 978
4 11.05.2020 30.05.2020 1.183 871 632
5 25.05.2020 06.06.2020 608 443 309
6 02.06.2020 13.06.2020 629 450 303
7 08.06.2020 20.06.2020 578 409 288
8 15.06.2020 27.06.2020 598 433 298
9 22.06.2020 04.07.2020 584 405 265
1-9 01.04.2020 04.07.2020 11.999 8.839 6.694

Der Feldstart der SOEP-CoV-Studie war am 1. April 2020 und der letzte Tag der Befragung von Tranche 9 war am 4. Juli 2020. In den Tranchen 1 bis 9 wurden 11.999 Haushalte eingesetzt, wovon 8.839 Haushalte telefonisch erreicht werden konnten und schließlich 6.694 an der SOEP-CoV-Studie teilgenommen haben.

Eine grafische Aufbereitung der Stichprobenumfänge nach Status (Kontaktierbarkeit sowie Teilnahmebereitschaft) und Tranchen findet sich in Abbildung 1.1. Der linke Teil der Abbildung zeigt dabei Verteilung nach Tranche Kontakt- bzw. Teilnahmestatus in absoluten Fallzahlen, der rechte Teil in Anteilen.

Der rechten Abbildung ist zu entnehmen, dass der Anteil der teilnehmenden Haushalte im Zeitverlauf leicht, aber stetig, gesunken ist. (Hier liegt die Vermutung nahe, dass das anfänglich große Interesse in der Bevölkerung am Thema “Corona” über Zeit abgenommen hat.) Der Anteil an Haushalten, die nicht erreicht werden konnten, ist über die Tranchen hinweg indes nahezu unverändert.

Einsatzstichproben nach Tranche und Status.

Abbildung 1.1: Einsatzstichproben nach Tranche und Status.

2 Ablauf der SOEP-CoV-Gewichtung

Die Gewichtung der SOEP-CoV-Studie verlief in weiten Teilen analog zur Gewichtung des SOEP-Core. Diese wird detailliert von Kroh, Siegers, and Kühne (2015) beschrieben und ist für die aktuelle Version 35 dokumentiert in Siegers, Belcheva, and Silbermann (2020).

Als Ausgangsgewicht für die Gewichtung der Haushalte in der SOEP-CoV-Studie diente das Haushaltsgewicht (hhrf) ihrer letzten realisierten Befragung bis 2018, also in der Regel der SOEP-Welle bi (aus der SOEP SUF Version v35). Dieses wurde für die Haushalte der SOEP-CoV-Studie für aufeinanderfolgende Ausfallschritte auf Haushaltsebene adjustiert und bezüglich verschiedener Populationsverteilungen, die dem Mikrozensus 2018 entnommen wurden, randangepasst.

Ausgehend von diesen Haushaltsgewichten wurden über einen weiteren Randanpassungsschritt Gewichte für alle Personen in den teilnehmenden Haushalten generiert. Für diejenige Person des Haushalts, die an der CATI-Befragung teilgenommen hat, wurde ein weiterer Gewichtungsschritt durchgeführt, der auftretende Selektionseffekte korrigiert.

Die nachfolgende Abbildung 2.1 zeigt schematisch den Ablauf der Gewichtung. Konkret wurden in einem ersten Schritt die Ausgangsgewichte für die Veränderungen zwischen der Zusammensetzung des SOEP im Jahr 2018 und 2020 korrigiert. In diesem Zusammenhang wurden die 2018er SOEP Haushaltsgewichte angepasst um Zugänge zu (Zuzug in bestehende Haushalte, Neugeborene) und Abgänge (Verstorbene, Verweigerer) aus der Stichprobe.

Im darauffolgenden Schritt wurde für die Haushalte korrigiert, die von vornherein von der Teilnahme an der SOEP-CoV-Studie ausgeschlossen waren (siehe Abschnitt 1).

Schematischer Ablauf der Gewichtung für die SOEP-CoV-Studie (HH: Haushalte.).

Abbildung 2.1: Schematischer Ablauf der Gewichtung für die SOEP-CoV-Studie (HH: Haushalte.).

Für eine zeitnahe Verwendung der Daten wurde die Stichprobe der SOEP-CoV-Studie nach Abschluss bestimmter Tranchen jeweils gemeinsam gewichtet. Hierbei wurde der tranchenweise Einsatz berücksichtigt und die Haushalte jeweils auf die Grundgesamtheit hochgerechnet. Insbesondere der Einsatz der Teilstichproben M1 und M2 (Migrationsstichproben), der erst ab der zweiten Tranche stattfand, fand in diesem Schritt Berücksichtigung.

Um eine möglichst heterogene Zahl von verschiedenen Haushaltsmitgliedern zu erreichen, wurden alle Haushalte zu verschiedenen Tageszeiten von 7 Uhr morgens bis 21 Uhr abends angerufen. Generell wurde auch davon ausgegangen, dass aufgrund der Ausgangsbeschränkungen und des erhöhten Anteils an Personen, die durch die Krise im Home Office arbeiteten, Befragungspersonen telefonisch besser zu erreichen sind als vor der Krise. Die entsprechende Verteilung der Anrufe nach Wochentag, Uhrzeit und Anschluss ist in Abbildung 2.2 dargestellt. Dennoch verbleiben zwischen 25 und 31 Prozent der Haushalte, die im jeweiligen Befragungszeitraum nicht erreicht werden konnten (vgl. hierzu Abbildung 1.1 weiter oben). Im dritten Schritt der Gewichtung wurde daher für die Kontaktierbarkeit der Haushalte innerhalb der jeweiligen Befragungszeiträume korrigiert.

Anzahl der Anrufe nach Uhrzeit, Wochentag und Anschluss.

Abbildung 2.2: Anzahl der Anrufe nach Uhrzeit, Wochentag und Anschluss.

Im vierten Schritt wurde schließlich für die Bereitschaft der Haushalte korrigiert, an der SOEP-CoV-Befragung teilzunehmen. Für die SOEP-CoV-Studie konnten innerhalb der einzelnen Tranchen zwischen 69 und 75 Prozent der eingesetzten Haushalte erreicht werden. Über die Tranchen 1 bis 9 hinweg wurden 73 Prozent erreicht. Von den erreichten Haushalten konnten innerhalb der einzelnen Tranchen zwischen 65 und 82 Prozent der Haushalte realisiert werden. Über die Tranchen 1 bis 9 hinweg wurden 72 Prozent realisiert. Somit ergibt sich eine Response Rate nach AAPOR (The American Association for Public Opinion Research 2016) von RR1 = 0,558. Innerhalb der einzelnen Tranchen schwankt sie zwischen 0,454 und 0,613. Diesem Schritt folgt eine Randanpassung auf eine Vielzahl an Populationsverteilungen, siehe Abschnitt 5, der die Gewichtung auf Haushaltsebene abschließt.

Anschließend wurden auf Basis der Haushaltsgewichte über einen weiteren Randanpassungsschritt Hochrechnungsfaktoren für die einzelnen Haushaltsmitglieder erstellt. Das Verfahren und die hierfür verwendeten Randverteilungen sind im Abschnitt 5 genauer beschrieben.

Auf Basis dieses Personengewichts erzeugen wir in einem letzten Schritt Hochrechnungsfaktoren für die auskunftgebende Person eines teilnehmenden Haushalts. In diesem Schritt wird für die selektive (Selbst-)Auswahl der Auskunftsperson bei Haushalten mit mindestens zwei Erwachsenen korrigiert.

3 Merkmale für die Gewichtung

In die Ausfallmodelle (cloglog Regressionen) der SOEP-CoV-Gewichtung gingen über 400 Merkmale auf Haushalts- und Personenebene ein. Der Großteil der Merkmale entstammt den vorangegangenen Wellen der Paneldaten des SOEP. Insgesamt flossen Variablen aus zahlreichen Befragungsgebieten des SOEP ein wie beispielsweise Demographie, Arbeit, Gesundheit, Bildung, Familie, Finanzen, Persönlichkeit, Migration oder auch politische Einstellung. Zudem wurden in den Ausfallmodellen, soweit sinnvoll und möglich, Personenmerkmale aggregiert auf Haushaltsebene berücksichtigt. Eine Liste mit Merkmalen, die für die Gewichtung des SOEP-Core Version 35 verwendet wurden findet sich in Siegers, Belcheva, and Silbermann (2020 S. 63f, 70ff).

Auch Informationen über den Kontaktverlauf gingen in die Gewichtung ein. Von Seiten des Erhebungsinstitutes wurden dem SOEP für insgesamt 86.069 Anrufe die Kontaktprotokolle der Telefonverläufe zur Verfügung gestellt. Diese umfassen Informationen zu erfolgreichen und erfolglosen Kontaktversuchen. Zusätzlich enthalten sie Informationen zu Datum und Uhrzeit eines Kontaktversuchs, ob über eine Festnetz- oder Mobiltelefonnummer angerufen wurde und den Rücklaufcode zu dem jeweiligen Kontaktversuch. Aus diesen Informationen haben wir weitere Variablen gebildet, die bspw. angeben, über welchen Telefonanschluss (Festnetz, Mobiltelefon, beide) ein Haushalt kontaktiert wurde oder wie oft ein Haushalt zu bestimmten Tageszeiten kontaktiert wurde.

Des weiteren wurden die jeweils tagesaktuellen Corona-Fallzahlen (Anzahl der Erkrankten, Verstorbenen, Genesenen) auf Kreisebene zum Tag des Kontaktversuchs bzw. Interviews verwendet. Die entsprechenden Daten werden vom Robert Koch-Institut öffentlich zugänglich gemacht.1 Mit Hilfe der vom Statistischen Bundesamt bereitgestellten Bevölkerungszahlen auf Kreisebene wurde zusätzlich zu den obigen Größen die Corona-Inzidenz auf Kreisebene berechnet.2 Auch diese Inzidenz war Teil der Gewichtungsvariablen.

Ebenso flossen kleinräumige Informationen unterhalb der Kreisebene, überwiegend zur Sozialstruktur von Nachbarschaften, in die Ausfallmodellierung ein. Entsprechende Daten werden von Microm bereitgestellt.

Tabelle A.1 in Anhang A fasst alle Variablen zusammen, die in den verschiedenen Ausfallmodellen auf ihren Einfluss hinsichtlich einer Einschluss in die Stichprobe, Erreichbarkeit oder Teilnahme hin geprüft wurden.

Nicht alle Variablen fließen in jedes Ausfallmodell ein. Der Grund hierfür ist offensichtlich: unter den über 400 verfügbaren Merkmalen haben erwartungsgemäß viele keinen Einfluss auf die zu erklärende Variable (d.h. die Einschluss in die Stichprobe, die Kontaktierbarkeit oder die Teilnahme) und/oder sind miteinander hoch korreliert. Nimmt man unnötig viele erklärende Variablen in ein Modell auf, erzeugt dies eine große Streuung in den zu erzeugenden Gewichtungsfaktoren (die sich aus dem Inversen der vorhergesagten Einschluss-, Kontakt- und Teilnahmewahrscheinlichkeiten ergeben). Dies sollte aus Gründen der Stichprobeneffizienz in jedem Fall vermieden werden.

Daher wurden vor jeglicher multivariaten (Ausfall-)Modellierung alle Variablen einzeln auf ihren Zusammenhang mit der zu erklärenden Variable (d.h. Einschluss in die Stichprobe, Kontaktierbarkeit und Teilnahme) geprüft. Nur wenn dieser Zusammenhang signifikant (p<0.05) war, wurde die entsprechende Variable in die vorläufige Menge der erklärenden Variablen für das entsprechende Ausfallmodell aufgenommen. Aus Gründen der Modelleffizienz wurden aus der Menge der erklärenden Variablen zudem noch stark korrelierte Merkmale ausgeschlossen. Hierfür wurde die Korrelation aller erklärenden Variablen untereinander bestimmt. Von Merkmalen, die eine betragsmäßige Korrelation von größer als 0,95 aufwiesen, floss nur jenes in das Ausfallmodell ein, das den größten (signifikanten) Einfluss auf die zu erklärende Variable (d.h. die Einschluss in die Stichprobe, die Kontaktierbarkeit oder die Teilnahme) hatte. So ergaben sich für die verschiedenen Ausfallmodelle unterschiedliche Mengen an erklärenden Variablen.

In einem letzten Schritt fand nun noch eine Variablenselektion anhand des bayesianischen Informationskriteriums (BIC) statt. Hierbei wurden dem jeweiligen Modell iterativ Variablen entnommen bzw. wieder hinzugefügt, wenn diese Veränderung im Modell zu einem niedrigeren BIC und somit zu einer besseren Modellgüte führte. Dieses hier beschriebene dreistufige Verfahren zur Variablenselektion fand für jedes der Ausfallmodelle Anwendung, die im Rahmen der SOEP-CoV-Gewichtung geschätzt wurden.

4 Geschätzte Gewichtungsmodelle

Dieser Abschnitt präsentiert die Modelle, die für die oben aufgeführten Gewichtungsschritte geschätzt wurden.3 Die Ergebnisse werden in Form von Koeffizientenplots präsentiert. Auf der y-Achse sind die Merkmale abgetragen, die als erklärende Variablen in das jeweilige Gewichtungsmodell eingeflossen sind. Parallel zur x-Achse sind die Werte der geschätzten Koeffizienten (roter Punkt) samt ihres 95%-Konfidenzintervalls (rote Balken mit vertikalen Enden) dargestellt. Die gestrichelte, vertikale Linie markiert den Wert 0. Die geschätzten Koeffizienten sind dabei vom kleinsten (oben links) hin zum größten (unten rechts) sortiert. Merkmale, deren Koeffizientenschätzer links der grau gestrichelten Linie liegen, weisen auf einen negativen Einfluss hin. Merkmale, deren Koeffizientenschätzer rechts der grau gestrichelten Linie liegen weisen auf einen positiven Einfluss hin.4

4.1 Ausfälle zwischen 2018 und der Bruttostichprobe SOEP-CoV

Abbildung 4.1 zeigt die geschätzten Koeffizienten und deren Konfidenzintervalle für das Modell mit cloglog-Link, das genutzt wurde, um für die Ausfälle zwischen der 2018er SOEP-Welle bi und der Bruttostichprobe an Haushalten im Jahr 2020 zu korrigieren. Wir finden, dass die Nichtteilnahme im Erhebungsjahr 2018 einen deutlich negativen Effekt auf die Bleibewahrscheinlichkeit im SOEP 2020 hat. Weiter beeinflussen der Einsatz von Übersetzungshilfen in den Migrationsstichproben im Rahmen der letzten Erhebung sowie die Zugehörigkeit zur den Migrationsstichproben M1 und M2 die Teilnahmebereitschaft negativ. Haushalte mit sehr jungen Haushaltsmitgliedern weisen ebenso wie Haushalte mit alten Haushaltsvorständen eine deutlich geringere Bleibewahrscheinlichkeit auf.5 Auch das Nichtvorhandensein eines Internetanschlusses im Haushalt wirkt sich negativ aus auf die Wahrscheinlichkeit im SOEP zu verbleiben. Lebt mindestens eine Person im Haushalt, die angibt besonders heimatverbunden zu sein, findet sich ein negativer Effekt auf die Bleibewahrscheinlichkeit. Das Gleiche gilt für Merkmale, die in Bezug zu fehlenden Werten (konkret: partial unit nonrespone und ein hoher Anteil an item nonresponse auf Haushaltsebene) stehen. Schließlich wirkt sich auch der Umstand, dass das letzte Interview spät in der Feldphase durchgeführt wurde, negativ auf den Verbleib im SOEP aus.

Positiv auf die Bleibewahrscheinlichkeit wirken sich hingegen das Vorhandensein einer Parteipräferenz sowie ein starkes politisches Interesse bei mindestens einem Haushaltsmitglied aus. Ebenfalls positiv wirkt es sich aus, wenn eine der Personen im Haushalt ledig oder mindestens eine Person im Haushalt einen systemrelevanten Job hat. Haushalte, in denen zwei Erwachsene ohne Kinder leben und Haushalte in denen in der letzten Erhebung das Zusatzinstrument für die Mutter-Kind-Befragung ausgefüllt wurde haben eine höhere Wahrscheinlichkeit im SOEP zu verbleiben als Haushalte mit mehr als 2 Personen in denen keine Kinder leben und Haushalte, in denen dieses Instrument nicht ausgefüllt wurde. Angehörige der Teilstichproben L3, die zum Zeitpunkt der Ziehung nur die Familientypen Alleinerziehende und Mehrkindfamilien enthielten, haben ebenfalls eine höhere Bleibewahrscheinlichkeit.

Abbildung B.1 in Anhang B zeigt die vom Modell geschätzten Bleibewahrscheinlichkeiten.

Koeffizientenplot des Modells zur Korrektur von Ausfällen zwischen der Befragung 2018 und der SOEP-CoV-Studie. (HH: Haushalt.)

Abbildung 4.1: Koeffizientenplot des Modells zur Korrektur von Ausfällen zwischen der Befragung 2018 und der SOEP-CoV-Studie. (HH: Haushalt.)

4.2 Tranchenweise eingesetzte Fälle

Für die Befragung im Rahmen der SOEP-CoV-Studie kamen nur Haushalte in Frage, für die eine aktuelle Telefonnummer vorlag und die zuletzt nicht durch die “zentrale Bearbeitung” des Erhebungsinstituts betreut wurden, siehe Abschnitt 1. Die (potentielle) selektive Verzerrung des Ausgangsbrutto für SOEP-CoV im Vergleich zur SOEP Stichprobe 2018 wird im folgenden Modell (anhand von Informationen aus der SOEP Befragung 2018) untersucht und quantifiziert.

Abbildung 4.2 zeigt die geschätzten Koeffizienten und deren 95%-Konfidenzintervalle für das zugehörige Ausfallmodell mit cloglog-Link. Auch in diesem Fall sind die Merkmale, deren Koeffizientenschätzer links der grau gestrichelten Linie liegen, relativ weniger im Ausgangsbrutto von SOEP-CoV vorhanden als im Gesamt-SOEP. Die Nichtteilnahme an der SOEP-Erhebung im Jahr 2018 ebenso wie Haushalte mit jungen (jünger als 35 Jahre) Haushaltsvorständen, sind relativ weniger im Ausgangsbrutto enthalten. Gleiches gilt für Haushalte, aus denen mindestens eine Person seit 2018 ausgezogen ist und Haushalte in Ostdeutschland (Haushalte in Thüringen und Sachsen-Anhalt und Haushalte der Teilstichprobe C, welche das Ausgangs-Sample für Haushalte Ostdeutschland aus dem Jahr 1990 bildet). Ein hohes Niveau an Item Nonresponse auf Haushalts-, wie auch auf Personenebene, führt zu einer geringeren Wahrscheinlichkeit. Auch die Zugehörigkeit zu den Teilstichproben A (Ausgangs-Sample Westdeutschland; 1984) und O (Haushalte in Gebieten der Sozialen Stadt; 2018) führt zu einer niedrigeren Wahrscheinlichkeit im Ausgangsbrutto zu verbleiben. Schließlich sind auch Haushalte mit zwei Erwachsenen ohne Kinder und ‘andere’ Haushaltszusammensetzungen relativ weniger wahrscheinlich. Schließlich wirkt sich auch die Unzufriedenheit mit dem Familienleben negativ auf den Verbleib im Ausgangsbrutto aus.

Relativ häufiger hingegen wurden Haushalte eingesetzt, in denen mindestens eine Person mehr als 3 Stunden Freizeit werktags hat, deren ältestes Haushaltsmitglied älter als 65 Jahre ist, in denen mindestens eine Person selbstständig ist, deren Haushaltsvorstand älter als 74 Jahre ist und deren Haushaltsvorstand zum Zeitpunkt der Stichprobenziehung noch nicht im Haushalt lebte. Ebenfalls überproportional im Ausgangsbrutto der Stichprobe enthalten sind Haushalte, bei denen das Interview der letzten Befragung besonders lang (4. Quartil der Verteilung der Befragungsdauer) oder kurz (1. Quartil der Verteilung der Befragungsdauer) gedauert hat. Ebenfalls häufiger im Ausgangsbrutto verblieben sind Haushalte der Teilstichproben J (Aufstockung aus dem Jahr 2011), K (Aufstockung aus dem Jahr 2012), Teilstichproben aus den Jahren 2010 und 2011 mit Fokus auf unterschiedliche Familientypen L1 (Geburtskohorten von 2007 bis 2010), L2 (Niedrigeinkommen, Alleinerziehend, Mehrkindfamilien) und L3 (Alleinerziehend, Mehrkindfamilien). Gleiches gilt für die Migrationsstichproben M1 aus 2013 und M2 aus dem Jahr 2015, sowie für die Teilstichprobe N (Aufstockung aus dem Jahr 2017).

Abbildung B.2 in Anhang B zeigt die vom Modell geschätzten Wahrscheinlichkeiten für den Einsatz in der SOEP-CoV-Studie.

Koeffizientenplot des Modells zur Korrektur des designbedingten Verzichts auf Haushalte der

Abbildung 4.2: Koeffizientenplot des Modells zur Korrektur des designbedingten Verzichts auf Haushalte der “zentralen Bearbeitung” oder ohne bekannte Telefonnummer. (HH: Haushalt.)

4.3 Telefonische Erreichbarkeit der Haushalte

Im Gegensatz zur bisherigen Befragung des SOEP, die für gewöhnlich mittels eines persönlichen computergestützten (CAPI) oder schriftlichen (PAPI) Interviews durchgeführt wird, wurde diese Studie als telefonische Umfrage (CATI) durchgeführt. Hierbei waren Haushalte aus unterschiedlichen Gründen nicht erreichbar, bspw. wegen falscher Telefonnummern, Nummern von Firmen- oder Fax-Anschlüssen oder auch weil die Personen des Haushalts zwischenzeitlich verstorben oder ins Ausland verzogen waren. Darüber hinaus wies ein kleiner Teil der Stichprobe einen Sperrvermerk für telefonische Befragungen beim ADM (Verband für Interessensvertretung, Selbstregulierung und Standards in der deutschen Markt- und Sozialforschung, www.adm-ev.de) auf und durfte daher nicht auf telefonischem Wege kontaktiert werden. Andere Haushalte konnten aus sonstigen Gründen während der Befragungszeit der jeweiligen Tranchen nicht erreicht werden.

Abbildung 4.3 zeigt die geschätzten Koeffizienten und deren Konfidenzintervalle für das Modell mit cloglog-Link, das genutzt wird, um für die Erreichbarkeit der Haushalte zu kontrollieren. Um die Kontaktierbarkeit von Haushalten zu beschreiben, wurden Angaben zu Uhrzeiten und Häufigkeit telefonischer Kontakte genutzt, siehe auch Abbildung 2.2. Einige Haushalte waren besonders schwer zu erreichen und wurden daher oft (11-25 Anrufe) auf Festnetz und Mobiltelefon angerufen, ebenso wie überwiegend nachmittags bis abends. Auch Haushalte, die weniger oft über das Festnetz angerufen wurden bzw. zu anderen Zeiten waren zum Teil schwierig zu erreichen. Gleiches gilt für Haushalte der Migrationsstichproben M1 und M2. Haushalte, die im Vorjahr keine Wertanlagen hatten und in den mindestens eine Person raucht weisen ebenfalls eine niedrigere Wahrscheinlichkeit auf erreicht zu werden.

Eine erhöhte Wahrscheinlichkeit Haushalte telefonisch zu erreichen, liegt bei Haushalten vor, die in denen mindestens eine Person eine Parteipräferenz für eine bestimmte Partei hat. Auch Haushalte, in denen mindestens eine verrentnete Person lebt waren leichter zu erreichen. Ebenfalls sind Haushalte die selbstgenutztes Wohneigentum bewohnen und Haushalte mit mindestens einer im öffentlichen Dienst beschäftigten Person leichter zu erreichen. Schließlich weisen auch Haushalte, die ausschließlich über einen Festnetzanschluss kontaktiert wurden, eine höhere Erreichbarkeit auf. Abbildung B.3 in Anhang B zeigt die vom zugehörigen Ausfallmodell geschätzten Wahrscheinlichkeiten für die Erreichbarkeit der Haushalte.

Koeffizientenplot des Modells zur Korrektur der Nichterreichbarkeit der Haushalte in der SOEP-CoV-Studie. (HH: Haushalt.)

Abbildung 4.3: Koeffizientenplot des Modells zur Korrektur der Nichterreichbarkeit der Haushalte in der SOEP-CoV-Studie. (HH: Haushalt.)

4.4 Teilnahme der Haushalte an der SOEP-CoV-Studie

Die Haushalte, die während der jeweiligen Befragungszeiträume telefonisch erreicht werden konnten, entschieden sich dann schließlich für bzw. gegen die Teilnahme an der SOEP-CoV-Studie. Abbildung 4.4 zeigt die geschätzten Koeffizienten und deren Konfidenzintervalle für das Modell mit cloglog-Link, das genutzt wurde, um für Verweigerung der Teilnahme an der SOEP-CoV-Studie zu korrigieren. Unter den Faktoren, die die Teilnahmeentscheidung der Haushalte negativ beeinflussten, sind das Nichtvorhandensein eines Internetanschlusses im Haushalt, teilweise Nichtteilnahme von Befragungspersonen am letzten SOEP Interview im Haushalt und dass der Haushaltsvorstand älter als 74 Jahre die Prädiktoren mit dem stärksten Einfluss hat. Zudem beobachten wir eine niedrigere Teilnahmewahrscheinlichkeit für Haushalte, mit mindestens einer Person nichtdeutscher Staatsangehörigkeit oder in denen mindestens eine Person der Meinung ist, dass Flüchtlinge schlecht für die Wirtschaft seien. Gleiches gilt für Haushalte in denen mindestens eine Person im Ausland geboren wurde und in denen mindestens eine Person Arbeitslosengeld II bezieht. Schließlich verringert sich die Teilnahmewahrscheinlichkeit, wenn mindestens eine Person im Haushalt keinen Schulabschluss hat.

Positiv hingegen wirkte sich hier aus, wenn der Haushalt in einer Wohngegend mit hohem Anteil an überregionalen Zeitungen wohnt oder mindestens eine Person im Haushalt ein starkes politisches Interesse hat. Auch Haushalte, in denen mindestens eine Person keine Bedenken gegenüber Ausländern hat oder in denen mindestens eine Person einen Hochschulabschluss besitzt, haben eine höhere Teilnahmewahrscheinlichkeit. Ein Wohnort in Bayern wirkt sich ebenfalls positiv auf die Teilnahmewahrscheinlichkeit aus. Besonders teilnahmebereit waren auch Haushalte mit einem weiblichen Haushaltsvorstand. In Interaktion mit der Tranchierung finden sich hingegen negative Effekte, die dadurch zu erklären sind, dass in den späteren Tranchen gezielt nach männlichen Teilnehmern für das Telefoninterview gefragt wurde. Schließlich wirkt sich auch die Zugehörigkeit zu den Teilstichproben L2 (Familientypen: Niedrigeinkommen, Alleinerziehend, Mehrkindfamilien) und L3 (Familientypen: Alleinerziehend, Mehrkindfamilien) positiv auf die Teilnahmeentscheidung aus.

Abbildung B.4 in Anhang B zeigt die vom Modell geschätzten Teilnahmewahrscheinlichkeiten auf Haushaltsebene.

Koeffizientenplot des Modells zur Korrektur der Teilnahmeverweigerung von kontaktierten Haushalten. (HH: Haushalt.)

Abbildung 4.4: Koeffizientenplot des Modells zur Korrektur der Teilnahmeverweigerung von kontaktierten Haushalten. (HH: Haushalt.)

4.5 Kontaktperson beim Telefoninterview

Bei SOEP-CoV wurde je Haushalt nur eine Person befragt, die auch einige Proxy-Informationen über die anderen Haushaltsmitglieder angegeben, aber zu großen Teilen über sich selbst berichtet hat. Die Auswahl der Kontaktperson war dabei nicht systematisch, sondern war davon abhängig wer zur angerufenen Zeit ans Telefon ging und bereit war, an der Befragung teilzunehmen. Generell wurde über den ganzen Tag verteilt angerufen, vermehrt allerdings am späten Nachmittag und abends, um auch berufstätige Personen befragen zu können, siehe auch Abbildung 2.2. Um eine Verzerrung hinsichtlich des Geschlechts der befragten Person zu verringern, wurde einerseits sowohl nach dem Haushaltsvorstand als auch regelmäßig nach einem männlichen Haushaltsmitglied gefragt. Da für die Teilnahme am CATI der SOEP-CoV-Studie erforderlich war, dass die zu befragende Person zum Zeitpunkt der Befragung mindestens 18 Jahre alt war, gingen auch nur SOEP-Haushaltsmitglieder in die Modellierung ein, die dieses Kriterium erfüllten. Außerdem wurden zur Modellierung nur Personen aus Haushalten berücksichtigt, in denen mindestens zwei volljährige Personen leben, da in erfolgreich kontaktierten 1-Personen- oder Alleinerziehendenhaushalten eindeutig ist, welche Person die Fragen beantwortet.

Abbildung 4.5 zeigt die geschätzten Koeffizienten und deren Konfidenzintervalle für das Modell mit cloglog-Link, das genutzt wurde, um hinsichtlich Verzerrungen auf Personenebene zu korrigieren. Mit Blick auf die Selektion innerhalb der teilnehmenden Mehrpersonenhaushalte zeigt sich, dass Personen im Alter von 18 bis 24 Jahren seltener an der CATI-Befragung teilnehmen als Personen höheren Alters. Ebenso weisen Personen mit Abitur und Personen der Altersgruppen “65 bis 69” und “70 Jahre und älter” eine niedrigere Teilnahmewahrscheinlichkeit auf als Personen ohne Abitur bzw. Personen im Alter von 25 bis 68 auf. Gleiches gilt für Männer sowie für vollzeiterwerbstätige Personen.

Hingegen nehmen Personen mit Universitätsabschluss oder systemrelevanten Berufen mit einer höheren Wahrscheinlichkeit am CATI teil. Das gleiche gilt für Personen, die in einem 2-Personen Haushalt leben im Vergleich zu Personen, die in Haushalten mit mehr als 2 Personen leben. Personen mit einer mittleren Reife nehmen ebenso mit einer höheren Wahrscheinlichkeit am CATI teil, wie Personen, die bereits auf Covid-19 getestet wurden und deren Ergebnis negativ ausgefallen ist. Schließlich nimmt übermäßig häufig der Haushaltsvorstand der Befragung von 2018 an der CATI-Befragung teil.

Abbildung B.5 in Anhang B zeigt die vom Modell geschätzten Teilnahmewahrscheinlichkeiten an der CATI-Befragung auf Personenebene.

Koeffizientenplot des Modells zur Korrektur an der CATI-Teilnahme in der SOEP-CoV-Studie. (HH: Haushalt.)

Abbildung 4.5: Koeffizientenplot des Modells zur Korrektur an der CATI-Teilnahme in der SOEP-CoV-Studie. (HH: Haushalt.)

5 Trimmen und Randanpassung

Mit dem Ziel die statistische Effizienz von gewichteten Analysen zu verbessern, wurden die Gewichte getrimmt. Durch das Trimmen der Gewichte wird die Varianz reduziert und somit einer möglichen Verzerrung gewichteter Analysen durch einzelne Beobachtungen mit großen Gewichten entgegengewirkt. Die Gewichte wurden hierbei nicht bei einem bestimmten Wert gekappt, sondern es findet eine Umverteilung der Gewichte nach der “Weight Distribution” Methode statt (vgl. Potter 1990).

Dieser Methode liegt die parametrische Annahme zugrunde, dass die Gewichte \(w\) einer inversen Beta-Verteilung mit Verteilungsfunktion \(F_w\) folgen. Die beiden Parameter der Verteilung werden aus den Gewichten geschätzt und es wird ein Maximalwert \(\tau\) berechnet, so dass \(1 – F_w (\tau) = 0,99\). Gewichte, die diesen Wert \(\tau\) überschreiten, werden an diesem Maximalwert getrimmt und die überschüssige Masse wird auf die übrigen Gewichte verteilt. Nun wird für die derart getrimmten Gewichte, analog zum obigen Vorgehen, ein neuer Maximalwert \(\hat{\tau}\) berechnet. Liegen nun Gewichte vor, die größer sind als \(\hat{\tau}\), werden diese am neuen Maximalwert getrimmt und die verbleibende Masse wird wiederum auf alle Gewichte kleiner \(\hat{\tau}\) umverteilt. Dieses Verfahren wird iterativ so lange wiederholt, bis keines der getrimmten Gewichte mehr größer ist als der neue Maximalwert oder anders ausgedrückt bis \(\tau = \hat{\tau}\). Das Trimmen der Gewichte kam zum einen auf der Haushaltsebene und zum anderen auf Ebene der Personen im CATI-Gewichtungsschritt zur Anwendung.

Um Stichprobenfehler und Undercoverage auszugleichen, werden alle Gewichte in einem letzten Schritt an bekannte Randverteilungen angepasst. Hierzu wurde die in Deville, Särndal, and Sautory (1993) beschriebene Raking Prozedur angewandt. Da für das Jahr 2020 noch keine Randverteilungen vom Statistischen Bundesamt bereitgestellt werden können (z.B. durch den entsprechenden Mikrozensus), wurden für die Randanpassungen auf Haushaltsebene und für alle Personen des Haushaltes die letzten vorhandenen Randverteilungen des Mikrozensus’ aus dem Jahr 2018 verwendet. Ein dritter zur Verfügung gestellter Gewichtungsfaktor rechnet nur die Kontaktpersonen hoch. Da es sich dabei ausschließlich um erwachsene Personen handelt und uns für diese Population keine Ränder des Mikrozensus vorlagen, wurden die entsprechenden Randverteilungen für Erwachsene auf Basis der SOEP-Daten von 2018 geschätzt.

Auf Haushaltsebene wurden Verteilungen zur Anzahl der Haushalte nach Bundesland, Haushaltsgröße, Gemeindegrößenklasse, selbstbewohntem Eigentum, Haushaltstyp sowie zum letzten Zuzugsjahr eines Haushaltsmitglieds aus dem Ausland zur Randanpassung genutzt. Der entsprechende Randanpassungsschritt erfolgte nach dem Gewichtungsschritt, der Verzerrungen auf Haushaltsebene bei einem realisierten Interview in einem Haushalt ausgleicht, und dem Trimmen der Gewichte. Die Ränder auf Haushaltsebene samt ihrer Ausprägungen und der zugehörigen Häufigkeiten sind in Tabelle A.2 in Anhang A aufgeführt.

Auf der Personenebene wurden Verteilungen zur Anzahl der Personen in der Grundgesamtheit nach Alter, Geschlecht, Staatsbürgerschaft (Deutsch vs. andere) zur Randanpassung der Gewichte herangezogen. Diese Randanpassung erfolgte an den Personengewichten, für alle Haushaltsmitglieder in einem realisierten Haushalt. Die Ränder auf Personenebene in realisierten Haushalten samt ihrer Ausprägungen und der zugehörigen Häufigkeiten sind in Tabelle A.3 in Anhang A aufgeführt. Für die Randanpassung im Anschluss an den CATI-Gewichtungsschritt werden die Ränder aus Tabelle A.4 in Anhang A zur Anpassung verwendet.

6 Zusammenfassung der Gewichte

Tabelle 6.1 weist für die einzelnen Tranchen die Anzahl der Haushalte und der Personen aus, die an der SOEP-CoV-Studie teilgenommen haben. Da je Haushalt nur eine Person interviewt wurde, ist die Zahl der am CATI teilnehmenden Personen identisch mit der Zahl der Haushalte. Darüber hinaus enthält die Tabelle Angaben dazu, wie viele Haushalte und darin lebende Personen ein Gewicht mit dem Wert 0 aufweisen. Da je Haushalt nur eine Person am CATI teilnimmt, weisen die CATI-Gewichte für die übrigen Personen im Haushalt ebenfalls den Wert 0 auf. Gewichte mit dem Wert 0 treten auf, da in der Teilstichprobe D (1994/5 Migration (1984-1994, West)) ein Schneeballverfahren zur Anwendung kam. Aufgrund dessen können für bestimmte Haushalte keine Inklusionswahrscheinlichkeiten und somit auch keine Gewichte berechnet werden. Hierbei sind Haushaltsgewichte mit hhrf gekennzeichnet, Gewichte für alle Haushaltsmitglieder mit phrf und die Gewichte von Personen, die im Rahmen der SOEP-CoV-Studie mittels CATI befragt werden konnten, mit phrf_cati.

Tabelle 6.1: Zusammenfassende Informationen zu den Gewichtungsdaten.
Anzahl der
Anzahl der Gewichte mit Wert 0
Tranche Haushalte Personen hhrf phrf phrf_cati
1 1.689 4.126 7 14 2.444
2 1.932 4.947 9 21 3.024
3 978 2.443 1 1 1.466
4 632 1.584 1 4 953
5 309 723 0 0 414
6 303 756 3 5 456
7 288 750 1 3 463
8 298 722 5 11 429
9 265 665 0 0 400
1-9 6.694 16.716 27 59 10.049

Die nachfolgende Tabelle 6.2 zeigt die Verteilung der verschiedenen Gewichte (phrf, phrf und phrf_cati) für die in Tabelle 6.1 berichteten Fallzahlen. Bei der Berechnung der entsprechenden Statistiken wurden Gewichte mit dem Wert 0 ausgeschlossen.

Tabelle 6.2: Verteilung der verschiedenen Gewichte nach Tranche.
Gewicht Tranche Minimum Median Mittelwert Maximum Standardabweichung Summe
hhrf 1 48 3.697 6.279 62.921 7.595 10.562.046
hhrf 2 8 3.193 5.473 59.144 6.563 10.524.192
hhrf 3 35 3.931 6.371 62.995 7.741 6.224.776
hhrf 4 80 3.688 6.537 58.421 8.154 4.125.110
hhrf 5 131 3.713 6.894 56.348 8.812 2.130.310
hhrf 6 49 3.521 6.098 38.746 7.227 1.829.350
hhrf 7 18 3.630 6.745 49.683 8.130 1.935.906
hhrf 8 20 4.436 7.372 51.321 8.691 2.159.963
hhrf 9 77 3.617 7.118 65.067 9.037 1.886.347
hhrf 1-9 8 3.581 6.206 65.067 7.592 41.378.000
phrf 1 43 2.692 4.956 75.018 6.798 20.378.307
phrf 2 6 2.449 4.250 77.311 5.579 20.936.930
phrf 3 29 2.900 5.165 54.870 6.904 12.613.619
phrf 4 74 2.667 5.237 76.366 7.663 8.274.771
phrf 5 107 2.916 5.655 57.986 7.883 4.088.392
phrf 6 46 2.539 4.722 49.384 6.330 3.545.887
phrf 7 17 2.770 5.534 64.162 7.644 4.133.597
phrf 8 16 3.157 5.797 60.224 7.634 4.121.793
phrf 9 63 2.571 5.293 57.744 7.532 3.519.703
phrf 1-9 6 2.648 4.900 77.311 6.727 81.613.000
phrf_cati 1 60 5.674 10.254 92.106 12.478 17.246.453
phrf_cati 2 3 5.463 9.574 98.090 11.601 18.410.223
phrf_cati 3 49 6.263 10.790 92.106 12.925 10.542.234
phrf_cati 4 159 6.131 10.754 80.088 12.865 6.785.625
phrf_cati 5 206 6.118 11.460 98.090 13.668 3.540.989
phrf_cati 6 48 5.954 10.487 65.970 12.309 3.146.210
phrf_cati 7 26 6.186 11.244 92.106 13.966 3.227.107
phrf_cati 8 38 7.091 11.622 72.292 13.117 3.405.221
phrf_cati 9 127 6.909 12.082 72.292 13.812 3.201.754
phrf_cati 1-9 3 5.862 10.425 98.090 12.552 69.505.815

7 Ableiten eigener Gewichtungsfaktoren

Mit den SOEP-CoV-Daten ist eine Vielzahl von Analysen an unterschiedlichsten Analysemengen möglich. Für jede potentielle Analysemenge eigene Gewichte zur Verfügung zu stellen, übersteigt den Rahmen des Machbaren. Dennoch sollen und müssen die zur Verfügung gestellten Gewichte der gesamten SOEP-CoV-Stichprobe für statistische Auswertungen, die auf Populationsaussagen abzielen, genutzt werden; wenn auch nur um zu prüfen, ob die Gewichte relevant für die Berechnung von Populationsstatistiken sind (z.B. durch den simplen Vergleich von gewichteten und ungewichteten Statistiken). Die SOEP-CoV-Gewichte wurden für die gesamte Stichprobe (der neun SOEP-CoV-Tranchen) an Haushalten bzw. Personen, die an der CATI-Befragung teilgenommen haben, erzeugt. Somit stellen sie Hochrechnungsfaktoren für genau diese Stichprobe bzw. für eine Zufallsauswahl aus dieser Stichprobe dar. Das bedeutet, dass für jede Analysemenge, die diese Voraussetzung nicht erfüllt, Adjustierungsfaktoren berechnet werden müssen, damit Hochrechnungen auf die Grundgesamtheit der SOEP-CoV-Stichprobe möglich sind.

  • Um in einem ersten Schritt zu prüfen, ob die SOEP-CoV-Gewichte für eine Teilstichprobe der SOEP-CoV-Stichprobe verwendet werden können und — falls dies nicht ohne weiteres möglich ist — entsprechende Adjustierungsfaktoren abzuleiten, muss eine Selektivitätsanalyse durchgeführt werden:
  • Hierbei müssen mindestens alle Variablen, die in die geplante Analyse aufgenommen werden sollen, als erklärende Variablen in ein logistisches Regressionsmodell (oder eine probit oder cloglog Regression) einfließen.
  • Die abhängige Variable dieses Selektionsmodells ist ein Indikator (kodiert auf 0 und 1), der angibt ob im Vergleich zur gesamten SOEP-CoV-Stichprobe eine Datenzeile Teil der Analysemenge ist (y = 1) oder nicht (y = 0).
  • Das Selektionsmodell umfasst somit genauso viele Datenzeilen wie es in SOEP-CoV Beobachtungen gibt.
  • Zeigt nun keine der Analysevariablen einen signifikanten (d.h. p < 0,05) und gleichzeitig bedeutungsvollen Effekt (d.h. \(\beta > 0,01\)) hinsichtlich der Zuordnung zur Analysemenge, ist die betrachtete Teilstichprobe eine im Hinblick auf die Analysevariablen zufällige Auswahl aus der gesamten SOEP-CoV-Stichprobe. Die originalen SOEP-CoV-Gewichte können zur Hochrechnung dieser Teilstichprobe auf die Grundgesamtheit genutzt werden. Hierbei gilt zu beachten, dass gewichtete Angaben dann in Summe natürlich nicht die gesamte Populationsgröße ergeben, sondern eben nur auf die Teilpopulation, auf die sich die Analyse bezieht.
  • Ergibt die Selektivitätsanalyse allerdings Verzerrungen der Teilstichprobe hinsichtlich der Analysevariablen (d.h. gibt es signifikante und bedeutungsvolle Effekte in der Selektivitätsanalyse), ist eine Korrektur der SOEP-CoV-Gewichte erforderlich, bevor sie zu Hochrechnungszwecken herangezogen werden können. Diese Korrektur der SOEP-CoV-Gewichte erfolgt über die Multiplikation mit einem Adjustierungsfaktor, der sich wiederum aus der durchgeführten Selektivitätsanalyse ergibt.
  • Konkret heißt das: Alle Analysevariablen, die sich als signifikant und gleichzeitig bedeutungsvoll herausgestellt haben, fließen in eine neue Selektivitätsanalyse ein. Analysevariablen, die in der zuvor berechneten Selektivitätsanalyse nicht signifikant und/oder bedeutungsvoll waren, werden hierbei außer Acht gelassen (um eine unnötige Varianzerhöhung in den zu erzeugenden Adjustierungsfaktoren zu vermeiden). Die abhängige Variable der neuen Selektivitätsanalyse ist identisch mit der der zuvor berechneten, auch die Stichprobengröße bleibt unverändert.
  • Auf Basis der geschätzten (neuen) Selektivitätsanalyse müssen nun für jede Datenzeile Wahrscheinlichkeiten geschätzt (bzw. vorhergesagt) werden der Analysemenge anzugehören. Das kann in Stata mit dem Befehl predict pr getan werden und in R mit dem Befehl predict() unter Berücksichtigung des Arguments type = "response". Nun werden der Analysemenge die vorhergesagten Wahrscheinlichkeiten für eine Zugehörigkeit zur originalen SOEP-CoV-Stichprobe zugespielt. Die Inverse dieser Wahrscheinlichkeiten gibt den Adjustierungsfaktor an, der mit den SOEP-CoV-Gewichten zu multiplizieren ist, um für Verzerrungen im Vergleich zur gewichteten Ausgangsstichprobe der SOEP-CoV-Studie zu korrigieren. Mit anderen Worten, durch die Multiplikation der SOEP-CoV-Gewichte, die zur Analysemenge gehören, mit der inversen vorhergesagten Wahrscheinlichkeit ergibt sich das gesuchte adjustierte Gewicht, das zur Berechnung von Populationsstatistiken hergezogen werden kann.
  • Anmerkung: Es ist in jedem Fall angeraten, zu überprüfen wie gut das berechnete Selektionsmodell zwischen Zugehörigkeit und Nicht-Zugehörigkeit zur Analysemenge diskriminieren kann, z.B. durch die Nutzung entsprechender Boxplots: ein Boxplot gibt die Verteilung der (vorhergesagten) Wahrscheinlichkeiten für die Analysemenge an und ein Box-Plot zeigt die (vorhergesagten) Wahrscheinlichkeiten für den Teil der SOEP-CoV-Stichprobe, der nicht Teil der Analysemenge ist. Generell sollte der erste Boxplot eine Verteilung nahe der 1 anzeigen, der zweite eine Verteilung nahe der 0 und die Inter-Quartile-Ranges beider Boxplots sollten möglich wenig Überschneidungen in ihrem Wertebereich aufweisen. Ist dies nicht der Fall, diskriminiert das verwendete Modell nicht gut und die Hinzunahme weiterer erklärender Variablen, die den Selektionsmechanismus (besser) beschreiben, der die Analysemenge erzeugt hat, ist sinnvoll.

8 Anmerkungen

9 Literatur

Auguie, Baptiste. 2017. GridExtra: Miscellaneous Functions for „Grid“ Graphics. https://CRAN.R-project.org/package=gridExtra.

Deville, Jean-Claude, Carl-Erik Särndal, and Olivier Sautory. 1993. “Generalized Raking Procedures in Survey Sampling.” Journal of the American Statistical Association 88 (423): 1013–20. https://doi.org/10.1080/01621459.1993.10476369.

Kroh, Martin, Rainer Siegers, and Simon Kühne. 2015. “Gewichtung und Integration von Auffrischungsstichproben am Beispiel des Sozio-oekonomischen Panels (SOEP).” In Nonresponse Bias: Qualitätssicherung Sozialwissenschaftlicher Umfragen, edited by Jürgen Schupp and Christof Wolf, 409–44. Wiesbaden: Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-10459-7_13.

Kühne, Simon, Martin Kroh, Stefan Liebig, and Sabine Zinn. 2020. “The Need for Household Panel Surveys in Times of Crisis: The Case of SOEP-CoV.” Survey Research Methods 14 (2): 195–203. https://doi.org/10.18148/srm/2020.v14i2.7748.

Potter, Frank J. 1990. “A Study of Procedures to Identify and Trim Extreme Sampling Weights.” In Proceedings of the American Statistical Association, Section on Survey Research Methods, 225–30. American Statistical Association Washington, DC. http://www.asasrms.org/Proceedings/papers/1990_034.pdf.

R Core Team. 2020. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.

Robinson, David, and Alex Hayes. 2020. Broom: Convert Statistical Analysis Objects into Tidy Tibbles. https://CRAN.R-project.org/package=broom.

Siegers, Rainer, Veronika Belcheva, and Tobias Silbermann. 2020. “SOEP-Core v35 Documentation of Sample Sizes and Panel Attrition in the German Socio-Economic Panel (SOEP) (1984 until 2018).” SOEP Survey Papers 826. Berlin: DIW/SOEP. https://www.diw.de/documents/publikationen/73/diw_01.c.745900.de/diw_ssp0826.pdf.

The American Association for Public Opinion Research. 2016. Standard Definitions: Final Dispositions of Case Codes and Outcome Rates for Surveys. 9th ed. AAPOR.

Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. “Welcome to the tidyverse.” Journal of Open Source Software 4 (43): 1686. https://doi.org/10.21105/joss.01686.

Xie, Yihui, J.J. Allaire, and Garrett Grolemund. 2018. R Markdown: The Definitive Guide. Boca Raton, Florida: Chapman; Hall/CRC. https://bookdown.org/yihui/rmarkdown.

Zhu, Hao. 2019. KableExtra: Construct Complex Table with ’Kable’ and Pipe Syntax. https://CRAN.R-project.org/package=kableExtra.

Anhang

A Tabellen

Tabelle A.1: Liste der Merkmale, die im Rahmen der Gewichtung geprüft wurden.
Variable Datensatz Variablenlabel
lb0111 biol Mutter berufl. Ausb., Studium abgeschl.
lb0110 biol Vater berufl. Ausb., Studium abgeschl.
NumberOfContacts CoV_CATIerg_Brutto Anzahl der Kontaktversuche
anz_festnetz CoV_CATIerg_Brutto Anzahl Festnetznummern
anz_mobil CoV_CATIerg_Brutto Anzahl Mobilfunknummern
ResponseLabel CoV_CATIerg_Brutto Response Label
tranche CoV_Contact_Log CATI-Tranche
fest_mobil CoV_Contact_Log Festnetznummer oder Mobilfunknummer
ContactDate CoV_Contact_Log Kontaktdatum- und Uhrzeit
ResponseStatus CoV_Contact_Log Response Status
Personen DESTATIS (GENESIS-Online Tabelle: 12411-0015) Fortgeschriebener Bevölkerungsstand am 31.12.2018
hlc0128 hl Ae Kreditabzahl./Monat in D
hlc0175 hl Ae Sparbetrag/Monat
hlc0064_v2 hl ALG II, Sozialgeld, Unterhaltskosten heute (Ja/Nein) [2010-2018]
hlc0065 hl ALG2, Sozialgeld heute Betrag
hlc0054 hl ALG2, Sozialgeld im letzten Jahr, Betrag pro Monat
hlf0197 hl Anzahl Buecher im HH
hlj0005 hl Art der Unterkunft
hlj0033 hl AsylbLG Betrag/Monat
hlc0027_v2 hl Ausgabenueberschuss Hoehe (Monat) [2016-2018]
hlf0180 hl Auto im HH
hlj0038 hl Bankkonto
hlc0105 hl Bausparvertrag Vorjahr
hlj0043 hl Bedarf, nicht ueber Gutscheine abgedeckt
hlj0042 hl Bedarfsdeckung ueber Gutscheine
hlj0041 hl Bedarfsdeckung ueber Sachleistungen
hlf0148 hl Beintraechtigung d. Laermbelaestigung
hlf0149 hl Beintraechtigung d. Luftverschmutzung
hlf0150 hl Beintraechtigung d.Mangel a.Gruenflaeche
hlj0007 hl Bestehender Haushalt oder neuer Haushalt
hlc0190 hl Betrag Bildungspaket 2016/Monat
hlc0192 hl Betrag Bildungspaket heute/Monat
hlc0151 hl Betrag Einnahmen (Wertanlagen) 2015 im Ausland
hlc0150 hl Betrag Einnahmen (Wertanlagen) 2015 in D
hlf0601 hl Betrag Grundsteuer fuer Grundbesitz 2015
hlf0069_v5 hl Betrag Heizkosten/Monat [2002-2014,2016-2018]
hlf0600 hl Betrag Instandhaltung und Modernisierung 2015
hlc0045_v2 hl Betrag Kindergeld heute/Monat (Euro) [2002-2018]
hle0016 hl Betrag Kosten fuer Pflege/Monat von Personen nicht im HH
hlf0332 hl Betrag Pflegekosten im Monat
hlc0179 hl Betrag/Gegenwert erbschaft 2015
hlc0183 hl Betrag/Gegenwert Lotteriegewinn 2015
hlc0181 hl Betrag/Gegenwert Schenkung 2015
hlc0111_v2 hl Betriebs-/Instandhaltungskosten Betrag Vorjahr (Euro) [2002-2018]
hlc0104 hl Betriebsvermoegen Vorjahr
hlf0071_v1 hl Beurteilung der Wohnungsgroesse [1984,1998-2018]
hlf0262 hl Durchschnittliche Kosten im Monat
hlc0025_v2 hl Einnahmeueberschuss Hoehe (Monat) [2016-2018]
hlc0107 hl Festverzinsl. Wertpapiere Vorjahr
hlf0190 hl Freunde zum Essen einladen 1/Monat
hlf0531 hl Garage/Stellplatz
hlc0063 hl Grundsicherung im Alter Betrag pro Monat
hlc0071 hl Grundsicherung im Alter heute Betrag
hlf0178_v1 hl Haushalt: Internet [2005,2007,2011,2013,2015-2018]
hlc0006_v3 hl HH-Nettoeinkommensgruppen [2003-2018]
hlc0068_v2 hl Hilfe Lebensunterhalt Betrag (Euro) [2002-2018]
hlc0055_v1 hl Hilfe Lebensunterhalt Vorjahr [1984,1991,2010-2018]
hlc0059_v2 hl Hilfe Lebensunterhalt Vorjahr (Betrag im Monat) (Euro) [2002-2018]
hlf0291 hl Hilfe-,Pflegebeduerft. Person im HH
hlc0114_v3 hl Hoehe Abzahlung Kredite (selbst und andere HH-Mitglieder) (Euro) [2011-2018]
hlf0074_v2 hl Hoehe der monatlichen Miete (DM) [2002-2018]
hlc0197 hl Hoehe des Betrags nach dem AsylbLG im letzten Kalenderjahr
hlf0078 hl Hoehe durchschnittl. Stromkosten im Monat
hlf0090_v2 hl Hoehe Heizkosten letzt.Jahr (Euro) [2002-2014,2016-2018]
hlf0084 hl Hoehe Stromkosten letztes Jahr
hlf0178_v3 hl Internetanschluss [2016-2017]
hlk0057 hl Interviewdauer muendlich
hlk0058 hl Interviewdauer schriftlich
hlf0091_v3 hl Jaehrliche Nebenkosten (EURO) [2002-2014,2016-2018]
hlf0188 hl Jaehrliche Urlaubsreise
hlc0093 hl Keine Wertanlagen Vorjahr
hlc0042_v2 hl Kindergeld letzt.J Betrag(Monat) (Euro) [2002-2018]
hlc0051_v2 hl Kinderzuschlag Betrag Monat Vorjahr (Fragenpraezisierung) [2010-2018]
hlc0047_v2 hl Kinderzuschlagbezug heute Betrag (mit Fragepraezisierung) [2010-2018]
hlj0004_v2 hl Leben auslaend. Familien im Wohngebiet [2014]
hlc0106 hl Lebensversicherung Vorjahr
hlc0079_v2 hl Leistungen der Pflegeversicherung (Betrag pro Monat) (Euro) [2002-2018]
hlc0008_v2 hl Miet- u.Pachteinnahmen Betrag Vorjahr (Euro) [2002-2018]
hlf0001_v3 hl Miete oder Eigentum (auch Altersheim) [1999-2018]
hlj0029 hl Miete/Monat
hlj0017 hl Miete/Monat
hlk0060 hl Monat des Interviews
hlf0081_v2 hl Monatl Hoehe der Umlagen (DM) [2002-2014,2016-2018]
hlf0088_v2 hl Monatl Zins-,Tilgungszahlungen (Euro) [200