Wort Bedeutung
Statistisch {Adjektiv} die Statistik betreffend, auf Ergebnissen der Statistik beruhend; durch Zahlen belegt
Daten {Pluralwort} (durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, formulierbare Befunde
Analyse {Substantiv, feminin} Untersuchung, bei der etwas zergliedert, ein Ganzes in seine Bestandteile zerlegt wird

Unter dem Begriff der statistischen Datenanalyse sammeln sich verschiedene Auswertungsmethoden für Daten. Diese lassen sich in deskriptive und fortgeschrittene Methoden unterteilen. Heutzutage werden für die Analyse hauptsächlich computergestützte Auswertungsverfahren genutzt. Es existieren verschiedene Statistikprogramme für diesen Zweck, die insbesondere bei großen Datenmengen hilfreich sind, sowie bei der graphischen Darstellung der Ergebnisse. Dabei blicken wir auf langjährige Erfahrungen mit den gängigsten Programmen (R, STATA, SPSS) zurück.

Deskriptive Analyse und graphische Darstellung

Ziel der deskriptiven Analyse ist es, Kennziffern zu berechnen, um die vorhandenen Daten beschreiben zu können.  Die deskriptive Statistik betrachtet die einzelnen Variablen meist isoliert und nicht, wie sie im Zusammenhang mit anderen Variablen stehen. Es geht also beispielsweise darum, wie häufig etwas genannt wurde, aber nicht darum, ob es dabei Unterschiede zwischen Männern und Frauen gibt. Dabei existiert eine Vielzahl von Kennzahlen. Bei Evaluationsstudien kommen diese häufig zum Einsatz:

  • Häufigkeitsauszählung: Angabe, wie häufig bestimmte Antworten angegeben wurden. Hier wird zwischen der absoluten Häufigkeit, also der Nennung der Kategorien in absoluten Zahlen, und der relativen Häufigkeit unterschieden.
  • Mittelwert (Durchschnitt): Die Summe aller Werte geteilt durch deren Anzahl.
  • Modus: Der am häufigsten genannte Wert.
  • Median: Der Wert, der, wenn die Datenwerte nach Größe geordnet sind, in der Mitte der Datenmenge liegt und diese somit in zwei gleich große Gruppen teilt.
  • Varianz: Gibt an, inwieweit der Mittelwert ein guter Indikator für die gesamte Datenmenge ist, indem die Abweichungen aller Werte zum Mittelwert quadriert werden und davon der Mittelwert berechnet wird.
  • Standardabweichung: Standardisierte Form der Varianz, wird berechnet indem Wurzel aus der Varianz gezogen wird.

Neben dem Ziel der Analyse bestimmen auch die vorhandenen Daten und die Art, wie diese erhoben wurden, die Wahl der Kennzahl. So macht es z .B. Sinn, einen Mittelwert zu berechnen, wenn man Informationen darüber erhoben hat, wie oft die befragten Personen ein bestimmtes Angebot genutzt haben, um die durchschnittliche Nutzung zu berechnen. Ein Mittelwert ergibt hingegen keinen Sinn, wenn die Personen gefragt wurden, welche Angebote sie nutzen. Hier wäre eine Häufigkeitsauszählung passender.

Um die deskriptiven Ergebnisse zu visualisieren, eigenen sich Diagramme. Bei Fragen mit Mehrfachnennungen als Antworten können Balkendiagramme zur Veranschaulichung verwendet werden. Um Fragen mit Antwortskalen (z. B. 4er Skala von „Gar nicht zufrieden“ bis „Sehr zufrieden) darzustellen können gestaffelte Balkendiagramme verwendet werden. Punktediagramme sind sinnvoll, um Mittelwerte graphisch darzustellen. Die verschiedenen Diagrammformen können dabei absolute oder prozentuale Werte abbilden.

Beispiel Balkendiagramm

Fortgeschrittene Analysen

Während die deskriptive Statistik Variablen isoliert betrachtet, geht es bei fortgeschrittenen Methoden um die Analyse des Zusammenhangs zwischen zwei oder mehr Variablen (bi- bzw. multivariate Analyse).

Beispiel: In einem Fragebogen haben wir 200 Personen befragt, die Mitglied in einem Verein zur Förderung kommunaler Kulturangebote sind. Dabei haben wir u. a. das Alter, Geschlecht, Höhe des freiwilligen Mitgliederbeitrags sowie die Teilnahme an verschiedenen Veranstaltungen des Vereins (z. B. Vernissagen, Konzerte oder Museumsbesuche) der Mitglieder erfasst. Durch die deskriptive Analyse haben wir herausgefunden, dass die befragten Personen im Durchschnitt 57,2 Jahre alt sind (Mittelwert) und der Medianwert 56 Jahre beträgt. Weiterhin wissen wir, dass die Befragten zwischen 18 und 79 Jahre alt sind. Nun interessiert uns aber auch, inwieweit das Alter der befragten Personen mit ihrer Präferenz für verschiedene Veranstaltungsangebote und ihrem Geschlecht zusammenhängt. Dazu verwenden wir bi- und multivariate Analysen, die den Zusammenhang zwischen den drei Variablen (Alter, Geschlecht, Veranstaltungsangebote) untersuchen.

Im Folgenden werden die wichtigsten Verfahren kurz vorgestellt:

  • Kreuztabellen: Häufigkeitstabellen für zwei Variablen, die die gemeinsame Verteilung abbildet (Beispiel: Wir wollen wissen, wie viele der befragten Personen weiblich sind und hauptsächlich Konzerte besuchen).
  • Korrelationen: Zwischen zwei Variablen besteht eine Korrelation (ein Zusammenhang), wenn eine Änderung einer Variablen mit der Änderung einer anderen Variable einhergeht (Beispiel: Wir stellen fest, dass je älter die Befragten sind, desto öfter besuchen sie Vernissagen).
  • Regressionen: Die vorherigen Analysen untersuchen, ob ein Zusammenhang zwischen mehreren Variablen besteht. Regressionen ermöglichen es, Aussagen über die Stärke des Zusammenhangs zu treffen. Bei einer Regression gibt es immer eine unabhängige (erklärende) Variable, von der wir annehmen, dass sie die zweite (abhängige) Variable beeinflusst. Regressionen bieten zudem den Vorteil, weitere Merkmale, die ebenfalls einen Einfluss auf unsere abhängige Variable haben, zu integrieren.

Beispiel: Wir vermuten, dass das Alter einen Einfluss auf die Höhe des freiwilligen Mitgliederbeitrags hat. Das Alter ist also unsere unabhängige Variable und die Höhe des Mitgliederbeitrags die abhängige Variable. Mithilfe einer Regression können wir sagen, wie stark der Zusammenhang ist und um wie viel Euro der Beitrag pro Lebensjahr steigt. Wir wissen, dass neben dem Alter auch das Geschlecht einen Einfluss auf die Höhe des Mitgliederbeitrags hat. Um den Effekt besser schätzen zu können, fügen wir das Geschlecht als weitere unabhängige Variable zu unserer Regression hinzu.

Quellen:

Behnke, Joachim; Behnke, Nathalie (2006): Grundlagen der statistischen Datenanalyse. Eine Einführung für Politikwissenschaftler. Wiesbaden: VS Verlag für Sozialwissenschaften.

Diekmann, Andreas (2008): Empirische Sozialforschung. Grundlagen Methoden Anwendungen (19.Auflage). Reinbek bei Hamburg: Rowohlt Taschenbuch Verlag.

Hildebrandt, Achim; Jäckle, Sebastian; Wolf, Frieder; Heindl, Andreas (2015): Methodologie, Methoden, Forschungsdesign. Ein Lehrbuch für fortgeschrittene Studierende der Politikwissenschaft. Wiesbaden: VS Verlag für Sozialwissenschaften.

Duden Online; www.duden.de, abgerufen am 15.05.2018 (Begriffsdefinition).

Autorin: Lea Haiges