Konvena statistische Analyse grau Statistische Datenanalyse

Wort Bedeutung
Statistisch {Adjektiv} die Statistik betreffend, auf Ergebnissen der Statistik beruhend; durch Zahlen belegt
Daten {Pluralwort} (durch Beobachtungen, Messungen, statistische Erhebungen u. a. gewonnene) [Zahlen]werte, formulierbare Befunde
Analyse {Substantiv, feminin} Untersuchung, bei der etwas zergliedert, ein Ganzes in seine Bestandteile zerlegt wird

Unter dem Begriff der statistischen Datenanalyse sammeln sich verschiedene Auswertungsmethoden für Daten, die fortan in deskriptive und fortgeschrittene Methoden unterteilt werden. Neben dem Ziel der Analyse bestimmen auch die vorhandenen Daten und die Art wie diese erhoben wurden die Wahl der Methode. So macht es z.B. Sinn einen Mittelwert zu berechnen, wenn man Informationen darüber erhoben hat, wie oft die befragten Personen ein bestimmtes Angebot genutzt haben, um die durchschnittliche Nutzung zu berechnen. Ein Mittelwert ergibt hingegen aber keinen Sinn, wenn die Personen gefragt wurden, welche Angebote sie nutzen. Hier wäre eine Häufigkeitsauszählung passender. Heutzutage werden sowohl bei der deskriptiven als auch der fortgeschrittenen Analyse hauptsächlich computergestützte Auswertungsverfahren genutzt. Es existieren verschiedene Statistikprogramme für diesen Zweck (z.B. R, SPSS, STATA), die insbesondere bei großen Datenmengen hilfreich sind, sowie bei der graphischen Darstellung der Ergebnisse.

Deskriptive Analyse und graphische Darstellung

Ziel der deskriptiven Analyse ist es Kennziffern zu berechnen, um die vorhandenen Daten beschreiben zu können.  Die deskriptive Statistik betrachtet die einzelnen Variablen meist isoliert und nicht wie sie im Zusammenhang mit anderen Variablen stehen. Es geht also beispielsweise darum, wie häufig etwas genannt wurde, aber nicht darum, ob es dabei Unterschiede zwischen Männern und Frauen gibt. Dabei existiert eine Vielzahl von Kennzahlen. Nachfolgend stellen wir Ihnen diejenigen vor, die bei Evaluationsstudien häufig zum Einsatz kommen:

  • Häufigkeitsauszählung: Angabe wie häufig bestimmte Antworten angegeben wurden. Hier wird zwischen der absoluten Häufigkeit, also der Nennung der Kategorien in absoluten Zahlen, oder der relativen Häufigkeit unterschieden.
  • Modus: Der Modus ist der am häufigsten genannte Wert.
  • Median: Wenn die Datenwerte geordnet sind (von klein nach groß) ist der Median der Wert, der in der Mitte der Datenmenge liegt und diese somit in zwei gleich große Gruppen teilt.
  • Mittelwert oder auch arithmetisches Mittel: Die Summe aller Werte geteilt durch deren Anzahl.
  • Varianz: Gibt an inwieweit der Mittelwert ein guter Indikator für die gesamte Datenmenge ist, indem die Abweichungen aller Werte zum Mittelwert quadriert werden und davon der Mittelwert berechnet wird.
  • Standardabweichung: Standardisierte Form der Varianz, wird berechnet indem Wurzel aus der Varianz gezogen wird.

Um die deskriptiven Ergebnisse darzustellen eigenen sich Diagramme. Eine Unterform sind Säulendiagramme, die meist verwendet werden um Häufigkeitsverteilung von Variablen zu visualisieren. Bei Fragen mit Mehrfachnennungen als Antworten können Balkendiagramme zur Veranschaulichung verwendet werden. Um Fragen mit Antwortskalen (z.B. 4er Skala von „Gar nicht zufrieden“ bis „Sehr zufrieden) darzustellen können gestaffelte Balkendiagramme verwendet werden. Punktediagramme sind sinnvoll, um Mittelwerte graphisch darzustellen. Die verschiedenen Diagrammformen können dabei absolute oder prozentuale Werte abbilden.

Beispiel Balkendiagramm

Fortgeschritten (Kreuztabellen, Zusammenhänge, Regressionen)

Während die deskriptive Statistik Variablen isoliert betrachtet, geht es bei fortgeschrittenen Methoden um die Analyse des Zusammenhangs zwischen zwei oder mehr Variablen (bi- bzw. multivariate Analyse).

Beispiel: In einem Fragebogen haben wir 200 Personen befragt, die Mitglied in einem Verein zur Förderung kommunaler Kulturangebote sind. Dabei haben wir u.a. das Alter, Geschlecht, Höhe des freiwilligen Mitgliederbeitrags, sowie die Teilnahme an verschiedenen Veranstaltungen des Vereins (z.B. Vernissagen, Konzerte oder Museumsbesuche) der Mitglieder erfasst. Durch die deskriptive Analyse haben wir herausgefunden, dass die befragten Personen im Durchschnitt 57,2 Jahre alt sind (Mittelwert) und der Medianwert 56 Jahre beträgt. Weiterhin wissen wir, dass die Befragten zwischen 18 und 79 Jahre alt sind. Nun interessiert uns aber auch inwieweit das Alter der befragten Personen mit ihrer Präferenz für verschiedene Veranstaltungsangebote und ihrem Geschlecht zusammenhängt. Dazu verwenden wir bi- und multivariate Analysen, die den Zusammenhang zwischen den drei Variablen (Alter, Geschlecht, Veranstaltungsangebote) untersuchen.

Im Folgenden werden die wichtigsten Methoden kurz vorgestellt:

  • Kreuztabellen: Häufigkeitstabellen für zwei Variablen, die die gemeinsame Verteilung abbildet (Beispiel: Wir wollen wissen wie viele der befragten Personen weiblich sind und hauptsächlich Konzerte besuchen).
  • Zusammenhänge/Korrelationen: Zwischen zwei Variablen besteht eine Korrelation und ein Zusammenhang, wenn eine Änderung einer Variablen mit der Änderung einer anderen Variable einhergeht (Beispiel: Wir stellen fest, dass je älter die Befragten sind, desto öfter besuchen sie Vernissagen). Je nachdem wie die Daten erhoben wurden, müssen unterschiedliche Korrelationsmaße verwendet werden.
  • Regressionen: Die vorherigen Analysen untersuchen ob ein Zusammenhang zwischen mehreren Variablen besteht, während Regressionen es ermöglichen Aussagen über die Stärke des Zusammenhangs zu treffen. Bei einer Regression gibt es immer eine unabhängige Variable, von der wir annehmen, dass sie die zweite (abhängige) Variable beeinflusst. Regressionen bieten zudem den Vorteil weitere Merkmale, die ebenfalls einen Einfluss auf unsere abhängige Variable haben, zu integrieren. Je nach Ausprägung der abhängigen Variable und welchen Zusammenhang wir annehmen wird zwischen verschiedenen Regressionen unterschieden.

Beispiel: Wir vermuten, dass das Alter einen Einfluss auf die Höhe des freiwilligen Mitgliederbeitrags hat. Das Alter ist also unsere unabhängige Variable und die Höhe des Mitgliederbeitrags die abhängige Variable. Mit Hilfe einer Regression können wir sagen wie stark der Zusammenhang ist und um wie viel Euro der Beitrag pro Lebensjahr steigt. Wir wissen das neben dem Alter auch das Geschlecht einen Einfluss auf die Höhe des Mitgliederbeitrags hat. Um den Effekt besser schätzen zu können fügen wir das Geschlecht als weitere unabhängige Variable zu unserer Regression hinzu.

Quellen:

Behnke, Joachim; Behnke, Nathalie (2006): Grundlagen der statistischen Datenanalyse. Eine Einführung für Politikwissenschaftler. Wiesbaden: VS Verlag für Sozialwissenschaften.

Diekmann, Andreas (2008): Empirische Sozialforschung. Grundlagen Methoden Anwendungen (19.Auflage). Reinbek bei Hamburg: Rowohlt Taschenbuch Verlag.

Hildebrandt, Achim; Jäckle, Sebastian; Wolf, Frieder; Heindl, Andreas (2015): Methodologie, Methoden, Forschungsdesign. Ein Lehrbuch für fortgeschrittene Studierende der Politikwissenschaft. Wiesbaden: VS Verlag für Sozialwissenschaften.

Duden Online; www.duden.de, abgerufen am 15.05.2018 (Begriffsdefinition).

Autorin: Lea Haiges