Serie: Analyse interaktiver Patientenportale (Teil I)

Im Internet befindet sich eine Vielzahl von Informationen zum verschiedenen gesundheitsbezogenen Themen. Mit der Einführung des Web 2.0 haben sich in den letzten zehn Jahren eine Reihe von interaktiven Online-Foren etabliert, auf denen betroffene Personen zum einen die Möglichkeit haben, untereinander Erfahrungen auszutauschen und sich zum anderen ratsuchend an medizinische Experten wenden können. Der in diesen Foren geführte Diskurs enthält zahlreiche frei zugängliche Informationen über Fragen und Probleme der Betroffenen, die potentiell auch für die medizinische Versorgung relevant sind.

Da es sich bei den so geführten Diskursen um Texte handelt, kommen etablierte statistische Verfahren zur Analyse dieser Daten nicht in Frage. Andererseits stoßen aber auch die klassischen interpretativen Methoden der qualitativen Sozialforschung angesichts der im Netz verfügbaren riesigen Textkorpora schon allein aus forschungspraktischen Gründen an ihre Grenzen.

Zwar stehen für die Analyse solcher Textkospora einige neuere Analysemethoden zur Verfügung (“Computational Linguistics”, “Natural Language Processing”, “Text Mining” etc.), jedoch sind dise in den Sozialwissenschaften bisher wenig bis gar nicht etabliert.

In diesem Blog werde ich in unregelmäßigen Abständen über meine eigene Forschung auf dem Gebiet der quantitativen Textanalyse berichten.

Das Kanzlerduell 2013

Diese “Gradient Word Cloud” habe ich mit Hilfe des GNU R “qdap”-Paketes generiert. Die Analyse des “Kanzlerduells” zwischen Angela Merkel und Peer Steinbrück zeigt zum einen, welche bedeutungstragenten Wörter am häufigsten benutzt wurden (markiert durch die Größe des Worts) und zum anderen, welcher der beiden Kanzlerkandidaten das entsprechende Wort häufiger benutzt hat als der andere. Dabei wurden alle blau gefärbten Wörter von Angela Merkel und alle rot eingefärbten Wörter von Peer Steinbrück häufiger genannt.

Image

Learning R

Falls an eurer Hochschule kein R-Kurs angeboten wird, besteht zum einen die Möglichkeit, sich die nötigen Kenntnisse im Selbststudium anzueignen.
Zum anderen bietet das “Institut zur Qualitätsentwicklung im Bildungswesen” (Berlin) zweimal im Jahr eine sehr preisgünstige, eintägige “Einführung in die Statistiksoftware R” an. Ich selbst habe diesen Kurs im Oktober 2011 besucht und kann ihn sehr empfehlen.

“Methoden der empirischen Sozialforschung”

Als ich im Jahr 1996 im Rahmen meines Soziologiestudiums den Kurs “Methoden der empirischen Sozialforschung” besuchte, kam ich zum ersten Mal mit Statistiksoftware in Berührung. Das einzige Statistikprogramm, mit dem damals am soziologischen Institut der Friedrich-Schiller-Universität gearbeitet wurde, war SPSS. Vermutlich wird es an den meisten anderen deutschen Universitäten nicht anders gewesen sein.
Mittlerweile werden an einigen Universitäten Statistikkurse nicht mehr mit SPSS, sondern mit dem Statistikprogramm R durchgeführt. Dies hat zum einen sicher finanzielle Gründe (R ist ein kostenloses Open-Source-Programm, während eine SPSS-Linzenz einige tausend Euro kostet). Zum anderen ist R aber auch wesentlich leistungsfähiger und flexibler einsetzbar als SPSS.
Ich selbst arbeite mittlerweile kaum noch mit SPSS, dafür aber um so lieber mit R. Wie geht es euch? Könnt ihr von ähnlichen Erfahrungen berichten?

Design a site like this with WordPress.com
Get started