Beschreibung von Sentiments messen und analysieren: Ein Praxiskurs in RStudio

Sentiments messen und analysieren: Ein Praxiskurs in RStudio

Wie bewerten sich Menschen gegenseitig? Welche Meinungen vertreten sie gegenüber Politik, Institutionen, oder kontrovers diskutierten Themen? Wie unterscheiden sich Zeitungstexte oder Social-Media Beiträge zu bestimmten Themen hinsichtlich der Sprachfärbung (z.B. Angst, Hoffnung, Freude)? Und gibt es systematische Unterschiede zwischen verschiedenen Akteursgruppen (z.B. nach Geschlecht, Alter, Parteizugehörigkeit) bei den Bewertungen und der hier verwendeten Sprache?

Um diese Fragen zu beantworten, werden in den Computational Social Sciences und in den Computer Sciences Sentimentanalysen (= Analysen der Stimmung in Texten) verwendet. Dabei handelt es sich um eine Familie von Algorithmen, die entweder a) regelbasiert versuchen, einem Textausschnitt eine Stimmung oder ein Gefühl zuzuordnen, oder b) durch Verfahren des maschinellen Lernens bzw. Machine Learnings darauf trainiert werden, Stimmungen oder Gefühle automatisch zu erkennen. Die Vorgehensweise ist dabei in den meisten Fällen wenig theoriegeleitet und unkritisch in der Hinsicht sind, dass vorgefertigte Diktionäre verwendet werden, die einfache Begrifflichkeiten und einfache Regeln kombinieren, um Stimmungslagen zu detektieren.

Doch wie können wir, als Sozialwissenschaftler:innen, diese Methoden in unserem Forschungsprozess gewinnbringend zur Beantwortung soziologisch relevanter Fragestellungen anwenden? Was sind die Fallstricke, die hiermit verbunden sind? it welchen (theoretischen und methodologischen) Frameworks können wir sie verbinden?

Diese Fragen sollen in dem Masterseminar adressiert werden. Konsequenterweise bietet der Kurs hierfür eine praktische Einführung in die verschiedenen Spielarten der Sentimentanalyse in der Programmiersprache R an. Dabei stehen neben der Einführung in R bzw. der Erweiterung von Programmierkenntnissen die kritische Reflexion und theoretische Verankerung der Methoden im Vordergrund. Der Kurs ist dabei immer in einen Programmier- und eine Diskussionspart geteilt.

Inhalte des Kurses sind:

Verwendung und Fallstricke vorgefertigter Sentimentmodelle
Datenakquise, Datenannotation und deren (theoretische wie methodische) Reflexion
Grundlagen des Machine-Learnings bei Textanalysen: Aufspalten von Daten in Trainings-, Test- und Validierungssets, Modellevaluation, Grenzen der Verallgemeinerbarkeit. Berechnung von Interrater-Reliabilitätsmaßen.
Verwendung von supervised-learning Algorithmen zur automatisierten Klassifizierung von Sentiments. Folgende Algorithmen stehen im Vordergrund:

Support Vector-Machines
Decision Trees
Random Forests

Berechnung von (trainierten) Sentimentwerten durch Regressionsmodelle (lineare Regression, logistische Regression, Mehrebenenmodelle)

Voraussetzung zum Bestehen des Kurses:

Bereitschaft, sich mit Syntax und Code in RStudio auseinanderzusetzen
Teilnahme an Diskussionen über die Kursinhalte
Beihilfe zur Datenakquise und Datenannotation
Gemeinsames Verfassen eines Methodenberichtes (in Kleingruppen von 2-3 Personen) sowie kritische Reflexion über die Fallstricke der verwendeten Methode