Wie bewerten sich Menschen gegenseitig? Welche Meinungen vertreten sie gegenüber Politik, Institutionen, oder kontrovers diskutierten Themen? Wie unterscheiden sich Zeitungstexte oder Social-Media Beiträge zu bestimmten Themen hinsichtlich der Sprachfärbung (z.B. Angst, Hoffnung, Freude)? Und gibt es systematische Unterschiede zwischen verschiedenen Akteursgruppen (z.B. nach Geschlecht, Alter, Parteizugehörigkeit) bei den Bewertungen und der hier verwendeten Sprache?

Um diese Fragen zu beantworten, werden in den Computational Social Sciences und in den Computer Sciences Sentimentanalysen (= Analysen der Stimmung in Texten) verwendet. Dabei handelt es sich um eine Familie von Algorithmen, die entweder a) regelbasiert versuchen, einem Textausschnitt eine Stimmung oder ein Gefühl zuzuordnen, oder b) durch Verfahren des maschinellen Lernens bzw. Machine Learnings darauf trainiert werden, Stimmungen oder Gefühle automatisch zu erkennen. Die Vorgehensweise ist dabei in den meisten Fällen wenig theoriegeleitet und unkritisch in der Hinsicht sind, dass vorgefertigte Diktionäre verwendet werden, die einfache Begrifflichkeiten und einfache Regeln kombinieren, um Stimmungslagen zu detektieren.

Doch wie können wir, als Sozialwissenschaftler:innen, diese Methoden in unserem Forschungsprozess gewinnbringend zur Beantwortung soziologisch relevanter Fragestellungen anwenden? Was sind die Fallstricke, die hiermit verbunden sind? it welchen (theoretischen und methodologischen) Frameworks können wir sie verbinden?

Diese Fragen sollen in dem Masterseminar adressiert werden. Konsequenterweise bietet der Kurs hierfür eine praktische Einführung in die verschiedenen Spielarten der Sentimentanalyse in der Programmiersprache R an. Dabei stehen neben der Einführung in R bzw. der Erweiterung von Programmierkenntnissen die kritische Reflexion und theoretische Verankerung der Methoden im Vordergrund. Der Kurs ist dabei immer in einen Programmier- und eine Diskussionspart geteilt.


Inhalte des Kurses sind:

  1. Verwendung und Fallstricke vorgefertigter Sentimentmodelle
  2. Datenakquise, Datenannotation und deren (theoretische wie methodische) Reflexion 
  3. Grundlagen des Machine-Learnings bei Textanalysen: Aufspalten von Daten in Trainings-, Test- und Validierungssets, Modellevaluation, Grenzen der Verallgemeinerbarkeit. Berechnung von Interrater-Reliabilitätsmaßen.
  4. Verwendung von supervised-learning Algorithmen zur automatisierten Klassifizierung von Sentiments. Folgende Algorithmen stehen im Vordergrund:
    1. Support Vector-Machines
    2. Decision Trees
    3. Random Forests
  5.  Berechnung von (trainierten) Sentimentwerten durch Regressionsmodelle (lineare Regression, logistische Regression, Mehrebenenmodelle)


Voraussetzung zum Bestehen des Kurses:

  1. Bereitschaft, sich mit Syntax und Code in RStudio auseinanderzusetzen
  2. Teilnahme an Diskussionen über die Kursinhalte
  3. Beihilfe zur Datenakquise und Datenannotation
  4. Gemeinsames Verfassen eines Methodenberichtes (in Kleingruppen von 2-3 Personen) sowie kritische Reflexion über die Fallstricke der verwendeten Methode