Bild nicht mehr verfügbar.

Maschinen bewerten Stimmungen, mit dem Ausdifferenzieren tun sich logischerweise Menschen leichter.

Foto: Getty Images / pop_jop

Das Web ist bekanntlich ein Füllhorn an Subjektivität und Gefühlen. Persönliche Meinungen sind jedoch nicht nur das Salz in der Suppe des sozialen Austauschs, sondern zugleich eine relevante Datenquelle für Hersteller von Konsumgütern. Sie wollen wissen, was Kunden über ihre Produkte denken.

Mittels Stimmungsanalyse werden gepostete Kommentare ausgewertet. Weil aufgrund der Datenmenge eine manuelle Bewertung ein hoffnungsloses Unterfangen wäre, kommen algorithmische Klassifikationsverfahren zum Einsatz.

Im Rahmen des von der Förderagentur FFG geförderten Projekts SAMBA (Smart Data for Music Business Administration) haben Medienwissenschafter der Fachhochschule St. Pölten eine Stimmungsanalyse anhand von Musikvideos österreichischer Bands auf Youtube durchgeführt.

Für die Bewertung setzten sie drei Tools ein: NLTK Vader, TextBlob und AFINN. Diese klassifizierten 200.000 Kommentare als positiv, negativ oder neutral bzw. als Zahl in einem normierten Intervall. Um die maschinelle Bewertung damit vergleichen zu können, wie Menschen Emotionen in Kommentaren einschätzen, haben sie 1000 Kommentare "per Hand" von Mitarbeitern klassifizieren lassen.

Fünfstufige Skala

Dabei kam eine fünfstufige Skala von "sehr negativ" bis "sehr positiv" zur Anwendung. Eine Gegenüberstellung der maschinellen und der humanen Stimmungsbewertung sollte dann die jeweiligen Stärken und Schwächen von Mensch bzw. Maschine zutage bringen. "Es handelt sich um Musikkommentare, da muss man sich mit der Materie gut auskennen und die Sprachgewohnheiten der Community verstehen", sagt Johanna Grüblbauer, stellvertretende Leiterin des Instituts für Medienwirtschaft der FH St. Pölten.

Damit spricht sie das aus ihrer Sicht größte Problem der Programme an: fehlendes Verständnis für den Kontext. Menschen bringen Hintergrundwissen mit, das sie bei der Bewertung von Meinungen zur Anwendung bringen, auch unbewusst.

Eine weitere Schwierigkeit: Programme können sich nicht des Urteils enthalten. Wenn ihre Programmierung weder eine positive noch eine negative Stimmung erkennen lässt, stufen sie den Text meist als neutral ein. Die Möglichkeit, dass ein Kommentar inhaltlich völlig am Thema vorbeigeht, kennen sie nicht. "Ein Problem vieler fertiger Tools ist, dass sie wie eine Blackbox funktionieren", bemängelt Grüblbauer. "Man weiß oft nicht, welche Methode sie zur Bewertung anwenden."

Methodentreue

Es könnte also – möglicherweise unabsichtlich – eine implizite Voreingenommenheit einprogrammiert sein, die das Resultat verfälscht. Doch auch wenn die Methode nicht immer dokumentiert ist, so haben Programme immerhin eine. Sie wenden diese stur auf den gesamten Datensatz an und bleiben ihr dabei unbedingt treu.

Menschen sind demgegenüber selbst von subjektiven Stimmungen oder der Tagesverfassung abhängig. Objektive Bewertungskriterien können sie nicht umsetzen. Wenn es um die Bewertung sehr großer Datenmengen geht, kommt man um maschinelle Methoden sowieso nicht herum. "Beim Algorithmus nimmt man eine gewisse Unschärfe in Kauf, weil man viele Daten bekommt", meint die Medienwissenschafterin.

Einige Fragen beim Projekt sind noch offen. Wie geht man mit Kommentaren um, die sowohl positive als auch negative Emotionen zeigen? Eine Möglichkeit wäre, die Ambivalenz durch zwei Kommentare darzustellen. Eine andere, den Kommentar gänzlich zu streichen. Auch wie man mit Kommentaren umgeht, die sich nicht auf den Song beziehen, sondern auf das dazugehörige Video, ist noch nicht entschieden.

Das ist beim Song Maschin der Band Bilderbuch der Fall. Viele User bewerten den gelben Sportwagen, der das Video dominiert. Ist man aber an der Stimmung der User gegenüber der Musik interessiert, sollte man deren Kommentare aussortieren.

Negative Bewertungen

Beim Youtube-Projekt entdeckten die Wissenschafter, dass manche Lieder eine hohe Anzahl negativer Bewertungen erhielten. "Normalerweise wird ein Lied überwiegend positiv bewertet, sehr oft neutral, aber nur vergleichsweise selten negativ", sagt Grüblbauer. Anders war das beim Song Feel Good Inc. von Filous. Hier gab es viele als negativ eingestufte Kommentare.

Eine inhaltliche Analyse zeigte dann, dass etliche User darüber verärgert waren, dass es keinen Hinweis auf die Originalversion gab. Die Maschinen gaben hier also einen quantitativen Anfangsverdacht, dem dann qualitativ nachgegangen wurde. "Es geht nicht ohne den Menschen", so Grüblbauer. (Raimund Lang, 9.3.2019)