Claudia Plant freut sich auf Ihre Postings und kritischen Anmerkungen zu Data-Mining und Big Data.

Foto: Universität Wien

Annas Profil auf Linkedin liest sich beeindruckend. Die studierte Betriebswirtin ist derzeit Senior Human Resources Manager bei einer großen Unternehmensberatung und auf der Suche nach neuen Herausforderungen. Verhandlungssicheres Englisch, kommunikatives und kundenorientiertes Auftreten zeichnen sie aus.

Anna hat schon lange das Restless-Leg-Syndrom. Die neurologische Erkrankung verursacht Kribbeln und Brennen in den Beinen. Durch Medikamente hat sie ihr Problem gut im Griff. Gelegentlich nimmt sie an klinischen Studien teil. Als Moderatorin des Onlineforums der Selbsthilfegruppe berät sie andere Betroffene.

Auf Annas Jobsuche-Postings in beruflichen Netzwerken und Stellenmärkten hat sich niemand gemeldet. Warum? Im Rahmen einer Studie über das Restless-Leg-Syndrom wurde eine Magnetresonanztomografie-Untersuchung von Annas Gehirn gemacht. Vor kurzem wurden die Daten anonymisiert auf einer Onlineplattform Forschern weltweit zur Verfügung gestellt.

Der Supercomputer auf dem Schreibtisch

Open Data, also freier Zugriff auf Daten, ist für mich als Data-Mining-Forscherin unverzichtbar. Wir arbeiten an Techniken, die verständliche Muster und Zusammenhänge in sehr großen Datenmengen finden.

Ein Algorithmus ist häufig eine komplexe Folge von Anweisungen, die der Computer abarbeiten kann, um ein bestimmtes Ziel zu erreichen. Durch die rasante technische Entwicklung steckt schon in Ihrem Notebook oder Desktop-Computer daheim mehr Rechenleistung als in einem Supercomputer der 90er-Jahre. Wir in der Wissenschaft, aber vor allem Unternehmen wie Google haben natürlich noch viel mehr Möglichkeiten. Die Kombination aus Open Data und Rechenleistung ermöglicht es uns, mit Algorithmen immer mehr von den vielfältigen Informationen in großen Datensätzen zu verstehen.

Mit meiner Forschungsgruppe entwickle ich Clustering-Algorithmen, die die Datenflut automatisch in sinnvolle und verständliche Gruppen einteilen. Schon kleine Kinder beherrschen das perfekt. Wenn wir ihnen zum Beispiel verschiedene Gegenstände zeigen, können sie diese schon sehr früh sortieren, selbst wenn sie die Wörter dafür noch nicht kennen. Für Algorithmen ist das automatische Erkennen von Clustern eine Herausforderung. Für erste Tests verwenden wir synthetische Daten. Wir erzeugen einen Datensatz, der genau solche Muster enthält, die unser Algorithmus finden kann. Ist dieser erste Test geglückt, brauchen wir reale Daten, um zu sehen, ob unsere Idee auch in der Praxis funktionieren kann.

In Kooperation mit Medizinern und Neurowissenschaftern evaluieren wir Algorithmen auf Daten aus medizinischen Studien und Online-Datenbanken wie "ADNI" (Alzheimers Disease Neuroimaging Initiative) oder "INDI" (International Neuroimaging Data Sharing Initiative). Wir haben hierfür beispielsweise eine Clustering-Technik entwickelt, die Personen aufgrund des Zusammenspiels ihrer Gehirnregionen in Gruppen einteilt. Die Ergebnisse helfen dabei, komplexe psychosomatische und neurodegenerative Krankheitsbilder besser zu verstehen, und gehen in die Entwicklung neuer Behandlungsansätze ein.

Bessere Algorithmen brauchen bessere Köche

Jede Art von künstlicher Intelligenz basiert auf Algorithmen. So kompliziert sie auch sein mögen, Algorithmen sind prinzipiell vom Menschen verfasste Kochrezepte. Wir entscheiden, was sie tun und wozu wir sie einsetzen. Wir brauchen politische, rechtliche und finanzielle Rahmenbedingungen, damit diese Techniken auch in Zukunft dem Wohl des Menschen dienen.

Die Schule sollte eine Informatikgrundausbildung bieten, damit jeder Chancen und Risiken einschätzen und mit seinen Daten verantwortungsbewusst umgehen kann. Wir brauchen genug Geld für unabhängige Forschung im Bereich Data-Mining, Machine-Learning und verwandten Disziplinen, wenn wir das Feld nicht finanzkräftigen Firmen und militärischer Forschung überlassen wollen. Wir brauchen mehr gut ausgebildete Data-Scientists, das sind Informatiker mit fundierten Kenntnissen in mindestens einem Anwendungsgebiet wie Biomedizin oder Betriebswirtschaft. Sie können gemeinsam mit anderen Wissenschaftsdisziplinen, Juristen und Politikern die technologische Entwicklung ethisch vorantreiben.

Sie sind die Summe Ihrer Daten

Warum hat Anna, die fiktive Person aus dem Beispiel zu Beginn, keine Jobangebote gekommen? Eine zukünftige Personensuchmaschine hat die unterschiedlichen Facetten ihrer digitalen Identität zusammengeführt, sodass Gesundheitsinformationen und alle weiteren privaten Details für potenzielle Arbeitgeber sichtbar sind. Ist das wirklich Zukunftsmusik, oder gibt es schon heute den gläsernen Menschen?

Es gibt tatsächlich bereits Algorithmen zur Gesichtsrekonstruktion aus medizinischen Bildern. Daher kann das MRT-Bild prinzipiell mit dem Profilfoto in Linkedin abgeglichen werden. Textmining-Algorithmen erkennen aus Wortwahl, Satzbau und anderen Eigenheiten, dass die Beiträge aus dem Selbsthilfeforum und den beruflichen Netzwerken von derselben Person stammen. Diese Techniken sind noch nicht ausgereift, aber das ist nur eine Frage der Zeit. (Claudia Plant, 9.1.2017)

Posten Sie Ihre Fragen ins Forum

Haben Sie Fragen zum Thema Big Data, oder haben Sie bereits heute Bedenken wegen Datenmissbrauch durch die Verbindung unterschiedlicher Daten über Sie, zum Beispiel in sozialen Netzwerken? Posten Sie ins Forum, Claudia Plant wird in einem Folgeartikel Ihre Postings aufgreifen!