Foto: dpa/Arno Burgi

Wie man Überwachungsvideos in Echtzeit manipuliert

25. Jänner 2019, 11:10

Bankräuber, Terroristen, Taschendiebe: Veränderte Videostreams könnten von verschiedensten Kriminellen genutzt werden

Die Situation erinnert eher an Science-Fiction als an handfeste Forschung: Ein Mann, der ein Päckchen in der Hand trägt, geht an einer Überwachungskamera vorbei. Doch auf dem Film, den die Kamera von ihm aufnimmt, ist nur ein freischwebendes Päckchen, jedoch kein Mann zu sehen.

Der Mann, der hier visuell zum Verschwinden gebracht wird, ist Eckehard Hermann. Er ist Professor für sichere Softwaresysteme am Department Sichere Informationssysteme der Fachhochschule Oberösterreich in Hagenberg. Gemeinsam mit Kollegen untersucht er, welche Möglichkeiten der Manipulation von Livevideostreams realisierbar sind. Kürzlich ist es dem Team gelungen, Personen in Videos in Echtzeit herauszurechnen. Obwohl real vorhanden, sind sie auf dem Bild nicht zu sehen. Damit skizzieren die IT-Experten ein potenzielles Angriffsszenario. Mit dieser Technologie ausgerüstet, wäre es beispielsweise möglich, unbemerkt ein Sprengstoffpaket an öffentlichen Plätzen zu deponieren. Auf Überwachungsvideos würde man die Täter nicht sehen. Lediglich das Paket wäre erkennbar, sobald der Täter es abgelegt hat.

Teures Hightech-Equipment ist dafür nicht nötig. Der Computer, auf dem Hermann die Resultate seiner Forschung vorführt, ist ein gewöhnlicher PC mit einem Pentium-i9-Prozessor und zwei Titan-V-Grafikkarten. Gesamtpreis des Rechners: unter 10.000 Euro. Die verwendete Kamera ist ein handelsübliches Consumerprodukt, wie es in Onlineshops erhältlich ist. "Das ist ein realistisches Angriffsszenario", sagt Hermann.

Massive Sicherheitslücken

"Viele günstige Überwachungskameras haben massive Sicherheitslücken. Sie geben etwa keinen verschlüsselten Videostream aus." Ein Angreifer könnte sich also zwischen Kamera und Ausgabemonitor hacken und als "man in the middle" den Stream in der beschriebenen Art manipulieren. Sicherheitspersonal vor dem Monitor würde den Unterschied nicht bemerken.

Um Personen aus Videos zu löschen, muss man sie erst einmal automatisiert erkennen können. Dafür nutzen Hermann und seine Kollegen das neuronale Netz Yolo ("You only look once"). Lernen lassen sie es auf dem Standarddatensatz Coco ("Common objects in context") von Microsoft. Er enthält mehr als 300.000 vorklassifizierte Einzelbilder von 80 verschiedenen Objekttypen. Darunter Alltagsgegenstände wie Stühle, Tische oder Telefone. Aber eben auch Personen. Der Lernprozess dauert mit der verwendeten Hardware rund zwölf Stunden. Dann ist das neuronale Netz bereit, aus beliebigen Videos die 80 Arten von Objekten zu identifizieren.

Plausibler Hintergrund

Erkannte Objekte aus dem Videostream herauszuschneiden ist jedoch nur die halbe Miete. Damit an der betreffenden Stelle kein verräterisches Loch zurückbleibt, setzen die Forscher dort einen plausiblen Hintergrund. Konkret ist das ein neuberechnetes Bild auf Grundlage des statischen Hintergrunds, wie er während der zurückliegenden 20 Sekunden vor dem Herausschneiden der Person ausgesehen hat. Das passiert in Echtzeit und für jedes Einzelbild des Streams – 25 Bilder pro Sekunde.

Seit rund eineinhalb Jahren beschäftigen sich Hermann und sein Team mit Videomanipulation auf Basis neuronaler Netze. "Wir betreiben keine Produktentwicklung", sagt Hermann. "Wir wollen einfach herausfinden, was alles möglich ist. Uns interessiert aber auch, warum etwas nicht funktioniert." Die Güte der Objekterkennung ergibt sich aus der Rate korrekt klassifizierter Objekte. Diese hängt einerseits von der Qualität des Datensatzes ab, auf dem das neuronale Netz lernt. Andererseits auch vom Bildmaterial, auf dem später die Erkennung stattfindet.

Kaffeetasse oder Blumentopf?

Die derzeit verwendete Kamera liefert lediglich zweidimensionale Bilder, Tiefeninformation fehlt also. Das macht sich mitunter in Fehlerkennungen bemerkbar. Beispielsweise verwechselt das System zuweilen Kaffeetassen und Blumentöpfe, weil beide eine ähnliche geometrische Kontur haben. Ein anderer typischer Fehler: Der Schatten eines offenen Hemdkragens wird fälschlich als Krawatte eingestuft. Die Verwendung einer 3D-Kamera würde hier helfen, die Performance zu verbessern.

Künftig soll das System in der Lage sein, Personen in Bewegung zu "tracken", also über eine gewisse Zeit hinweg als ein und dieselbe Person zu markieren. Auch an der automatisierten Erkennung gefährlicher Gegenstände arbeiten die Oberösterreicher. Dafür haben sie die umstrittene Kunststoffpistole Liberator, deren Bauplan frei verfügbar ist, im 3D-Drucker produziert. Allerdings in verkleinerter Form und ohne bewegliche Teile – nicht schussfähig, wie Hermann betont. Den Datensatz zum Einlernen des neuronalen Netzes, rund 2000 Bilder des Liberator in unterschiedlichen Situationen und aus verschiedenen Winkeln, haben die Hagenberger selbst erstellt. Die Erkennung der Waffe läuft bereits recht zuverlässig. Ob und in welchem Ausmaß das Forschungsgebiet am Department ausgebaut wird, kann er noch nicht sagen. In die Lehre fließt es bereits ein – aktuell beschäftigen sich zwei Masterarbeiten damit. (Raimund Lang, 25.1.2019)