Startseite GT
Volltextsuche über das Angebot:

Das Ende der Schlagwörter

Künstliche Intelligenz für die Fotosammlung Das Ende der Schlagwörter

Zu Tausenden wandern Selfies, Familienbilder und Urlaubsschnappschüsse auf die heimische Festplatte. Entsprechend mühsam kann es sein, ein bestimmtes Motiv wiederzufinden. Künstliche Intelligenz erleichtert die Suche – auch ohne Stichwortkatalog.

Voriger Artikel
Dschungel in den Wolken
Nächster Artikel
Holz in der Hütte

Künstliche Intelligenz für die heimische Fotobibliothek: Neue Plug-ins sollen mit neuronalen Netzen bei der Bildersuche helfen – ohne, dass die Fotos auf den Servern der großen Internetkonzerne landen müssen.

Quelle: Getty

Mitunter wünscht man sie sich zurück, jene Zeit, in der Fotografen die Welt auf einen 35-Millimeter-Film bannten. 36 Aufnahmen, mehr Bilder passten zumeist nicht auf den Streifen. Was dazu führte, dass jede Aufnahme sorgsam komponiert wurde, ehe der Druck auf den Auslöser erfolgte. Das Digitalzeitalter hat indes eine gewaltige Bilderflut befördert: Heutige Speichermedien sind günstig, beinahe beliebig oft überschreibbar und fassen Hunderte, mitunter Tausende Schnappschüsse – mit der Folge, dass die Festplatte alsbald vor Fotos überquillt.

Wer ein bestimmtes Motiv sucht, läuft Gefahr, die sprichwörtliche Nadel im Heuhaufen nicht mehr wiederzufinden. Gut also, seine Fotos gewissenhaft zu verschlagworten. Schlagwörter sind der beste Weg, Ordnung in große Bildbestände zu bringen, doch das Anlegen einer sinnvollen Schlagworthierarchie ist zeitraubend. Das Plug-in Excire Search für das weitverbreitete Bildverwaltungs- und -bearbeitungsprogramm Adobe Lightroom will Abhilfe schaffen – und das gezielte Auffinden von Bildern auch ohne die mühsame Stichwortpflege ermöglichen.

Die Technologie ist schon im Einsatz

Schlicht gesagt soll dies gelingen, indem Excire die manuelle Verschlagwortung durch künstliche Intelligenz (KI) ersetzt. Ganz neu ist dieser Ansatz nicht, vergleichbare Technologien kommen bereits zum Einsatz – etwa in Gestalt der automatischen Gesichtserkennung, die Apple mit iOS 10 eingeführt hat. Auch soziale Netzwerke wie Facebook oder die Fotoplattform Flickr lassen über die hochgeladenen Bilder Algorithmen laufen, die Personen, aber auch andere Bildinhalte identifizieren und teilweise sogar selbstständig verschlagworten können.

Ebendiese Fähigkeiten bietet auch das Excire-Plug-in – gepaart mit dem Vorteil, dass die Fotodateien für die Motivanalyse nicht auf die Server eines Großkonzerns hochgeladen werden müssen. "Die Erfassung und Kennzeichnung der Fotos erfolgt lokal und offline, also nur auf den Rechnern der Nutzer", sagt Thomas Käster, technischer Leiter des Projekts.

Deep Learning im Schichtenmodell

Dazu durchforstet die auf dem heimischen Rechner installierte Software den Lightroom-Katalog und identifiziert prägende Inhalte der Fotomotive mittels Mustererkennung. Diese basiert auf dem sogenannten Deep Learning, hinter dem künstliche neuronale Netze stecken – fachsprachlich: Deep Convolutional Neural Networks (DCNN). Sie werden mit Unmengen an Trainingsdaten gefüttert und lernen so nach und nach immer mehr Bildmerkmale – das Plug-in Excire anhand von mehreren Hunderttausend Bildern aus rund 200 Kategorien.

Indem das DCNN mit unterschiedlichsten Erscheinungsformen derselben Objekte gefüttert wird, erlernt es nach und nach das ihnen zugrunde liegende Konzept. So "versteht" das System irgendwann, dass Tausende Motive, die ihm gezeigt wurden, alle auf demselben Konzept, etwa "Haus", basieren. Je mehr Häuser sich das DCNN einprägt, desto feiner differenziert sich das Konzept aus – was wiederum zu immer höheren Erkennungsraten führt.

Ein DCNN ist in Schichten aufgebaut, was die "Tiefe" im Konzept des Deep Learning erklärt. Vereinfacht gesagt steigt mit der Anzahl der Schichten die Fähigkeit des neuronalen Netzes, immer feinere Merkmale zu unterscheiden. Werden beispielsweise in der ersten Schicht Hell-Dunkel-Kontraste – und damit Kanten – wahrgenommen, identifiziert die zweite Ebene einfache und die dritte komplexere Formen. In noch tieferen Schichten – Microsoft betreibt angeblich ein DCNN mit 150 solcher Rechenebenen – identifiziert die Merkmalserkennung komplexe Bildgegenstände wie etwa die Gesichter bestimmter Personen.

Automatische Bilderkennung: Die Software Excire durchforstet riesige Bildbestände und findet Motive aus mehr als 200 Kategorien.

Automatische Bilderkennung: Die Software Excire durchforstet riesige Bildbestände und findet Motive aus mehr als 200 Kategorien – selbst wenn diese nicht mit Suchwörtern versehen wurden.

Quelle: PRC

Hinter dem Excire-Plug-in steht die in Lübeck ansässige Pattern Recognition Company (PRC). Seit mehr als zehn Jahren forscht das Unternehmen, eine Ausgründung der Universität Lübeck, auf dem Gebiet der Mustererkennung und entwickelte bislang vor allem Lösungen für die industrielle Nutzung. Mit dem Excire-Plug-in dringt auf KI basierende Bilderkennung in Form eines Programms, das mehr zu sein verspricht als eine reine Spielerei, auf den Consumer-Markt vor.

Nach mehr als 200 Kategorien kann die Software Bildbestände inzwischen relativ präzise filtern, zudem bietet ein zweites Plug-in die Möglichkeit, die Fotosammlung auf Grundlage eines vom Nutzer ausgewählten Bildes nach optisch und atmosphärisch ähnlichen Motiven zu durchforsten. Doch das ist laut Projektleiter Käster, nur ein erster Schritt hin zu noch differenzierteren Suchalgorithmen. "In naher Zukunft kann ich mir Plug-ins vorstellen, die auf Spezialdisziplinen der Fotografie trainiert sind und noch weitaus zuverlässigere Ergebnisse liefern."

So könnte etwa ein eigens für Porträtfotografen entwickeltes Programm absehbar Haarfarbe und -typ, Hauttyp und noch weitere visuelle Personenmerkmale unterscheiden können. "Auch ein Plug-in, das eine Bildersammlung nach künstlerischen Kriterien wie Tiefenschärfe, Belichtung und Komposition durchsucht und die gelungensten herausfiltert, ist denkbar", meint Käster.

Entwicklung steht erst am Anfang

Für Damian Borth, Leiter des Deep Learning Competence Center am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI), markieren Produkte wie das Excire-Plug-in erst den Anfang einer Entwicklung, die in naher Zukunft auch die Pflege gewerblicher Bildarchive – etwa in Verlagen, Agenturen und Behörden – weitgehend automatisieren könnte. Um professionellen Ansprüchen zu genügen, seien die Trefferraten aber noch zu niedrig.

Unter Laborbedingungen, mit akademischen Trainingsdatensätzen, arbeiteten Bilderkennungssysteme bereits mit mehr als neunzigprozentiger Zuverlässigkeit. "Ein marktfähiges System muss hingegen mit den Fotos klarkommen, die die Anwender bereitstellen – eben auch mit solchen, bei denen das Objekt aus ungewöhnlicher Perspektive fotografiert wurde, sehr klein ist oder sich nur schwach vom Hintergrund abhebt. Solche Faktoren können die Zuverlässigkeit signifikant beeinflussen", sagt Borth.

Automatisierung ist nur eine Frage der Zeit

Aus menschlicher Sicht scheint das Erkennen und Benennen von Objekten ein trivialer Vorgang. Umso erstaunlicher ist es, dass sich KI bei etwas vermeintlich Einfachem wie dem Identifizieren eines Baumes, einer Tasse oder einer Katze noch immer schwertut. Schließlich lassen KI-Systeme Schachgroßmeister erzittern und beherrschen das mindestens so komplexe chinesische Brettspiel Go inzwischen besser als die meisten Menschen.

Damian Borth ist davon überzeugt, dass es lediglich eine Frage der Zeit ist, bis KI auch hier mit dem Menschen gleichzieht: "Es gibt spezielle Bereiche, in denen Maschinen Bildinhalte schon heute besser erkennen können als wir – etwa so klar umrissene Objekte wie Verkehrszeichen. Wir sind auf einem guten Weg, um das absehbar auch mit weitaus komplexeren Objekten hinzubekommen", ist Borth überzeugt.

Noch ist die sich selbst verwaltende Bilddatenbank ein Traum. Lösungen wie das Excire-Plug-in schaffen es immerhin, aus riesigen Fotobeständen zumindest eine überschaubare  Auswahl geeigneter Bilder herauszufiltern. Wer indes ein ganz bestimmtes Motiv sucht, wird auch absehbar nicht um die lästige Verschlagwortung herumkommen. Oder er drückt, wie einst in Analogzeiten, einfach seltener auf den Auslöser. Denn: Je kleiner der Heuhaufen, desto leichter findet sich die Nadel.

Voriger Artikel
Nächster Artikel
Mehr aus Technik & Apps