Künstliche Intelligenz – Fehler machen ist menschlich

Eine Straße, ein See, ein Baum, bewölkter Himmel. Man wird irgendwo auf der Welt ausgesetzt und muss sich erst mal orientieren. So lässt sich dieses ungewisse Gefühl beschreiben, das Gamer von Geoguessr überkommt. In diesem Browser-Spiel landet man an einem zufälligen Ort in der Welt von Googles Straßenpanoramen. Das auserkorene Ziel ist es, möglichst genau zu erkennen, wo man sich befindet.

Man schaut dann auf den Sonnenstand, die Sprache von Straßenschildern oder versucht zu erkennen, auf welcher Straßenseite die Autos fahren. Menschen machen das intuitiv. Ihnen helfen die Erinnerungen an Reisen, Bücher, Fremdsprachenkenntnisse und ein bisschen Lebenserfahrung. Computer tun sich damit hingegen wesentlich schwerer. Zumindest bis jetzt. Denn der Informatiker aus der Talentschmiede Google, Tobias Weyand entwickelte mit zwei Kollegen ein Programm, das anhand eines einzelnen Fotos ziemlich genau erkennt, wo dieses aufgenommen wurde.

Das Forscherteam nennt ihr System PlaNet. Bei ihrer Arbeit haben sie zunächst das Internet nach Fotos durchforstet. Wichtigste Voraussetzung: Die Bilddateien mussten sogenannte Exif-Daten enthalten, die den Ort der Aufnahme verraten. Der Informatiker und seine Kollegen bekamen insgesamt 126 Millionen solcher Fotos zusammen.

Architektur1

Zeig mir dein Foto und ich sag dir wo du bist

Dann teilten sie unseren Globus in 26.000 Vierecke auf. Jedoch nicht gleichmäßig, sondern mit dem Fokus auf die am dichtesten besiedelten Region : Dort wo viele Fotos aufgenommen werden, wählten sie ein feines Raster, etwa in Städten. Dort, wo kaum fotografiert wird, etwa in den Wüsten Afrikas, nutzten sie eine grobe Aufteilung. Große Teile der Ozeane oder die Antarktis sparten sie komplett aus.

Jetzt brachten sie einem künstlichen neuronalen Netz bei, die Fotos den einzelnen Vierecken auf der Welt zuzuordnen. Als neuronale Netze bezeichnet man in der Informatik Systeme, die nach dem Vorbild eines menschlichen Gehirns lernen. Ihr Netz fütterten die Forscher mit einem Großteil der Bilder, deren Aufnahmeort bekannt war. Das System lernte, die Bilder den einzelnen Vierecken auf der Weltkarte zuzuordnen.

Die Ergebnisse können sich sehen lassen: Die Informatiker testeten ihr Programm mit über zwei Millionen zufälligen ausgewählten Fotos: Knapp 30 Prozent der Bilder konnte es dem richtigen Land zuordnen, bei knapp vier Prozent war es so genau, dass es die richtige Straße fand. Die spannendste Prüfung für PlaNet war aber das Duell mit dem Menschen. Die Forscher ließen es bei Geoguessr gegen zehn menschliche Gegner antreten. Bei diesem Test gewann die Maschine 28 von 50 Runden. „Wir glauben, dass PlaNet dem Menschen überlegen ist, weil es viel mehr Orte gesehen hat, als es die meisten Menschen jemals könnten“, schreiben Weyand und seine Kollegen. Außerdem habe das System subtile Hinweise gelernt, die einem Menschen kaum auffallen würden.

Ein sehr menschlicher Blick auf die Welt

In der Tat ist es erstaunlich, was das System alles erkennt. Die Forscher haben eine Reihe von Bildern beschrieben, die es korrekt zugeordnet hat. Darunter befinden sich Fotos der New Yorker Freiheitsstatue und der Oper von Sydney. Keine besonders schweren Aufgaben. Ebenfalls korrekt erkannt hat PlaNet eine der typischen roten Telefonzellen in London und eine Altbaufassade in Paris. Aber auch Pferde und verlassene Landschaften in Island und sogar eine Graslandschaft in den schottischen Highlands konnte die Software richtig lokalisieren. „Das Modell lernt, typische Landschaften, Objekte, Architekturstile und sogar Flora und Fauna zuzuordnen“, fassen die Forscher zusammen.

Spannend ist aber auch, woran es scheitert. Da ist zum Beispiel das Bild eines 1948-er Chevrolet Fleetmaster. Der amerikanische Oldtimer wurde in den USA fotografiert. PlaNet berechnete jedoch fälschlicherweise, dass das Foto auf Kuba aufgenommen worden sei. Und tatsächlich denkt man auch als Mensch bei ersten Blick auf das Bild an die typisch kubanischen Straßenszenen mit alten amerikanischen Autos und Salsa tanzenden Mengen in der Dämmerung.

Fehlinterpretationen passierten bei PlaNet dann, wenn bestimmte Objekte typisch für Orte sind, an denen sie nicht fotografiert worden seien, schreiben die Forscher. Der Fehler zeigt aber noch etwas anderes: PlaNet lernte mit Fotos, die Menschen aufgenommen haben. Menschen fotografieren gern Klischees, wie die Oldtimer auf Kuba. Sie bestätigen somit ihr eigenes Bild von der Region. Darum hat das System wohl keinen neutralen, sondern sehr menschlichen Blick auf die Welt. Und macht so ganz menschliche Fehler.

Neuronale Netzwerke: Historischer Rückblick

neuronale Netze

Neuronen/ Tabelle

Neuronales Netz: Knoten und gewichtete Verbindungen

Die Idee, dass man die Morphologie des menschlichen Nervensystems nachbilden könnte, um Maschinen so etwas wie denken, interpretieren, lernen oder Wahrnehmung beizubringen, stammt schon aus den Vierzigerjahren des vergangenen Jahrhunderts. Lange Zeit aber blieben die sogenannten neuronalen Netzwerkmodelle eher rudimentär, ein Gebiet für Spezialisten mit besonderer Liebe zur Abstraktion, so dass man es als Randtechnologie vernachlässigte und keine allzu großen Beachtung beimessen wollte. Dann, in der ersten Hälfte der Achtzigerjahre, änderte sich das vor allem dank einer einzigen Studie. Die Psychologen David Rumelhart und James McClelland zeigten, dass so ein extrem rudimentäres Pseudogehirn lernen kann, die Vergangenheitsformen englischer Verben korrekt zu bilden – und im Laufe des Lernprozesses vorübergehend die gleichen Fehler macht wie ein menschliches Kind beim gleichen Vorgang. Statt „went“ warf das Netz als Antwort vorübergehend „goed“ aus – es wendete also die Regel korrekt an, aber eben bei einem unregelmäßigen Verb. Diese Studie ließ die Forscher aufhorchen. Das Netzwerk lernte also Regeln und anschließend darauf aufbauend auch die Ausnahmen von diesen Regeln – ohne dass eine einzige Regel hierfür jemals explizit formuliert worden wäre. Die Studie löste in den Kognitionswissenschaften einen kleinen Trend aus, plötzlich wurden neuronale Netzwerkmodelle auf alle möglichen Fragestellungen angewandt und der Begriff „Konnektionismus“ für die neue Wissenschaft kam auf. Dann kam das Internet, die digitale Revolution nahm ihren unaufhaltsamen Lauf, und plötzlich gab es derartige Rechenleistung und entsprechende Computer en masse. Heute sind neuronale Netzwerke nicht mehr nur Modelle für Psychologen – sie sind zu mächtigen Werkzeugen in den Händen jener geworden, die Computern das Sehen, Denken, Deuten beibringen können und den Anspruch haben dies so präzise wie nur irgend möglich zu tun. Das dem zugrunde liegende Prinzip, nach dem solche neuronalen Netzwerke funktionieren, ist immer das Gleiche. Sie bestehen aus zwei oder mehr Schichten von Knoten, simulierten Nervenzellen. Verbunden werden diese Schichten mit vielen Verknüpfungen. In der Regel ist jeder Knoten der einen Schicht mit allen Knoten der nächsten verbunden. Die Input-Knoten stehen für elementare Merkmale, sie könnten beispielsweise die Pixel eines vorgegebenen Bildes repräsentieren. Demnach: Wird ein Input-Knoten aktiviert, reichte er diese Signale über seine Verbindungen an die Knoten der nächsten Schicht weiter. Die Verbindungen wurden gewichtet – man kann sie sich als unterschiedlich dick vorstellen. Je dicker die Verbindung, desto stärker die Aktivierung, die am nächsten Knoten ankommt. Seine Lehren zieht so ein Netzwerk gewissermaßen rückwärts: Wenn die Output-Schicht nicht das gewünschte Ergebnis produziert, werden die Gewichtungen der Verbindungen mithilfe eines mathematischen Mechanismus Schicht für Schicht so angepasst, dass das Ergebnis beim nächsten Mal besser zum tatsächlichen Input passt. Mit vielen einzelnen Korrekturdurchgängen können die Netze also lernen, die vorher ausgegeben Inputs korrekt mit Outputs zu verknüpfen.