Leanpub: Publish Early, Publish Often

Architektur der Wahrnehmung

In den vorhergehenden Abschnitten haben wir die Nutzungsschnittstelle des Computers als Teil der Umwelt des Menschen beschrieben, gewissermaßen als physischen, von uns zu gestaltenden Handlungs- und Wahrnehmungsraum. In diesem dritten und letzten Grundlagen-Kapitel wenden wir uns nun der menschlichen Wahrnehmung zu, denn um mit der Nutzungsschnittstelle Differenzerfahrungen zu ermöglichen und Hindernisse zu vermeiden, müssen wir etwas über die Architektur menschlicher Wahrnehmung und ihrer spezifischen Merkmale wissen.

Das menschliche Wahrnehmungssystem ist Gegenstand umfangreicher Forschung in Biologie, Medizin und Psychologie. Mit unserer Ingenieurperspektive können und wollen wir nicht den Forschungsstand all dieser Disziplinen in seiner Breite darstellen. Das wäre nicht zielführend. Zum einen gibt es bis heute keine abgeschlossene und allgemein akzeptierte Theorie der Wahrnehmung, die sämtliche Wahrnehmungsphänomene gleichermaßen erfasst und erklärt. Vielmehr müssen wir gestaltungsrelevante Einsichten, Erkenntnisse und Modellvorstellungen dieser Disziplinen auswählen und zu einem Wissenshintergrund verdichten, der im Kontext der Gestaltung effektiv und konstruktiv ist. Unsere Darstellung ist also sehr schlaglichtartig.

Schon im Kapitel Differenzerfahrung haben wir uns in Bezug auf die Wahrnehmung auf den Sehsinn konzentriert. Diese Orientierung behalten wir bei, denn abseits spezieller Techniken wie virtueller und erweiterter Umgebungen (AR/VR), begreifbarer Interaktion (tangible interaction) oder auch der Eingabe über Gesten und natürliche Sprache, die alle ihre je eigenen Forschungsbereiche eröffnen, begrenzt das Zusammenspiel von Display, Tastatur und Zeigegeräten bzw. Touch-Eingaben für das Gros der IT-Anwendungen nach wie vor den Gestaltungsraum. Dementsprechend ist der Sehsinn für uns der bei Weitem wichtigste Wahrnehmungskanal.

Ein evolutionärer Kompromiss

Naiv betrachtet könnte man meinen, der Mensch besitze vorne am Kopf zwei kleine Kameras, die ihre Bilder an das Gehirn schicken und damit die Außenwelt abbilden. Gemäß dieser Vorstellung betrachtet unser Gehirn über die Augen unsere Außenwelt wie durch ein Fenster. Das Problem: So funktioniert es nicht!

Untersuchungen zur Gestalterkennung von Wolfgang Köhler von 1929 – Quelle: Wolfgang Köhler, Gestalt Psychology, 1959, S. 115 und S. 110

Obige kleine Exkursion in das Forschungsfeld der Gestaltwahrnehmung verdeutlicht, dass die Wahrnehmung einer Gestalt offenbar von mehr als der physischen Beschaffenheit der Form selbst abhängt. Beide Darstellungen entstammen dem Buch „Gestalt Psychology“ von Wolfgang Köhler aus dem Jahr 1929²⁰. Sowohl die linke als auch die rechte Strichzeichnung enthalten die Ziffer „4“. Wahrscheinlich haben Sie wenig Probleme damit, diese Vier auf der linken Seite zu erkennen. Rechts hingegen ist es nicht einfach, die Vier zu erkennen, obwohl sie auch hier physisch vorhanden ist.

Die Linienzüge, die die Vier bilden, erscheinen auf der rechten Seite nicht als Teil der gleichen Figur, sondern als Teile zweier getrennter Figuren, was das Erkennen der Vier nahezu unmöglich macht. Diese Beobachtung passt nicht zur naiven Vorstellung vom Sehen als einer passiven Informationsaufnahme, denn dann müsste ja alles, was über das Auge erschlossen wird, auch der Wahrnehmung zugänglich sein. Doch die Vier entzieht sich in diesem Beispiel unserem Blick. Im komplexen System der Wahrnehmung, das aus weit mehr als nur dem Auge selbst besteht, findet offenbar eine Art Interpretation und Vorauswahl statt und diese Interpretation in unserer Wahrnehmung scheint teilweise unabhängig von unserem bewussten Denken zu sein, denn wenn Sie sich nun noch einmal die Abbildungen ohne die markierte Vier angucken, dann gelingt es Ihnen zwar nachzuvollziehen, wo sie versteckt ist, aber sie tritt trotzdem nicht als eigenes Objekt hervor.

Die Gestaltpsychologen haben versucht, durch die Beschreibung von Merkmalen und Eigenschaften des (visuellen) Stimulus in Form von Regeln, den sogenannten „Gestaltgesetzen“, vorherzusagen, welche bedeutungsvollen Formen eine Person in einer bestimmten Situation wahrnehmen wird. Trotz mancher Teilerfolge ist es ihnen bis heute nicht gelungen, eine allgemein akzeptierte und vollständige Menge von Gestaltgesetzen aufzustellen. Auch die dahinterstehenden theoretischen Vorstellungen sind nicht unproblematisch. Wir folgen daher einem Ansatz, der stärker vom Prozess der Wahrnehmung und wie er sich evolutionär entwickelt hat ausgeht, also einem eher biologischen bzw. neurologischen Ansatz. Dabei interessiert uns besonders das Zusammenspiel zwischen Wahrnehmungssystem und Umwelt.

Dazu ein Gedankenexperiment: Ohne Anspruch auf anthropologische Genauigkeit stellen wir uns eine Anzahl von Menschen vor, die in der Savanne leben, sich dort von Pflanzen und von der Jagd ernähren und zugleich in der Gefahr leben, von Raubtieren aufgespürt und überfallen zu werden. Sagen wir der Einfachheit halber, dass Pflanzen-Essen, Jagen und Flüchten die einzigen drei Dinge sind, die unsere Menschengruppe tut. Wie müsste der Sehsinn dieser Personen beschaffen sein, um Pflanzen zu finden, zu jagen und bei drohender Gefahr durch ein Raubtier rechtzeitig die Flucht ergreifen zu können?

Vollständigkeit: Unsere Menschen müssen die Beschaffenheit ihrer Umwelt sehr genau wahrnehmen, um sich orientieren zu können und vor allem auch, um in der Landschaft die essbaren Pflanzen und die zu jagenden Tiere zu finden. Idealerweise ist die Wahrnehmung also so angelegt, dass möglichst viel wahrgenommen wird, damit unser Mensch im wahrsten Sinne des Wortes „voll im Bilde“ ist.

Schnelligkeit: Wollen unsere Menschen erfolgreich Tiere jagen, müssen sie sie in der Landschaft erkennen und schnell wahrnehmen können, wohin sie sich bewegen. Ebenso müssen sie Gefahren möglichst schnell erkennen können, um zum Beispiel nicht selbst Opfer eines Raubtiers zu werden. Nur dann können sie rechtzeitig entscheiden, welche Abwehrmaßnahmen sie einleiten können oder ob sie besser die Flucht ergreifen sollten.

Die beiden Anforderungen an das Wahrnehmungssystem sind gleichermaßen berechtigt, stehen aber im Konflikt zueinander: Jede der beiden Anforderungen kann jeweils nur auf Kosten der jeweils anderen erfüllt werden. Unser Wahrnehmungssystem verkörpert eine durch die Evolution entstandene Austarierung solcher Konflikte. Zustande gekommen ist diese Austarierung durch natürliche Selektion. Wahrnehmungsprozesse, die sowohl hinreichend vollständig als auch zugleich schnell genug sind, waren evolutionär vorteilhafter und setzten sich dadurch zunehmend durch. Über viele Generationen entwickelte sich auf diese Art und Weise eine Architektur der Wahrnehmung, die gut an die Gegebenheiten der Umwelt angepasst war. Die biologische Architektur der Wahrnehmung, die sich im Laufe der Evolution herausgebildet hat, ist also kein fauler Kompromiss, sondern eine sehr geschickte „Lösung“ des Problems²¹. Schnelligkeit wird dadurch erreicht, dass schon im Auge die Menge der aufgenommenen Reize stark reduziert wird. Sowohl auf der sensorischen Ebene als auch durch vorbewusste Verarbeitungsprozesse auf dem Weg der Stimuli zum Sehzentrum und den anderen Bereichen im Gehirn wird somit die Erhöhung der Verarbeitungsgeschwindigkeit mit einem Verlust an sensorischen Informationen erkauft. Vollständigkeit entsteht erst wieder durch den konstruktiven Teil des Wahrnehmungssystems. Hier wird aus den beschränkten sensorischen Informationen ein umfangreiches Bild der Umwelt zusammengesetzt.

Lassen Sie uns erneut ein Gedankenspiel wagen, in dem wir uns selbst in die Rolle unseres Wahrnehmungssystems begeben. Wir sitzen in einem kleinen, dunklen Raum und können die Außenwelt nur wahrnehmen, indem wir durch ein kleines Loch nach draußen schauen. Durch das Loch sehen wir immer nur einen kleinen Teil der Außenwelt. Wenn wir andere Bereiche wahrnehmen wollen, können wir unsere Position vor dem Loch ändern, um eine andere Perspektive zu bekommen, oder den kompletten Raum rotieren lassen. Unsere Aufgabe ist es nun, aus der Folge einzelner ausschnitthafter Wahrnehmungen ein möglichst angemessenes Bild von der Außenwelt zu gewinnen. Beim Sehsinn verhält es sich ähnlich. Nur ein kleiner Teil dessen, was sich in unserer Umgebung befindet, kann direkt gesehen werden. Das Wahrnehmungssystem muss diese Einzelinformation zu einem größeren Bild zusammensetzen und dazu noch weitere Informationen ergänzen.

Dieses Beschaffen weiterer Informationen erfordert motorische Aktivitäten wie Augen-, Kopfbewegungen oder Bewegungen des ganzen Körpers. Diese Bewegungen sind sehr aufwändig und kosten entsprechend Zeit. Es wäre zwar möglich, die komplette Umgebung systematisch abzutasten, aber nicht effizient. Es gilt, mit möglichst wenig Aktivität zu einer möglichst guten Abschätzung zu kommen. Wie kann das erreicht werden?

Um nicht die komplette Umgebung mit den Augen erwandern zu müssen, können Hinweise innerhalb dessen, was gerade zu sehen ist, genutzt werden. Sieht man etwa eine Kante, kann man eine plausible Vermutung darüber anstellen, dass sich ein Objekt vor einem Hintergrund befindet. Damit haben wir eine gute Voraussage, wo als nächstes hingeschaut werden sollte, um die Szenerie zu erfassen.
Dieser Prozess hat viel mit Erfahrung zu tun. Aufgrund vorheriger Situationen etwa können wir eine gute Hypothese darüber aufstellen, wo in der Umgebung wichtige Informationen zu erwarten sind. Wir müssen weder systematisch das gesamte Wahrnehmungsfeld nach relevanten Informationen absuchen noch grundsätzlich vom Himmel oder den Füßen ausgehend die Umwelt erkunden, denn der jeweilige Handlungszusammenhang legt mit großer Wahrscheinlichkeit die Bereiche nahe, wo relevante Informationen zu erwarten sind. Oftmals befinden sich diese Bereiche eher im mittleren Gesichtsfeld.
In manchen Fällen können wir es uns komplett sparen, bestimmte Bereiche der Umgebung überhaupt anschauen zu müssen. Aufgrund unserer Erfahrung vertrauen wir darauf, dass wir die richtigen Schlüsse aus relativ wenigen Informationen ziehen können. Indem wir einen kleinen Wahrnehmungsausschnitt für das Ganze nehmen, ersparen wir uns erheblichen sensorischen und motorischen Aufwand. Der damit erzielte Geschwindigkeitsvorteil lässt sich noch verstärken, wenn zusätzlich entscheidende Features in den Stimuli gewissermaßen automatisiert bzw. routinehaft verarbeitet werden. Vermutungen dieser Art sind aber immer gefährlich, denn sie können sich als falsch erweisen. Insofern müssen automatisiert verarbeitete Features sehr robust sein, um in den meisten Wahrnehmungssituationen zu verlässlichen Ergebnissen zu führen. Soweit es gelingt solche Features zu erkennen, können wir sie auch recht verlässlich bei der Gestaltung von Systemen einsetzen.

Wenn wir bzw. unser Wahrnehmungssystem dieses „Raten“ oder besser gesagt die Hypothesenbildung gut bewerkstelligen, haben wir die Forderungen nach Vollständigkeit und Schnelligkeit der Wahrnehmung gut ausgewogen. Dass unsere Wahrnehmung der Umwelt angemessen ist, steht und fällt also mit den Hypothesen, die das Wahrnehmungssystem bildet und mithilfe derer es das sensorisch Wahrgenommene ergänzt und die nächsten Wahrnehmungserkundungen steuert. Dieses Bilden von Hypothesen funktioniert in der Regel recht gut. Andernfalls würden wir in unserem täglichen Agieren in der Welt ständig Wahrnehmungstäuschungen unterliegen oder Wesentliches nicht registrieren, sodass es laufend zu Unglücken käme. Das ist aber nicht so. Vielmehr lässt sich feststellen, dass die Situationen, in denen uns die Wahrnehmung täuscht oder der Wahrnehmung Relevantes entgeht, erst durch aufwändige Experimente hervorgebracht werden können. Das ist auch der Grund, warum z. B. viele optische Täuschungen nach ihren ‘Entdeckern’ benannt worden sind. Kämen sie laufend vor, wäre das nicht so.

Die Hypothesenbildung findet sich auf allen Stufen der Wahrnehmung wieder, von evolutionär ausgeprägten Erkennungsmustern bis hin zu erlernten Verhaltensschemata. Einige dieser Hypothesen könnte man gebündelt als Hypothese einer stabilen Umwelt bezeichnen. Ein Baum beispielsweise verschwindet nicht von einer Sekunde zur anderen. Auch ein Hügel in der Landschaft ist – abgesehen von Naturkatastrophen – stabil. Weder fällt die Sonne innerhalb einer Sekunde vom Himmel noch verschwindet ein Gebäude, nur weil man sich gerade umdreht und nicht hinschaut. Solche Hypothesen helfen im großen Stil Wahrnehmungsaufwand zu ersparen. Man muss sich einmal vorstellen, wie aufwändig wir ohne diese Stabilitätsannahme die Welt erschließen müssten. Wir müssten ständig umherschauen und uns fortwährend bewegen, um uns zu vergewissern, dass Objekte immer noch vorhanden sind und der Boden unter den Füßen immer noch stabil ist.

Viele Hypothesen hängen mit individuellen Lernprozessen zusammen, die im sozialen Umfeld jeweils angeeignet werden müssen. Der Straßenverkehr kann gut als Beispiel dienen. Hier haben Kinder oft Probleme, auf die relevanten Objekte und ihre Bewegungen zu achten. Ohne ein spezielles Training sehen sie alles Mögliche, das sie interessiert, aber nicht unbedingt das für ihre Sicherheit Wesentliche. Entscheidend sind nicht isolierte Einzelwahrnehmungen, sondern die kontinuierliche Einbettung, Bewertung und Anpassung. Auch der Weg von der Fahrschule bis zum erfahrenen Umgang im Straßenverkehr ist durch solche Lern- und Übungsprozesse geprägt. Es entsteht eine Art professioneller Tunnelblick, bei dem die relevanten Reize der Umgebung beachtet, aber Vieles am Straßenrand nicht registriert wird.

Andere Hypothesen des Wahrnehmungssystems beruhen nicht auf individueller Erfahrung, sondern sind als Resultat der Evolution quasi fest in das Wahrnehmungssystem eingebaut. Die Architektur unseres Wahrnehmungssystems sorgt zum Beispiel dafür, dass plötzliche Änderungen im sogenannten peripheren Sichtfeld die Aufmerksamkeit so stark leiten, dass die aktuelle Handlung zumindest kurz unterbrochen wird, um die Änderung zu prüfen. Eine plausible Erklärung dafür ist, dass Veränderungen im Rücken eines Menschen eine Gefahr signalisieren könnten, auf die man unmittelbar reagieren muss, um ihr begegnen zu können. Da das periphere Sichtfeld genau den Übergangsbereich zwischen dem vorderen sichtbaren Bereich und dem hinteren nicht sichtbaren Bereich abdeckt, fungiert es gewissermaßen als Frühwarnsystem. Die Wahrnehmungshypothese lautet entsprechend: Eine Bewegung am Rande des Wahrnehmungsfeldes signalisiert eine potenzielle Gefahr und erfordert daher die unmittelbare und sofortige Aufmerksamkeit.

Das menschliche Wahrnehmungssystem ist auf das Erkennen von typischen Situationen in einer physischen Umwelt ausgelegt. In diese Umwelt hinein konstruieren wir als Softwaregestalter interaktive Nutzungsschnittstellen. Insofern betrachten wir solche Nutzungsschnittstellen als Handlungs- und Wahrnehmungsraum, der mit demselben Wahrnehmungssystem sensorisch erschlossen und kognitiv durchdrungen bzw. (re-)konstruiert werden muss. Je besser wir die Mechanismen und Eigenschaften unseres Wahrnehmungssystems mit Hypothesen und den damit verbundenen Konflikten verlässlich beschreiben können, desto angemessener und robuster können wir diese Einsichten in Gestaltungsempfehlungen umsetzen. Von daher ist auch nicht verwunderlich, dass es darauf ankommt, konfligierende Forderungen zu erkennen und Überlegungen anzustellen, wie sie im Zusammenspiel mit weiteren Forderungen angemessen austariert werden können. Dafür bereiten wir nachfolgend die Grundlage auf. Es geht also zunächst noch nicht in erster Linie um konkrete Gestaltungsbeispiele, sondern darum die Wirkmechanismen offenzulegen. Im praktischen Teil kümmern wir uns dann detaillierter um konkrete Gestaltungsregeln und daraus ableitbare Lösungsvorschläge.

Visuelle Wahrnehmung

Aufbau des Auges – Bild: Jmarchn (CC BY-SA 3.0)

Wie groß der Unterschied zwischen Abbilden und Wahrnehmen ist, zeigt sich im Vergleich menschlicher Wahrnehmung und einem Fotoapparat. Beim Fotografieren wird zu einem festen Zeitpunkt ein vollständiges Abbild erstellt, das unabhängig von vorherigen Aufnahmen ist. Beim Sehen hingegen findet ein mehrstufiger komplexer Prozess statt, bei dem schon im Auge eine gehörige Reduktion stattfindet. Schauen wir uns das Auge ein bisschen genauer an, um zu verstehen, wie diese Reduktion stattfindet und welche Konsequenzen sie für uns in der Gestaltung von Nutzungsschnittstellen hat.

Oben sehen Sie den Aufbau des Auges beginnend mit der nach außen gestülpten Hornhaut und dahinter die Pupille und die Linse. Auf der anderen Seite der mit einer gelartigen Substanz gefüllten Kammer (Glaskörper) befindet sich die Netzhaut mit den lichtempfindlichen Nervenzellen.

Chromatische Aberration und Blau-Weitsichtigkeit

Um Objekte in verschiedenen Entfernungen scharf wahrnehmen zu können, kann das Auge die Brennweite der Linse anpassen. Wie diese Anpassung erfolgen muss, ist aber nicht nur von der Entfernung des Auges zum Objekt abhängig, sondern auch von der betrachteten Farbe. Das liegt an der physikalischen Eigenschaft, dass Licht verschiedener Wellenlängen an Prismen und Linsen unterschiedlich stark gebrochen wird. Diese Abweichung nennt sich „chromatische Aberration“, zu Deutsch etwa „Farbabweichung“ oder auch „Farbfehler“.

Problematisch wird diese chromatische Aberration, wenn sehr kurzwelliges und sehr langwelliges Licht, also rot und blau, in direkter Nähe zueinander verwendet werden. Die Abbildung zeigt so eine Situation, die vor allem an einem leuchtenden Bildschirm einen sehr unangenehmen Eindruck erzeugt. Der Grund dafür ist, dass es dem Auge nicht möglich ist, das Bild richtig zu fokussieren. Fokussiert das Auge auf die roten Bereiche, werden die blauen Bereiche unscharf. Beim Fokussieren auf den blauen Bereich werden dementsprechend die roten Bereiche unscharf. Da diese Regionen aber direkt nebeneinander und ineinander liegen, ist immer ein Teil des gerade betrachteten Bildes unscharf. Mit jeder Änderung des Fokus von einem Bereich in den anderen muss das Auge entsprechend die Linsenstellung anpassen und tut dies doch nie richtig.

Lichtbrechung bei verschiedenen Wellenlängen

Weißes Licht setzt sich aus Lichtstrahlen verschiedener Wellenlängen zusammen. Die chromatische Aberration sorgt dafür, dass es eine Farbtrennung gibt. Wenn ein farbloses graues oder weißes Objekt angeschaut wird, fokussiert ein normalsichtiges Auge im Prinzip auf den Gelb-Anteil des Objekts. Der grüne Lichtanteil hat demnach seinen Brennpunkt knapp vor der Retina, der rote knapp dahinter. Die leichte Unschärfe in diesen Farbanteilen nehmen wir allerdings nicht wahr.

Wie die Grafik zeigt, resultiert daraus, dass der Brennpunkt des blauen Lichtanteils weit vor der Retina liegt. Normalsichtige Menschen sind also blau-weitsichtig. Diese Fehlsichtigkeit hat Folgen für die ergonomische Farbwahl am Bildschirm. Problematisch ist vor allem voll gesättigtes Blau als Hintergrundfarbe oder als feine Struktur, zum Beispiel als blauem Text auf dunklem Hintergrund.

Problematische Verwendung von Blau als Hintergrund- oder Textfarbe

Zentrales Sehen

Auf der Netzhaut sind zwei Bereiche besonders interessant. Zum einen gibt es dort den blinden Fleck. Das ist die Stelle, an der der Sehnerv zum Gehirn verläuft. Da an dieser Stelle kein Platz für Rezeptoren ist, kann das Auge hier folglich keinen sensorischen Reiz liefern. Besonders gut sieht es dagegen im gelben Fleck, der Fovea. Dies liegt daran, dass die Nervenzellen auf der Retina nicht gleichmäßig verteilt sind. Bei den lichtempfindlichen Zellen unterscheidet man zwei Arten, die nach ihrem Aussehen auch als „Zapfen“ und „Stäbchen“ bezeichnet werden. Mit ihrer Funktion haben diese Namen nichts zu tun. In der Fovea gibt es fast nur Zapfen und das in einer hohen Dichte. Zapfen sind relativ lichtunempfindlich, ermöglichen aber die Wahrnehmung von Farben. Dadurch dass sie in der Fovea in hoher Dichte vorhanden sind, kann mit diesem Teil des Auges besonders scharf gesehen werden. Auch weiter außen auf der Retina gibt es Zapfen, allerdings in erheblich geringerer Dichte. Stäbchen gibt es auf der kompletten Retina außerhalb der Fovea. Sie haben ihre höchste Dichte in einem Ring um die Fovea. Stäbchen erlauben keine Farbwahrnehmung, sind aber dafür sehr lichtempfindlich. Stäbchen dienen dem Sehen bei Nacht, wenn nur der Mond oder die Sterne zur Beleuchtung dienen. Bei Tage spielen die Stäbchen beim Sehen keine Rolle.

Vereinfachte Darstellung des Bereichs des zentralen Sehens

Die Abbildung vermittelt eine Vorstellung davon, was ein einzelnes Auge zu einem Zeitpunkt „sieht“. Der Bereich des zentralen Sehens ist sehr klein. Als Daumenregel, im wahrsten Sinne des Wortes, entspricht der von der Fovea wahrgenommene Bildteil etwa der Größe eines Daumennagels bei ausgestrecktem Arm. Nach außen hin nehmen die Farbwahrnehmung und auch die Sehschärfe stark ab. An der Darstellung nicht stimmig ist, dass die weit von der Fovea entfernten Bereiche gänzlich farblos dargestellt sind. Tatsächlich ist die Farbwahrnehmung im peripheren Sichtbereich sehr eingeschränkt. Vollständig farbenblind ist man dort aber nicht. Große farbige Bereiche können farbig wahrgenommen werden, kleinere Strukturen allerdings nicht mehr.

Von besonderer Wichtigkeit für uns ist das zentrale Blickfeld, also der Bereich, in dem wir scharf, detailliert und farbig sehen können. Nur was wir hier erfassen, ist der bewussten Verarbeitung zugänglich. Das Wahrnehmungssystem bringt deshalb fortwährend andere Ausschnitte der Umgebung in diesen Bereich. Dies geschieht für natürliche Situationen sehr effektiv und wird dem Sehenden selbst in der Regel nicht bewusst, denn auch wenn man den Kopf nicht bewegt, ist das Auge mit kleinen ruckartigen Bewegungen unablässig auf Erkundungstour. Betrachtet man das Auge und seine Bewegungen, kann man im Großen und Ganzen zwei Phasen unterscheiden: Während der sogenannten „Sakkaden“-Bewegung wird das Auge in sehr schnellen, kurzen Bewegungen um etwa zwei bis zehn Grad in 20 bis 25 Millisekunden an eine andere Position gerichtet, auf der es dann verweilt. Dieses Verweilen nennt man „Fixation“. Während der Fixation findet die bewusste Verarbeitung des Gesehenen statt. Die Sakkaden hingegen werden von unserem Wahrnehmungssystem gefiltert, sodass sie nicht wahrgenommen werden.

Sakkadenbewegungen beim Betrachten eines Gesichts – Quelle: Yarbus, Alfred L.: Eye Movements and Vision. Springer, 2013.

Diese Abbildung von Alfred Yarbus²² verdeutlicht, dass das Wahrnehmungssystem anhand von früheren Erfahrungen bei der Erschließung eines Bildes selektiv vorgeht und bei der Betrachtung eines Gesichts dieses nicht etwa komplett abtastet. Große Teile des Bildes werden in diesem Beispiel nicht beachtet. Die Hauptaufmerksamkeit des Wahrnehmungssystems liegt klar auf Mund, Nase und vor allem der Augenpartie, also genau den Teilen des Gesichts, an denen sich Menschen gut unterscheiden lassen.

Die Konsequenzen der Lokalität der Wahrnehmung lassen sich gut an sogenannten „unmöglichen Figuren“ verdeutlichen. Der Grund, warum diese Figuren so irritierend sind, ist, dass sie an jedem Punkt lokal korrekt, aber global unmöglich sind. An jeder Stelle, auf die wir schauen, erhalten wir korrekte Hinweise darauf, wie sich die Figur fortsetzt, welcher Teil hinten liegt und welcher vorne, was oben und was unten ist usw. Nach einer Weile der Betrachtung stellen wir dann fest, dass die aktuelle Wahrnehmungshypothese und das aktuelle Wahrnehmungsbild nicht mehr zusammenpassen. Das Zusammensetzen funktioniert nicht, obwohl kein lokaler Fehler erkennbar ist.

Unmögliche Figuren – Quelle: 4C (CC-BY-SA 3.0) via Wikimedia Commons

Ist unser Wahrnehmungssystem deshalb unzuverlässig und fehlerhaft? Im Gegenteil! Die Tatsache, dass all diese unmöglichen Strukturen erst mit entsprechendem Aufwand gefunden und konstruiert werden konnten, ist ein Indikator dafür, dass das Auftreten einer solchen Wahrnehmungssituation in einer nicht absichtlich gestalteten Umgebung sehr unwahrscheinlich ist.

Eine scheinbar unmögliche Figur als Kunstobjekt – Bilder: Bjørn Christian Tørrissen (CC BY-SA 3.0)

Die Abbildung oben zeigt die Skulptur „Impossible Triangle“ auf einem Kreisverkehr in Perth in Australien. Die Skulptur wurde geschickt so erstellt, dass aus einer bestimmten Perspektive tatsächlich eine unmögliche Figur, das sogenannte „Penrose-Dreieck“, zu sehen ist. Auch hier stößt unser Wahrnehmungssystem wieder auf dasselbe Problem: An jeder Stelle des Dreiecks ist es leicht, lokal eine Hypothese über die Figur zu treffen, doch in ihrer Gesamtheit passen diese Hypothesen nicht zusammen. Unser Verstand sagt uns, dass es so nicht sein kann, doch gelingt es uns nicht, die Figur anders zu sehen. Eine fehlerhafte Annahme unseres Wahrnehmungssystems könnte sein, dass es sich um eine geschlossene Figur handeln muss. Diese Hypothese ist in diesem Sonderfall nicht richtig. Die resultierende Fehlwahrnehmung ist verblüffend, bleibt aber, selbst wenn sie einmal auftreten sollte, in nicht statischen Szenerien eine nur sehr kurz auftretende Erscheinung. Schon eine kleine Änderung der Position des Betrachtenden reicht aus, um durch Differenzerfahrung die Fehlwahrnehmung aufzulösen.

Peripheres Sehen

Die Eigenschaften des peripheren Sehens, also des Sehens außerhalb des zentralen Wahrnehmungsbereichs, unterscheidet sich sehr stark von dem in der Fovea. Die peripheren Netzhautbereiche haben eine viel geringere räumliche Auflösung, eignen sich also nicht zur Detailwahrnehmung. Auch die Farbauflösung ist dort gering. Das bedeutet, dass nur große, farbige Bereiche (etwa ein blauer Himmel im Vergleich zum braunen Feld) im peripheren Wahrnehmungsfeld wahrgenommen werden. Die Farbunterschiede kleinerer Bereiche hingegen werden nicht registriert. Gleichermaßen hoch wie im zentralen Bereich des Sehens ist die Wahrnehmung von Bewegungen. Dies ermöglicht dem Menschen zwar nicht direkt zu erkennen, was sich von der Seite nähert oder bewegt, wohl aber schnell zu bemerken, dass sich etwas bewegt. Dies gibt dem Wahrnehmungssystem den Anreiz, den Fokus der Wahrnehmung zu ändern und dem Menschen die Voraussetzung über die mit der Wahrnehmung verbundenen Konsequenzen zu entscheiden, also zum Beispiel die Flucht zu ergreifen.

Die Aufteilung der Wahrnehmung im Auge in den zentralen und den peripheren Bereich zeigt gut die Anpassung des Menschen an seine Umwelt und damit das Austarieren der eingangs genannten Anforderungen Vollständigkeit und Schnelligkeit. Das menschliche Sehen ist kein fauler Kompromiss, der ein bisschen vollständig und zugleich ein bisschen schnell ist, sondern ein fein austariertes System, das die Notwendigkeit der vollständigen Wahrnehmung mindert, wo sie aller Wahrscheinlichkeit nach nicht nötig ist, und die Schnelligkeit der Wahrnehmung als Trigger zur Wahrnehmungssteuerung selbst nutzt.

	zentral	peripher
Lokalisation	Fixationspunkt	Äußeres Gesichtsfeld
Farbauflösung	hoch	niedrig
Räumliche Auflösung (Sehschärfe)	hoch	gering
Zeitliche Auflösung (Bewegung)	hoch	hoch
Rolle	Detailwahrnehmung	Aufmerksamkeitsleitung

Gestaltungskonsequenzen

Schon aus diesen elementaren Eigenschaften der Wahrnehmungsarchitektur lassen sich direkt Handlungskonsequenzen für die Gestaltung von Nutzungsschnittstellen ableiten.

Alle Veränderungen im peripheren Blickfeld sind aufmerksamkeitssteuernd. Was sich am Rande bewegt, ist potenziell interessant, weil es eine heraufziehende Gefahr signalisieren könnte. Sie kennen sicher Situationen, wo sich etwas in Ihrem Augenwinkel bewegt und die Aufmerksamkeit auf sich zieht. Das kann man sich zunutze machen. Wenn Sie in ein volles Restaurant gehen und dort eine Gruppe Bekannter suchen, hilft es ungemein, wenn einer der Bekannten winkt. Sie finden die Gruppe dann auch bei einem komplett vollen Restaurant. Was sich jedoch permanent bewegt oder blinkt, obwohl es nicht Ihrer Aufmerksamkeit bedarf, etwa ein in der Ecke stehender Fernseher oder eine Uhr mit Pendel, kann dagegen nervtötend werden. Für die Gestaltung von Nutzungsschnittstellen bedeutet das vor allem, Animationen und blinkende Elemente mit Bedacht einzusetzen. Beide können dafür verwendet werden, die Aufmerksamkeit gezielt auf etwas zu ziehen, etwa wenn ein Fehler aufgetreten ist oder wenn aus einem anderen Grund die Aufmerksamkeit erforderlich ist.

Die Schreibmarke (der Cursor) ist auch dann leicht zu finden, wenn sie sich mitten in einem Text befindet. Den Mauszeiger hingegen kann man recht gut im Text verstecken. Dass der Cursor leicht zu finden ist, liegt daran, dass er blinkt. Da das Blinken des Cursors sehr gleichmäßig und der Cursor als Objekt zudem recht klein ist, ist er aber nicht so ablenkend, dass es einem schwer fallen würde, den Rest des Bildschirms zu betrachten.
Im Dock von Mac OS beginnen die Icons von Anwendungen, die gerade nicht aktiv sind, aber der Aufmerksamkeit bedürfen, zu hüpfen. Apple hat sich dazu entschlossen, dieses Hüpfen recht ungleichmäßig zu gestalten, was die aufmerksamkeitsleitende Wirkung noch verstärkt. Auch bei Windows können die Elemente in der Taskleiste die Aufmerksamkeit auf sich ziehen. Microsoft ist in der Gestaltung dabei etwas zurückhaltender und beschränkt sich auf ein Blinken.
Wenn die Aufmerksamkeit nicht auf eine bestimmte Region des Bildschirms oder auf bestimmte Elemente gezogen werden soll, sollten Blinken und Animationen möglichst vermieden werden. Wenn eine Animation dafür eingesetzt wird, einen Vorgang zu verdeutlichen, sollte darauf geachtet werden, dass die Animation glatte, gleichmäßige Bewegungen aufweist. Diese haben weniger Ablenkungspotenzial als unruhige, ruckartige Bewegungen.
Wenn Animationen in einer Dauerschleife ablaufen, sollten diese auf jeden Fall abschaltbar sein. Endlosschleifen zermürben und bringen keinen informationellen Zugewinn, außer andauernder Unruhe im äußeren Gesichtsfeld.
Es ist auf jeden Fall zu vermeiden, dass es mehrere blinkende oder sich bewegende Elemente auf einmal gibt. Die ablenkende Wirkung verstärkt sich mit jeder zusätzlichen Veränderungsquelle. Gleichzeitig geht die Möglichkeit der beabsichtigten Aufmerksamkeitsleitung verloren.

Bewegungen im peripheren Wahrnehmungsfeld werden vom Wahrnehmungssystem, wie soeben beschrieben, genutzt, um die Wahrnehmung zu steuern, um sie auf etwas potenziell Gefährliches hinzuweisen. Es gibt weitere solcher Trigger, die helfen, die Aufmerksamkeit auf Wichtiges in der Umwelt zu lenken.

Aufmerksamkeitsleitung: Präattentive Wahrnehmung

Der Mensch muss in der Lage sein, mit einem Blick zu erfassen, was wichtig ist, was also einer intensiveren Betrachtung bedarf und was nicht. Ein wichtiger Mechanismus ist dabei die präattentive Wahrnehmung. Präattentiv heißt vorbewusst. Es gibt also keinen bewussten Denkprozess der Art „Oh, das sieht aber interessant aus, das schaue ich mir mal an“. Der Vorteil der vorbewussten Verarbeitung ist, dass die Aufmerksamkeitsleitung sehr schnell und effizient ist. Nur potenziell bedeutsame Reize dringen ins Bewusstsein vor, alles andere wird ignoriert. Der damit verbundene Nachteil der präattentiven Wahrnehmung ist aber, dass wir uns gegen sie nicht wehren können.

Vorbewusste Wahrnehmung eines roten Punktes

Wir müssen keine Hellseher sein, um eine gute Prognose darüber abgeben zu können, welcher Punkt auf der Abbildung oben wohl als Erstes angesehen wird. Der Punkt in der Signalfarbe Rot sticht unter den anderen hervor. Die präattentive Verarbeitung in unserem Wahrnehmungssystem wählt ihn für uns aus und lenkt unsere Aufmerksamkeit automatisch dorthin. Natürlich können Sie sich den Rest der Abbildung anschauen, aber wenn Sie auf das Ganze blicken, wandert Ihr Blick unweigerlich zu diesem einen roten Punkt zurück. Gut, mögen Sie sagen, rot ist ja eine Signalfarbe. Vielleicht ist es eine erlernte Verhaltensweise, vielleicht aus dem Straßenverkehr, dass Sie bei Rot immer hinschauen.

Verschiedene Attribute sorgen für eine vorbewusste Wahrnehmung

So einfach ist es jedoch nicht, denn auch in diesen Abbildungen stechen jeweils mehrere Punkte besonders hervor: links der schwarze und rechts der größere Punkt. Schwarz ist aber keine Signalfarbe und auf der rechten Seite gibt es keinen Farbunterschied. Die präattentive Verarbeitung von Signalen erfolgt kontinuierlich, etwa bei einem Partygespräch, wo man interessiert einer Person lauscht, ohne das Gerede der anderen bewusst wahrzunehmen. In dem Augenblick jedoch, wo in diesem Geräuschwirrwarr der eigene Name auftaucht, wird die Aufmerksamkeit auf die neue Quelle ausgerichtet.

Gestaltungskonsequenzen

Präattentive Wahrnehmung ist ein fester Teil unseres Wahrnehmungssystems. Wir können sie nicht steuern und wir können uns auch nicht dagegen wehren. Dies gilt es bei der Gestaltung von Nutzungsschnittstellen zu bedenken. Sie können den Effekt ausnutzen, indem Sie ein Element am Bildschirm, von dem Sie wollen, dass es auf den ersten Blick wahrgenommen wird, mit einer präattentiven Eigenschaft versehen, es also zum Beispiel farbig herausstellen. Dieses Ausnutzen der präattentiven Wahrnehmung hat nicht nur Gestaltungskonsequenzen für das Element, das Sie tatsächlich herausstellen wollen, sondern auch für alle anderen Elemente auf dem Bildschirm, denn die Aufmerksamkeitsleitung funktioniert nur gut, wenn unter den anderen Objekten eine gewisse Uniformität herrscht.

Kombinationen präattentiver Merkmale verlieren ihre aufmerksamkeitsleitende Wirkung

Auf der Abbildung oben fällt es schwer das eine, sich von den anderen unterscheidende Element zu finden. Bei der großen visuellen Unruhe funktioniert die Vorauswahl unseres Wahrnehmungssystems nicht mehr. Der eine abweichende violette Punkt sticht unter den bunten Punkten nicht hervor.

Farbenvielfalt im App-Store von Windows 8

Generell birgt gerade die Farbgestaltung eine große Gefahr, die Potenziale der Aufmerksamkeitsleitung zu verschenken oder, schlimmer noch, eine ungewollte Aufmerksamkeitsleitung hervorzurufen. Obige Abbildung zeigt den App-Store von Windows 8. Da Microsoft jeder Anwendung seinerzeit zugestand, die Farbe der Kachel selbst zu bestimmen, bestand zum einen die Gefahr, dass sich einzelne Kacheln in den Vordergrund schieben, zum Beispiel die Audio-Recorder-Kachel oben rechts in Knallrot. Bei so einem Gestaltungsansatz ist es nicht mehr möglich, Farbe zuverlässig als Mittel der Auszeichnung zu nehmen.

Kontraststeigerung durch laterale Hemmung

Die Aufmerksamkeitsleitung durch Veränderungen im peripheren Wahrnehmungsfeld und durch die präattentive Wahrnehmung sind fest eingebaute Funktionsweisen unseres Wahrnehmungssystems, derer wir uns nicht entziehen können. Sie sortieren für uns vor und bestimmen, was wir uns jeweils intensiver anschauen. Auch die laterale Hemmung ist eine Eigenschaft der Wahrnehmung, die wir nicht bewusst steuern können. Sie sorgt dafür, dass wir Übergänge gut erkennen können. Sie kann aber bei ungeschickter Gestaltung auch für Fehlwahrnehmungen sorgen, die es zu vermeiden gilt.

Aufbau der Retina – Bild: Cajal, Anka Friedrich (CC BY-SA 3.0)

Hier ist eine schematische Zeichnung der Retina zu sehen. Die Lichtstrahlen kommen von links und müssen, zumindest außerhalb der Fovea, zunächst eine Reihe von Zellen passieren, bevor sie auf die lichtempfindlichen Zapfen und Stäbchen (rechts) treffen. Die verschiedenartigen Zellen, die vor den Sensorzellen liegen, verknüpfen mehrere Zapfen und Stäbchen und gewährleisten dadurch eine schnelle Vorverarbeitung. Für unsere Zwecke ist es nicht erforderlich, dass wir die Funktionsweise der verschiedenen Zellen im Detail behandeln. Wir stellen aber fest, dass es zwischen den Zapfen und Stäbchen rechts und den Ganglienzellen, den „Kugeln“, auf der linken Seite eine komplexe Verschaltung gibt. Insgesamt werden im Auge sechs Millionen Zapfen und 120 Millionen Stäbchen auf nur eine Million Ganglienzellen verschaltet. Es findet im Auge also eine Art Datenreduktion, eine Komprimierung statt. Ein Teil der Verschaltungen, die im Auge passieren, dient der Kontrastverstärkung. Dies geschieht durch sogenannte „laterale Hemmung“. Die Erregung einer Nervenzelle hemmt dabei die Erregung der benachbarten Zellen.

Die tatsächlichen Verschaltungen im menschlichen Auge sind recht komplex. Obige Grafik zeigt eine einfache Form der lateralen Hemmung, die das Konzept für unsere Zwecke hinreichend gut verdeutlicht. Im oberen Teil der Grafik ist ein Übergang von einer dunklen Fläche zu einer hellen Fläche zu sehen. Diese Struktur wird von acht Sensorzellen erfasst, vier davon erfassen die dunkle, vier die helle Seite. Die Sensorzellen messen im dunklen Teil einen Wert von 4, im hellen Teil einen Wert von 8. In der Ebene darunter befindet sich eine Reihe von Knoten. Jeder Sensorzelle ist einer dieser Knoten direkt als Eingang zugeordnet. Die Knoten sind aber auch untereinander verschaltet. Jeder Knoten hemmt die neben ihm liegenden Knoten mit einem Viertel seines Eingangswerts. Wir können nun die Ausgangswerte berechnen. Die beiden hellblauen Knoten lassen wir außen vor, denn ihnen fehlt jeweils ein Partner. Für den ersten dunkelblauen Knoten haben wir einen Eingangswert von 4 und zwei Hemmungen von jeweils 1. Es bleibt ein Ausgangswert von 4-1-1=2. Das Gleiche gilt für den zweiten Knoten. Beim dritten Knoten verhält es sich anders, da von der rechten Seite nun eine Hemmung von 2 zu berücksichtigen ist. Der Ausgangswert ist demnach 4-1-2=1. Der nächste Knoten ist der erste Knoten auf der hellen Seite der Struktur. Der Eingangswert ist daher 8. Der Knoten wird von der linken Seite, die ja noch im dunklen Teil der Struktur liegt, um 1 gehemmt und von der rechten Seite, die im Hellen liegt, um 2. Es ergibt sich dementsprechend ein Ausgangswert von 8-1-2=5. Die nächsten beiden Knoten werden von beiden Seiten jeweils gleich gehemmt. Der Wert ist 8-2-2=4. Im unteren Bereich sehen Sie das Ergebnis der Verschaltung. Der Kontrast an der Stelle des Übergangs wurde vom Verhältnis 1:2 zum Verhältnis 1:5 erhöht. Die Nebenwirkung dieser Kontrasterhöhung ist aber, dass der Übergang nun eine Art Aura hat. Die Randbereiche um die Übergangsstelle erscheinen dunkler bzw. heller, als sie tatsächlich sind.

Wahrnmungirritationen durch Laterale Hemmung

Die laterale Hemmung ermöglicht dem Menschen ein verlässliches Erkennen selbst geringer Helligkeitsunterschiede. Dies ist für eine schnelle Erkennung von Umrissen sehr hilfreich. Sie kann bei der Gestaltung von Nutzungsschnittstellen aber auch problematisch werden. Das weiße und das graue Rechteck unten links erhalten durch unsere Wahrnehmung eine dunkle bzw. helle Aura. Dieser Effekt stört aber in der Regel nicht. Problematisch ist hingegen der Helligkeitsverlauf. Er erhält durch die laterale Hemmung eine physisch nicht existierende helle Aura an seinem Ende. Obwohl er technisch einwandfrei gelöst ist, wirkt er schlecht gestaltet. Dem Problem kann dadurch abgeholfen werden, dass anstelle eines linearen ein logarithmischer Verlauf verwendet wird oder indem der Verlauf nicht nur über einen Teil, sondern über die komplette Fläche verläuft. Wie im Bild unten rechts zu erkennen ist, kann das Problem der hellen Aura auch bei einem Schlagschatten auftreten. Auch in diesem Fall hilft ein großflächigerer Verlauf.

Wahrnehmung als Hypothesenbildung

Zu Beginn dieses Kapitels haben wir erläutert, warum das Bilden von Hypothesen für das Wahrnehmungssystem notwendig ist. Hypothesenbildung gibt es in der Wahrnehmung auf verschiedenen Ebenen. Schon auf der Ebene der basalen Eigenschaften der visuellen Wahrnehmung lassen sich solche Hypothesen formulieren. Dass etwas, das sich im Augenwinkel bewegt, gefährlich sein kann oder dass sich ein Objekt (zum Beispiel eine Beere) von umgebenden Objekten (zum Beispiel den Blättern) unterscheidet, die Aufmerksamkeit verdient, ist ja letztlich nur eine Hypothese. Es muss nicht so sein, aber in der Evolution ist diese Annahme so lange von Vorteil, bis sich eine bessere Variante durchsetzt.

Hypothesenbildung findet man auch in anderen Teilen der Wahrnehmung. Viele dieser Hypothesen sind nicht genetisch bedingt, sondern von der individuellen Erfahrung eines Menschen abhängig. Für bestimmte Situationen ist offensichtlich, ob eine bestimmte Wahrnehmungshypothese erlernt ist oder direkt aus der Physiologie des Menschen ableitbar ist. In anderen Fällen ist das nicht so klar und die Übergänge sind fließend. Die Tiefenwahrnehmung, also einzuschätzen, ob etwas in der Nähe oder weit entfernt ist, ist zumindest teilweise erlernt²³. Man konnte das feststellen, als man indigene Völker untersuchte, die ausschließlich im Wald lebten und die Erfahrung der Sicht auf etwas weit Entferntes nie machen konnten. Führte man diese Menschen auf einen Berg, konnten sie nicht einschätzen, ob in der Ferne liegende Berge weit entfernt waren. Sie erschienen ihnen genauso nah wie tatsächlich in der Nähe befindliche Objekte. Dass wir Entfernungen einschätzen können, ist also nicht komplett biologisch verdrahtet, sondern hat auch mit unseren Erfahrungen zu tun. Man könnte auch von „kulturellen Erfahrungen“ sprechen.

Form und Bedeutung

Sicher ist es Ihnen schon mal so gegangen, dass Sie ein Muster erkennen, es aber nicht interpretieren konnten, während ein Experte das gleiche Bild ansah und sofort etwas erkannte. Ultraschallbilder sind ein gutes Beispiel dafür. Wenn Sie noch nie eines gesehen haben und nicht wissen, worum es geht, fehlen Ihnen vergleichbare Bilder, die es Ihnen ermöglichen, relevante von irrelevanten Mustern zu unterscheiden. Mit etwas Erfahrung ist es Ihnen jedoch möglich, die grundsätzlichen Umrisse eines Kindes zu erkennen. Mit der umfangreichen Erfahrung eines Arztes könnten Sie aber noch mehr erkennen.

Ähnlich verhält es sich bei Darstellungen wie dem unten abgebildeten Muster. Relativ amorphe Flecken werden zu einer sinnvollen Ganzheit gruppiert. Im Prozess der Wahrnehmung werden fehlende Bildelemente so ergänzt, dass eine sinnvolle Gestalt entsteht. Diese „Bedeutung“ liegt nicht allein an der Form der Flecken. Wahrscheinlich erkennen Sie im Bild die Silhouette eines Dalmatiners, der auf dem Boden schnüffelt. Oben links befindet sich ein Baum, der einen Schatten wirft. Sie können diese Objekte auf dem Bild nur dann sehen, wenn Sie eine ähnliche Szenerie kennen, wenn es Ihnen möglich ist, eine passende Hypothese, eine Dalmatiner-Hypothese, aufstellen zu können. Was Sie sehen, hängt also stark davon ab, welche Erfahrungen Sie in Ihrem Leben schon gemacht haben.

Ein Dalmatiner? Quelle: Johnson, Jeff: Designing with the Mind in Mind. Published in: Marr, David: Vision. A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman and Co., New York, p. 101. 1982.

Erst mit dem Erkennen einer dreidimensionalen Szenerie in einer Zeichnung entsteht auch der Eindruck einer Tiefenwahrnehmung. Wenn Sie auf dem Bild unten noch nichts erkannt haben, erscheint Ihnen das Bild sicherlich flach. Wenn wir Ihnen nun aber sagen, dass eine Person auf einer Bank sitzt und Sie das dann auch erkennen, scheint das Bild jetzt Tiefe zu haben.

Ein sitzender Mensch? – Bild: Rock, Irvin. "The logic of perception." (1983) — Ein sitzender Mensch? – Bild: Rock, Irvin. “The logic of perception.” (1983)

Ein verstecktes Gesicht in der Oper in Sydney – Foto: Richard Berenbrinck

Der Wahrnehmungsapparat des Menschen setzt die Sinnesreize in Beziehung zueinander, um eine bedeutungsvolle Form zu schaffen und sich auf eine bekannte Struktur zu beziehen. Diese Hypothesenbildung kann mitunter ein Eigenleben entwickeln. Auf dem Bild oben sehen Sie die Oper von Sydney. Haben Sie auf dem Bild in der Mitte auch ein großes Gesicht gesehen? Gerade in der Gesichtserkennung ist unser Wahrnehmungssystem besonders gut, weshalb Menschen oftmals dazu neigen, überall Gesichter zu erkennen, vom Jesus-Antlitz im Toastbrot bis hin zu Wolkenformationen. Solche Projektionen funktionieren aber auch für viele andere vertraute Objekte oder Strukturen.

Der Hypothesengenerator nach Gregory

Vereinfachte Version des Hypothesengenerators nach Gregory – Abwandlung von: Gregory, Richard L.: Eye and Brain. The Psychology of Seeing

Das Wahrnehmungssystem kann also als Einrichtung verstanden werden, die fortwährend Hypothesen generiert. Der Psychologe Richard Gregory beschreibt einen solchen Hypothesengenerator als zentrales Element der Wahrnehmungsarchitektur. Wir geben ihn hier in leicht vereinfachter Form wieder²⁴.

Der Hypothesengenerator speist sich aus mehreren Quellen. Teile der Außenwelt werden durch die Sinne erfasst (Bottom-Up). Dieser sensorische Teil der Wahrnehmung kommt in der Form von Signalen im Gehirn an. Diese Wahrnehmungsreize allein reichen aber zur Wahrnehmung eines Objekts nicht aus. Erst mit der Einbeziehung von Wissen und Erfahrung (Top-Down) kann das Gehirn hieraus „erraten“, was das Wahrgenommene ist. Um weitere Erkenntnisse darüber zu bekommen, ob richtig geraten wurde, muss der Mensch handeln und seine Umwelt manipulieren. Eine Bestätigung oder ein Widerspruch zur Hypothese geht in den Wissensschatz ein und kann zukünftige Hypothesen beeinflussen. Im Kapitel „Differenzerfahrung und Wissen“ haben wir dieses Überprüfen einer Hypothese durch Handlungen „Differenzerfahrung“ genannt. An Gregorys Hypothesengenerator ist neben dem Bottom-Up- und dem Top-Down-Weg noch ein Seitenweg von Abkürzungen beteiligt. Diese Abkürzungen sind ebenso Teil der Hypothesenbildung, entstammen aber nicht dem individuellen Wissen und den Erfahrungen, sondern sind im Wahrnehmungssystem unveränderlich verankert, entsprechen also allenfalls einer evolutionären Erfahrung. Hierunter fallen etwa die Mechanismen der Aufmerksamkeitsleitung, der peripheren Wahrnehmung und der präattentiven Vorauswahl.

Gehirnareale der räumlichen Verarbeitung (Quellen siehe Fußnote)

Diese Aspekte der Hypothesenbildung auf Grundlage der sensorischen Wahrnehmung und der Erfahrung finden sich in der Physiologie des Gehirns wieder. Obige Abbildung²⁵ verdeutlicht, dass zunächst eine Vorverarbeitung im visuellen Cortex stattfindet, in dem ganz grundlegende Eigenschaften wie Farben und Kanten erfasst werden. Das Ergebnis der so vorbehandelten sensorischen Informationen bildet den Bottom-Up-Teil der Wahrnehmung. Erst im Zusammenwirken mit Erfahrungswissen kann hieraus eine Hypothese über die Wahrnehmung abgeleitet werden. Die Architektur der menschlichen Wahrnehmung unterscheidet dabei zwischen der Erkennung, was wahrgenommen wird, von der Erkennung, wo sich etwas befindet. Dass diese beiden Wahrnehmungsaspekte voneinander getrennt sind und die jeweilige Hypothesenbildung unabhängig voneinander erfolgt, lässt sich an einem Alltagsphänomen gut nachvollziehen. Objekte, die sich stets an einem bestimmten Ort befanden, werden der Erwartung entsprechend auch an diesem Ort vermutet. Denken Sie zum Beispiel an Bücher in einem Regal. Sortiert man das bekannte Objektarrangement um, läuft diese Annahme in die Irre. Obwohl sich das Aussehen der einzelnen Bücher überhaupt nicht geändert hat, ist das Wiederfinden stark verzögert. Im Zusammenspiel mit der bereits zuvor erläuterten Beschränktheit des scharfen Sehens erklärt sich das zu beobachtende Phänomen, dass die Hypothesen über den Ort viel stärker wirken als die Hypothesen zum Aussehen. Die Hypothese, dass Objekte ihren Ort eher nicht ändern, ist in Hinblick auf die Umwelt folgerichtig.

Konstanzphänomene

Der Hypothesengenerator und die Betrachtung der Wahrnehmungsareale im Gehirn verdeutlichen, dass Wahrnehmen nicht ein simples Abbilden von Sinnesreizen in neuronale Muster, sondern stets eine Konstruktion ist. Einige interessante Phänomene, die das gut verdeutlichen, sind die sogenannten „Konstanzphänomene“. Sie alle sind unter der grundsätzlichen Annahme erklärbar, dass unsere Umgebung im Großen und Ganzen stabil ist. Diese Grundhypothese findet ihren Ausdruck in den Konstanzphänomenen der Wahrnehmung.

Änderungen der wahrgenommenen Form werden bevorzugt als Perspektivänderung wahrgenommen.

Formkonstanz: In den meisten Situationen ändern Gegenstände nicht ohne sichtbaren Einfluss ihre Form. Wenn sich die Form eines Objekts auf der Netzhaut daher ändert, gehen wir davon aus, dass sich nicht die Form des wahrgenommenen Gegenstands geändert hat, sondern dass sich die Perspektive auf diesem Gegenstand geändert hat, sich also der Betrachter oder der Gegenstand bewegt hat.

Größenkonstanz: Auch die Größe eines Objekts ändert sich üblicherweise nicht von selbst. Wenn sich also die Größe der Objektabbildung auf der Netzhaut ändert, weil wir unseren Abstand zum Objekt verändern, gehen wir nicht davon aus, dass das Objekt selbst größer oder kleiner geworden ist.

Helligkeitskonstanz: Die Oberflächenstruktur eines Objekts und damit seine Eigenschaft, Licht zu reflektieren, ändert sich in den meisten Situationen nicht. Wenn sich die Helligkeit einer Abbildung auf der Netzhaut daher ändert, interpretieren wir dieses nicht als Änderung der Oberflächenstruktur des Objekts, sondern gehen davon aus, dass sich die Beleuchtungssituation geändert hat. Solche Beleuchtungsänderungen sind im Gegensatz zu dunkler oder heller werdenden Objekten sehr häufig. Sie treten zum Beispiel auf, wenn sich eine Wolke vor die Sonne schiebt.

Farbkonstanz: Auch die Farbigkeit von Objekten ändert sich meist nicht. Ähnlich wie im Fall der Helligkeitskonstanz wird daher eine Farbänderung eines Objekts auf der Netzhaut nicht als Farbänderung des Objekts selbst, sondern als ein Wechsel in der Umgebungsbeleuchtung interpretiert. Wenn Sie einen Gegenstand etwa aus einem Platz am Fenster in einen Bereich bringen, der mit Glühlampen beleuchtet ist, gehen Sie nicht davon aus, dass dieser Gegenstand gelber geworden ist, sondern führen die Farbveränderung auf die Veränderung der Beleuchtungssituation zurück.

All diese Konstanzphänomene lassen sich mit der eingangs genannten Grundhypothese begründen. Unser Wahrnehmungssystem hat sich an eine stabile Umwelt angepasst. Dinge ändern nicht ohne Anlass ihre Farbe, werden heller oder dunkler, verformen sich oder verändern sich in ihrer Größe. Es kommt hingegen sehr oft vor, dass es heller und dunkler wird, dass sich die Lichtfarbe ändert, dass Dinge sich entfernen, näher kommen oder dass sich die Perspektive auf Gegenstände ändert.

Design-Konsequenzen

Vor allem die Helligkeits- und Farbkonstanz hat direkte Konsequenzen für die Gestaltung von Nutzungsschnittstellen. Beim Auswählen von Farben und beim Gestalten von Farbabstufungen muss immer bedacht werden, dass das menschliche Wahrnehmungssystem nie eine einzelne Farbe neutral wahrnimmt, sondern dass eine wahrgenommene Farbe in Bezug auf Farbton, Sättigung und Helligkeit im Kontext mit den Farben der Umgebung, insbesondere den angrenzenden Farben betrachtet werden muss.

Simultankontrast: Farben werden je nach Umgebung unterschiedlich wahrgenommen

Änderung der wahrgenommenen Leuchtkraft in Abhängigkeit vom Hintergrund

Die Farben werden jeweils in ihrer Umgebung „interpretiert“. Bei kaltem oder warmem Licht wird die gleiche im Auge eintreffende Farbe anders wahrgenommen. Im Bild sind der braune Fächer und die grünen Kreise jeweils technisch gleichfarbig. Sie erscheinen aber einen stark unterschiedlichen Farbton zu haben. Für die Gestaltung von Farbe am Bildschirm heißt das vor allem, dass Farbwirkungen nicht allein aus der technischen Farbbeschreibung bestimmt werden können, sondern dass die umgebenden Farben immer mitbedacht werden müssen, da Farbeindrücke in der Umgebung einer farbigen Fläche durch eben diese Flächenfarbe beeinflusst werden. Dieses Phänomen wird Simultankontrast genannt. Farben sollten also als Ensemble gestaltet werden.

Eine spezielle Form des Simultankontrastes und Folge der Helligkeitskonstanz ist die Abhängigkeit der Helligkeitswirkung eines Objekts von seiner Umgebungshelligkeit. In der Abbildung oben sehen Sie, dass die Objekte auf der rechten Seite leuchtender wirken als die auf der linken Seite. Dass das so ist, kann man als umgekehrte Anwendung der Helligkeitskonstanz interpretieren. Wird es in einem Raum dunkler, werden sowohl die wahrgenommene Helligkeit der Objekte im Raum als auch die der Umgebung dunkler. Wir interpretieren dies nicht als eine Abdunkelung des Objekts, sondern als eine Änderung in der Beleuchtung. Wird aber die Helligkeit des Raums dunkler und die tatsächliche Helligkeit der Objekte bleibt dennoch gleich, dann wird das folgerichtig vom Wahrnehmungssystem als Helligkeitsanstieg der Objekte interpretiert.

Optische Täuschungen

Die Hypothesen des Wahrnehmungssystems haben sich über lange Zeiträume bewährt und sind recht verlässlich. Mit geschickten Konstruktionen ist es jedoch möglich, falsche Schlussfolgerungen zu provozieren. Die optischen Täuschungen sind ein gutes Beispiel dafür.

Bei diesen Täuschungen liegen Wahrnehmungssituationen vor, in denen die Hypothesen des Wahrnehmungssystems offensichtlich fehllaufen. Uns erscheinen unterschiedlich lange, zueinander gerichtete, gebrochene oder unterschiedlich große Objekte unterschiedlich, obwohl sie faktisch gleich lang, parallel, durchgehend oder gleich groß sind. Viele dieser Täuschungen lassen sich mithilfe des Hypothesengenerators erklären, denn es handelt sich meist um geschickt isolierte Ausschnitte, die im Prozess des Sehens eine schnelle Interpretation des Wahrgenommenen ermöglichen. Da sie aber in dieser isolierten Form nie oder nur äußerst selten in der natürlichen Umgebung des Menschen auftreten, führen sie zu falschen Wahrnehmungseindrücken. Zwar lassen sich diese Eindrücke durch zusätzliche Informationen als falsch erkennen, doch verschwindet die Täuschung dadurch nicht. Da unser Wissen den Wahrnehmungseindruck nicht verändern kann, ist dies ein Hinweis darauf, dass diese Erkennungsmechanismen fest im Wahrnehmungsapparat verankert sind. Ähnlich wie bei den unmöglichen Figuren, wie z. B. dem Penrose-Dreieck, können durch die Einbettung in einen erweiterten Wahrnehmungskontext beispielsweise durch geänderte Perspektiven oder die Hinzunahme von Hilfsmitteln und Messgeräten optische Täuschungen und Illusionen als solche erkannt werden.

Zugewandte und abgewandte Kanten in alltäglichen Wahrnehmungssituationen

Die Isolierung aus einem natürlichen Wahrnehmungskontext wollen wir anhand der „Müller-Lyer-Täuschung“ illustrieren. Man betrachte diese beiden Darstellungen: Beide zeigen bekannte, recht unspektakuläre, Wahrnehmungssituationen. Links ist eine Ecke einer Abzweigung in einem Flur zu sehen. Klar erkennbar ist eine vertikale Kante, die als dem Betrachter zugewandte Kante interpretiert wird. Die Abbildung rechts zeigt das Innere eines Aufzugs. Auch hier ist eine vertikale Kante zu sehen. In diesem Falle wird sie aber als hinten liegende Kante erkannt.

Verantwortlich dafür, ob wir die Kante als vorne liegend interpretieren, bei der sich die angrenzenden Wände vom Betrachter weg fortsetzen, wie links, oder als eine hinten liegende, bei der die angrenzenden Wände sich in Richtung des Betrachters fortsetzen, wie rechts, kann aus den Winkeln geschlossen werden, die diese Wände mit denen der Decke und des Bodens bilden. In den Abbildungen unten sehen Sie diese Kanten eingezeichnet. Es ergibt sich genau die Situation der Müller-Lyer-Täuschung. Auch in den Abbildungen oben tritt die Täuschung auf. Beide vertikale Linien sind exakt gleich lang. Die Wahrnehmung, dass die rechte Kante als länger wahrgenommen wird, ist aber folgerichtig, denn die räumliche Interpretation der Szenerie gibt dem Wahrnehmungssystem den Hinweis, dass es sich rechts um eine weiter entfernte und links um eine näher liegende Kante handelt. Wenn diese optisch gleich groß sind, wird, der Größenkonstanz entsprechend, die rechte als länger und die linke als kürzer interpretiert.

Verdeutlichung der persektivischen Wahrnehmungsmerkmale

Wir haben nun die Fehlinterpretation der Müller-Lyer-Täuschung auf eine Hypothese über Gegebenheiten bei der Wahrnehmung dreidimensionaler Szenerien zurückgeführt. Ob diese Erklärung tatsächlich korrekt ist, lässt sich nicht endgültig feststellen. Die 3D-Hypothese ist aber ziemlich plausibel, denn unsere Wahrnehmung ist ja an unsere irdische Welt angepasst. Sie ist darauf geeicht, dreidimensionale Objekte zu erkennen. Im Folgenden schauen wir uns einige der Hypothesen für diese Wahrnehmungsbereiche an. Sie sind später auch grundlegend für viele Gestaltungsentscheidungen am Bildschirm.

3D-Raum-Hypothesen

Das menschliche Wahrnehmungssystem hat sich in einer Welt entwickelt, in der die Erkennung dreidimensionaler Objekte sich als evolutionär erfolgreich gezeigt hat. Somit ist es kein Wunder, dass auch bei der Betrachtung zweidimensionaler Bilder die Hypothesen für das Erkennen einer dreidimensionalen Welt zum Tragen kommen. Donald D. Hoffman²⁶ beschreibt in seinem Buch „Visuelle Intelligenz. Wie die Welt im Kopf entsteht“ umfangreich, nach welchen Regeln die dreidimensionale Interpretation konstruiert werden kann. Wir geben seine Gedanken nur in Auszügen mit besonderem Fokus auf die für uns später wichtigen Aspekte wieder.

Auf der Abbildung oben ist ein Würfel zu erkennen. Das zeigt, dass das menschliche Wahrnehmungssystem auch dann einen räumlichen Eindruck erzeugt, wenn keinerlei Textur oder Schattierung eine räumliche Interpretation nahelegen. Das Bild wird nämlich nicht als Ansammlung von horizontalen, vertikalen und diagonalen Linienzügen gesehen, sondern als ein sich im Raum befindliches dreidimensionales Gebilde. Wir sehen hier auch nicht irgendein räumliches Gebilde, sondern einen Würfel. Dabei könnte es eine Vielzahl von dreidimensionalen Drahtfiguren geben, die einen solchen Wahrnehmungseindruck auslösen. Aus der Überlegung, dass nicht beliebige, sondern nur spezielle Strukturen erkannt werden, leitet Hoffman Wahrnehmungsregeln ab, die wir in unserem Sinne als „Hypothesen“ bezeichnen können. Die Grundhypothese lautet, dass unser Wahrnehmungssystem alles Wahrgenommene dreidimensional interpretiert und dass das jeweils Wahrgenommene keine absolute Ausnahme ist, sondern einer eher typischen Wahrnehmungssituation entspricht.

Hier sehen Sie eine gerade Linie. Wenn diese Linie die Abbildung von etwas Dreidimensionalem ist, dann ist die Wahrscheinlichkeit hoch, dass das auch im Dreidimensionalen eine gerade Linie ist. Es gibt zwar Situationen, in denen etwas, das im Dreidimensionalen geschwungen ist, in einer zweidimensionalen Abbildung gerade erscheint. Diese Linie könnte etwa ein Kreis sein – wenn man genau von der Seite auf ihn schaut – aber das wäre eine absolute Ausnahmeperspektive. Eine minimale Änderung der Perspektive würde sofort wieder etwas Elliptisches zutage fördern. Hoffman formuliert daher:

Regel 1: Interpretiere eine gerade Linie in einem Bild stets als eine gerade Linie in 3-D.

Weitere Regeln beziehen sich darauf, wie sich die Relationen von Linienzügen im Zweidimensionalen zu denen im Dreidimensionalen verhalten.

Es ist schwierig, die linke Figur als Würfel zu sehen. Jetzt, wo Sie wissen, dass es ein Würfel sein soll, gelingt es Ihnen vielleicht, aber es erfordert zusätzliche Anstrengungen; ein Hinweis darauf, dass diese Sicht nicht mit den verankerten Wahrnehmungshypothesen übereinstimmt. In diesem Fall widerspricht die Interpretation als Würfels zwei Regeln, die Hoffman folgendermaßen beschreibt.

Regel 2: Wenn die Enden zweier Linien in einem Bild zusammenfallen, interpretiere sie stets so, dass sie auch in 3-D zusammenfallen.

Regel 3: Interpretiere Linien, die in einem Bild kollinear sind, also in einer Flucht erscheinen, auch in 3-D als kollinear.

Beim schwer erkennbaren Würfel fallen Linien zusammen, die im Dreidimensionalen nur unter einer einzigen Perspektive zusammenfallen. Andere Linienzüge scheinen in einer Flucht zu stehen, nicht aber in der entsprechenden dreidimensionalen Figur. Die Figur ist somit eine konstruierte Ausnahme ebenso wie der zuvor beschriebene aus einer Seitenperspektive betrachtete Kreis. Wie rechts zu sehen ist, bringt schon eine kleine Bewegungsänderung ein anderes Bild hervor. Die Interpretation als Würfel ist dann wieder einfacher möglich.

Hoffman stellt viele weitere Regeln für das Erkennen dreidimensionaler Figuren auf. Interessant sind zum Beispiel die Regeln, die beschreiben, wie man geschwungene, dreidimensionale Figuren, bei denen Teile der Figur andere Teile der Figur verdecken, interpretieren kann. Wir belassen es an dieser Stelle aber dabei und werfen abschließend einen Blick darauf, welche Hypothesen – in Hoffmans Sprachgebrauch Regeln genannt – man aufstellen kann, um eine dreidimensionale Figur in Teilfiguren zu zerlegen.

Schröder-Treppe von H. Schröder aus dem Jahr 1958 – Bild nach: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 117

Diese Abbildung zeigt die sogenannte Schröder-Treppe. Wie schon beim Würfel besprochen, gibt es mehrere mögliche Interpretationen dieser Figur. Wenn Sie länger hinsehen, springt Ihre Wahrnehmung vielleicht zwischen diesen Interpretationen hin und her. Mal erscheinen die Treppenstufen unten, mal scheinen sie unter der Decke zu hängen. Einigen wir uns zunächst einmal darauf, dass wir die Figur so interpretieren, dass die Stufen unten sind, es also eine Treppe ist, die man von links oben nach rechts unten hinabsteigen kann. Sie sehen zwei Punkte. Sehen Sie sie auf ein und derselben Treppenstufe oder auf zwei verschiedenen? Die Beantwortung dieser Frage läuft auf das Problem hinaus, wie Sie das Objekt Treppe in Teilobjekte unterteilen.

Hoffman stellt für solche Fälle die folgende Regel auf:

Regel 14: Regel der konkaven Falten: Zerlege Formen entlang konkaver Falten in Teile.

Diese Regel leitet sich aus der Betrachtung der Verdeckung von Objekten ab. Wenn zwei Figuren ineinandergesteckt werden, entsteht an der Schnittstelle zwischen den beiden Figuren eine scharfe Kante; im nachfolgenden Bild durch eine gestrichelte Linie dargestellt. An dieser Stelle entsteht zwischen den beiden Teilfiguren eine konkave Falte; sie zeigt in das Objekt hinein. Die rote Einzeichnung in der Abbildung verdeutlicht diese Falte:

Zwei Figuren, die sich schneiden, bilden eine konkave Falte – Quelle: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht, Seite 116

Auch bei der Schröder-Treppe von oben lassen sich solche konkaven Falten finden, im Folgenden rot eingezeichnet.

Dreidimensionale Zerlegung der Schröder-Treppe entlang der konkaven Falten.

Zerteilen wir an ihnen das Bild, ergibt sich obige Situation, also eine Aufteilung, bei der die beiden Punkte auf der gleichen Stufe liegen. Dreht man das Bild, wie rechts zu sehen, auf den Kopf, werden die Falten, die eben noch konkav waren, konvex und umgekehrt. Folglich liegen die beiden Markierungspunkte nun nicht mehr auf derselben Stufe, sondern auf zwei verschiedenen.

Verdeckungshypothesen

Auch wenn es in der klassischen Softwareergonomie nicht um die Darstellung „echter“ 3D-Objekte am Bildschirm geht, müssen wir bei der Interpretation der Nutzungsschnittstelle von einer Welt ausgehen, in der Objekte vor- und hintereinander liegen und einander somit verdecken. Dass die menschliche Wahrnehmung auf solche Situationen gut eingerichtet ist, lässt sich an den „Kanizsa-Dreiecken“ verdeutlichen.

Das obige Bild zeigt ein solches Kanizsa-Dreieck. Man sieht hier mehr, als es eigentlich zu sehen gibt: ein Dreieck, das nicht existiert. Das weiße Dreieck mit der Spitze nach oben scheint sogar heller zu sein als der Hintergrund. Viele unterschiedliche Hypothesen sind diskutiert worden, um diese Wahrnehmungstäuschung begründen zu können. Eine typische Erklärung lautet beispielsweise, dass wir über umfangreiche Erfahrungen mit Dreiecksfiguren verfügen und uns die Interpretation dieser Darstellung mit der zusätzlichen Figur eines weißen Dreiecks einfacher und damit plausibler erscheint, als ohne. Unser Wahrnehmungssystem konstruiert das Dreieck also als sinnvolle Ergänzung hinzu.

Weitere Beispiele für virtuelle Konturen

Auch in diesen Abbildungen werden Figuren erkannt, die es nicht gibt. Im linken Falle ist die Vermutung, dass die Interpretation mit dem zusätzlichen Quadrat einfacher sei als ohne, durchaus plausibel. Für die rechte Figur von Marc Albert ist diese Erklärung aber schon kritisch, denn die Interpretation von vier Kreuzen ist erheblich einfacher als eine mit einer kissenartigen Überlagerung, auch wenn eine solche kissenförmige Figur durchaus noch zu den bekannten Figuren gezählt werden kann.

Auch unbekannte und unregelmäßige Flächen können als virturelle Kontur erscheinen – Bild aus Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 80

Spätestens bei dieser Figur funktioniert diese Vermutung aber nicht mehr. Auch hier sehen wir vier dunkle Kleckse, die von einer eigenartig geformten weißen Figur überlagert zu sein scheinen. Diese Figur ist sicher keine, die in dieser Form üblich und bekannt ist. Warum sollte sie dann die Interpretation der Wahrnehmung vereinfachen? Das Argument der vertrauten Figuren ist zumindest nicht ausreichend. Hoffmann geht auch wieder von einer 3D-Hypothese aus und nimmt an, dass unser Wahrnehmungssystem darauf ausgelegt ist, ein vorne liegendes Objekt von einem im Hintergrund liegenden Objekt zu unterscheiden, also Verdeckungen zu erkennen.

Konvexe Zacken an Überlagerungsstellen – Bild aus Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 85

Nach Hoffman sind konvexe Zacken ein Hinweis für das Wahrnehmungssystem, eine Verdeckung anzunehmen. Wenn jedoch, wie man in der Abbildung sieht, eine im Vordergrund liegende Kontur ein im Hintergrund liegendes Objekt verdeckt, dann entsteht an der Hintergrundfigur der Eindruck einer konvexen Zacke. Bei allen Beispielen virtueller Verdeckung, die Sie auf den vorherigen Seiten gesehen haben, gibt es derartige konvexe Zacken. Sie dienen dem Wahrnehmungssystem als Hinweis darauf, dass an dieser Stelle eine Verdeckung vorliegen könnte.

Die Kanizsa-Dreiecke und ähnliche Figuren zeigen eindrücklich, dass das Wahrnehmungssystem auf die Erkennung von Verdeckungen eingerichtet ist. Die erfolgreiche Erkennung von Verdeckungen, also die Unterscheidung von Hintergrund und Vordergrund im Erkannten, kann entscheidend sein, um erkennen zu können, was abgebildet ist.

Obige Abbildung kann das gut verdeutlichen. Hier scheint nichts Bekanntes abgebildet zu sein. Zu erkennen sind nur auf eigenartige Weise unterbrochene Konturen.

Die Abbildung unten zeigt exakt die gleichen schwarzen Konturen. Allerdings wird jetzt ersichtlich, dass es sich bei den Konturen um einen durch ein anderes Objekt verdeckten Körper handelt. Erst durch das Interpretieren der Konturen als verdecktes Objekt setzt die Erkennung ein und das Objekt wird als großes M ohne Weiteres erkannt, obwohl von diesem M kein Deut mehr zu sehen ist als vorher.

Wenn eine Verdeckung erkannt wird, wird das Verdeckte erkennbar

Beleuchtungshypothesen

Das Verdeckungsbeispiel zeigt, dass unser Wahrnehmungssystem auf das Erkennen von Verdeckungen, also auf die Unterscheidung von Vordergrund und Hintergrund, optimiert zu sein scheint. Das ist auch nicht verwunderlich, denn diese Unterscheidung ist die Grundlage, um aus zweidimensionalen Netzhautbildern eine räumliche Vorstellung von der Umgebung zu gewinnen. Erfahrung spielt dabei offenbar eine Rolle. Strukturen werden als Vordergrund angesehen, wenn es sich um bekannte Figuren, wie etwa Silhouetten von Menschen, handelt. Für uns interessanter sind aber die Untersuchungen, die sich mit den optischen Hinweisen beschäftigen, anhand derer auch bei unbekannten Strukturen zwischen Vordergrund und Hintergrund unterschieden wird. Einige der Annahmen hierzu sind geometrischer Natur.

Wenn eine kleine Struktur, etwa ein Buchstabe, von einer größeren Struktur umgeben ist, wird die kleine Struktur als der Vordergrund angesehen.
Eine Figur, die viele konvexe Züge aufweist (also nach außen gestülpt ist), wird als im Vordergrund liegend angesehen.

Für unseren Zweck interessanter sind jedoch solche Hinweise, die sich auf Farbtöne, Helligkeiten und Sättigungen beziehen. Sie sind zum Beispiel dafür verantwortlich, in Bildern wie dem folgenden Tiefe zu erkennen. Dass Farbtöne, Helligkeit und Sättigung eine Rolle spielen, scheint klar zu sein, allerdings sind die Details auch in der Forschung noch nicht vollständig geklärt. In Experimenten zeigt sich, dass einige optische Hinweise nicht in jedem Kontext den gleichen Effekt auslösen. Realweltliche Szenerien wie die unten abgebildeten Beispiele zeichnen sich dadurch aus, dass mehrere Regeln gleichzeitig angewandt werden müssten. Welche Regeln jeweils Priorität haben, ist nicht immer klar. Zusammengenommen geben sie aber doch gute Hinweise darauf, welche optischen Andeutungen eine Vordergrund-Hintergrund-Unterscheidung unterstützen. Sie geben uns Hinweise darauf, wie eine solche Unterscheidung bei Bildschirmobjekten gestaltet werden kann.

Darstellung der Tiefe einer Landschaft in Neuseeland – Bild: Harald Selke

In Experimenten lassen sich folgende Tendenzen beobachten:

Befinden sich auf einem Bild in einem Bereich matte, ungesättigte Farben und in einem anderen Bereich kräftige, gesättigte Farben, wird die ungesättigte Region als hinten, die gesättigte als vorne interpretiert. Dies entspricht natürlichen Wahrnehmungssituationen, etwa auch im Bild oben. Licht, das von entfernten Objekten reflektiert wird, muss mehr Luft durchdringen und wird dort gestreut. Die Farben erscheinen daher ungesättigter²⁷.
Bestimmte Farben liegen tendenziell eher vor anderen Farben. Rot und Gelb werden tendenziell als im Vordergrund liegend angesehen. Grün und Blau werden eher als Hintergrund interpretiert. Ob dies tatsächlich so wahrgenommen wird, hängt stark von der Helligkeit und der Sättigung der Farben ab. Auch diese Hinweisregel kann gut mit der Wahrnehmung unserer natürlichen Umgebung in Zusammenhang gebracht werden. Im Bild oben sieht man gut, dass Licht von weit entfernten Objekten bläulich erscheint.²⁸ ²⁹.
Regionen, die in sich geringe Helligkeitskontraste aufweisen, werden als Hintergrund angesehen, solche mit hohen Helligkeitskontrasten als Vordergrund. Auch dieser Effekt ist im obigen Bild gut zu erkennen. Die Gräser im Vordergrund weisen einen hohen Detailkontrast auf, während die Berge im Hintergrund nur geringen Kontrast zeigen³⁰ ³¹. Grund ist wieder einmal die Streuung in der „dreckigen“ Luft.
Im Großen und Ganzen entsprechen Helligkeitsabstufungen dem Eindruck von Entfernungsabstufungen. In Experimenten unter Laborbedingungen wird die Richtung der Abstufung allerdings unterschiedlich aufgefasst. Einige Testpersonen tendierten zur Interpretation „Hinten dunkel, nach vorne hell“, andere zur Abstufung „Vorne dunkel, nach hinten heller“³² ³³.

Die vorgestellten optischen Hinweise für die Vordergrund-Hintergrund-Unterscheidung funktionieren auch für Bildausschnitte.

Auf dem ersten Ausschnitt ist der Vordergrund heller, gesättigter und kontrastreicher als der Hintergrund. Im zweiten Ausschnitt ist der Vordergrund zwar schon recht kontrastarm, aber immer noch erheblich kontrastreicher als der Hintergrund, der gänzlich frei von Details ist und zudem einen starken Blaustich aufweist. Der letzte Ausschnitt zeichnet sich vor allem durch den Kontrast zwischen einem dunkleren Farbton im Vordergrund und einem bläulichen Hintergrund aus, der in der Natur bei großen Distanzen durch die dazwischenliegende Atmosphäre entsteht. Diese lokalen Hinweise helfen dem Wahrnehmungssystem, die Szenerie schnell zu erfassen.

Übergänge versus plötzliche Farbänderungen

Die Abbildung unten Abbildung zeigt Farbquadrate von Jon Koenderink. Hoffman verwendet sie, um zu zeigen, dass die gleichen Farbunterschiede von unserem Wahrnehmungssystem verschieden interpretiert werden, je nachdem, ob sie in einem kontinuierlichen Übergang auftreten wie links, oder wenn es plötzliche Übergänge in Farbton, Sättigung oder Helligkeit gibt wie rechts. Die Teilquadrate rechts sind genau die gleichen wie die auf der linken Seite. Die mit 1 und 2 markierten Quadrate entsprechen sich jeweils. Im Gesamtquadrat links ergibt sich der Eindruck einer einheitlichen Fläche. Auf der rechten Seite hingegen scheint es sich nicht um eine einzige, zusammenhängende Fläche, sondern um eine zufällige Anordnung kleiner Flächen zu handeln.

Farbquadrate von Jon Koenderink zur Verdeutlichung der Wirkung kontinuierlicher Farbübergänge im Gegensatz zu willkürlichen Farbänderungen – Aus: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 146

Hoffmann erklärt die unterschiedliche Wahrnehmung mit den folgenden zwei Regeln.

Regel 21: Interpretiere allmähliche Veränderungen von Farbtönen, Sättigung und Helligkeit in einem Bild als Beleuchtungsveränderungen.

Regel 22: Interpretiere plötzliche Veränderungen von Farbtönen, Sättigung und Helligkeit in einem Bild als Flächenveränderungen.

Licht von Über-Kopf

Eine weitere, sehr plausible Wahrnehmungshypothese, die Hoffmann aufgreift, ist die, dass Licht stets von „über Kopf“ kommt. Diese Annahme stimmt mit den Wahrnehmungssituationen auf der Erde überein, bei der die natürlichen Lichtquellen Sonne oder auch Mond eine Szenerie immer von oben oder allenfalls von der Seite her beleuchten, nie aber, abgesehen von eher seltenen Reflektionen, von unten.

Das Bild unten verdeutlicht die Wirkung dieser Wahrnehmungshypothese. Unser Wahrnehmungssystem erkennt fünf nach außen gestülpte Halbkugeln, während eine weitere Halbkugel, mittig in der unteren Reihe, nach innen gestülpt zu sein scheint.

Simulation einer Beleuchtung von links oben – Bild nach Hoffmann, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 152

Die folgende Abbildung ist mit der vorherigen zu 100 % identisch. Sie wurde lediglich um 180 Grad gedreht. Mit der Drehung der Figur ändert sich auch die Interpretation des Wahrnehmungssystems. Nun erscheinen der Hypothese entsprechend die vorher ausgestülpten Halbkugeln hineingedrückt und umgekehrt.

Drehung des Bildes sorgt für eine Änderung der Tiefenwahrnehmung, da nach wie vor eine Beleuchtung von oben angenommen wird.

Zusammenfassung

Mit diesen Betrachtungen zur Architektur der Wahrnehmung haben wir verdeutlicht, dass Wahrnehmung grundsätzlich selektiv, dafür aber relativ schnell erfolgt. Darüber hinaus wurde auch deutlich, dass das jeweils Wahrgenommene eine Konstruktion ist. Das bedeutet nicht, dass das Ergebnis willkürlich ist, denn willkürliche Hypothesen würden uns keinen Geschwindigkeitsvorteil verschaffen, sondern eher für Verwirrung sorgen. Deshalb können wir, wenn wir die Mechanismen der Wahrnehmung verstanden haben, Erkennungsvorgänge gezielt unterstützen. Gleichwohl können wir als Gestalter mit der Anwendung einiger grundlegender Regeln eine bestimmte Wahrnehmungsinterpretation nicht erzwingen, denn was in der jeweiligen Situation für den Betrachtenden von Bedeutung ist, hängt von vielen Faktoren in der Umwelt ebenso ab wie von den Erfahrungen des Wahrnehmenden selbst. Jedoch gilt, je besser und umfassender wir die Bedingungen menschlicher Wahrnehmungssituationen durch die Ausnutzung der Regeln bzw. Wahrnehmungshypothesen gestalten können, desto wahrscheinlicher wird auch der von uns intendierte Wahrnehmungseindruck entstehen. Vor allem aber können wir dadurch Hindernisse und Umwege und zusätzliche Anstrengungen bei der Wahrnehmung vermeiden.

Damit beginnt jetzt unsere eigentliche Arbeit. Denn, wie Sie in dem nun folgenden Praxisteil sehen werden, lassen sich die hier behandelten Erkenntnisse leider weder kontextfrei anwenden noch widerspruchsfrei miteinander verknüpfen. Es entstehen immer Konflikte. Wir kombinieren daher die technischen Potenziale mit den Erfordernissen, die wir aus der Architektur der Wahrnehmung abgeleitet haben, um diese Konflikte bei der Gestaltung an praktischen Beispielen auszutarieren.

Up next

Grundforderung: Reduzierung erzwungener Sequenzialität