Grundlagen

In den ersten drei Kapiteln stellen wir den Ansatz und die grundlegenden Konzepte vor, von denen wir unsere konkreten Hinweise zur ergonomischen Gestaltung von Nutzungsoberflächen ableiten. Dabei werden wir auch den Begriff der Interaktion präzisieren. Diese Kapitel bilden die Grundlage für viele Gestaltungsempfehlungen, die wir hier aber noch nicht vertiefen. Wenn Sie in erster Linie an den praktischen Hinweisen interessiert sind, können Sie diese drei Kapitel überspringen und direkt mit der Praxis starten. Wir empfehlen Ihnen jedoch nachdrücklich, diese Kapitel zu lesen, denn damit werden nicht nur die praktischen Forderungen verständlicher, sondern auch allgemeingültig begründet. Mit diesem Wissen lassen sich die praktischen Beispiele nicht nur leichter erschließen, sondern es liefert auch den nötigen Hintergrund, um die jeweiligen Gestaltungshinweise auf Techniken und Anwendungsbereiche zu übertragen, die wir in diesem Buch nicht behandeln.

Differenzerfahrung und Artefaktgebrauch

Zum besseren Verständnis und zur kritischen Bewertung eines Werkes ist es hilfreich, die zugrundeliegende Sichtweise oder auch Philosophie der Autoren zu kennen. Sichtweisen beleuchten bestimmte Aspekte oder Phänomene, lassen dafür aber andere im Dunkeln. Dabei geht es nicht um einzelne Fakten oder Befunde, sondern um die Frage, welche als relevant oder dem Zweck angemessen ausgewählt und wie sie mit anderen in Beziehung gesetzt werden. Je nach Zwecksetzung und Sichtweise eröffnen sich unterschiedliche Zugänge, wobei oftmals mehr als eine Sichtweise hilfreich sind.

Im Bereich der Softwareergonomie stammen viele Theorieansätze aus der Psychologie. Der unsrige tut dies nicht, denn wir arbeiten nicht in der Psychologie, sondern in der Informatik oder, im weitesten Sinne, in der Technikentwicklung. Damit ist für uns auch der Gegenstand ein anderer: Nicht das Entwickeln theoretischer Grundlagen zum Verstehen menschlichen Handelns ist unser Erkenntnisziel, sondern die ergonomische Gestaltung von Software. Wir gehen deshalb sowohl in der Praxis als auch bei der Erarbeitung unseres konzeptuellen Rahmens von der physischen Umwelt des Menschen sowie der Anreicherung dieser Umwelt mit Geräten, Instrumenten und Formalismen aus. Dabei interessiert uns vor allem, welche ihrer Eigenschaften und Merkmale neue oder erweiterte Handlungsoptionen eröffnen (Potenziale) und welche sich als hinderlich oder gar belastend erweisen. Diese Kopplung zwischen menschlichem Denken¹ und der Umwelt des Menschen steht für uns im Kern aller Überlegungen, denn schließlich sind Nutzungsschnittstellen eines Computers nichts anderes als technisch gestaltete physische Arbeitsumgebungen. Da es vorrangig um die Unterstützung geistiger Prozesse geht, sprechen wir in Analogie zum Werkzeugbegriff auch von Denkzeugen.

Der erste Teil unserer Grundlagen beschäftigt sich mit dem Konzept der Differenzerfahrung, mit dem wir die Brücke zwischen menschlichem Handeln und der Rolle von Denkzeugen schlagen. Das Konzept der Differenzerfahung dient uns seit vielen Jahren als Forschungsparadigma nicht nur hinsichtlich der Gestaltung von Nutzungsschnittstellen, sondern auch bei der hypothesengeleiteten Entwicklung von Softwaresystemen, angefangen bei der Entwicklung schulischer und universitärer Lehr-/Lernumgebungen über virtuelle Forschungsumgebungen bis hin zur Konzeption neuartiger Interaktionstechniken². Mithilfe dieses Konzepts ist es uns gelungen, Potenziale von Denkzeugen zu identifizieren und darauf aufbauend Gestaltungskonzepte zu formulieren.

Differenzerfahrung braucht sinnliche Wahrnehmung. Wenn wir in diesem Buch von „Wahrnehmung“ sprechen, konzentrieren wir uns meist auf den Sehsinn. Das Sehen spielt nicht nur bei jeder Form von „Wissensarbeit“ eine entscheidende Rolle, sondern ist auch der wichtigste Sinneskanal bei der Gestaltung von Nutzungsschnittstellen, die trotz Siri, Alexa und Co. immer noch größtenteils visueller Natur sind und das wohl auch bleiben werden. Diesen Punkt greifen wir im Abschnitt Dialog in den Exkursen nochmals auf.

Kognition und Umwelt

Der Philosoph Ludwig Wittgenstein stellt in seinen „Philosophischen Untersuchungen“³ die Frage, ob es möglich sei, eine Annahme über eine realweltliche Gegebenheit durch pures Nachdenken und Erinnern zu bestätigen oder zu widerlegen. Wittgenstein zieht dazu unter anderem einen Fahrplan als Beispiel heran. Der leichteren Formulierbarkeit halber sei im Folgenden, wenn auch sicher nicht sehr realistisch, davon ausgegangen, dass ein Fahrplaneintrag für eine Verbindung zu einem bestimmten Zeitpunkt auch bedeutet, dass tatsächlich zu diesem Zeitpunkt ein entsprechender Zug fährt. Ein Fahrplan kann unter diesen Bedingungen herangezogen werden, um festzustellen, ob zu einem bestimmten Zeitpunkt ein Zug zu einem gewünschten Ort abfahren wird. Er kann dann insbesondere dafür genutzt werden herauszufinden, ob die Annahme einer Person tatsächlich stimmt, dass zu einem gewissen Zeitpunkt, sagen wir um 15 Uhr, ein bestimmter Zug abfährt. Dass der Fahrplan sich für eine solche Überprüfung eignet, liegt daran, dass sein Inhalt unabhängig von den jeweiligen Erwartungen einer bestimmten Person fixiert ist. Man kann, wie Wittgenstein es formuliert, „an eine unabhängige Stelle appellieren“, nämlich an den Fahrplan, um sich Gewissheit zu verschaffen.

Die „unabhängige Stelle“ ist in diesem Fall ein physisches Objekt, der gedruckte Fahrplan. Etwas selbst Vorgestelltes kann nicht zur Überprüfung herangezogen werden, denn etwas Vorgestelltes ist keine „unabhängige Stelle“, da es nicht unabhängig von der Person ist, die es sich vorstellt. Wittgenstein macht das deutlich mit der Frage, ob denn nicht das aus der Erinnerung wieder hervorgebrachte Bild eines Fahrplans zur Überprüfung der Annahme dienen könne und bentwortet diese Frage:

Nein, denn dieser Vorgang muss nun wirklich die richtige Erinnerung hervorrufen. Wäre das Vorstellungsbild des Fahrplans nicht selbst auf seine Richtigkeit zu prüfen, wie könnte es die Richtigkeit der ersten Erinnerung bestätigen? (Als kaufte Einer mehrere Exemplare der heutigen Morgenzeitung, um sich zu vergewissern, dass sie die Wahrheit schreibt.)

In eine ähnliche Richtung argumentiert der Psychologe J.J. Gibson. Auch er verweist auf die Unmöglichkeit einer nur mental vorgenommenen Überprüfung und richtet den Fokus auf die Frage, was eine Vorstellung von der Realität unterscheidet. Der entscheidende Unterschied liegt seiner Darstellung nach darin, dass nur bei einer Untersuchung von Gegebenheiten der Realität Neues und Überraschendes gefunden werden könne. Wenn man etwas untersucht, das man sich nur vorstellt, kann das Ergebnis nicht in diesem Sinne unerwartet sein, denn dieses Ergebnis entstammt ja der eigenen Vorstellungswelt.

An imaginary object can undergo an imaginary scrutiny, no doubt, but you are not going to discover a new and surprising feature of the object this way. For it is the very features of the object that your perceptual system has already picked up that constitute your ability to visualize it. The most decisive test for reality is whether you can discover new features and details by the act of scrutiny. Can you obtain new stimulation and extract new information from it? Is the information inexhaustible? Is there more to be seen? The imaginary scrutiny of an imaginary entity cannot pass this test.⁴

Diese Gedankengänge machen zunächst stutzig, denn man kann sich über Gegebenheiten und Konzepte ja durchaus länger Gedanken machen, ohne andauernd „an eine unabhängige Stelle zu appellieren“, also ohne ständige Rückversicherung gegen etwas außerhalb des Kopfes. Bei solchen mentalen Prozessen kann auch etwas aufscheinen, das einem vorher nicht bewusst war. Es gibt jedoch eine gewichtige Einschränkung dieses „Denkens im Kopf“. Auch wenn nicht jeder einzelne Denkvorgang einer Wahrnehmung der Außenwelt bedarf, ist nämlich nach einer gewissen Zeit die Rückversicherung zur Realität unerlässlich⁵.

Nun könnten Sie einwenden, dass man sich sogar vieles vorstellen und manches bedenken kann, das es in der Realität nicht gibt. Literarische Werke leben davon. Wenn ein Utopist eine Gesellschaft entwirft oder ein Kinderbuchautor über einen rosa Elefanten auf Rollschuhen schreibt, dann halten diese Gedanken, obwohl es sie in unserer Vorstellungswelt gibt, einer Überprüfung in der realen Welt nicht stand. Trotzdem stellen sie vielfältige Bezüge zu dieser Welt her. Die Welt der Utopie ist nicht real und höchstwahrscheinlich finden sich auch keine rosa Elefanten auf Rollschuhen in unserer Umwelt, aber die Versatzstücke, aus denen die jeweilige Vorstellung zusammengesetzt ist, existieren eben doch. Dies könnten etwa bestimmte Gesellschaftsformen oder technische Entwicklungen sein oder Elefanten und Rollschuhe bei der Kindergeschichte. Wären diese nie der Wahrnehmung zugänglich, dann wären sie auch dem Denken nicht zugänglich gewesen. Es gibt sie als Phantasiegebilde und man kann an sie glauben, aber solange sie nicht mittels Differenzerfahrung mit der Umwelt abgeglichen werden können, verkörpern sie kein Wissen über unsere Umwelt.

Ein Denken rein im Kopf ist mit einem Tauchgang vergleichbar. Taucher können die Luft für eine gewisse Zeit anhalten. Mit Übung oder einem Tauchgerät können sie die Zeit bis zum notwendigen Auftauchen zwar verlängern, aber sie müssen irgendwann wieder auftauchen, um zu atmen. Das Atmen entspricht der Differenzerfahrung, denn ohne fortwährenden Abgleich von Vorgestelltem und sinnlich Wahrgenommenem gibt es kein Wissen und keine Gewissheit. Wir gehen deshalb von der Annahme aus, dass Denken letztendlich nicht ohne Wahrnehmung stattfinden kann: „Das Denken findet nicht im Kopf, sondern mit dem Kopf statt!“.

Zusammengefasst: Differenzerfahrung bezeichnet den Prozess der kognitiven Anpassung des Menschen an seine Umwelt. Sie ermöglicht es, über ein Phänomen, einen Sachverhalt oder einen Gegenstand neue Informationen zu gewinnen und darüber Erwartungen zu bestätigen oder zu widerlegen. Essenziell dafür ist, dass die sinnlich wahrgenommenen Eigenschaften oder Veränderungen unabhängig von den eigenen Erwartungen sind. Differenzerfahrungen passieren unablässig – gewissermaßen ein kognitives Atmen –, um Vorstellungswelt und Realität abzugleichen. Wichtig für das Verständnis des Konzepts ist, dass der Begriff der Differenz auch die Bestätigung von Annahmen und nicht nur Unterschiede oder Abweichungen umfasst. Differenzerfahrung beschreibt also den Vorgang und die Notwendigkeit des Abgleichs, nicht sein Ergebnis.

Der Kern von Differenzerfahrung, Hypothesen aufzustellen und diese mit der Realität abzugleichen, ist, wie wir im Kapitel Architektur der Wahrnehmung sehen werden, auch die Grundlage der menschlichen Wahrnehmung, denn das Wahrnehmungssystem kann nicht alle sensorischen Reize und Reizkombinationen auswerten, sondern ist auf Hypothesen angewiesen, die dann gezielt an einzelnen Punkten überprüft werden. Die auf diese Art gewonnene Schnelligkeit wird jedoch mit einem Verlust an Informationen bezahlt. Damit das nicht zu Unsicherheiten führt, ob denn auch die jeweils relevanten Wahrnehmungsreize aus der Umwelt aufgenommen wurden, muss diese Informationsreduktion sich in allen möglichen Wahrnehmungssituationen als verlässlich erweisen. Wahrnehmung ist kein statischer und passiver Prozess, sondern erfordert die Verschränkung kontinuierlichen Hypothesenbildens und aktiven motorischen Handelns. Im nächsten Abschnitt wollen wir anhand einiger einfacher Experimente verdeutlichen, wie eingeschränkt unsere Möglichkeiten zur Differenzerfahrung ohne mentale und physische Bewegung sind.

Persistente Objektarrangements

Experiment zur unmittelbaren Wahrnehmung von Anzahlen – Bild: Ifrah, Georges: Universalgeschichte der Zahlen. 2. Auflage. Campus Verlag Frankfurt am Main/New York. 1991

Für viele Differenzerfahrungen ist es notwendig, mehrere Objekte gleichzeitig ins Wahrnehmungsfeld zu bringen, um sie in Beziehung setzen zu können. Das gilt für einfache Vergleichsoperationen ebenso wie für das Zählen oder Ordnen. Zum Abgleich zwischen Vorstellung und Realität ist zudem meist ein stabiles und beständiges Umfeld erforderlich. Wir sprechen in einem solchen Fall von „Persistenz“. So mögen etwa Tiere, die auf der Weide wild durcheinanderlaufen, zwar stets zusammen im Wahrnehmungsfeld präsent sein, doch ist eine solche Herde kaum zählbar. Da die Tiere fortwährend ihren Platz wechseln, kann nicht ohne Weiteres verlässlich festgestellt werden, ob ein bestimmtes Tier schon gezählt worden ist oder nicht.⁶

Eine Beschränkung unseres Wahrnehmungsapparates lässt sich gut anhand des Bildes oben veranschaulichen: Der Hund, die zwei Löwen, die vier Bäume sowie die drei Pyramiden sind hinsichtlich ihrer Anzahl schnell zu erfassen. Bei sehr kleinen Mengen reicht dafür ein kurzer Blick. Allerdings müssen dazu die Objekte beieinanderstehen. Wären die Bäume verteilt, wären sie je nach Anordnung bzw. Abstand voneinander schwieriger zu zählen. Die Anzahl der Karaffen zu ermitteln ist schon erheblich aufwändiger. Statt eines kurzen Blicks muss ein bewusster Prozess des Abzählens erfolgen. Die Konsequenz ist, dass die Objekte so lange stabil sichtbar sein müssen, bis der Abzählprozess beendet ist. Würden sie zwischendurch erscheinen oder verschwinden oder sich während des Zählvorgangs bewegen, müsste man sich zusätzlich zum jeweiligen Zählstand auch noch merken, welche Objekte schon gezählt worden sind. In diesem Fall hätten wir es mit mehreren kognitiven Prozessen zu tun: Wir müssten individuelle Merkmale für jedes Objekt ermitteln, uns merken, welche Objekte wir schon gezählt haben, und gleichzeitig das Zählen selbst vornehmen. Das überfordert uns in den meisten Fällen. Bei gleich aussehenden Objekten hätten wir noch ein weiteres Problem, das wir nur durch die Hinzunahme von Denkzeugen wie z. B. individuelle Markierungen oder den Aufbau eines Zählgatters lösen könnten. Wenn man sich jedoch die Anzahl der individuell gezeichneten Köpfe ansieht, stellt man fest, dass die Identifikation einen erheblich größeren Aufwand an Zeit und Konzentration erfordert als das Zählen. Sie können sich das plausibel machen, indem Sie sich selbst beim Zählen der Köpfe beobachten. Sie werden nicht ermitteln, wie viele unterschiedliche Köpfe es gibt und was den jeweiligen Unterschied ausmacht, sondern Sie werden zum Abzählen in aller Regel die Köpfe entlang eines Pfades einen nach dem anderen abwandern und sie dabei zählen. Als einzige zusätzliche Information müssen Sie sich in diesem Fall nur die jeweilige Position im Prozess merken. Allerdings kann die Position schnell zu einem komplexen Gebilde werden, denn wenn die Anzahl größer wird und die Objekte sich nicht mehr auf einer gradlinigen Trajektorie befinden, müssten wir uns zusätzlich auch noch entsprechende Richtungsänderungen merken. Wenn sich jetzt auch noch die Objekte laufend verändern würden, müssten wir weitere zusätzliche Informationen als Zwischenergebnisse oder Zwischenzustände beim Zählen erfassen und bearbeiten.

Entscheidend ist die Stabilität des Wahrnehmungsfeldes bzw. der Objekte in ihm, die durch die Forderung nach Persistenz erfüllt werden kann. Bei unserem Bildbeispiel ist dies gegeben, denn das Bild verändert sich während des Betrachtens bzw. Zählens nicht. Würden wir das Bild aber immer nur für etwa eine Sekunde zeigen, würde Ihnen das Zählen der Karaffen, Köpfe oder der Striche kaum gelingen. Das Gleiche gilt, wenn wir die Elemente animieren würden. Persistenz ist eine essentielle Forderung, doch reicht sie allein nicht aus. Je größer oder ungeordneter die jeweiligen Mengen präsentiert werden, desto schwieriger ist ein Abzählen. Um die elf Köpfe zu zählen, liegt es bereits nahe, ein Hilfsmittel zu nutzen, denn die Differenzerfahrung wird erheblich einfacher und sicherer, wenn man z. B. die Köpfe einzeln ausstreicht.

Ob mit Hilfsmitteln oder nicht, entscheidend für den Erfolg beim Zählen der Objekte ist das persistente räumliche Arrangement. Es spielt aber nicht nur beim Zählen eine entscheidende Rolle: Nehmen wir als Beispiel zwei Gegenstände wie die unten abgebildeten Stifte. Diese sollen hinsichtlich ihrer Länge verglichen werden. Selbst wenn das Arrangement der Gegenstände persistent bleibt, ist es schwer, die entsprechende Differenzerfahrung zu machen. Vergleiche bezüglich der Dicke, der Form und der Farbe sind leicht zu machen, aber für die Länge ist der Vergleich in dieser Situation schwierig.

Längenvergleiche bei unterschiedlichen Arrangements

Im linken Bild kann man bei der gegebenen Perspektive auf die Stifte und aufgrund ihrer Anordnung zueinander nicht entscheiden, welcher der beiden Stifte der längere ist. Eine Änderung der Betrachtungsposition würde nicht helfen, denn die Stifte liegen so weit auseinander, dass man sie dann nur nacheinander anschauen könnte. Außerdem würde sich ihr ungünstiger Winkel zueinander in keinem Falle ändern. Wenn man die Stifte jedoch so arrangiert, dass sie sich stabil in unmittelbarer Nähe in paralleler Ausrichtung befinden wie im rechten Bild, ist die Einschätzung der relativen Längen unmittelbar ersichtlich.

Wahrnehmung und Handeln

Um Differenzerfahrung machen zu können, ist es also oft notwendig, die zu überprüfenden Phänomene oder zu untersuchenden Gegenstände mit ihren Eigenschaften möglichst persistent im Wahrnehmungsfeld zu halten oder sie dorthin zu bringen. Ein einzelner visueller Schnappschuss ist grundsätzlich mehrdeutig, weil es beim Interpretieren der zweidimensionalen Netzhautbilder immer mehrere Möglichkeiten gibt, daraus ein dreidimensionales Modell der Umwelt zu erstellen. Dabei muss man sich verdeutlichen, dass ein Wahrnehmungsereignis immer im Zusammenhang mit anderen Ereignissen steht und darüber unser Gehirn „Verrechnungen“ vornimmt, um einen stimmigen Gesamteindruck zu erzeugen. Die Interpretation des Wahrgenommenen ist eine Konstruktion auf Basis der „sensorischen Daten“. Um die damit verbundenen Hypothesen zu überprüfen, was unser Wahrnehmungssystem übrigens ohne unser bewusstes Zutun dauerhaft anstellt, ist aktives Handeln nötig.

Als Beispiel diene der Teller in der folgenden Abbildung, der aus einem schrägen Blickwinkel fotografiert worden ist. Auf der Netzhaut des Auges bildet sich die Form einer Ellipse ab. Ob sich beim Betrachter nun der Eindruck eines runden oder eines elliptischen Tellers einstellt, hängt von individuellen Erfahrungen ab. Will man auf Grundlage des ersten Eindrucks überprüfen, ob es sich in der Tat um einen kreisrunden oder um einen elliptischen Teller handelt, ist es unumgänglich, den Kopf in eine andere Position zu bringen oder den Teller hochzunehmen und zu kippen. Erst durch Erreichen einer lotrechten Perspektive, also etwa direkt von oben, kann die Hypothese, dass es sich um einen kreisrunden Teller handelt, bestätigt oder verworfen werden.

Die Silhouette ist oval, obwohl der Teller kreisrund ist.

Zur Differenzerfahrung bezüglich der Tellerform ist eine Perspektivenveränderung und damit eine Interaktion mit der Umwelt notwendig. Diese Notwendigkeit besteht für alle Formen der Differenzerfahrung, bei der wir Hypothesen über die Beschaffenheit von Gegenständen anstellen, beispielsweise „Wie setzt sich der Körper in der Tiefe fort?“ oder „Wie ist seine Rückseite beschaffen?“. Angenommen unsere Hypothese lautet, die Unterseite dieses Tellers besitze die gleiche Oberflächenbeschaffenheit wie die Oberseite, dann müssten wir die Unterseite unseres Tellers ins Blickfeld bringen, indem wir uns selbst, den Gegenstand oder beides bewegen. Differenzerfahrung erfordert also neben einer Umwelt, deren Verhalten unabhängig von den Erwartungen oder Annahmen des Wahrnehmenden ist, ein handelndes Subjekt, das Wahrnehmen und Handeln in einer spezifischen Art und Weise miteinander verknüpft. Um Differenzerfahrungen zu ermöglichen bzw. zu unterstützen, gilt es, Handlung und Wahrnehmung sowohl zeitlich als auch räumlich eng zu koppeln. Je größer die Zeitspanne zwischen den Wahrnehmungsereignissen ist, die miteinander in Beziehung gesetzt werden müssen, desto schwieriger ist es, verlässliches Wissen über die Umwelt zu erlangen. Liegen Handlungsort und Wahrnehmungsort räumlich weit auseinander, führt das zwangsläufig auch dazu, dass die Zeitspanne zwischen Handlung und Wahrnehmung größer wird, denn beide können erst zeitlich versetzt zum Gegenstand der Aufmerksamkeit werden. Die daraus resultierende Forderung, einen engen zeitlichen und räumlichen Zusammenhang von Handlung und Wahrnehmung herzustellen, bezeichnen wir als „Kopplung von Handlungs- und Wahrnehmungsraum“.

Fassen wir zusammen: Mithilfe des Konzepts der Differenzerfahrung haben wir verdeutlicht, dass Denken nicht im Kopf, sondern mit dem Kopf stattfindet, denn wie die Beispiele zeigen, ist es erst durch den Abgleich von Erwartungen und Vorstellungen mit der Umwelt möglich, Wissen zu schöpfen und überprüfbare Einsichten zu entwickeln. Doch nicht alle interessanten Aspekte sind so offensichtlich und unmittelbar einsichtig wie die Beispiele mit den Stiften und dem Teller. Hier setzt unser Konzept der Denkzeuge an, mit dessen Hilfe wir aufzeigen, wie wir die sensorischen und kognitiven Beschränkungen unseres Körpers erweitern und so zu neuen Einsichten gelangen können. Wir erweitern damit die Möglichkeiten für neue Differenzerfahrungen.

Denkzeuge

Differenzerfahrungen durch Perspektivenwechsel, Arrangieren oder durch das Bereitstellen einer persistenten Anordnung sind relativ passiv. Zwar wird dann und wann mal ein Objekt bewegt, aber im Großen und Ganzen wird die Umwelt so belassen, wie sie ist. In vielen Fällen muss der Aufwand für Differenzerfahrung über diese recht statische Beobachtung hinaus gehen. Was würde man in obigem Beispiel mit den Stiften machen, wenn man sie, aus welchem Grund auch immer, nicht gemeinsam ins Wahrnehmungsfeld bringen könnte? Nehmen wir an, es wären nicht zwei Stifte, sondern zwei Felsen, die in ihrem Umfang verglichen werden sollen. Wir gehen davon aus, dass es nicht möglich ist, die Felsen für einen Abgleich zu versetzen. Was kann man nun tun, um an die gesuchten Erkenntnisse zu kommen? Ein zusätzliches Hilfsmittel, das sich besser handhaben lässt, wird benötigt, um die Felsen mit diesem Dritten zu vergleichen. Mit anderen Worten: Man würde den Umfang der Felsen mit einem Messgerät erfassen. Als Messgerät nehmen wir der Einfachheit halber eine Schnur, die um den ersten Felsen gelegt wird und dann in der Länge des Umfangs markiert wird. Beim Ausmessen des zweiten Felsens kann man durch Vergleich der Markierungen auf der Schnur dann ablesen, welcher Felsen größer ist oder ob beide gleich groß sind. Es ist nun ein drittes physisches Objekt an der Differenzerfahrung beteiligt, das für den Zweck des Vergleichens hergestellt bzw. für diesen Zweck angepasst worden ist. Generell bezeichnen wir ein künstlich (ars, artis), also vom Menschen hergestelltes (factum) und wahrnehmbares Objekt als Artefakt, um sie z. B. gegen Vorstellungsobjekte abzugrenzen. Da jedoch unter einem Artefakt in verschiedenen Wissenschaftsdisziplinen und in der Umgangssprache etwas sehr Verschiedenes verstanden wird und auch die Informatik unterschiedliche Ausprägungen dieses Begriffs kennt, reicht für unsere Zwecke eine einfache Definition:

Ein Artefakt ist ein von Menschen hergestellter, persistenter Gegenstand.

Für Artefakte, die zum Zweck der Differenzerfahrung hergestellt bzw. eingesetzt werden, benutzen wir den Begriff Denkzeug. Die Schnur, die Stifte und auch der Schreibtisch, auf dem die Stifte liegen, sind solche Denkzeuge, wenn sie zum Zweck der Differenzerfahrung eingesetzt werden. Auch Zeichen auf einem Blatt Papier (Inschrift) werden wir, genau wie das Blatt selbst, als Artefakt bezeichnen. Dasselbe gilt für ein Zeichen oder eine Grafik an einem Bildschirm. Nun mag man dazu neigen, eine Inschrift als persistent und dauerhaft zu betrachten, eine Bildschirmanzeige jedoch nicht. Der entscheidende Punkt ist nicht die absolute physische Dauerhaftigkeit, sondern unter dem Blickwinkel des Denkzeugs die Tatsache, dass das Artefakt mindestens so lange präsent bleibt, bis die jeweilige Differenzerfahrung abgeschlossen ist. Wir betrachten Persistenz deshalb nicht als unabhängige physische Eigenschaft, sondern unter dem Blickwinkel, dass die jeweiligen Denkzeuge den unmittelbaren Akt des Erzeugens und Nutzens bis zum jeweiligen Handlungsabschluss überdauern. Alle Artefakte haben das Potenzial, als Denkzeug zu fungieren; sie bereichern unsere Umwelt und damit das Reich für mögliche Differenzerfahrungen. Ob und welche Differenzerfahrungen das sind, hängt von der jeweiligen Art und Weise ihrer Verwendung ab. Die Schnur beispielsweise ermöglicht den Vergleich des Umfangs verschiedener Felsen, wenn man sie wie erläutert verwendet. Die Art und Weise, wie Artefakte zu erzeugen und zu manipulieren sind, bezeichnen wir als Technik. Beispielsweise ist im obigen Beispiel das Arrangieren, bei dem die Stifte an einem Ende ausgerichtet werden, eine Technik, um Differenzerfahrung zu ermöglichen.

Ob ein Artefakt oder eine Technik ein Mittel zur Differenzerfahrung ist, liegt nicht im Artefakt oder in der Handlung an sich, sondern hängt vom Einsatzzweck ab. Ein geradezu sprichwörtliches Beispiel ist der Knoten in einem Taschentuch mit dem Zweck, sich an etwas zu erinnern.

Taschentücher sind von Menschen hergestellte Objekte, also Artefakte. Sie sind aber zunächst einmal nicht als Mittel zur Differenzerfahrung gedacht, denn wir benutzen Taschentücher nicht, um Hypothesen zu überprüfen, sondern um uns die Nase zu putzen oder etwas wegzuwischen. Ein Taschentuch mit einem Knoten kann – muss aber nicht – als Denkzeug fungieren. Erst wenn der Knoten für diesen Zweck gezielt hergestellt worden ist, kann er als Denkzeug fungieren, da er unabhängig von der Vergesslichkeit der jeweiligen Person persistent ist und so eine Differenzerfahrung über die Zeit ermöglicht. Hat man jedoch vergessen, an was der Knoten erinnern soll, oder ist er zum passenden Moment nicht im Wahrnehmungsfeld präsent, scheitert die Differenzerfahrung. Das Taschentuch, ebenso wie alle anderen Denkzeuge, bietet nur das Potenzial für mögliche Differenzerfahrungen, nötigt sie aber weder auf noch erzwingt es sie. Der Begriff „Denkzeug“ charakterisiert also unabhängig von den spezifischen physischen Eigenschaften die Funktion von Artefakten, Unterschiede in der Umwelt zum Anlass für Differenzerfahrungen zu machen.

Für die Erfüllung dieser Funktion ist entscheidend, dass sie das Ergebnis der Differenzerfahrung nicht verfälschen dürfen. Ein Problem, dass die Wissenschaften seit der Begründung der experimentellen Naturwissenschaft durch Galileo bis hin zu den digitalen Geisteswissenschaften intensiv beschäftigt.

Beispiel: Fernrohr

Ein klassisches Beispiel für ein Artefakt als Mittel zur Differenzerfahrung ist der Einsatz eines Fernrohrs. Ein Fernrohr zählen wir zu den Instrumenten. Instrumente offenbaren Objekt- oder Prozesseigenschaften, die mit dem menschlichen Wahrnehmungsapparat allein nicht wahrnehmbar wären. Betrachten wir das an einem historischen Beispiel: Galileo Galilei ging der Frage nach, ob die sichtbaren Flecken auf dem Mond Farb- oder Höhenunterschiede sind. Mit bloßem Auge ist eine Unterscheidung hier nicht möglich, denn für die erforderliche Differenzerfahrung ist das Auflösungsvermögen des Auges nicht ausreichend bzw. der Mond am Himmel zu klein. Mit Galileos Fernrohr konnte nun die Wahrnehmungsgranularität geändert werden, indem etwas weit Entferntes gewissermaßen „herangeholt“ wurde.

Mithilfe des Fernrohrs konnte Galilei dann erkennen, dass zum einen immer ein ganzer Mond zu sehen ist, der dunkle Teil also immer schemenhaft erkennbar ist, und zum anderen die Grenze zwischen dem hellen und dem dunklen Teil des Mondes nicht gerade und glatt verläuft, sondern vielmehr unruhig und zackig. Diese Verlaufslinie war für ihn ein klares Indiz dafür, dass er einen Schattenwurf auf einer unebenen Oberfläche beobachtete und dass es folglich auf dem Mond Erhöhungen und Vertiefungen geben müsse.

Abgesehen von der kirchlichen Problematik, ob es denn statthaft sei, die göttliche Himmelsmechanik mit einem von Menschenhand gefertigten Gerät zu untersuchen, musste sich Galilei auch aus wissenschaftlicher Sicht zu Recht Fragen gefallen lassen. Wie zum Beispiel lässt sich beweisen, dass die Strukturen, die er beobachtet hat, tatsächlich Eigenschaften des Mondes sind und nicht etwa Eigenschaften des Fernrohrs selbst? So etwas kommt vor. Manch ein vorgeblich fotografiertes UFO entpuppte sich im Nachhinein als Reflexion innerhalb des Linsensystems. Es ist schwer, den Nachweis zu führen, dass ein Mittel zur Differenzerfahrung keine Verfälschungen oder Verzerrungen beinhaltet. Es erfordert aufwändige, organisierte Differenzerfahrungen, indem man Vergleiche mit weiteren Teleskopen anstellt, die Beobachtungen auf andere Bereiche überträgt, aus den Erfahrungen heraus Grundlagen der Optik entwickelt und all dieses durch weitergehende Beobachtungen und Aktivitäten bestätigt, wie dies beispielsweise heutzutage mithilfe der Raumfahrt und mit Satelliten möglich ist.

Der Prozess der Aufstellung von Hypothesen, ihrer Überprüfung durch Hilfsmittel, der Wiederholung der Überprüfung zu anderen Zeitpunkten durch andere Personen, der Infragestellung der Überprüfungsmethoden und des späteren Ergänzens um weitere Methoden ist eine typische Charakteristik der Naturwissenschaften⁷. In den Naturwissenschaften reicht eine einzelne Differenzerfahrung nie aus, denn die Naturwissenschaften systematisieren die fortwährende Verzahnung von Hypothesenbildung und (experimenteller) Überprüfung. Nur wenn etwas mehrfach an verschiedenen Orten von verschiedenen Personen und idealerweise mit verschiedenen Mitteln festgestellt und repliziert werden kann, gilt es als gesichert. Wie wir gesehen haben, gilt dies auch schon für die Wahrnehmung selbst, denn ein einziger isolierter kurzer Blick ist für eine gesicherte Erfahrung nicht ausreichend. Eine einzelne Differenzerfahrung stellt also einen Anlass für neue Hypothesen dar, die dann wiederum durch weitere Differenzerfahrungen überprüft werden müssen.

Beispiel: Wärmebildkamera

Aufnahme einer Wärmebildkamera – Bild: Lutz Weidner [CC BY-SA 2.0 de]

Auch in diesem Szenario der Überprüfung der Wanddämmung sind Handeln und Wahrnehmen miteinander verschränkt. Zeigt die Kamera ein Bild, wie auf der Abbildung zu sehen, bleibt es wahrscheinlich nicht bei diesem einen Bild, denn auf die Erkenntnis, dass ein Dämmproblem vorliegt, erfolgt ja in der Regel eine Handlung. Das Ergebnis dieser Handlung muss dann wieder auf ähnlichem Wege überprüft werden. Die Differenzerfahrung mittels eines Instruments gab also die nötigen Hinweise, die für das Einleiten einer Handlung nötig waren. Die Überprüfung ihres Erfolgs bedarf erneuter Differenzerfahrung.

Beispiel: Schiefe Ebene

In unserem dritten Beispiel, der schiefen Ebene, handelt es sich um eine experimentelle Konstruktion. Beim experimentellen Konstruieren geht es im Vergleich zu den Instrumenten nicht um das Verstärken oder Transformieren (Visualisierung oder Sonifikation, wie etwa beim Geigerzähler) von nicht direkt wahrnehmbaren physikalischen Größen, sondern darum, eine Umgebung zu schaffen, in der Objekteigenschaften oder Naturphänomene, wie beispielsweise die Schwerkraft, einer systematischen Beobachtung zugänglich gemacht werden. „Systematisch“ bedeutet hier, ein experimentelles Arrangement zu schaffen, in dem die Beobachtung jeweils unter ausgewählten Randbedingungen wiederholt werden kann. Über die Kontrolle der Auswahlparameter kann der Geltungsbereich hypothetischer Annahmen überprüft werden. Das erfordert umfangreiche Transformationen, um das Phänomen studierbar zu machen. Dabei können zwar Störeinflüsse beseitigt werden, doch werden zugleich neue idealisierte Bedingungen geschaffen, die selbst wieder einer kritischen Überprüfung standhalten müssen.

Dies lässt sich an einem weiteren wissenschaftshistorischen Beispiel aus dem Repertoire von Galileo Galilei beschreiben, der Entdeckung der Fallgesetze. Der Legende nach hat Galilei die Fallgesetze untersucht, indem er Gegenstände vom Schiefen Turm von Pisa hat herunterfallen lassen. Dabei soll er die beschleunigte Bewegung beobachtet haben. Kann das sein? Um die Eigenschaften des Fallens, also die beschleunigte Bewegung, zu messen, müsste die Position des fallenden Objekts zu festgelegten Zeiten nach dem Fallenlassen oder die vergangene Zeit beim Passieren des Objekts an festgelegten Orten gemessen werden. Unter den Bedingungen einer Fallhöhe von 56 Metern, einer Fallzeit von nur 3,4 Sekunden und einer Geschwindigkeit von 120 km/h beim Aufprall konnte Ende des 16. Jahrhunderts aber keine solche Beobachtung angestellt werden. Dafür hätte es etwa Lichtschranken und sehr genauer Uhren bedurft. Solche Geräte standen damals nicht zur Verfügung.

Experimentalaufbau zum Freien Fall mit schiefer Ebene und Wasseruhr

Die geniale Idee Galileis war es nicht, etwas vom schiefen Turm fallen zu lassen, sondern statt des Falls eines Objekts die beschleunigte Bewegung einer Kugel auf einer schiefen Ebene zu beobachten. Auf diese Weise konnte er den Prozess derart verlangsamen, dass er mit damaligen Mitteln beobachtbar und sogar messbar wurde. Das obere Bild verdeutlicht das experimentelle Arrangement von Galilei. Da kurze Zeitspannen damals noch nicht direkt messbar waren, bediente er sich einer Wasseruhr und maß anstelle der Zeit das Gewicht des in ein Gefäß gelaufenen Wassers. Wiegen konnte man gut, denn genaues Wiegen war für den Handel wichtig. Auf der Ebene konnten an verschiedenen Stellen Barrieren angebracht werden, sodass die herabrollende Kugel unterschiedlich lange Strecken durchlief. Der Wasserzulauf wurde beim Erreichen der Barriere gestoppt und somit die vergangene Zeit für den zurückgelegten Weg gemessen. Galilei tüftelte die Positionen der Barriere so aus, dass die Zeit, die die Kugel brauchte, um die Barriere zu erreichen, sich jeweils um die initiale Zeitspanne verlängerte. Hatte er das erreicht, wurden die Abstände der Barrieren gemessen und beides miteinander in Beziehung gesetzt. Dieses Experiment wurde in verschiedenen Formen mit verschiedenen Neigungen der Ebene wiederholt. Da die Zeit für die Bewältigung des Weges zwischen zwei Barrieren immer gleich war, der Abstand sich aber zunehmend vergrößerte, konnte er aus den Ergebnissen auf eine beschleunigte Bewegung beim Fallen von Objekten schließen.

Die Konstruktion aus schiefer Ebene, Barrieren und Wasseruhr ermöglichte es, den freien Fall eines Körpers der sinnlichen Wahrnehmung zugänglich zu machen. Es handelt sich bei dieser experimentellen Anordnung aber nicht um ein Beschleunigungsmessinstrument, sondern um eine Konstruktion, mit deren Hilfe man gewissermaßen der Umwelt gezielt Fragen stellen kann, indem man die passenden Randbedingungen herstellt.

Die experimentelle Anordnung Galileis wäre heute nicht mehr unbedingt nötig, denn heute gelänge es wohl, die Beschleunigung eines fallenden Gegenstands auch direkt – zum Beispiel am Schiefen Turm von Pisa – mit Instrumenten zu messen. Es gibt aber viele Fälle, in denen die Wahrnehmung bestimmter Eigenschaften der Natur ohne eine experimentelle Konstruktion nicht möglich ist. Um zum Beispiel nachzuweisen, dass die Fallgesetze für alle Körper unabhängig von ihrer Masse gleichermaßen gelten, dass also eine schwere Bleikugel und eine leichte Feder gleich schnell fallen, ist eine Konstruktion unumgänglich. Das Fallenlassen beider Objekte von einem hohen Punkt aus würde mit noch so genauen Instrumenten nicht zur Wahrnehmung einer gleich schnellen, beschleunigten Bewegung führen. Es braucht eine Konstruktion, in der ein Vakuum erzeugt wird, in dem die Objekte dann ohne den Einfluss des störenden Luftwiderstands frei fallen können.

Die geschaffenen, idealisierten Bedingungen schaffen neue Möglichkeiten der Beobachtung. Ein reines Beobachten ist für so etwas wie das Aufstellen der Fallgesetze für sich genommen aber noch nicht ausreichend. Das In-Beziehung-Setzen von Zeit (Wasseruhr) und Fallstrecke (Abstände zwischen den Barrieren) erfordert zusätzlich Rechenprozesse (Formalismen). Auch solche formalen Transformationen wie das (schriftliche) Rechnen sind ein Mittel zur Differenzerfahrung, zumindest dann, wenn man nicht aus Spaß an der Freude rechnet, sondern wenn sich die Rechnung auf eine reale Gegebenheit bezieht, denn dann kann man mit der Berechnung etwas über die Umwelt herausfinden.

Beispiel: Rechnen

Es sind zehn Stückchen Kuchen da. Sechs Freunde sollen am Nachmittag zu Besuch kommen. Für jeden soll es mindestens zwei Stückchen Kuchen geben. Reicht der Kuchen, oder muss noch nachgekauft werden? Wie ist in diesem Fall Differenzerfahrung möglich? Man könnte es drauf ankommen lassen, sprich, man lässt die Leute kommen und jeder soll versuchen, seine zwei Stückchen Kuchen zu essen. Will man es aber vorher wissen, muss man rechnen, und wahrscheinlich haben Sie es schon im Kopf überschlagen: 6*2 = 12 > 10 – es reicht nicht. Die Technik des Rechnens hat uns als Mittel zur Differenzerfahrung gedient.

Um rechnen zu können, muss es möglich sein, das realweltliche Problem in einer formalen Art und Weise aufzuschreiben⁸. Wenn das der Fall ist, kann man formale Umformungsregeln, ein sogenanntes „Kalkül“, auf die Zeichen anwenden. Genau wie bei den anderen Mitteln zur Differenzerfahrung können formale Umformungen wie das schriftliche Rechnen gerade deshalb ein Mittel zur Differenzerfahrung sein, weil der Rechenprozess und damit auch sein Ergebnis völlig entkoppelt von den Hypothesen oder Erwartungen des Rechnenden sind. Die Berechnung oben und die Art und Weise, wie man sie durchführt, hat nichts mit der eigenen Einschätzung der Kuchenverhältnisse zu tun. Der Formalismus und seine Umformungsregeln sind davon unabhängig. Korrekt zu rechnen, hat nichts mit menschlicher, sinnhafter Interpretation zu tun, sondern mit dem korrekten Befolgen von Regeln, wobei diese sich nur auf die Form und Anordnung der Zeichen beziehen.

Wenn ein Sachverhalt angemessen in den Formalismus übertragen worden ist, sind durch den Formalismus die Voraussetzungen für Probehandeln und Vorhersagen gegeben, die sonst nicht möglich wären. Formale Operationen haben also einen konstruktiven Charakter. Wenn die monatlichen Ausgaben mit dem zu erwartenden Gehalt verrechnet werden, kann frühzeitig festgestellt werden, ob noch Spielraum für weitere Anschaffungen besteht. Die Rechnung hat etwas sichtbar gemacht, was in den Zahlen grundsätzlich schon steckte, aber nicht unmittelbar der Wahrnehmung zugänglich war.

Ob das Ergebnis einer formalen Umformung wie einer Berechnung für die Beurteilung von Gegebenheiten in der Umwelt von Belang ist, ist keine Eigenschaft der Rechenregeln, sondern ob man die richtige Modellierung und das richtige formale Transformationssystem angewandt hat. Wie eine Redensart besagt, könne man Äpfel und Birnen nicht vergleichen, aber man kann sie durchaus addieren. Drei Äpfel und zwei Birnen ergeben fünf Stücke Obst. Will man aber wissen, was passiert, wenn man 1 m³ Ammoniak und 3 m³ Luft mischt, ist ein anderes formales Modell vonnöten. Die Wissenschaft der Chemie hat hier einiges im Angebot. Ein Addieren gemäß der Rechenregeln ist zwar möglich, führt aber nicht zur gewünschten Differenzerfahrung. Das Ergebnis „1 m³ Ammoniak + 3 m³ Luft = 4 m³ Gasgemisch“ wäre zwar richtig gerechnet, aber keine gute Voraussage für den tatsächlichen Versuch, weil dieser nicht zu 4 m³ eines Gasgemisches führen würde, sondern eher zu einem zerstörten Labor.

Die bislang angestellten Überlegungen verdeutlichen bereits unsere Herangehensweise. Schon beim Beispiel mit dem Zählen haben wir den mentalen Aufwand über den Gegenstandsbereich der Wahrnehmung und der jeweils zu erledigenden Aufgabe bestimmt und gezeigt, dass schon bei einer relativ geringen Anzahl von Objekten eine Technik des bewussten Zählens erforderlich ist. Je nach Arrangement und der gewählten Vorgehensweise sind weitere Informationsverarbeitungsprozesse notwendig, die relativ schnell unsere mentale Kapazität übersteigen. Mithilfe zusätzlicher physischer Hilfsmittel wie Markierungen oder der Mess-Schnur lassen sich Komplexität und kognitiver Aufwand verringern.

Externes Gedächtnis

Denkzeuge bieten nicht nur das Potenzial für Differenzerfahrung, sondern sie können zugleich in erheblichem Umfang für mentale Entlastungen sorgen. Oft geht das eine mit dem anderen einher. Dies wird in einer Anekdote aus Georges Ifrahs Buch „Die Universalgeschichte der Zahlen“⁹ anschaulich beschrieben:

Stellen wir uns einen Hirten vor, der nicht ‚zählen‘ kann und der eine Hammelherde zu hüten hat, die er allabendlich in einer Höhle einschließt. Es handelt sich um 55 Hammel, aber unser Hirte ist nicht in der Lage zu begreifen, was die Zahl 55 bedeutet. Er weiß lediglich, daß er ‚viele‘ Hammel hat. Da ihm diese Aussage zu ungenau ist, möchte er doch gerne wissen, ob seine Hammel jeden Abend auch vollzählig zurückgekehrt sind. Eines Tages hat er eine Idee… Er setzt sich in den Eingang seiner Höhle und läßt seine Hammel einen nach dem anderen hinein. Jedesmal, wenn ein Hammel an ihm vorbeikommt, macht er eine Kerbe in einen Wolfsknochen. Auf diese Weise hat er mit dem Durchgang des letzten Tieres genau fünfundfünfzig Kerben geschnitzt. Nun legt er jeden Abend, wenn seine Hammel wie immer einer hinter dem anderen zurückkommen, jedesmal den Finger in eine Kerbe, von einem Ende des Knochens bis zum anderen. Und wenn sein Finger dann bei der letzten Kerbe angekommen ist, ist unser Hirte beruhigt, denn nun sind alle seine Hammel in Sicherheit.

Der Schäfer in Ifrahs Anekdote hat ein Artefakt erzeugt, mit dem ihm etwas möglich wurde, was er selbst nicht konnte, nämlich zählen. Selbst wenn er hätte zählen können, wäre die Technik praktisch, denn die Kerben im Knochen halten das Endergebnis, die Zahl 55, fest, und die gefundene Zähltechnik mit linearem Abgreifen der Kerben vermeidet die Notwendigkeit, sich Zwischenergebnisse merken zu müssen. Die Kerben-Ritz-Technik des Schäfers ist ein Mittel zur Differenzerfahrung, denn der „Zählvorgang“ hat nichts damit zu tun, was der Zählende von ihrem Ausgang erwartet. Er hängt nur von der Anzahl der Schafe und der Anzahl der Ritzen ab, die beide unabhängig vom Zählenden sind. Die vom Schäfer gewählte Technik, Kerben in einen Knochen zu ritzen, eröffnet aber weit mehr Potenziale als nur eine Zählunterstützung und Gedächtnisentlastung. Dadurch dass die Technik auf einer persistenten Einschreibung (Kerben) in ein Medium (Knochen) basiert, kommen den Zählprozessen eine Reihe von „Unabhängigkeiten“ von der aktuellen Situation zu [^Gedächtnismedien]:

Unabhängigkeit vom Zeitpunkt: Da der Knochen persistent ist, kann die Überprüfung der Hammelzahl zu einem beliebigen anderen Zeitpunkt durchgeführt werden.
Unabhängigkeit vom Ort: Da der Knochen kompakt ist und mitgenommen werden kann, muss der Schäfer seine Überprüfung nicht etwa immer am gleichen Ort durchführen, sondern kann dies überall dort tun, wo er die Schafe vereinzeln kann.
Unabhängigkeit von der Person: Der Knochen kann an einen anderen Schäfer weitergegeben werden. Dieser Schäfer kann dann, ohne die ursprünglichen Einritzungen vorgenommen zu haben und ohne jemals vorher diese Herde gezählt zu haben, die Vollständigkeit der Herde überprüfen.

Die Technik, Kerben bzw. allgemeine Zeichen in einen Knochen zu ritzen, ist eine Einschreibtechnik. Beim Knochen kann man den Begriff „Einschreiben“ sehr wörtlich verstehen, denn es wird ja tatsächlich etwas in den Träger hineingeritzt. Wir nutzen das Wort „Einschreibtechnik“ hier aber etwas allgemeiner auch für alle Techniken, bei denen Zeichen auf einen Träger aufgebracht werden, indem dieser chemisch, physikalisch oder mechanisch verändert wird. In all diesen Fällen sagen wir, dass etwas in den Träger „eingeschrieben“, also untrennbar mit dem Trägermaterial verbunden ist. Mit technischen Mitteln lässt sich nur dieses Trägermaterial bearbeiten, nicht die Zeichen selbst. Einschreibtechniken sind, allgemeiner formuliert, Aufzeichnungstechniken. Technisch gesehen bedeutet Aufzeichnen, dass Prozesse Spuren in einem Artefakt hinterlassen. Dies gilt für das händische Ritzen oder Schreiben, wo die Schriftzeichen die Spur des Stifts auf dem Papier sind, oder auch für technische Aufzeichnungstechniken wie dem Einritzen von Rillen in Wachsplatten bei einer Schallplatte oder den Magnetisierungen von Metallbeschichtungen bei einer Festplatte. Die aufgezeichneten Spuren sind unabhängig vom zeitlichen und örtlichen Vollzug wiederholt bedenk- und bearbeitbar. Um eine Schallplatte, eine Musikkassette oder ein Videoband wiedergeben zu können, bedarf es aber neben dem Aufzeichnungsmedium selbst auch Kenntnisse über die Aufzeichnungs- und Wiedergabetechnik, denn aus dem Artefakt der Platte mit den Rillen oder der Festplatte mit der magnetisierten Beschichtung allein geht nicht hervor, welche Art von Aufzeichnung es ist und wie sie wiedergegeben wird, denn grundsätzlich ließe sich auch auf einer Schallplatte oder einer Musikkassette ein Bild speichern oder ein Videoband für die Aufzeichnung seismischer Aktivitäten nutzen.

Im Gegensatz zu den physisch wahrnehmbaren Spuren sind Bedeutungen und Interpretationen keine Eigenschaften der Artefakte. Die Bedeutung von Zeichen und Spuren erschließt sich Personen, die nicht mit dem Kontext der Aufzeichnungsprozesse vertraut sind, meist nicht. Bedeutungen von Zeichen sowie von sprachlichen Ausdrücken müssen immer sozial koordiniert werden. Dass Sie diesen Text lesen können, liegt an den Vereinbarungen über die Zeichen unseres Alphabets, den Regeln der deutschen Schriftsprache und den Erfahrungen und Konventionen zum Gebrauch. Kurz: Sie können diesen Text lesen, weil Sie die lateinischen Buchstaben kennen und lesen gelernt haben, weil Sie der deutschen Sprache mächtig sind und weil Sie zumindest im Groben eine Ahnung von den Dingen haben, über die wir sprechen. Auch die Nutzungsschnittstelle von Computersystemen besteht aus Zeichen und Spuren und auch deren Bedeutung erschließt sich logischerweise nicht aus sich selbst heraus. Das Erschließen eines komplexen interaktiven Systems ist daher – zumindest zu Beginn der Nutzung – mit einem hohen Lernaufwand verbunden. Dieser erfordert immer Differenzerfahrung und damit die Notwendigkeit, die zuvor besprochenen Voraussetzungen für diese Differenzerfahrungen zu schaffen.

Bei analogen Inschriften besteht ein Konflikt insofern, als dass nur das Trägermedium sowohl der technischen als auch der manuellen Bearbeitung zugänglich ist. Damit besteht auf nahezu allen Ebenen der Wissensarbeit ein Konflikt zwischen Persistenz und Manipulierbarkeit.

Objektgranularität und Räumlichkeit

Der vorhergehende Abschnitt macht deutlich, dass bei Einschreibtechniken Zeichen und andere Artefakte in ein räumliches Arrangement zu bringen sind, um effektiv Differenzerfahrungen ermöglichen zu können. Selbst bei der Zähltechnik des Hirten wurden die Kerben nicht willkürlich in den Knochen eingeritzt, sondern so, dass sie nacheinander mit dem Finger abgetastet werden konnten. Auch beim schriftlichen Rechnen spielt die Anordnung der Zeichen eine entscheidende Rolle, denn sie ist für eine korrekte Ausführung der Rechenoperationen und letztlich auch für das Aufschreiben und Lesen der Zahlen im Stellenwertsystem entscheidend.

Räumliche Arrangements sind überall dort wichtig, wo im Rahmen von Wissensarbeit mehrere Artefakte berücksichtigt werden müssen. Wenn Sie Dokumente sichten, stehen diese oft nicht für sich, sondern werden in Beziehung zu anderen Dokumenten und Artefakten gesetzt. Meist ist nicht das gesamte Dokument für den jeweiligen Zweck relevant. Sie brauchen vielmehr Ausschnitte, die Sie mit anderen kombinieren, mit eigenen Notizen und Anmerkungen ergänzen, bis schließlich ein neues Dokument entstanden ist. Der Prozess der Sichtung von Dokumenten und der Annotation und der Verdichtung zu einem neuen Dokument ist ohne die Möglichkeit der räumlichen Anordnung kaum durchzuführen. Sie müssten unentwegt in Dokumenten blättern und zusammenhängende Quellen blieben genauso voneinander getrennt wie Notizen zu dem, auf das sie sich beziehen. Sie würden im wahrsten Sinne des Wortes schnell den Überblick verlieren, weil insbesondere bei längerer Arbeit der jeweilige (Zwischen-)Stand Ihrer Erkenntnisse nicht durch eine schnelle direkte Wahrnehmung erfassbar wäre.

Ein Schreibtisch als Arbeitsplatz für Wissensarbeit – Bild: Die.keimzelle (CC BY 3.0)

Ein Schreibtisch, wie beispielsweise hier abgebildet, ist ein traditionelles Möbel für diese Form von Wissensarbeit. Die Schreibtischoberfläche verkörpert einen geeigneten Raum, weil sie in der Regel groß genug ist, die unterschiedlichen Schriftstücke und Notizzettel auszubreiten und sie gemeinsam ins Wahrnehmungsfeld zu bringen. Zugleich bleibt jedes einzelne Schriftstück zur Bearbeitung in Reichweite. Werden beim Arbeiten mit den Dokumenten Zusammenhänge und Abhängigkeiten festgestellt, lassen sich diese auf einem Schreibtisch durch die Anordnung räumlich abbilden. Unter anderem ist es möglich, Dokumente zu ordnen und zu gruppieren, indem sie beispielsweise auf einen gemeinsamen Stapel oder in eine definierte Reihenfolge gelegt werden. Soll ein bestimmtes Dokument besondere Aufmerksamkeit genießen, kann dies zum Beispiel durch die Position, etwa direkt am Sitzplatz des Wissensarbeiters oder aber durch eine explizite Auszeichnung ausgedrückt werden. Ein Dokument könnte etwa schief auf einen Stapel gelegt werden, es kann farblich markiert werden oder eine Ecke einer Seite kann zu einem Eselsohr umgeknickt werden. Auf diese Weise können neue Dokumente oder Notizen hinzukommen, ohne dass die bisherige Anordnung komplett geändert werden müsste. Das jeweils aktuelle Arrangement verkörpert also zu einem gewissen Grad den erreichten Stand in der Wissensarbeit und kann deshalb selbst als Denkzeug betrachtet werden.

Betrachtet man von den vielen Möglichkeiten an einem Schreibtisch die Aspekte der räumlichen Anordnung, können wir eine kleine Zahl grundlegender räumlicher Arrangieroperationen als Techniken ausmachen:

Erzeugen: Es muss möglich sein, neue Artefakte im Wahrnehmungsfeld zu erzeugen. Damit ist nicht gemeint, dass ein Dokument im Sinne seines Trägers, also das Papier selbst, erzeugt wird, sondern dass es möglich ist, Zeichen in einen Träger einzuschreiben und damit persistent verfügbar zu machen.

Einfügen: Eine grundlegende Voraussetzung für eine Arbeitsumgebung ist die Möglichkeit, weitere Artefakte zum vorhandenen Arrangement hinzuzufügen. Im Büro kann das zum Beispiel geschehen, indem ein Dokument aus einem Aktenschrank oder einem Ordner entnommen und auf den Schreibtisch gelegt wird.

Umordnen: Ein Großteil der Wissensarbeit in einer Arbeitsumgebung wie einem Schreibtisch bedeutet, Artefakte an- und umzuordnen, sie also im Wahrnehmungsfeld zu bewegen. Das Schaffen solcher Arrangements eröffnet die Möglichkeit, Artefakte zu vergleichen und aufeinander zu beziehen. Darüberhinausgehend ist es möglich, bestimmten Positionen eine Bedeutung zuzuordnen und Gruppen mit gemeinsamen Merkmalen zu bilden.

Entfernen: Genauso wie Artefakte in den Wahrnehmungsraum gebracht oder in ihm erzeugt werden können, muss es möglich sein, Artefakte aus dem Wahrnehmungsfeld zu entfernen. Das kann in diesem Zusammenhang bedeuten, ein Artefakt zu zerstören. Es kann aber, gerade beim Beispiel Schreibtisch, auch das Ablegen eines nicht mehr benötigten Dokuments bedeuten.

Mit diesen vier Operationen sind bereits viele der typischen Handlungen zum Erzeugen eines Dokument-Arrangements möglich. Eine weitere, besondere Operation ist jedoch dann nötig, wenn der interessierende Bedeutungsausschnitt nicht mit der Granularität des Trägermediums identisch ist. Das Arrangieren eines einzelnen Artefakts reicht dann nicht mehr aus. Vielmehr muss bislang Zusammenhängendes nun getrennt behandelt werden.

Rekomponieren: Rekomponieren beinhaltet die Möglichkeit, die Granularität eines Artefakts zu verändern, also Artefakte in mehrere einzelne Objekte zu zerteilen und einzeln zu bearbeiten oder auch mehrere Objekte zu einem gemeinsamen Artefakt zusammenzufassen. Ist dies flexibel möglich, kann man etwa einen Text dadurch erstellen, dass Abschnitte und Kapitel räumlich sortiert und dann zu einem gemeinsamen Objekt zusammengefügt werden.

Jeder von Ihnen, der an einem komplexen Projekt gearbeitet und dafür Dokumente auf dem Schreibtisch ausgebreitet hat, wird schon festgestellt haben, dass es schon bei umfangreicheren Artefakten an diesen wenigen Funktionen Probleme geben kann. Nehmen wir als Beispiel eine Aufgabe, bei der Sie in einem Buch nach interessanten Aspekten forschen. Sie finden einen interessanten Punkt, sagen wir mal auf Seite 20. Ein anderer damit zusammenhängender Aspekt steht auf Seite 53. Sie würden nun gerne die Seite 20 nach links hin anordnen und die Seite 53 auf den Stapel auf der rechten Seite befördern, um beide schnell in Bezug setzen zu können. Das Buch ist dafür aber nicht gemacht, denn die Seiten sind, im wahrsten Sinne des Wortes, gebunden. Sie könnten nun das Buch auseinanderreißen, um seine Teile, wie oben beschrieben, rekomponieren zu können. Alternativ könnten Sie an einen Kopierer gehen, zwei Kopien machen, die Sie interessierenden Teile ausschneiden und diese dann nach Ihren Wünschen anordnen. In beiden Fällen machen Sie jedoch einen Umweg, denn Sie beschäftigen sich für eine gewisse Zeit nicht mit Ihrer eigentlichen Recherche und den Inhalten, sondern mit dem Objekt Buch, dem Kopierer und der Schere, also den technisch-materiellen Veränderungen der jeweiligen Trägermedien.

Persistenz versus Bearbeitbarkeit

Dieses und viele ähnlich gelagerte Probleme liegen an einer Grundcharakteristik analoger Medien, nämlich der, dass Persistenz, also Beständigkeit, und Bearbeitbarkeit sich entgegenstehen. Bei vielen Formen von Wissensarbeit wie dem Prozess der Texterzeugung wird aber sowohl Persistenz als auch Bearbeitbarkeit gefordert, denn mit Artefaktunterstützung über etwas nachzudenken, heißt einerseits Artefakte zu bearbeiten, aber andererseits auch das Festhalten von Ergebnissen in persistenten Einschreibungen.

Alles, was analog eingeschrieben ist, ist persistent, und damit auf dieser Ebene der Einschreibung nicht mehr bearbeitbar. Das verdeutlicht ein Beispiel: Wenn Sie die Zahlen 1 2 3 4 5 6 auf Papier schreiben, dann sind sie persistent dort eingeschrieben. Solange der Papierträger nicht zerstört wird, bleibt die Anordnung der Zeichen erhalten. Zwar kann man einzelne Zahlen umrahmen oder unterstreichen, ihnen also etwas hinzufügen. Man kann je nach eingesetzter Technik die Zahlen sogar chemisch (Tintenkiller) oder mechanisch (Radiergummi) entfernen, aber ein Arrangieren im Sinne eines Bewegens der Zeichen selbst ist nicht möglich. Wenn man nun unter das Geschriebene einen Strich macht und die gleichen Zeichen in der Anordnung

1  2  3
6  5  4

neu aufschreibt, hat man die Zeichen nicht wirklich arrangiert, sondern ein komplett neues Arrangement bestehend aus neuen Zeichen erstellt. Damit einzelne Zeichen in der analogen Medienwelt arrangierbar sind, könnten sie jeweils in einen eigenen Medienträger eingeschrieben werden – in diesem Fall jede Ziffer auf einem eigenen Stück Papier. Diese Träger können dann auf einer Arbeitsfläche wie einem Schreibtisch arrangiert werden. Die Verwendung einer solchen Technik ist ein Trick, denn eigentlich wird das Problem nicht gelöst. Die eingeschriebenen Zeichen können nach wie vor nicht bewegt werden. Stattdessen werden nun die Medienträger selbst bewegt. Die dann entstehende Anordnung ist bearbeitbar, aber nicht mehr im gleichen Maße persistent wie die Einschreibung auf einem Blatt Papier, wie das Öffnen eines Fensters oder ein ungewollter Nieser schnell verdeutlichen können.

Ausschnitt aus einer Übersichtstafel einer Raumplanung

Ein komplexes Beispiel für eine Technik mit kleinen, arrangierbaren Medienträgern ist die obige in einem kleinen Ausschnitt abgebildete Raumplanung. Kleine Karten sind per Magneten an einer stundenplanartigen Struktur befestigt. Gelbe Karten symbolisieren sich wiederholende Veranstaltungen, während rote Karten individuelle Raumbuchungen darstellen. Durch die Tafeln haben die Mitarbeiter der Raumplanung immer die komplette Situation im Überblick. Sie können auf den ersten Blick freie Räume oder sich ergebende Doppelbuchungen erkennen. Durch das Verwenden der kleinen Zettel und der Magnete ist das Arrangement sehr flexibel. Dies geht jedoch stark auf Kosten der Stabilität. Das komplette Arrangement ist recht fragil und ließe sich leicht versehentlich zerstören. Würde man versuchen, das Arrangement zu transportieren, müsste beim Transport große Vorsicht an den Tag gelegt werden. Weniger problematisch in dieser Hinsicht ist der Transport durch ein Foto. Dieses bietet zwar den Vorteil eines Einschreibmediums, indem es den unfallfreien Transport und das Überdauern in der Zeit ermöglicht, hat aber den Nachteil, dass die Flexibilität für Manipulationen verloren geht.

Ergo: Das Eingeschriebene in oder auf einem Träger sorgt einerseits für eine erwünschte Persistenz, erlaubt also, etwas dauerhaft oder wiederholt ins Wahrnehmungsfeld zu bringen. Andererseits führt genau diese Einschreibung dazu, dass die Möglichkeit des Rearrangierens stark eingeschränkt ist. Diese ist nur auf der Ebene der Medienträger, nicht aber auf der Ebene der Zeichen an sich gegeben. Ein auf Papier geschriebener Text kann zerschnitten, rearrangiert und neu zusammengeklebt werden (daher Cut & Paste). Filme wurden früher auf ähnliche Weise „geschnitten“ und neu zusammengeklebt. Auch bei Tonbändern sind das Schneiden und Zusammenkleben auf diese Art möglich.

Digitale Techniken haben ein enormes Potenzial, diesen inhärenten Konflikt zwischen Persistenz und Bearbeitbarkeit neu zu gestalten. Wir werden dieses Potenzial deshalb ausführlicher in unserer Betrachtung von Interaktivität im nächsten Kapitel behandeln.

Differenzerfahrung in Nutzungsschnittstellen?

In diesem Kapitel haben wir das Konzept der Differenzerfahrung skizziert und gesehen, dass Differenzerfahrung die Voraussetzung für verlässliche Erkenntnisse über die Umwelt des Menschen ist. Der Computer ist in unserer Betrachtungsweise Teil dieser Umwelt. Bei der Gestaltung von Nutzungsschnittstellen müssen wir dafür sorgen, dass Differenzerfahrungen ermöglicht werden, indem z. B. die Nutzungsschnittstelle den relevanten Status des Systems klar anzeigt oder dadurch dass Objekte der Nutzungsschnittstelle, die sich aufeinander beziehen, auch gemeinsam dargestellt werden können. Die Mittel zur Differenzerfahrung innerhalb der Nutzungsschnittstelle sollten so gestaltet sein, dass sie Hinweise für Anschlusshandlungen liefern. Dazu müssen die Folgen einer Handlung an den virtuellen Objekten der Nutzungsschnittstelle so sichtbar gemacht werden, dass sie als auf die jeweilige Handlung zurückführbare und nachvollziehbare Reaktionen wahrnehmbar sind. Indem ein Handlungs- und Wahrnehmungsraum entworfen wird, der es ermöglicht, Objekte so zu manipulieren, dass die erforderlichen Differenzerfahrungen ermöglicht werden, lässt sich die Erschließbarkeit eines Systems ergonomisch gestalten ¹⁰.

Im Weiteren konzentrieren wir uns darauf, gemäß der vorgestellten Sichtweise die technischen Potenziale interaktiver Systeme herzuleiten. Zwar funktionieren unsere heutigen Computer vom Grundprinzip her kaum anders als die Rechenungetüme der 1950er und 1960er Jahre, doch waren die damaligen Nutzungsschnittstellen, und damit die möglichen Nutzungsformen, ganz anders als die heutigen. Im folgenden Kapitel werden wir beleuchten, wie sich Nutzungsschnittstellen entwickelt haben und welche Beweggründe es für diese Entwicklungen gab. Dabei werden wir sehen, dass technische Entwicklungen und das mit ihnen einhergehende Potenzial für Differenzerfahrung (Denkzeug) stets in einem Wechselwirkungsverhältnis stehen.

Potenziale interaktiver Nutzungsschnittstellen

Im vorhergehenden Kapitel haben wir das Konzept der Differenzerfahrung eingeführt und beschrieben, wie mithilfe von Denkzeugen der Bereich des Wahrnehmbaren und damit auch des Bedenkbaren stark erweitert werden kann. Dieses Potenzial geht in der Regel mit einer kognitiven Entlastung einher, denn diese Mittel zur Differenzerfahrung überdauern als physische Objekte meist den Prozess der Erzeugung und ermöglichen dadurch Differenzerfahrungen über verschiedene Orte hinweg (Übertragung) als auch Differenzerfahrungen über die Zeit (externes Gedächtnis). Wir wollen nun diese Ideen möglichst konstruktiv auf die Gestaltung von Nutzungsschnittstellen übertragen. Anhand einer kurzen rückblickenden Betrachtung der Entstehung heutiger Nutzungsschnittstellen werden wir die technischen Prinzipien und Konzepte verdeutlichen, bevor wir dann im Hauptteil diese Einsichten zu einem konkreten Gestaltungsansatz verdichten. Damit können wir zugleich auch den Begriff der Interaktivität aus technischer Sicht präzisieren und einige irreführende Annahmen geraderücken.

Nach unserem Verständnis umfasst eine Nutzungsschnittstelle alle wahrnehmbaren und manipulierbaren Objekte, also z. B. auch Dateien und Ordner im Explorer oder Texte und grafische Objekte in einem Präsentationsprogramm. All diese Objekte existieren nur durch die Ausführung eines Programms. Denn nur innerhalb einer Software wie PowerPoint oder Keynote gibt es beispielsweise die Elemente einer Folienpräsentation, also Grafiken und Texte, als sichtbare und manipulierbare Objekte. Unter der Nutzungsoberfläche existieren sie als Datenstruktur und darunter schließlich als Konfigurationen von Zuständen. Erst eine explizit programmierte Nutzungsschnittstelle erzeugt die Objekte auf dem Bildschirm, macht sie ansprechbar und manipulierbar. Zwingend notwendig sind in all diesen Fällen weitere Objekte wie Buttons oder Menüs, deren einziger Zweck das Zugänglichmachen von Programmfunktionen ist. Jacob Nielsen bezeichnet solche Objekte als Chrome¹¹.

Sowohl dieses Chrome als auch die Datenobjekte entstehen durch die Programmierung der Nutzungsoberfläche. Bruce Tognazzini beschreibt in seinem Buch „Tog on Interface“¹² von 1992 die Benutzungsoberfläche des Apple Macintosh als eine „fanciful illusion“, deren Charakter anders sei als das darunter liegende Betriebssystem. Tognazzini zielt mit dieser Beschreibung zwar auf die grafische Nutzungsschnittstelle des Macintosh ab, sein Gedanke trägt aber für Nutzungsschnittstellen generell, denn auch wenn auf einem Unix-System eine Datei auf der Festplatte mit den Befehlen ls gelistet und mit cat ausgegeben wird, geht das nur, weil eine programmierte Nutzungsschnittstelle die Datei als Objekt zur Verfügung stellt. Wenn Sie einen Computer zerlegen, würden Sie keine Dateien finden, selbst wenn Sie die Magnetisierungen auf einer Festplatte oder die Zustände der Bits eines Speichermediums direkt wahrnehmen könnten. Das Betriebssystem liegt als Zwischenschicht¹³ zwischen der Nutzung und der gerätetechnischen Umsetzung. Es sorgt dafür, dass man sich nicht mit den gerätespezifischen Aspekten der Datei und Speicherverwaltung befassen muss. Ebenso sorgt das Betriebssystem dafür, dass ein Programm nicht etwa unter Angabe einer physikalischen Adresse in den Speicher kopiert werden muss, sondern dass das Programm mit einem Bezeichner angesprochen werden kann und dann automatisch geladen wird. Gemäß dieser Kapselung der technischen Realitäten und der gleichzeitigen Bereitstellung virtueller Objekte für die Nutzung sind in unserer Sichtweise große Teile des Betriebssystems auch Teil der Nutzungsschnittstelle eines Computers.

Bei den frühen Computern, die in den 1930er, 1940er und 1950er Jahren gebaut wurden, gibt es noch keine Nutzungsschnittstelle als Zwischenschicht. Die Schnittstellen des Rechners, meist große Bedienkonsolen mit vielen Knöpfen und Lämpchen, entsprachen genau den Hardwarezuständen der Maschine. Es handelte sich um Schnittstellen zur Maschinenüberwachung und -steuerung, nicht um von laufenden Programmen erzeugte virtuelle Objekte. Solche Objekte, die von einem Computer angezeigt und direkt mit dem Computer manipuliert werden können, bedürfen eines interaktiven[^interaktiv] Computers. In diesem Kapitel zeichnen wir anhand der Entwicklung interaktiver Nutzungsoberflächen nach, welche technischen Potenziale diese eröffnen und welche technischen Voraussetzungen gegeben oder entwickelt werden mussten, um sie zu verwirklichen.

Ein Hinweis zur Begriffswahl: Der Begriff „Interaktivität“ wird zwar vielfach verwendet, ist aber kaum definiert. Einen kurzen Überblick über verschiedene Definitionsversuche finden Sie in der Dissertation von Felix Winkelnkemper „Responsive Positioning – A User Interface Technique Based on Structured Space“ auf den Seiten 9 bis 14. Für unsere Zwecke ist es nicht wichtig, eine genaue Definition zu finden, sondern die Eigenschaften der Nutzungsoberflächen herauszuarbeiten, die wir interaktiv nennen. Das ist kein Selbstzweck, sondern die genauere Betrachtung der „Evolution“ der Nutzungsschnittstellen gibt uns wichtige Hinweise auf Gestaltungspotenziale. Potenziale verkörpern immer nur Möglichkeiten, keine Zwangsläufigkeiten. Sie können einen Mehrwert entfalten, müssen dies aber nicht. Manchmal ist das auch nicht gefragt oder gewollt. Oft jedoch entsteht aus dem verschenkten Potenzial ein ergonomisches Problem. Viele der Anforderungen der Kapitel Rückmeldung, Eingabeminimalität und Übergänge, die wir später behandeln werden, können beispielsweise direkt aus solchen Potenzialen abgeleitet werden.

Wir erarbeiten in diesem Kapitel die besagten Potenziale digitaler Nutzungsschnittstellen durch eine Betrachtung ihrer Entstehungsgeschichte. Das kann an dieser Stelle nur schlaglichtartig erfolgen. Es gäbe zur Computergeschichte gerade unter dem Aspekt der Entwicklung von Nutzungsschnittstellen noch viel mehr zu sagen. Wenn Sie das Thema interessiert, können wir Ihnen das Buch „Interface Evolution“¹⁴ empfehlen, welches die Thematik sehr viel umfangreicher behandelt und vor allem auch die Entwicklung der Nutzungsschnittstelle des PCs einbezieht; sie muss an dieser Stelle außen vor bleiben. Für unsere Zwecke reicht es zu skizzieren, welche Ziele und Vorteile jeweils mit der nächsten Entwicklungsstufe des Computers verbunden waren, um darüber die technischen Potenziale zu bestimmen, die wir in Gestaltungskonzepte umsetzen können. Dabei möchten wir zugleich verdeutlichen, wie durch technische Innovationen unnötige Arbeitsschritte eingespart werden können, die weder explizit gefordert werden noch zur Erledigung der jeweiligen Aufgabe erforderlich sind. Vielmehr sind sie der Wahl des jeweiligen Denkzeugs bzw. seiner Ausgestaltung geschuldet. In diesem Sinne bedeutet ergonomische Gestaltung für uns zweierlei: zum einen Belastungen zu vermeiden, zum anderen neue Handlungsmöglichkeiten zu erschließen.

Programmierung durch Verkabelung

Des amerikanische ENIAC wird oft als erster digitaler Computer aufgeführt. Dieser von 1943 bis 1945 für das amerikanische Militär gebaute Rechner war dreißig Tonnen schwer, füllte eine Halle und hatte eine Leistungsaufnahme von sage und schreibe 150 kW. Er war unter anderem für komplexe Berechnungen wie etwa ballistische Flugbahnen konzipiert worden. Seine auffälligste Eigenheit war jedoch, dass er per Verkabelung programmiert wurde und dass Werte unter anderem durch das Stellen von Drehschaltern eingegeben wurden.

Der ENIAC – Bild: Public Domain (US Army Photo)

Das obige Bild zeigt eine typische Ansicht des ENIAC. Auf der linken Seite sehen Sie das Programm in Form der Verkabelung der Hardwaremodule des Rechners. Auf der rechten Seite sind auf fahrbaren Gestellen angebrachte Anordnungen von Drehschaltern zu sehen, mit denen Werte eingestellt werden konnten. Programmieren bedeutete beim ENIAC etwas anderes, als man es sich heute vorstellt. Der ENIAC war ohne Programm, also ohne gesteckte Kabel, einfach nur eine Sammlung von Hardwaremodulen wie einem Taktgeber, Akkumulatoren, Multiplikatoren, Dividierern, Einstellfeldern sowie Druckern, Lochkartenlesern und -stanzern für die Ein- und Ausgabe. Den ENIAC zu programmieren bedeutete, diese Module der gewünschten Berechnung entsprechend miteinander zu verbinden. Ein Programm beim ENIAC war also nicht mit dem erst etwas später eingeführten Begriff „Programm“ im heutigen Sinne zu vergleichen. Gemäß der Konzeption von John von Neuman (1945) wird unter einem Programm eine Folge von Anweisungen verstanden, die dazu dient, den Computer zu steuern. Ein Programm wird Anweisung für Anweisung abgearbeitet. Beim ENIAC kann man das nicht sagen, denn er verarbeitete kein Programm und das Programm steuerte auch nicht den ENIAC. Er verkörperte vielmehr einen Bausatz, der für jedes Programm neu zusammensetzt werden musste. Der ENIAC, der die Funktion A ausführen konnte, war also genau genommen nicht der gleiche Computer wie der, der die Funktion B ausführen konnte.

Ausschnitt aus einem Programm für den ENIAC – Bild: Public Domain (US Army Photo)

Ein Programm für den ENIAC, also seine Verkabelung zum Ausführen einer speziellen Berechnung, wurde auf Papier geplant. Oben ist ein Ausschnitt aus einem solchen „Panel Diagram“ abgebildet. Das Erstellen solcher Pläne dauerte oft Wochen, das Programmieren des Rechners durch das Stecken von Kabeln dauerte mehrere Tage. Die eigentliche Berechnung erfolgte, wenn er bestimmungsgemäß funktionierte und bei der Planung und der Verkabelung kein Fehler passiert war. Innerhalb weniger Minuten oder Stunden war eine Berechnung erledigt.

Computernutzung ohne Computerkontakt

Eine Programmierung durch Konfiguration und Verkabelung von Hardware-Bausteinen war nicht komfortabel und in Bezug auf mögliche Differenzerfahrungen äußerst unzureichend. Spätere Computer (und auch manch frühere) funktionierten deshalb auch nicht mehr auf diese Art und Weise. Um sie zu programmieren, wurde nicht mehr neu verkabelt, sondern ein symbolisches Programm im modernen Sinne wurde von einem Medium eingelesen und zumeist im internen Speicher abgelegt. Typische Medien für Programme waren zunächst Lochstreifen und Lochkarten.

Lochstreifen sind, wie oben zu sehen ist, Papierstreifen mit einer Perforation für den Transport durch einen entsprechenden Leser oder Stanzer. Auf diesen Streifen werden Reihen von Löchern gestanzt. Eine solche Reihe ist jeweils eine binäre Codierung eines Zeichens, also eine Codierung in Ja und Nein, 1 und 0 oder wie in diesem Fall Loch und Nicht-Loch. Typische Lochstreifen ermöglichten pro Zeile 5 oder 8 Löcher je nach eingesetztem System. Die wichtigste Alternative zu Lochstreifen waren Lochkarten. Das Prinzip einer Lochkarte ist dem eines Lochstreifens grundsätzlich sehr ähnlich. Statt eines kontinuierlichen Papierstreifens wurde jedoch eine Vielzahl von Papierkarten verwendet. Ein Lochkartenleser liest einen Lochkartenstapel Karte für Karte ein. Beschrieben werden können Lochkarten mithilfe von Lochkartenstanzern. Üblicherweise entsprach eine Karte einem Datensatz oder, im Falle der Programmierung, einer einzelnen Programmzeile, so etwa auch im unten abgebildeten Beispiel, das zugleich einen weiteren Vorteil offenbart: Neben dem Stanzcode ermöglicht das Trägermedium auch die äquivalente symbolische Beschriftung (im Bild am oberen Rand). Ein weiterer wichtiger Vorteil von Lochkarten war, dass das Trägermedium nicht ein einziges (langes) Artefakt war, sondern feingranularer aufgebaut ist. Dadurch wurden nicht nur lokale Änderungen erheblich vereinfacht, sondern auch die Möglichkeiten, einzelne Karten räumlich oder zeitlich verteilt zu erstellen, sie zusammenzuführen und ihre Reihenfolge zu ändern.

Eine Lochkarte – Bild: Mutatis mutandis (CC-SA 3.0)

Mit Ausnahme weniger früher Computer wurde bei den meisten Geräten das Programm vor der Ausführung komplett eingelesen und in den internen Speicher des Computers übertragen. Um einen solchen „Stored Program Computer“ zu nutzen, mussten sowohl das Programm als auch alle Eingabedaten vor dem Programmablauf vorliegen. Wenn ein neues Programm geschrieben wurde, geschah dies in einem umständlichen und aufwändigen Prozess:

Das Programm wurde auf Papier in einer Assembler-Sprache sehr nah am Maschinencode ausgearbeitet. Auch höhere Programmiersprachen waren möglich. Diese kamen aber erst Anfang der 1960er Jahre auf.
Aus dem Assembler-Code musste das Programm in die Maschinensprache umcodiert werden. Aus Befehlen, die aus kurzen Buchstabenfolgen bestanden, etwa JMP für den Sprungbefehl, wurden Zahlenwerte, die der Computer direkt verarbeiten konnte.
Dieses Maschinensprachenprogramm musste nun auf Lochkarten oder Lochstreifen übertragen werden.
Die Lochkarten oder Lochstreifen mit dem Programm und allen Eingabedaten wurden einem Operator übergeben. Der Operator verwaltete eine Warteschlange von Programmen, die vor dem eigenen noch abzuarbeiten waren.
Wenn das eigene Programm an der Reihe war, ließ der Operator es einlesen, legte die Eingabedaten in den Lochstreifen- oder Lochkartenleser und startete das Programm.
Resultate des Programms wurden auf einem Drucker ausgegeben.
Der Operator legte das Programm, die Eingabedaten und die ausgedruckten Ausgaben des Programms in einem Ausgabefach bereit, wo sie abgeholt werden konnten.

Charakteristisch für diese Arbeitsweise ist, dass die Prozesse der Entwicklung und des Ausführens von Programmen personell und räumlich getrennt waren. Ein Programm musste korrekt in Assembler-Sprache auf Papier programmiert, ggf. fehlerfrei in Maschinencode übertragen und dann auch noch korrekt abgelocht worden sein. Auf all diesen Ebenen konnten Fehler passieren, die sich aber erst während der Ausführung offenbarten. Zudem war es bei dieser Art der Computernutzung nicht möglich, ein Programm zu schreiben, bei dem abhängig vom Programmablauf Entscheidungen getroffen wurden. Alle Entscheidungen mussten vor Beginn der Programmausführung getroffen werden. Die zugrundeliegenden Prinzipien sind unter dem Namen John von Neumanns veröffentlicht. In diesem „First Draft Report on the EDVAC“¹⁵ von 1945 wird ausgeführt:

An automatic computing system is a (usually highly composite) device, which can carry out instructions to perform calculations of a considerable order of complexity — e.g. to solve a non-linear partial differential equation in 2 or 3 independent variables numerically. The instructions which govern this operation must be given to the device in absolutely exhaustive detail. They include all numerical information which is required to solve the problem under consideration: Initial and boundary values of the dependent variables, values of fixed parameters (constants), tables of fixed functions which occur in the statement of the problem. These instructions must be given in some form which the device can sense: Punched into a system of punchcards or on teletype tape, magnetically impressed on steel tape or wire, photographically impressed on motion picture film, wired into one or more fixed or exchangeable plugboards—this list being by no means necessarily complete. All these procedures require the use of some code to express the logical and the algebraical definition of the problem under consideration, as well as the necessary numerical material.

Once these instructions are given to the device, it must be able to carry them out completely and without any need for further intelligent human intervention. At the end of the required operations the device must record the results again in one of the forms referred to above. The results are numerical data; they are a specified part of the numerical material produced by the device in the process of carrying out the instructions referred to above. (Hervorhebung nicht im Original)

Von Neumann beschreibt hier einen Computer, bei dem Programme „without any need for further intelligent human intervention“ ablaufen. Von einer Nutzungsschnittstelle spricht er an keiner Stelle. Auch Computer, wie von Neumann sie charakterisierte, brauchten einige Bedienelemente. Dazu gehörten unter anderem Knöpfe zum Ein- und Ausschalten, zum Starten und Unterbrechen der Operation und zum Einlesen des Programms und der Daten vom Lochkarten- bzw. Lochstreifenleser. In der Tat gab es aber für die eigentliche Funktion des Computers, das Programm selbst, keinerlei Nutzungsschnittstelle. Das Programm lief völlig ohne menschliche Intervention ab. Zwar wurde bei dieser Art von Computern nicht mehr neu verkabelt, um zu programmieren, doch waren Bedienelemente und Anzeigen unabhängig von der jeweiligen Anwendung. Sie zeigten die Funktion von Systemkomponenten an oder gaben direkt den Inhalt von Registern und Akkumulatoren aus und erlaubten deren Manipulation zum Zweck der Fehlerbeseitigung. Sie dienten nicht zur Steuerung des Programmablaufs oder der Eingabe zusätzlicher Daten.

Während das Personal der Rechenzentren in der Frühzeit der Computer noch mit den Datenträgern der Programme und Daten in Kontakt kam, wurden im Laufe der nächsten Jahre die Abläufe zunehmend verkürzt und vereinfacht. Computer wurden im sogenannten Batch-Modus betrieben. Ein Rechenauftrag, üblich war der Ausdruck „Job“, wurde mittels einer vorgelagerten Maschine zunächst auf Magnetbänder übertragen. Der eigentliche Hauptcomputer arbeitete diesen Stapel von Jobs, den „Batch“, nach und nach ab. Ausgaben wurden wiederum auf Magnetbänder geschrieben, die später in eine nachgelagerte Maschine eingelesen wurden, die die Daten auf Papier druckte. Auf diese Art und Weise wurde der Rechenablauf optimiert, da die teure Recheneinheit nicht mehr darauf warten musste, dass neue Lochkarten oder Lochstreifen von langsamen Lesegeräten eingelesen oder Zeichen auf langsamen Ausgabegeräten gedruckt werden mussten. Personen, die die Jobs programmierten, konnte die Optimierung der Zuführung von Programm und Daten egal sein, denn sie kamen mit dem Computer ohnehin nicht direkt in Berührung. Der komplette Programmierprozess war nach wie vor vorgelagert und fand nur mit analogen, mechanischen Mitteln statt. Programmiert wurde auf sogenannten „Codierbögen“. Dies geschah üblicherweise nicht direkt im Maschinencode des Computers, sondern zumindest in Assembler-Code, zumeist aber in einer höheren Programmiersprache wie Fortran, Algol, COBOL oder LISP.

Die große Verzögerung zwischen Programmabgabe und der Ergebnispräsentation stellte ein gravierendes Problem dar, da es kaum jemals gelingt, ein komplexes Programm auf Anhieb korrekt zu schreiben. Meist gibt es Fehler, sowohl syntaktischer als auch semantischer Art. Gerade die semantischen Fehler sind die problematischen, denn bei ihnen kann das Programm durchaus syntaktisch korrekt ausgeführt werden, es tut aber nicht, was man von ihm erwartet. Weil Fehler jedoch erst nach Stunden offenbar wurden, erforderte die Fehlerbeseitigung zusätzlichen organisatorischen und mentalen Aufwand. Heute dagegen ist es möglich, ein Programm bei einem auftretenden Fehler schnell zu korrigieren. Das heute übliche Programmieren durch schrittweises Annähern an die gesuchte Lösung hätte damals Tage bis Wochen gedauert.

Responsivität: Echtzeit-Computer

Die Probleme, die durch die sehr langen Zeiten zwischen Programmabgabe und Aushändigung des Ergebnisses entstanden, sowie der Nachteil, auf Lochkarten und Lochstreifen programmieren zu müssen, ohne den Computer selbst zur Fehlerbehebung und Bearbeitung nutzen zu können, waren offensichtlich. Benötigt wurden Computer im Echtzeitbetrieb, bei denen Eingaben direkt verarbeitet und Ausgaben direkt erzeugt werden konnten. Solche Computer gab es bereits früher, als man meinen sollte. Computer wie die IBM 305 RAMAC oder der Librascope LGP-30 ermöglichten bereits in den 1950er Jahren, einen Computer in gewisser Weise interaktiv zu nutzen. Die RAMAC-Machine etwa wurde für Buchhaltungs- und Verwaltungsaufgaben eingesetzt. Dabei wurden keine hohen Anforderungen an die Rechenleistung gestellt, nur wenige Personen verwendeten den Rechner und auch die Menge der verschiedenen Programme war überschaubar. Unter solchen Bedingungen konnte eine Betriebsart, in der z. B. Lagerstände abgefragt werden konnten und das System zeitnah die Antworten lieferte, durchaus verantwortet werden.

Im Bereich großer Rechenanlagen wurde die Lösung des Problems der langen Zeiten zwischen Programmabgabe und Aushändigung der Ergebnisse und vor allem auch der mangelnden Eingriffsmöglichkeiten während des Programmierprozesses selbst im Time-Sharing gefunden. Die theoretischen Vorarbeiten hierzu begannen schon Mitte der 1950er Jahre. Das erste kommerzielle Time-Sharing-System wurde 1964 am Dartmouth College in Betrieb genommen. Ab Mitte der 1960er Jahre folgten dann viele weitere Systeme. Hinter Time-Sharing steckt die Idee, die Ressourcen des Computers zu teilen. Der Computer ist durchgehend in Betrieb und wird über ein mit ihm verbundenes Terminal genutzt. Meist diente dazu ein Fernschreiber oder eine elektrische Schreibmaschine. Es arbeitet aber nicht nur eine einzige Person mit der Maschine, sondern viele gleichzeitig. Sie werden im Rundumverfahren bedient. Wenn die Geschwindigkeit unterhalb der Wahrnehmungsschwelle liegt, entsteht für alle Beteiligten die Illusion, den Computer jeweils nur für sich allein zu nutzen.

Wenn beim Time-Sharing viele Programme gleichzeitig verarbeitet werden, wird die Abarbeitung eines einzelnen Programms langsamer als vorher, denn der Computer wechselt zwischen den Programmen hin und her. Ein Programm wird also nur in kurzen Schüben ausgeführt. Obwohl sich dadurch die Laufzeit eines Programms verlängerte, war der Verarbeitungsprozess insgesamt viel schneller, weil die enormen Wartezeiten im Batch-Prozess entfielen. Die Zeit von einer Programmkorrektur bis zur Überprüfung, ob die Korrektur zum richtigen Ergebnis führte, dauerte mit dem Time-Sharing nicht mehr Tage oder Stunden, sondern nur noch Minuten oder Sekunden. Mit dem Time-Sharing änderten sich auch die Ein- und Ausgabemedien. Statt Lochkartenstapel abzugeben und als Ergebnis die Lochkarten und den Ergebnisausdruck zurückzuerhalten, wurden nun Befehle per Texteingabe über die Tastatur eines Fernschreibers an den Computer gegeben. Durch die Abschaffung der damit einhergehenden Medienwechsel konnte der Zusatzaufwand für die Behandlung unterschiedlicher Formate und Codierungen sowie der Trägermedien entfallen. Er war allein den mangelnden technischen Möglichkeiten geschuldet und nicht den zu erledigenden Arbeitsaufgaben.

Time-Sharing eröffnete das Potenzial der Responsivität, erhielt aber die komplette Flexibilität der individuellen Programmierung und Datenverarbeitung. Nach wie vor konnten mehrere Personen unabhängig voneinander ihr eigenes Programm erstellen und laufen lassen.

Responsivität bedeutet, dass auf Eingaben innerhalb kurzer Zeit eine Ausgabe erfolgt. Responsivität fördert einen iterativen Stil bei der Problemlösung und ermöglicht es, Lösungsmöglichkeiten durch Probehandeln zu erarbeiten.

Mit dem Übergang zum Time-Sharing ging der Übergang von Konsolen zur Steuerung und Überwachung der Maschine zu eigens programmierten Nutzungsschnittstellen einher. Die Konsolen boten Zugriff auf die Hardware des Rechners, auf interne Zustände und Speicherregister. Von Interesse bei der Nutzung sind jedoch nicht interne Maschinenzustände und Speicheradressen, sondern die Möglichkeiten, die jeweils interessierenden Daten, Funktionen und Objektstrukturen anzusprechen und manipulieren zu können.

Interaktiver Editor

Eine große Errungenschaft der Einführung der Time-Sharing-Technik war die Möglichkeit, Programme direkt am Computer zu programmieren und über den Erfolg der Programmierung zeitnah Rückmeldung zu bekommen. Mittels eines Fernschreibers, der an einen zentralen Computer angeschlossen war, war das grundsätzlich möglich, wenn das Computersystem über einen Editor verfügte, der es erlaubte, ein Programm im interaktiven Betrieb zu schreiben, zu bearbeiten und jederzeit abzuspeichern. Diese Möglichkeit, Programme unter direkter Nutzung des Computers zu bearbeiten und auf diese Weise die Misslichkeiten der Programmierung mit Lochkarten und Lochstreifen hinter sich zu lassen, war eine der Hauptantriebskräfte hinter der Entwicklung von Time-Sharing-Systemen. Dass mit diesen Systemen nun auch Programme möglich waren, die interaktiv gesteuert werden konnten, wurde zwar gesehen, stand aber nicht unbedingt im Vordergrund und war auch nicht in jedem Time-Sharing-System von Beginn an möglich.

Ein Editor zur damaligen Zeit entsprach jedoch nicht unseren heute gebräuchlichen Editoren. Der Grund dafür liegt darin, dass mit Schreibgeräten wie Fernschreibern, Schreibmaschinen oder auch Druckern nur Inschriften produziert werden können. Einmal geschrieben ist der Text fixiert und es lässt sich immer nur etwas Weiteres dazuschreiben. Die Aufgabe eines Editors ist jedoch, einen im Computer befindlichen Text bearbeiten, also ändern zu können. Was auf dem Papier steht, lässt sich aber nicht mehr ändern. Es gibt bei Fernschreibern, ebenso wie bei Schreibmaschinen kein Löschen¹⁶, kein Backspace im heutigen Sinne und keine Möglichkeit, einen Cursor im Text zu positionieren, um etwas an dieser Stelle einzufügen oder zu ersetzen. Diese Aufgaben können nur erledigt werden, wenn es zusätzliche Befehle gibt, die beschreiben, wie ein Text angepasst werden kann.

Diese Funktionsweise früher Editoren lässt sich noch an heutigen Linux- oder Unix-System (inklusive MacOS) nachvollziehen. Der in diesen Systemen enthaltene Zeileneditor „ed“ stammt aus der Frühzeit des Betriebssystems Unix Anfang der 1970er Jahre, aus einer Zeit also, in der viele Computer noch per Fernschreiber genutzt wurden. Wird der Editor durch die Eingabe von „ed“ in der Kommandozeile gestartet, passiert zunächst nichts, außer dass ein Zeilenvorschub ausgelöst wird (oder im modernen Bildschirm-Terminal der Cursor in die nächste Zeile wandert). Tippen Sie nun nacheinander H und P jeweils gefolgt von „Enter“. Diese beiden Befehle sorgen dafür, dass Fehlermeldungen ausgegeben werden und dass mit einem * angezeigt wird, wenn Sie eine Befehlseingabe machen können. Nun kann eine Datei zur Bearbeitung geladen werden. Mit der Eingabe von r textfile.txt wird die Datei mit besagtem Namen „textfile.txt“ eingelesen. Der Editor antwortet mit der Anzahl der gelesenen Bytes, in unserem Beispiel 86. Da die Datei nicht groß ist, können Sie sie in ganzer Länge ausgeben. Dies geschieht durch die Eingabe des Befehls ,l (hierbei handelt es sich um ein kleines L und nicht um die Zahl 1).

$ed
H
P
*r textfile.txt
86
*,l
This is the heading.$
The text starts hree. There may be many important things to say.$

Wie Sie sehen, handelt es sich um einen einfachen Text, bestehend aus zwei Zeilen. Das Dollarzeichen steht jeweils für ein Zeilenende. Sie können diesen Text nun bearbeiten, indem Sie entsprechende Befehle eingeben. Im Beispiel werden wir zum einen unterhalb der Überschrift eine Zeile mit Plus-Zeichen einfügen, um sie besser abzusetzen, und zum anderen das Wort „hree“ – wohl ein Tippfehler – durch das korrekte Wort „here“ ersetzen.

Um die Pluszeichen hinzuzufügen, müssen Sie dem Editor mitteilen, dass Sie in Zeile 2 etwas einfügen wollen. Dies geschieht durch den Befehl 2i. Nun können Sie den neuen Text eingeben. Um die Eingabe abzuschließen, schreiben Sie einen einzelnen Punkt in eine Zeile:

*2i
+++++++++++++++++++++
.

Die ehemalige Zeile 2 müsste durch das Einfügen einer weiteren Zeile jetzt zur Zeile 3 geworden sein. Sie können das überprüfen, indem Sie die Zeile 3 mit dem Befehl ,3 ausgeben lassen.

*,3
The text starts hree. There may be many important things to say.$

Nun geben Sie den Befehl ein, in Zeile 3 das erste Vorkommen von „hree“ durch „here“ zu ersetzen und geben anschließend den kompletten berichtigten Text nochmals aus.

*3s/hree/here/
*,l
This is the heading.$
+++++++++++++++++++++$
The text starts here. There may be many important things to say.$

Hiermit sind die beabsichtigten Änderungen abgeschlossen. Abschließend können Sie den verbesserten Text mit w besser.txt abspeichern. Der Editor quittiert das wiederum durch die Angabe der geschriebenen Bytes. Die Eingabe des Befehls q beendet dann den Editor.

Das Bearbeiten eines Textes ist auf diese Art und Weise sehr umständlich, denn man bearbeitet den Text nur indirekt. Der Text liegt zwar im Computer als bearbeitbares Objekt vor, aber man kann ihn nicht als Objekt sehen und auch nicht als Objekt an Ort und Stelle bearbeiten. Vielmehr muss man stattdessen Befehle zur Bearbeitung eingeben und den aktuellen Zustand des Textes immer wieder vollständig oder in Ausschnitten abfragen. Das entspricht einer Arbeitsweise, bei der man eine Person anruft, die einen Text vor sich liegen hat und diesen immer in Teilen durchgibt. Dieser Person könnte man nun die Änderungen beschreiben, die man vornehmen will, und dann jeweils den aktuellen Zustand des Textes erfragen, um zu sehen, ob auch das Ergebnis den Absichten entspricht. Das Beispiel verdeutlicht, dass der Begriff „Dialogsystem“ von Beginn an irreführend war und das eigentliche Potenzial in der Bereitstellung einer interaktiv nutzbaren Arbeitsumgebung besteht. Wir gehen darauf noch einmal im Abschnitt Dialog in den Exkursen ein.

Manipulierbare virtuelle Objekte

Auch wenn ein solcher Editor heute unpraktisch erscheinen mag, führte er damals ein neues Konzept ein, das zuvor nicht möglich und auch nicht nötig war. Der Editor stellt den Text nicht in seiner internen Repräsentation als Bitstrom oder als lange Zeichenkette dar, sondern erzeugt in der Nutzungsoberfläche für die Nutzung verständliche, selektierbare, wahrnehmbare und veränderbare Objekte. Beim einfachen „ed“ sind dies nur Zeilen und Worte. Denkbare Objekte wären auch Absätze oder Seiten. Würde „ed“ nicht über diese Objekte verfügen, wäre es noch viel umständlicher, denn dann könnte man sich nicht auf Zeilen beziehen, sondern müsste Bytes innerhalb des Datenstroms adressieren und manipulieren.

Nutzungsoberflächen für Echtzeitsysteme erzeugen virtuelle Objekte, auf die sich die Nutzung beziehen kann. Bei „ed“ sind es Zeilen, auf der Ebene des Kontrollprogramms – der Shell oder Eingabeaufforderung – sind es Programme und Dateien; verwenden Sie ein Terminprogramm, sind es Kalendereinträge. In all diesen Fällen beziehen Sie sich auf ein Objekt der Nutzungsschnittstelle, statt auf Adressbereiche und Maschinenoperationen. Auch wenn dies eine einfache Nutzungsschnittstelle ist, die einem sehr technisch vorkommen mag, wird sie durch den Computer explizit für die Nutzung erzeugt, statt nur eine Schnittstelle für den Computer zu sein. Programme auf Echtzeitcomputern erzeugen die Steuerungselemente selbst, mithilfe derer sie genutzt werden können. Was auf der anderen Seite der Nutzungsschnittstelle steckt, also die technische Implementierung der Software, ist für die Nutzung in dieser Sichtweise nicht von Belang.

Die von einem interaktiven Programm erzeugten Entitäten, die per Name ansprechbar sind und mithilfe von Befehlen manipuliert werden können, bezeichnen wir als virtuelle Objekte. Zu diesen zählen nicht nur die Objekte der Nutzungsschnittstelle im engeren Sinne, sondern auch die von den jeweiligen Anwendungsprogrammen erzeugten Objekte, mit deren Hilfe die zu erledigenden Aufgaben unabhängig von technischen Interna bearbeitet werden können. Insofern lassen sich viele unserer Betrachtungen zur Ergonomie von Nutzungsschnittstellen auch auf Fragen der Anwendungsgestaltung übertragen. Solche Übertragungen gehören in den Bereich der Gebrauchstauglichkeit und erfordern einen engen Bezug zum Einsatzkontext, den wir in diesem Buch bis auf ein paar allgemeine, weitgehend kontextunabhängige Überlegungen (vgl. u. a. den Abschnitt Übergänge) nicht behandeln.

Räumliche Objektarrangements

Wenngleich Time-Sharing das Bearbeiten von Programmen und Daten vereinfacht, indem der Computer selbst für diese Aufgabe genutzt werden kann und dadurch die Rücklaufzeiten stark verkürzt werden, sind die oben beschriebenen Nachteile der Nutzung per Fernschreiber oder einer elektrischen Schreibmaschine offensichtlich. Mit der Verwendung von Terminals mit Bildschirm und Tastatur konnten diese Nachteile abgebaut werden.

Terminal ADM-3A – Bild: FreeImages.com/Konrado Fedorczyko

Die Abbildung zeigt das verbreitete Terminal ADM-3A von Lear Siegler von 1976. Ein solches Terminal konnte anstelle eines Fernschreibers an einen Computer angeschlossen werden und dann zunächst genauso wie dieser verwendet werden. Anstelle eines Ausdrucks wurden die Zeichen aber auf dem Bildschirm ausgegeben. Zeilen rutschten automatisch nach oben. Terminals mit zusätzlichem Speicher erlaubten auch das Scrollen nach oben, um das in der Vergangenheit Ausgegebene ansehen zu können. Ein Terminal konnte also prinzipiell wie ein Fernschreiber verwendet werden. Scherzhaft wurde in so einem Fall der Begriff „Glass Teletype“ verwendet, denn das Terminal ist in diesem Fall funktionsidentisch mit einem Fernschreiber, bei dem das Papier durch eine rasend schnell änderbare Fluoreszenzschicht ersetzt wird, deren Anzeige durch permanentes Neu(ein-)schreiben den Eindruck von Persistenz vermittelt.

Ein Terminal anstelle eines Fernschreibers zu verwenden, sparte Papier und war auch weniger laut. Der eigentliche Vorteil von Terminals wie dem ADM-3A lag aber nicht darin, sondern in der Möglichkeit, Zeichen nicht nur ausgeben, sondern auch löschen und vor allem einen Cursor frei auf dem Bildschirm positionieren zu können. Dadurch wurde es möglich, die Buchstaben auf dem Bildschirm zu arrangieren und dieses Arrangement flexibel zu aktualisieren. Terminals, bei denen mit Steuerzeichen der Bildschirminhalt gelöscht und Ein- und Ausgabecursor frei positioniert werden konnten, bildeten die Grundlage für die Aktualisierung von Statusanzeigen, Formularen am Bildschirm, Menüs oder auch Editoren, bei denen der bearbeitete Text am Bildschirm kontinuierlich zu sehen ist.

Screen-Editing: Von „ed“ zu „vi“

Der oben abgebildete UNIX-Editor „vi“ aus dem Jahr 1976 – „vi“ steht für visual – ist dem Editor „ed“ bezüglich der Funktionsweise nicht unähnlich. Im Gegensatz zu „ed“ sieht man bei „vi“ aber einen Ausschnitt des Textes dauerhaft am Bildschirm. „Vi“ erlaubt es, einen Cursor im Text zu positionieren, dann in einen Einfügemodus zu wechseln und neue Textinhalte an der Stelle des Eingabecursors einzufügen. Im Befehlsmodus verhält sich „vi“ wie „ed“ und erlaubt die Eingabe von Befehlen in eine Befehlszeile am unteren Bildschirmrand. Im Gegensatz zu „ed“ werden die Resultate der dort befohlenen Manipulationen, zum Beispiel das Ersetzen eines Wortes durch ein anderes, in „vi“ aber sofort als Änderung des dargestellten Textes angezeigt. Die Bedienung von „vi“ ist für heutige Maßstäbe kryptisch und kompliziert, doch verwirklicht der Editor seinem Namen entsprechend das Potenzial mit dauerhaft am Bildschirm sichtbaren und zugleich bearbeitbaren Zeichen. Zwar erlaubt der Editor die Eingabe von Befehlen, doch müssen diese nicht mehr für das Einfügen genutzt werden; für die Ausgabe ist es zudem nicht mehr nötig, die Zeilennummer im Text zu kennen.

Vergleicht man die Ur-Version von „vi“ mit der Funktionalität heutiger Text-Editoren, bemerkt man, dass eine heute grundlegende Eigenschaft fehlt: Der große Vorteil der Textbearbeitung an Terminals ist ja, dass der ausgegebene Text direkt an Ort und Stelle bearbeitet werden kann. Statt eines Befehls der Art „Füge in Zeile 20 nach dem 4. Wort ein Komma ein“ kann mit dem Cursor an diese Stelle navigiert und das Komma eingegeben werden. Jeder moderne Editor unterstützt diese Arbeitsweise – so auch „vi“. Was aber bei „vi“ noch nicht möglich war, ist die räumliche Markierung eines Textausschnitts und das Anwenden eines Manipulationsbefehls auf diesen Bereich. Wenn Sie heute dagegen auf einem Linux- oder Unix-basierten System „vi“ eingeben, öffnet sich ein Editor, den Sie wie „vi“ verwenden können. Es handelt sich aber in der Regel nicht mehr um den „vi“ aus den 1970er Jahren, sondern um eine erweiterte Version mit dem Namen „vim“ (für vi improved). „vim“ wurde Ende der 1980er Jahre entwickelt und besitzt einen Modus, der eine räumliche Selektion von Textteilen erlaubt. Die selektierten Textteile werden invertiert dargestellt. Das Selektieren unter „vim“ funktioniert dann wie folgt:

Sicherstellen, dass Sie sich im Befehlsmodus befinden, den Einfügemodus gegebenenfalls durch ESC verlassen.
Den Cursor am Beginn des Blocks positionieren.
Durch Eingabe von SHIFT+v die komplette Zeile oder durch STRG+v den kompletten Block markieren oder
- v eingeben, um den Blockanfang festzulegen.
- Mit dem Cursor zum Blockende navigieren.
- d (delete) eingeben, um den Block auszuschneiden oder y (yank), um ihn zu kopieren.
Mit dem Cursor zur Zielposition navigieren.
p (paste) eingeben, um den Block an dieser Stelle einzufügen.

Statt der Notwendigkeit einer verbalen Formulierung von Position und Ausdehnung einer Auswahl ermöglicht die räumliche Selektion der auf dem Bildschirm angezeigten Elemente bei „vi“ und „vim“ eine „direkte” Manipulation. Üblicherweise wird der Begriff „direkte Manipulation“ mit Zeigegeräten wie Maus oder Stift und grafischen Darstellungen verbunden¹⁷. Grundsätzlich reicht aber ein Textterminal aus, insofern Objekte räumlich dargestellt und auch räumlich selektiert und manipuliert werden können. „Direkte Manipulation“ erfordert, dass Handlungs- und Wahrnehmungsraum gekoppelt sind bzw. genauer, dass Handlungsraum und Wahrnehmungsraum übereinstimmen. Objekte werden bei „vi“ an einem Ort am Bildschirm angezeigt, werden an eben diesem Ort selektiert und dann auch an Ort und Stelle manipuliert. Anders ist es, wenn „vi“ im Befehlsmodus verwendet wird. In diesem Fall werden die Anweisungen zur Manipulation in einer Befehlszeile eingegeben, wirken sich aber an anderer Stelle auf Objekte aus. Handlungs- und Wahrnehmungsraum fallen auseinander.

Direkte Manipulation

Im „vim“-Beispiel des vorherigen Abschnitts wurde ein Cursor mehrfach räumlich positioniert, um Objekte am Bildschirm zu selektieren. Eine solche Selektion per Cursortasten ist aber recht umständlich und indirekt. Die Auswahl eines Objekts in einem Smartphone, etwa eines Kontaktes aus einer Kontaktkiste, erfolgt deutlich direkter durch das Zeigen auf dieses Objekt. Interessanterweise war etwas Ähnliches bereits in den 1950er Jahren möglich. Jedoch erforderte dies ein Zusatzgerät, das direkt auf eine Position auf den Bildschirm gerichtet werden konnte, um dort ein Objekt zu selektieren.

Die Anfänge der direkten räumlichen Selektion liegen, wie so oft in der Computergeschichte, beim Militär, namentlich beim Whirlwind-Computer und dem darauf aufbauenden SAGE-Computer. SAGE steht für Semi-Automatic Ground Environment. Das Herzstück von SAGE waren zwei riesige von IBM hergestellte Computer, die dauerhaft eingehende Daten von Radarstellen auswerteten und mit den Daten bekannter und gemeldeter Flugbewegungen abglichen, um angreifende sowjetische Jets frühzeitig erkennen und darauf reagieren zu können. Das Ziel war nicht ein automatisches Abfangen, sondern, wie im Namen ersichtlich, ein halb-automatischer Umgang mit der Situation. SAGE verfügte daher über eine Schnittstelle, die aufbereitete Daten anzeigte und über Knöpfe und Schalter Eingaben entgegennahm. Zentrale Komponenten der Eingabekonsolen des Systems waren die „View Scopes“ genannten Bildschirme und die als „Lightgun“ bezeichneten Zeigegeräte.

Eine Weapons Director Console des SAGE-Systems – Bild mit freundlicher Genehmigung des Computer History Museums

Lightgun – Bild mit freundlicher Genehmigung des Computer History Museums

SAGE war ein rein militärisches Projekt. In Zeiten des Kalten Krieges beflügelten sich zivile und militärische Forschung oft gegenseitig. Das Lincoln Lab des MIT, das auch Whirlwind baute und am SAGE-System beteiligt war, entwickelte 1955 bis 1956 einen experimentellen, auf den im Rahmen des SAGE-Systems entstandenen Konzepten aufbauenden Computer mit dem Namen TX-0. Genau wie das SAGE-System verfügte er über eine grafische Ausgabe mittels eines der Radartechnik entlehnten Bildschirms und wie beim SAGE-System konnte ein Gerät zur räumlichen Eingabe am Bildschirm genutzt werden. Im nicht militärischen Kontext wurde aber nicht von der Lightgun, sondern vom Lightpen gesprochen. Von der Funktionsweise her waren beide nahezu identisch. Es handelte sich im Prinzip um sehr einfache Gebilde. Sie bestanden im Großen und Ganzen nur aus einer einfachen Fotozelle, konnten also nur feststellen, ob es an der Spitze des Stifts oder der Pistole hell war oder nicht. Auf Bildschirmen, die mittels Kathodenstrahl ein Bild erzeugen, also den klassischen „Röhrenbildschirmen“, konnte auf diese Weise die Position auf dem Bildschirm festgestellt werden. Diese Technik basiert darauf, dass das Bild nicht gleichmäßig leuchtet, sondern auf sehr schnelle Art und Weise Punkt für Punkt, Zeile für Zeile aufgebaut wird. Der Zeitpunkt, an dem es unter dem Lightpen hell wird, kann mit der bekannten Ausrichtung des Kathodenstrahls zu diesem Zeitpunkt verrechnet und darüber die Position des Stifts auf dem Bildschirm bestimmt werden.

1958 wurde am Lincoln Lab als direkter Nachfolger des TX-0 der TX-2 in Betrieb genommen. An den Systemen TX-0 und TX-2 wurden bereits in den 1950er und 1960er Jahren an Handschrifterkennung, Texteditoren, interaktiven Debuggern, grafischen Schachprogrammen und Projekten der Künstlichen Intelligenz gearbeitet. Auch ein System namens „Sketchpad“ wurde am TX-2 entwickelt; es war wegweisend für heutige Nutzungsschnittstellen und Grafikprogramme.

Das Sketchpad-System, das 1963 von Ivan Sutherland im Rahmen seiner Doktorarbeit entwickelt wurde, war wegweisend für die Entwicklung von Nutzungsschnittstellen mit räumlich-grafischer Anzeige und Objektmanipulation. Das Foto zeigt Timothy Johnson vom MIT bei der Arbeit mit dem auf dem TX-2 laufenden Sketchpad-System. In der Hand hat er einen Lightpen. Mit diesem Stift konnten im System zum Beispiel neue Linienzüge auf dem Bildschirm erzeugt werden. Dies ging durch Zeigen auf einen Punkt und die Betätigung einer der Tasten auf der Tastatur auf der linken Seite. Auf diese Art und Weise konnten auf dem Bildschirm Strecken oder Kreise aufgezogen werden. Betrachten wir der Einfachheit halber zunächst einmal nur Strecken: Das System zeichnete während der Erzeugung der Strecke fortlaufend eine gerade Linie zwischen dem eben fixierten Punkt und der aktuellen Position des Stifts auf dem Bildschirm. Ein weiterer Tastendruck fixierte diesen Punkt, der dann wiederum zum Ausgangspunkt der nächsten Strecke wurde. Der Prozess konnte durch Knopfdruck oder durch Wegnehmen des Stifts vom Bildschirm abgebrochen werden.

Timothy Johnson nutzt Sketchpad am TX-2 – Bild: Computer Sketchpad, National Education Television, MIT 1964

Beim Sketchpad-System konnten alle Punkte der Strecken auch im Nachhinein noch bearbeitet werden. Dafür musste ein Punkt zunächst ausgewählt werden. Dies geschah durch Zeigen mit dem Lightpen auf den Punkt. Der Punkt musste aber nicht genau getroffen werden. Das System unterstützte vielmehr die Auswahl dadurch, dass auch die unmittelbare Umgebung eines Punktes diesem zugeordnet wird. Auch wenn mit dem Stift also leicht neben den Punkt gezeigt wurde oder wenn die Abtastung nicht genau war, konnte ein Punkt verlässlich selektiert werden. War ein Punkt erst einmal selektiert, konnte er durch Betätigen einer Taste in einen Verschiebezustand gebracht werden, der wiederum per Tastendruck oder durch Wegnehmen des Stifts beendet werden konnte. Auch bei dieser Operation wurde während des kompletten Manipulationsvorgangs die Zeichnung laufend aktualisiert, sodass während der Nutzung von Sketchpad kontinuierlich die Konsequenzen einer Manipulation sichtbar waren. Diese enge Kopplung von Handlung und Wahrnehmung erzeugte den Eindruck, die Objekte tatsächlich in Echtzeit direkt zu erzeugen und zu manipulieren.

Direkte Manipulation bedeutet in diesem Fall, dass Objekte nicht durch textuelle Funktionsaufrufe erzeugt und verändert werden (zum Beispiel: Zeichne einen Kreis mit dem Radius R um den Mittelpunkt an der Koordinate X,Y), sondern durch die Manipulation ihrer Darstellung am Bildschirm.

Damit eine unmittelbare Manipulation möglich ist, muss eine Reihe von technischen Voraussetzungen erfüllt sein, die erst mit der Entwicklung schneller Prozessoren und Grafikkarten ökonomisch realisierbar wurden:

Objekte müssen dauerhaft und stabil sichtbar sein. Hierfür bedarf es eines Bildschirms, der Zeichen oder Grafiken in so schneller Folge zur Anzeige bringt, dass sie wie stabile Objekte erscheinen.
Die Objekte müssen räumlich selektiert werden können. Es bedarf also eines räumlichen Eingabegeräts, das sich auf Koordinaten am Bildschirm beziehen kann, sowie einer Programmierung, die diese Koordinaten den dort vorhandenen Objekten zuordnen kann.
Die Bearbeitung der Objekte muss direkt an Ort und Stelle erfolgen. Änderungen der räumlichen Eingabe müssen dauerhaft und in hoher Frequenz verarbeitet und als Manipulationskommandos interpretiert werden.
Die Konsequenzen einer Manipulation müssen umgehend und fortlaufend, also ohne ein explizit ausgelöstes Aktualisieren dargestellt werden. Nur so ist der Eindruck einer direkten räumlichen Manipulation erreichbar. Kommt es zu Verzögerungen, ist ein präzises Arbeiten nicht mehr möglich. Um die notwendige Schnelligkeit zu erreichen, bedarf es geeigneter Datenstrukturen und einer hohen Rechenleistung.

Responsive Manipulation

Die vier bislang von uns beschriebenen technischen Potenziale Responsivität, Virtuelle Objekte, Räumlichkeit und Direkte Manipulation ermöglichen den flexiblen Umgang mit Zeichen und Objekten, indem sie die Nachteile analoger Einschreibmedien aufheben. Bei letzteren kann einmal Geschriebenes weder verändert werden noch kann eine zeitnahe formale Auswertung eines Objekt- und Zeichenarrangements erfolgen. Mit interaktiven Systemen lassen sich Umgebungen kreieren, in denen Objekte flexibel manipuliert und arrangiert werden können. Durch die Kombination der Potenziale können wir aber noch einen Schritt weiter gehen: Der Computer ermöglicht es die Zeichen zu manipulieren, die Grundlage seiner Operationen sind. Beim interaktiven Programmieren beispielsweise wird der Quelltext bearbeitet und in der Folge ausgeführt.

In einem Artikel von 1997 mit dem Titel „Why Interaction is More Powerful Than Algorithms“¹⁸ beschreibt Peter Wegner die Vorteile interaktiver Systeme wie folgt:

Objects and robots have similar interactive models of computation; robots differ from objects only in that their sensors and effectors have physical rather than logical effects.

Wegner hatte bei seiner Aussage den Vorteil im Blick, den Programme mit Interventionen zur Nutzungszeit im Vergleich mit rein algorithmischen Programmen haben, bei denen also wie beim Batch-Betrieb das Programm ohne jegliche Intervention abläuft. Seine Beschreibung der Objekte mit Sensoren und Effektoren passt aber noch besser auf das, was wir „Responsive Manipulation“ nennen wollen. Virtuelle Objekte können, wie Roboter, so programmiert werden, dass sie auf Änderungen in ihrer Umgebung reagieren. Welche Möglichkeiten sich daraus ergeben, wollen wir kurz anhand der nachfolgenden Tabelle skizzieren:

	nicht-reflektiv	referenzierend	reflektiv
explizit	Ausführung	Auswertung	Transformation
implizit		Responsive Auswertung	Responsive Manipulation

Bezüglich der gewählten Begrifflichkeiten geht es uns darum, die Dimensionen der Kombination aus interaktiver Manipulation und responsiver Auswertung zu verdeutlichen. Wir verwenden dafür zwei Dimensionen: Zum einen unterscheiden wir, ob eine Auswertung explizit in Gang gesetzt werden muss oder nicht, zum anderen ist es ein großer Unterschied, ob das Ergebnis der Auswertung von Objekten am Bildschirm Einfluss auf diese Objekte selbst hat oder nicht. Die daraus resultierenden Ausführungen, Auswertungen und Manipulationen lassen sich wie folgt charakterisieren:

Eine Ausführung liegt vor, wenn die Verarbeitung der Zeichen explizit gestartet wird und dann den Computer steuert, ohne dass sich das, was dann passiert oder erzeugt wird, auf die verarbeiteten Zeichen auswirkt. Es gibt in diesem Fall also ein Arrangement von Objekten, das den Computer in seiner Ausführung steuert, ohne dass es selbst dabei verändert würde. Ein klassisches Beispiel hierfür ist ein Programm-Code, der vom Computer zu seiner Steuerung ausgewertet wird.
Bei einer Auswertung wird ein neues Zeichen- oder Objektarrangement erzeugt, das sich auf die verarbeiteten Zeichen bezieht. Eine Auswertung ändert das Objektarrangement selbst nicht, bezieht sich aber darauf. Auswertungen liegen zum Beispiel vor, wenn ein Compiler eine Reihe von Fehlermeldungen erzeugt, die auf Codestellen verweisen, oder wenn ein Programm einen Bericht über die Wortwahl in einem Text liefert, ohne diesen selbst zu verändern.
Eine Responsive Auswertung wird, im Gegensatz zur oben beschriebenen Form, ohne expliziten Auslöser durchgeführt. Eine Textverarbeitung aktualisiert beispielsweise laufend die angezeigte Anzahl der Zeichen, Worte und Seiten in einem Dokument, ohne dass diese Aktualisierung durch einen expliziten Aufruf ausgelöst werden müsste.
Explizit hingegen ist eine Transformation. Bei einer Transformation werden Objekte, ihre Eigenschaften und Positionen ausgewertet und diese dabei selbst verändert. Viele Aspekte der Textverarbeitung sind Transformationen. In der Programmierung zählt beispielsweise die Minimierung von Code oder das sogenannte „Pretty Printing“, also das gleichmäßige Einrücken von Code-Bestandteilen, zu den Transformationen.
Die Responsive Manipulation ist die vielleicht interessanteste, aber auch die komplizierteste Form der Verarbeitung der Objekte und ihrer Anordnung, denn sie vereint Reflektivität und Implizität. Responsive Manipulation heißt, dass eine Manipulation eines Objekt- oder Zeichenarrangements durchgeführt und diese unmittelbar ausgewertet wird und dass das Resultat dieser Auswertung ebenso unmittelbar eine Veränderung des Objektarrangements bewirkt. Responsive Manipulationen sind noch selten. Beispiele, wie so etwas aussehen könnte, sind in der Dissertation „Responsive Positioning“ von Felix Winkelnkemper beschrieben.

Fazit

Interessant ist, dass es bis heute keine präzise technische Definition grundlegender Begriffe wie Interaktivität gibt, die allgemein anerkannt und gebräuchlich ist. Ein entscheidender Punkt ist dabei die nahezu durchgängige Verwendung von Metaphern, die aus der Sphäre individuellen menschlichen Verhaltens und seiner sozialen Einbettung entlehnt sind. Solche Metaphern verleiten zu ungeeigneten Assoziationen, da sie eine funktionelle Äquivalenz zwischen menschlicher Informationsverarbeitung und maschineller Datenverarbeitung suggerieren.

Der Begriff „Dialogsystem“ ist ein markantes Beispiel dafür, denn selbst in den von uns skizzierten Systemen mit kommandoorientierten Eingaben geht es an keiner Stelle der Nutzungsschnittstelle um einen Dialog zwischen Mensch und Maschine als einer wechselseitigen Bezugnahme zum Zweck der gegenseitigen Verständnisbildung. Auch der Begriff „grafische Benutzungsoberflächen“ und damit zusammenhängend die Formulierung „Ein Bild sagt mehr als tausend Worte“, mit dem gelegentlich der Nutzen von Icons charakterisiert wird, lenkt, wie wir im Kapitel zur Icon-Gestaltung ausführlicher darstellen, vom eigentlichen Potenzial ab. Statt der Möglichkeit, Funktionen und Objekte räumlich platzieren zu können und dadurch einen Wahrnehmungs- und Handlungsraum zu schaffen, in dem Objekte angeordnet und arrangiert werden können, wird lediglich ihr Aussehen thematisiert.

Auf der Grundlage unserer Überlegungen zur Rolle von Denkzeugen für Differenzerfahrung haben wir die historische Entwicklung von Benutzungsschnittstellen rekonstruiert und die damit einhergehenden Nutzungspotenziale charakterisiert, die schließlich zu unseren heutigen Schnittstellen geführt haben:

Das Konzept der Responsivität ermöglichte es, in die ursprünglich unterbrechungsfreie Ausführung eines Programms zur Laufzeit einzugreifen. Die Grundlage für Interaktivität war gelegt.
Es wurden Techniken entwickelt, um virtuelle Objekte kontinuierlich anzeigen und über räumliche Positionen selektiv ansprechen zu können.
Zusätzliche Eingabegeräte boten die Möglichkeit, Objekte der Wahrnehmung direkt anzusprechen und manipulieren zu können (direkte Manipulation).
Die zunehmend verbesserte Kopplung von Handlungs- und Wahrnehmungsraum ermöglichte es, persistente räumliche Arbeitsumgebungen zu kreieren, in denen Bildschirmobjekte adressiert, arrangiert, verändert und ausgewertet werden konnten.

In all diesen Entwicklungsschritten wurden durch technische Innovationen

zum einen Hindernisse abgebaut, die für den Nutzungszweck nicht relevant gewesen sind, sondern nur dem jeweils eingesetzten Mittel geschuldet waren,
zum anderen die Handlungsspielräume zur Nutzungszeit durch das interaktive Eingreifen erheblich erweitert.

Sowohl in Bezug auf die Beseitigung von Hindernissen als auch auf das Eröffnen neuer Handlungsmöglichkeiten ist die möglichst enge Kopplung von Handlungs- und Wahrnehmungsraum entscheidend.

Technische Potenziale können, müssen sich aber nicht unmittelbar in der Nutzungsschnittstelle offenbaren. Wie wir beschrieben haben, liegt wischen der Nutzungswelt auf der einen und der technischen Welt auf der anderen Seite ein System von technischen Übersetzungsschichten. Es sind diese Schichten, die die technische Realisierung von den vorgestellten interaktiven Potenzialen auf der anderen Seite trennen. Diese Darstellung ist jedoch noch nicht vollständig, denn Computer können zum Beispiel miteinander vernetzt sein. Auch diese Vernetzung wird gemäß eines Protokolls in Schichten realisiert. Auf der untersten Schicht geht es um das Senden und Empfangen elektrischer oder elektromagnetischer Signale. Die darüber liegenden Schichten sorgen gemäß Protokoll dafür, dass auf beiden Seiten der vernetzten Geräte diese Signale auf dieselben Strukturen und Objekte abgebildet werden. Beispielsweise ermöglicht eine solche Vernetzung, auf einer entsprechenden Schicht von einem Computer aus auf die Dateien eines anderen Computers zuzugreifen. Der Zugriff selbst erfolgt gekapselt, d. h. ohne Intervention durch den Menschen und in der Regel so schnell, dass er nicht mehr wahrnehmbar ist. Das Netz verhält sich transparent. Dadurch kann der Eindruck entstehen, als lägen Dateien auf der lokalen Festplatte des eigenen Rechners. Da die Netzwerkkommunikation sich der Aufmerksamkeit entzieht, bedingt sie auch keinen mentalen Zusatzaufwand bei der Nutzung.

Das Potenzial des Zugriffs auf ein Objekt, dessen Daten nicht auf dem Gerät der Bearbeitung, sondern einem entfernten vorliegen, entfaltet sein größtes Potenzial bei der gemeinsamen Nutzung durch verschiedene (entfernte) Personen; sie können die gleiche Datei öffnen und gleichzeitig mit ihr arbeiten. Hier täuscht jedoch der Eindruck, denn tatsächlich arbeiten beide Personen mit einer lokalen Kopie. Durch geschickte, zeitlich unmittelbar ausgeführte Synchronisationsverfahren kann der Eindruck entstehen, an einem einzigen Objekt zu arbeiten. Auch hier ist die Schnittstelle transparent.

Ein weiteres Potenzial einer transparenten Vernetzung liegt dann vor, wenn die Nutzungsschnittstelle auf verschiedene Geräte verteilt ist. Zur Illustration nutzen wir folgendes Szenario: Eine digitale Tafel erlaubt das Erstellen und Positionieren von Objekten auf der Oberfläche. Eine Person nutzt die Tafel, indem sie die Objekte mit einem digitalen Stift erstellt und manipuliert. Die Eingabe vermittels eines digitalen Stifts ist aber nicht für alle Arten von Eingaben ideal. Auf dieser Tafel, die ja alle sehen können, nun einen Datei-Browser zu öffnen, sodass ein Foto ausgewählt werden kann, wäre unpraktisch. Die verteilte Nutzungsschnittstelle erlaubt es nun, dass an der Tafel das Objekt markiert wird und dann das Smartphone genutzt wird, um ein Foto auszuwählen oder um direkt ein Foto zu erstellen. Es erscheint dann an der entsprechenden Stelle auf der Tafel. Ähnliches kann man sich für Textfelder vorstellen. Diese könnten an der Tafel ausgewählt, dann aber von einem Laptop aus befüllt werden. Alle drei Geräte, die digitale Tafel, das Smartphone und der Laptop bilden die Nutzungsschnittstelle für die Bearbeitung derselben Objekte.

Die beiden genannten Potenziale, die gemeinsamen verteilten Objekte und die verteilte Nutzungsschnittstelle, bringen komplexe Gestaltungsanforderungen mit sich. Bei gleichzeitiger Nutzung eines gemeinsamen Objekts, zum Beispiel eines Textes, an dem gemeinsam geschrieben wird, muss zum Beispiel dafür gesorgt werden, dass jeder beteiligten Person die Änderungen der anderen Beteiligten vergegenwärtigt werden. Man spricht von Gewärtigkeits- oder Awareness-Informationen. Auch im Szenario der verteilten Nutzungsschnittstelle im Beispiel der digitalen Tafel besteht die Herausforderung darin, den Nutzenden die Möglichkeit der Eingabe an einem anderen Gerät bewusst zu machen und sie dabei zu unterstützen, die Objektzuordnung nicht zu verlieren. Wir behandeln diese speziellen Anforderungen deshalb nicht, weil, ebenso wie bei den sogenannten „natürlichen“ Nutzungsschnittstellen wie Touch, Gestik, Sprache usw., in diesen Fällen sehr spezifische und situationsabhängige Faktoren zu berücksichtigen sind, die über die zu vermittelnden allgemeinen Gestaltungskonzepte deutlich hinausgehen¹⁹. Unabhängig von diesen speziellen Anforderungen sind die gleichen grundsätzlichen Gestaltungsanforderungen zu erfüllen wie für grafische Nutzungsschnittstellen mit Bildschirm, Tastatur und Zeigegeräten, die wir im Weiteren behandeln.

Architektur der Wahrnehmung

In den vorhergehenden Abschnitten haben wir die Nutzungsschnittstelle des Computers als Teil der Umwelt des Menschen beschrieben, gewissermaßen als physischen, von uns zu gestaltenden Handlungs- und Wahrnehmungsraum. In diesem dritten und letzten Grundlagen-Kapitel wenden wir uns nun der menschlichen Wahrnehmung zu, denn um mit der Nutzungsschnittstelle Differenzerfahrungen zu ermöglichen und Hindernisse zu vermeiden, müssen wir etwas über die Architektur menschlicher Wahrnehmung und ihrer spezifischen Merkmale wissen.

Das menschliche Wahrnehmungssystem ist Gegenstand umfangreicher Forschung in Biologie, Medizin und Psychologie. Mit unserer Ingenieurperspektive können und wollen wir nicht den Forschungsstand all dieser Disziplinen in seiner Breite darstellen. Das wäre nicht zielführend. Zum einen gibt es bis heute keine abgeschlossene und allgemein akzeptierte Theorie der Wahrnehmung, die sämtliche Wahrnehmungsphänomene gleichermaßen erfasst und erklärt. Vielmehr müssen wir gestaltungsrelevante Einsichten, Erkenntnisse und Modellvorstellungen dieser Disziplinen auswählen und zu einem Wissenshintergrund verdichten, der im Kontext der Gestaltung effektiv und konstruktiv ist. Unsere Darstellung ist also sehr schlaglichtartig.

Schon im Kapitel Differenzerfahrung haben wir uns in Bezug auf die Wahrnehmung auf den Sehsinn konzentriert. Diese Orientierung behalten wir bei, denn abseits spezieller Techniken wie virtueller und erweiterter Umgebungen (AR/VR), begreifbarer Interaktion (tangible interaction) oder auch der Eingabe über Gesten und natürliche Sprache, die alle ihre je eigenen Forschungsbereiche eröffnen, begrenzt das Zusammenspiel von Display, Tastatur und Zeigegeräten bzw. Touch-Eingaben für das Gros der IT-Anwendungen nach wie vor den Gestaltungsraum. Dementsprechend ist der Sehsinn für uns der bei Weitem wichtigste Wahrnehmungskanal.

Ein evolutionärer Kompromiss

Naiv betrachtet könnte man meinen, der Mensch besitze vorne am Kopf zwei kleine Kameras, die ihre Bilder an das Gehirn schicken und damit die Außenwelt abbilden. Gemäß dieser Vorstellung betrachtet unser Gehirn über die Augen unsere Außenwelt wie durch ein Fenster. Das Problem: So funktioniert es nicht!

Untersuchungen zur Gestalterkennung von Wolfgang Köhler von 1929 – Quelle: Wolfgang Köhler, Gestalt Psychology, 1959, S. 115 und S. 110

Obige kleine Exkursion in das Forschungsfeld der Gestaltwahrnehmung verdeutlicht, dass die Wahrnehmung einer Gestalt offenbar von mehr als der physischen Beschaffenheit der Form selbst abhängt. Beide Darstellungen entstammen dem Buch „Gestalt Psychology“ von Wolfgang Köhler aus dem Jahr 1929²⁰. Sowohl die linke als auch die rechte Strichzeichnung enthalten die Ziffer „4“. Wahrscheinlich haben Sie wenig Probleme damit, diese Vier auf der linken Seite zu erkennen. Rechts hingegen ist es nicht einfach, die Vier zu erkennen, obwohl sie auch hier physisch vorhanden ist.

Die Linienzüge, die die Vier bilden, erscheinen auf der rechten Seite nicht als Teil der gleichen Figur, sondern als Teile zweier getrennter Figuren, was das Erkennen der Vier nahezu unmöglich macht. Diese Beobachtung passt nicht zur naiven Vorstellung vom Sehen als einer passiven Informationsaufnahme, denn dann müsste ja alles, was über das Auge erschlossen wird, auch der Wahrnehmung zugänglich sein. Doch die Vier entzieht sich in diesem Beispiel unserem Blick. Im komplexen System der Wahrnehmung, das aus weit mehr als nur dem Auge selbst besteht, findet offenbar eine Art Interpretation und Vorauswahl statt und diese Interpretation in unserer Wahrnehmung scheint teilweise unabhängig von unserem bewussten Denken zu sein, denn wenn Sie sich nun noch einmal die Abbildungen ohne die markierte Vier angucken, dann gelingt es Ihnen zwar nachzuvollziehen, wo sie versteckt ist, aber sie tritt trotzdem nicht als eigenes Objekt hervor.

Die Gestaltpsychologen haben versucht, durch die Beschreibung von Merkmalen und Eigenschaften des (visuellen) Stimulus in Form von Regeln, den sogenannten „Gestaltgesetzen“, vorherzusagen, welche bedeutungsvollen Formen eine Person in einer bestimmten Situation wahrnehmen wird. Trotz mancher Teilerfolge ist es ihnen bis heute nicht gelungen, eine allgemein akzeptierte und vollständige Menge von Gestaltgesetzen aufzustellen. Auch die dahinterstehenden theoretischen Vorstellungen sind nicht unproblematisch. Wir folgen daher einem Ansatz, der stärker vom Prozess der Wahrnehmung und wie er sich evolutionär entwickelt hat ausgeht, also einem eher biologischen bzw. neurologischen Ansatz. Dabei interessiert uns besonders das Zusammenspiel zwischen Wahrnehmungssystem und Umwelt.

Dazu ein Gedankenexperiment: Ohne Anspruch auf anthropologische Genauigkeit stellen wir uns eine Anzahl von Menschen vor, die in der Savanne leben, sich dort von Pflanzen und von der Jagd ernähren und zugleich in der Gefahr leben, von Raubtieren aufgespürt und überfallen zu werden. Sagen wir der Einfachheit halber, dass Pflanzen-Essen, Jagen und Flüchten die einzigen drei Dinge sind, die unsere Menschengruppe tut. Wie müsste der Sehsinn dieser Personen beschaffen sein, um Pflanzen zu finden, zu jagen und bei drohender Gefahr durch ein Raubtier rechtzeitig die Flucht ergreifen zu können?

Vollständigkeit: Unsere Menschen müssen die Beschaffenheit ihrer Umwelt sehr genau wahrnehmen, um sich orientieren zu können und vor allem auch, um in der Landschaft die essbaren Pflanzen und die zu jagenden Tiere zu finden. Idealerweise ist die Wahrnehmung also so angelegt, dass möglichst viel wahrgenommen wird, damit unser Mensch im wahrsten Sinne des Wortes „voll im Bilde“ ist.

Schnelligkeit: Wollen unsere Menschen erfolgreich Tiere jagen, müssen sie sie in der Landschaft erkennen und schnell wahrnehmen können, wohin sie sich bewegen. Ebenso müssen sie Gefahren möglichst schnell erkennen können, um zum Beispiel nicht selbst Opfer eines Raubtiers zu werden. Nur dann können sie rechtzeitig entscheiden, welche Abwehrmaßnahmen sie einleiten können oder ob sie besser die Flucht ergreifen sollten.

Die beiden Anforderungen an das Wahrnehmungssystem sind gleichermaßen berechtigt, stehen aber im Konflikt zueinander: Jede der beiden Anforderungen kann jeweils nur auf Kosten der jeweils anderen erfüllt werden. Unser Wahrnehmungssystem verkörpert eine durch die Evolution entstandene Austarierung solcher Konflikte. Zustande gekommen ist diese Austarierung durch natürliche Selektion. Wahrnehmungsprozesse, die sowohl hinreichend vollständig als auch zugleich schnell genug sind, waren evolutionär vorteilhafter und setzten sich dadurch zunehmend durch. Über viele Generationen entwickelte sich auf diese Art und Weise eine Architektur der Wahrnehmung, die gut an die Gegebenheiten der Umwelt angepasst war. Die biologische Architektur der Wahrnehmung, die sich im Laufe der Evolution herausgebildet hat, ist also kein fauler Kompromiss, sondern eine sehr geschickte „Lösung“ des Problems²¹. Schnelligkeit wird dadurch erreicht, dass schon im Auge die Menge der aufgenommenen Reize stark reduziert wird. Sowohl auf der sensorischen Ebene als auch durch vorbewusste Verarbeitungsprozesse auf dem Weg der Stimuli zum Sehzentrum und den anderen Bereichen im Gehirn wird somit die Erhöhung der Verarbeitungsgeschwindigkeit mit einem Verlust an sensorischen Informationen erkauft. Vollständigkeit entsteht erst wieder durch den konstruktiven Teil des Wahrnehmungssystems. Hier wird aus den beschränkten sensorischen Informationen ein umfangreiches Bild der Umwelt zusammengesetzt.

Lassen Sie uns erneut ein Gedankenspiel wagen, in dem wir uns selbst in die Rolle unseres Wahrnehmungssystems begeben. Wir sitzen in einem kleinen, dunklen Raum und können die Außenwelt nur wahrnehmen, indem wir durch ein kleines Loch nach draußen schauen. Durch das Loch sehen wir immer nur einen kleinen Teil der Außenwelt. Wenn wir andere Bereiche wahrnehmen wollen, können wir unsere Position vor dem Loch ändern, um eine andere Perspektive zu bekommen, oder den kompletten Raum rotieren lassen. Unsere Aufgabe ist es nun, aus der Folge einzelner ausschnitthafter Wahrnehmungen ein möglichst angemessenes Bild von der Außenwelt zu gewinnen. Beim Sehsinn verhält es sich ähnlich. Nur ein kleiner Teil dessen, was sich in unserer Umgebung befindet, kann direkt gesehen werden. Das Wahrnehmungssystem muss diese Einzelinformation zu einem größeren Bild zusammensetzen und dazu noch weitere Informationen ergänzen.

Dieses Beschaffen weiterer Informationen erfordert motorische Aktivitäten wie Augen-, Kopfbewegungen oder Bewegungen des ganzen Körpers. Diese Bewegungen sind sehr aufwändig und kosten entsprechend Zeit. Es wäre zwar möglich, die komplette Umgebung systematisch abzutasten, aber nicht effizient. Es gilt, mit möglichst wenig Aktivität zu einer möglichst guten Abschätzung zu kommen. Wie kann das erreicht werden?

Um nicht die komplette Umgebung mit den Augen erwandern zu müssen, können Hinweise innerhalb dessen, was gerade zu sehen ist, genutzt werden. Sieht man etwa eine Kante, kann man eine plausible Vermutung darüber anstellen, dass sich ein Objekt vor einem Hintergrund befindet. Damit haben wir eine gute Voraussage, wo als nächstes hingeschaut werden sollte, um die Szenerie zu erfassen.
Dieser Prozess hat viel mit Erfahrung zu tun. Aufgrund vorheriger Situationen etwa können wir eine gute Hypothese darüber aufstellen, wo in der Umgebung wichtige Informationen zu erwarten sind. Wir müssen weder systematisch das gesamte Wahrnehmungsfeld nach relevanten Informationen absuchen noch grundsätzlich vom Himmel oder den Füßen ausgehend die Umwelt erkunden, denn der jeweilige Handlungszusammenhang legt mit großer Wahrscheinlichkeit die Bereiche nahe, wo relevante Informationen zu erwarten sind. Oftmals befinden sich diese Bereiche eher im mittleren Gesichtsfeld.
In manchen Fällen können wir es uns komplett sparen, bestimmte Bereiche der Umgebung überhaupt anschauen zu müssen. Aufgrund unserer Erfahrung vertrauen wir darauf, dass wir die richtigen Schlüsse aus relativ wenigen Informationen ziehen können. Indem wir einen kleinen Wahrnehmungsausschnitt für das Ganze nehmen, ersparen wir uns erheblichen sensorischen und motorischen Aufwand. Der damit erzielte Geschwindigkeitsvorteil lässt sich noch verstärken, wenn zusätzlich entscheidende Features in den Stimuli gewissermaßen automatisiert bzw. routinehaft verarbeitet werden. Vermutungen dieser Art sind aber immer gefährlich, denn sie können sich als falsch erweisen. Insofern müssen automatisiert verarbeitete Features sehr robust sein, um in den meisten Wahrnehmungssituationen zu verlässlichen Ergebnissen zu führen. Soweit es gelingt solche Features zu erkennen, können wir sie auch recht verlässlich bei der Gestaltung von Systemen einsetzen.

Wenn wir bzw. unser Wahrnehmungssystem dieses „Raten“ oder besser gesagt die Hypothesenbildung gut bewerkstelligen, haben wir die Forderungen nach Vollständigkeit und Schnelligkeit der Wahrnehmung gut ausgewogen. Dass unsere Wahrnehmung der Umwelt angemessen ist, steht und fällt also mit den Hypothesen, die das Wahrnehmungssystem bildet und mithilfe derer es das sensorisch Wahrgenommene ergänzt und die nächsten Wahrnehmungserkundungen steuert. Dieses Bilden von Hypothesen funktioniert in der Regel recht gut. Andernfalls würden wir in unserem täglichen Agieren in der Welt ständig Wahrnehmungstäuschungen unterliegen oder Wesentliches nicht registrieren, sodass es laufend zu Unglücken käme. Das ist aber nicht so. Vielmehr lässt sich feststellen, dass die Situationen, in denen uns die Wahrnehmung täuscht oder der Wahrnehmung Relevantes entgeht, erst durch aufwändige Experimente hervorgebracht werden können. Das ist auch der Grund, warum z. B. viele optische Täuschungen nach ihren ‘Entdeckern’ benannt worden sind. Kämen sie laufend vor, wäre das nicht so.

Die Hypothesenbildung findet sich auf allen Stufen der Wahrnehmung wieder, von evolutionär ausgeprägten Erkennungsmustern bis hin zu erlernten Verhaltensschemata. Einige dieser Hypothesen könnte man gebündelt als Hypothese einer stabilen Umwelt bezeichnen. Ein Baum beispielsweise verschwindet nicht von einer Sekunde zur anderen. Auch ein Hügel in der Landschaft ist – abgesehen von Naturkatastrophen – stabil. Weder fällt die Sonne innerhalb einer Sekunde vom Himmel noch verschwindet ein Gebäude, nur weil man sich gerade umdreht und nicht hinschaut. Solche Hypothesen helfen im großen Stil Wahrnehmungsaufwand zu ersparen. Man muss sich einmal vorstellen, wie aufwändig wir ohne diese Stabilitätsannahme die Welt erschließen müssten. Wir müssten ständig umherschauen und uns fortwährend bewegen, um uns zu vergewissern, dass Objekte immer noch vorhanden sind und der Boden unter den Füßen immer noch stabil ist.

Viele Hypothesen hängen mit individuellen Lernprozessen zusammen, die im sozialen Umfeld jeweils angeeignet werden müssen. Der Straßenverkehr kann gut als Beispiel dienen. Hier haben Kinder oft Probleme, auf die relevanten Objekte und ihre Bewegungen zu achten. Ohne ein spezielles Training sehen sie alles Mögliche, das sie interessiert, aber nicht unbedingt das für ihre Sicherheit Wesentliche. Entscheidend sind nicht isolierte Einzelwahrnehmungen, sondern die kontinuierliche Einbettung, Bewertung und Anpassung. Auch der Weg von der Fahrschule bis zum erfahrenen Umgang im Straßenverkehr ist durch solche Lern- und Übungsprozesse geprägt. Es entsteht eine Art professioneller Tunnelblick, bei dem die relevanten Reize der Umgebung beachtet, aber Vieles am Straßenrand nicht registriert wird.

Andere Hypothesen des Wahrnehmungssystems beruhen nicht auf individueller Erfahrung, sondern sind als Resultat der Evolution quasi fest in das Wahrnehmungssystem eingebaut. Die Architektur unseres Wahrnehmungssystems sorgt zum Beispiel dafür, dass plötzliche Änderungen im sogenannten peripheren Sichtfeld die Aufmerksamkeit so stark leiten, dass die aktuelle Handlung zumindest kurz unterbrochen wird, um die Änderung zu prüfen. Eine plausible Erklärung dafür ist, dass Veränderungen im Rücken eines Menschen eine Gefahr signalisieren könnten, auf die man unmittelbar reagieren muss, um ihr begegnen zu können. Da das periphere Sichtfeld genau den Übergangsbereich zwischen dem vorderen sichtbaren Bereich und dem hinteren nicht sichtbaren Bereich abdeckt, fungiert es gewissermaßen als Frühwarnsystem. Die Wahrnehmungshypothese lautet entsprechend: Eine Bewegung am Rande des Wahrnehmungsfeldes signalisiert eine potenzielle Gefahr und erfordert daher die unmittelbare und sofortige Aufmerksamkeit.

Das menschliche Wahrnehmungssystem ist auf das Erkennen von typischen Situationen in einer physischen Umwelt ausgelegt. In diese Umwelt hinein konstruieren wir als Softwaregestalter interaktive Nutzungsschnittstellen. Insofern betrachten wir solche Nutzungsschnittstellen als Handlungs- und Wahrnehmungsraum, der mit demselben Wahrnehmungssystem sensorisch erschlossen und kognitiv durchdrungen bzw. (re-)konstruiert werden muss. Je besser wir die Mechanismen und Eigenschaften unseres Wahrnehmungssystems mit Hypothesen und den damit verbundenen Konflikten verlässlich beschreiben können, desto angemessener und robuster können wir diese Einsichten in Gestaltungsempfehlungen umsetzen. Von daher ist auch nicht verwunderlich, dass es darauf ankommt, konfligierende Forderungen zu erkennen und Überlegungen anzustellen, wie sie im Zusammenspiel mit weiteren Forderungen angemessen austariert werden können. Dafür bereiten wir nachfolgend die Grundlage auf. Es geht also zunächst noch nicht in erster Linie um konkrete Gestaltungsbeispiele, sondern darum die Wirkmechanismen offenzulegen. Im praktischen Teil kümmern wir uns dann detaillierter um konkrete Gestaltungsregeln und daraus ableitbare Lösungsvorschläge.

Visuelle Wahrnehmung

Aufbau des Auges – Bild: Jmarchn (CC BY-SA 3.0)

Wie groß der Unterschied zwischen Abbilden und Wahrnehmen ist, zeigt sich im Vergleich menschlicher Wahrnehmung und einem Fotoapparat. Beim Fotografieren wird zu einem festen Zeitpunkt ein vollständiges Abbild erstellt, das unabhängig von vorherigen Aufnahmen ist. Beim Sehen hingegen findet ein mehrstufiger komplexer Prozess statt, bei dem schon im Auge eine gehörige Reduktion stattfindet. Schauen wir uns das Auge ein bisschen genauer an, um zu verstehen, wie diese Reduktion stattfindet und welche Konsequenzen sie für uns in der Gestaltung von Nutzungsschnittstellen hat.

Oben sehen Sie den Aufbau des Auges beginnend mit der nach außen gestülpten Hornhaut und dahinter die Pupille und die Linse. Auf der anderen Seite der mit einer gelartigen Substanz gefüllten Kammer (Glaskörper) befindet sich die Netzhaut mit den lichtempfindlichen Nervenzellen.

Chromatische Aberration und Blau-Weitsichtigkeit

Um Objekte in verschiedenen Entfernungen scharf wahrnehmen zu können, kann das Auge die Brennweite der Linse anpassen. Wie diese Anpassung erfolgen muss, ist aber nicht nur von der Entfernung des Auges zum Objekt abhängig, sondern auch von der betrachteten Farbe. Das liegt an der physikalischen Eigenschaft, dass Licht verschiedener Wellenlängen an Prismen und Linsen unterschiedlich stark gebrochen wird. Diese Abweichung nennt sich „chromatische Aberration“, zu Deutsch etwa „Farbabweichung“ oder auch „Farbfehler“.

Problematisch wird diese chromatische Aberration, wenn sehr kurzwelliges und sehr langwelliges Licht, also rot und blau, in direkter Nähe zueinander verwendet werden. Die Abbildung zeigt so eine Situation, die vor allem an einem leuchtenden Bildschirm einen sehr unangenehmen Eindruck erzeugt. Der Grund dafür ist, dass es dem Auge nicht möglich ist, das Bild richtig zu fokussieren. Fokussiert das Auge auf die roten Bereiche, werden die blauen Bereiche unscharf. Beim Fokussieren auf den blauen Bereich werden dementsprechend die roten Bereiche unscharf. Da diese Regionen aber direkt nebeneinander und ineinander liegen, ist immer ein Teil des gerade betrachteten Bildes unscharf. Mit jeder Änderung des Fokus von einem Bereich in den anderen muss das Auge entsprechend die Linsenstellung anpassen und tut dies doch nie richtig.

Lichtbrechung bei verschiedenen Wellenlängen

Weißes Licht setzt sich aus Lichtstrahlen verschiedener Wellenlängen zusammen. Die chromatische Aberration sorgt dafür, dass es eine Farbtrennung gibt. Wenn ein farbloses graues oder weißes Objekt angeschaut wird, fokussiert ein normalsichtiges Auge im Prinzip auf den Gelb-Anteil des Objekts. Der grüne Lichtanteil hat demnach seinen Brennpunkt knapp vor der Retina, der rote knapp dahinter. Die leichte Unschärfe in diesen Farbanteilen nehmen wir allerdings nicht wahr.

Wie die Grafik zeigt, resultiert daraus, dass der Brennpunkt des blauen Lichtanteils weit vor der Retina liegt. Normalsichtige Menschen sind also blau-weitsichtig. Diese Fehlsichtigkeit hat Folgen für die ergonomische Farbwahl am Bildschirm. Problematisch ist vor allem voll gesättigtes Blau als Hintergrundfarbe oder als feine Struktur, zum Beispiel als blauem Text auf dunklem Hintergrund.

Problematische Verwendung von Blau als Hintergrund- oder Textfarbe

Zentrales Sehen

Auf der Netzhaut sind zwei Bereiche besonders interessant. Zum einen gibt es dort den blinden Fleck. Das ist die Stelle, an der der Sehnerv zum Gehirn verläuft. Da an dieser Stelle kein Platz für Rezeptoren ist, kann das Auge hier folglich keinen sensorischen Reiz liefern. Besonders gut sieht es dagegen im gelben Fleck, der Fovea. Dies liegt daran, dass die Nervenzellen auf der Retina nicht gleichmäßig verteilt sind. Bei den lichtempfindlichen Zellen unterscheidet man zwei Arten, die nach ihrem Aussehen auch als „Zapfen“ und „Stäbchen“ bezeichnet werden. Mit ihrer Funktion haben diese Namen nichts zu tun. In der Fovea gibt es fast nur Zapfen und das in einer hohen Dichte. Zapfen sind relativ lichtunempfindlich, ermöglichen aber die Wahrnehmung von Farben. Dadurch dass sie in der Fovea in hoher Dichte vorhanden sind, kann mit diesem Teil des Auges besonders scharf gesehen werden. Auch weiter außen auf der Retina gibt es Zapfen, allerdings in erheblich geringerer Dichte. Stäbchen gibt es auf der kompletten Retina außerhalb der Fovea. Sie haben ihre höchste Dichte in einem Ring um die Fovea. Stäbchen erlauben keine Farbwahrnehmung, sind aber dafür sehr lichtempfindlich. Stäbchen dienen dem Sehen bei Nacht, wenn nur der Mond oder die Sterne zur Beleuchtung dienen. Bei Tage spielen die Stäbchen beim Sehen keine Rolle.

Vereinfachte Darstellung des Bereichs des zentralen Sehens

Die Abbildung vermittelt eine Vorstellung davon, was ein einzelnes Auge zu einem Zeitpunkt „sieht“. Der Bereich des zentralen Sehens ist sehr klein. Als Daumenregel, im wahrsten Sinne des Wortes, entspricht der von der Fovea wahrgenommene Bildteil etwa der Größe eines Daumennagels bei ausgestrecktem Arm. Nach außen hin nehmen die Farbwahrnehmung und auch die Sehschärfe stark ab. An der Darstellung nicht stimmig ist, dass die weit von der Fovea entfernten Bereiche gänzlich farblos dargestellt sind. Tatsächlich ist die Farbwahrnehmung im peripheren Sichtbereich sehr eingeschränkt. Vollständig farbenblind ist man dort aber nicht. Große farbige Bereiche können farbig wahrgenommen werden, kleinere Strukturen allerdings nicht mehr.

Von besonderer Wichtigkeit für uns ist das zentrale Blickfeld, also der Bereich, in dem wir scharf, detailliert und farbig sehen können. Nur was wir hier erfassen, ist der bewussten Verarbeitung zugänglich. Das Wahrnehmungssystem bringt deshalb fortwährend andere Ausschnitte der Umgebung in diesen Bereich. Dies geschieht für natürliche Situationen sehr effektiv und wird dem Sehenden selbst in der Regel nicht bewusst, denn auch wenn man den Kopf nicht bewegt, ist das Auge mit kleinen ruckartigen Bewegungen unablässig auf Erkundungstour. Betrachtet man das Auge und seine Bewegungen, kann man im Großen und Ganzen zwei Phasen unterscheiden: Während der sogenannten „Sakkaden“-Bewegung wird das Auge in sehr schnellen, kurzen Bewegungen um etwa zwei bis zehn Grad in 20 bis 25 Millisekunden an eine andere Position gerichtet, auf der es dann verweilt. Dieses Verweilen nennt man „Fixation“. Während der Fixation findet die bewusste Verarbeitung des Gesehenen statt. Die Sakkaden hingegen werden von unserem Wahrnehmungssystem gefiltert, sodass sie nicht wahrgenommen werden.

Sakkadenbewegungen beim Betrachten eines Gesichts – Quelle: Yarbus, Alfred L.: Eye Movements and Vision. Springer, 2013.

Diese Abbildung von Alfred Yarbus²² verdeutlicht, dass das Wahrnehmungssystem anhand von früheren Erfahrungen bei der Erschließung eines Bildes selektiv vorgeht und bei der Betrachtung eines Gesichts dieses nicht etwa komplett abtastet. Große Teile des Bildes werden in diesem Beispiel nicht beachtet. Die Hauptaufmerksamkeit des Wahrnehmungssystems liegt klar auf Mund, Nase und vor allem der Augenpartie, also genau den Teilen des Gesichts, an denen sich Menschen gut unterscheiden lassen.

Die Konsequenzen der Lokalität der Wahrnehmung lassen sich gut an sogenannten „unmöglichen Figuren“ verdeutlichen. Der Grund, warum diese Figuren so irritierend sind, ist, dass sie an jedem Punkt lokal korrekt, aber global unmöglich sind. An jeder Stelle, auf die wir schauen, erhalten wir korrekte Hinweise darauf, wie sich die Figur fortsetzt, welcher Teil hinten liegt und welcher vorne, was oben und was unten ist usw. Nach einer Weile der Betrachtung stellen wir dann fest, dass die aktuelle Wahrnehmungshypothese und das aktuelle Wahrnehmungsbild nicht mehr zusammenpassen. Das Zusammensetzen funktioniert nicht, obwohl kein lokaler Fehler erkennbar ist.

Unmögliche Figuren – Quelle: 4C (CC-BY-SA 3.0) via Wikimedia Commons

Ist unser Wahrnehmungssystem deshalb unzuverlässig und fehlerhaft? Im Gegenteil! Die Tatsache, dass all diese unmöglichen Strukturen erst mit entsprechendem Aufwand gefunden und konstruiert werden konnten, ist ein Indikator dafür, dass das Auftreten einer solchen Wahrnehmungssituation in einer nicht absichtlich gestalteten Umgebung sehr unwahrscheinlich ist.

Eine scheinbar unmögliche Figur als Kunstobjekt – Bilder: Bjørn Christian Tørrissen (CC BY-SA 3.0)

Die Abbildung oben zeigt die Skulptur „Impossible Triangle“ auf einem Kreisverkehr in Perth in Australien. Die Skulptur wurde geschickt so erstellt, dass aus einer bestimmten Perspektive tatsächlich eine unmögliche Figur, das sogenannte „Penrose-Dreieck“, zu sehen ist. Auch hier stößt unser Wahrnehmungssystem wieder auf dasselbe Problem: An jeder Stelle des Dreiecks ist es leicht, lokal eine Hypothese über die Figur zu treffen, doch in ihrer Gesamtheit passen diese Hypothesen nicht zusammen. Unser Verstand sagt uns, dass es so nicht sein kann, doch gelingt es uns nicht, die Figur anders zu sehen. Eine fehlerhafte Annahme unseres Wahrnehmungssystems könnte sein, dass es sich um eine geschlossene Figur handeln muss. Diese Hypothese ist in diesem Sonderfall nicht richtig. Die resultierende Fehlwahrnehmung ist verblüffend, bleibt aber, selbst wenn sie einmal auftreten sollte, in nicht statischen Szenerien eine nur sehr kurz auftretende Erscheinung. Schon eine kleine Änderung der Position des Betrachtenden reicht aus, um durch Differenzerfahrung die Fehlwahrnehmung aufzulösen.

Peripheres Sehen

Die Eigenschaften des peripheren Sehens, also des Sehens außerhalb des zentralen Wahrnehmungsbereichs, unterscheidet sich sehr stark von dem in der Fovea. Die peripheren Netzhautbereiche haben eine viel geringere räumliche Auflösung, eignen sich also nicht zur Detailwahrnehmung. Auch die Farbauflösung ist dort gering. Das bedeutet, dass nur große, farbige Bereiche (etwa ein blauer Himmel im Vergleich zum braunen Feld) im peripheren Wahrnehmungsfeld wahrgenommen werden. Die Farbunterschiede kleinerer Bereiche hingegen werden nicht registriert. Gleichermaßen hoch wie im zentralen Bereich des Sehens ist die Wahrnehmung von Bewegungen. Dies ermöglicht dem Menschen zwar nicht direkt zu erkennen, was sich von der Seite nähert oder bewegt, wohl aber schnell zu bemerken, dass sich etwas bewegt. Dies gibt dem Wahrnehmungssystem den Anreiz, den Fokus der Wahrnehmung zu ändern und dem Menschen die Voraussetzung über die mit der Wahrnehmung verbundenen Konsequenzen zu entscheiden, also zum Beispiel die Flucht zu ergreifen.

Die Aufteilung der Wahrnehmung im Auge in den zentralen und den peripheren Bereich zeigt gut die Anpassung des Menschen an seine Umwelt und damit das Austarieren der eingangs genannten Anforderungen Vollständigkeit und Schnelligkeit. Das menschliche Sehen ist kein fauler Kompromiss, der ein bisschen vollständig und zugleich ein bisschen schnell ist, sondern ein fein austariertes System, das die Notwendigkeit der vollständigen Wahrnehmung mindert, wo sie aller Wahrscheinlichkeit nach nicht nötig ist, und die Schnelligkeit der Wahrnehmung als Trigger zur Wahrnehmungssteuerung selbst nutzt.

	zentral	peripher
Lokalisation	Fixationspunkt	Äußeres Gesichtsfeld
Farbauflösung	hoch	niedrig
Räumliche Auflösung (Sehschärfe)	hoch	gering
Zeitliche Auflösung (Bewegung)	hoch	hoch
Rolle	Detailwahrnehmung	Aufmerksamkeitsleitung

Gestaltungskonsequenzen

Schon aus diesen elementaren Eigenschaften der Wahrnehmungsarchitektur lassen sich direkt Handlungskonsequenzen für die Gestaltung von Nutzungsschnittstellen ableiten.

Alle Veränderungen im peripheren Blickfeld sind aufmerksamkeitssteuernd. Was sich am Rande bewegt, ist potenziell interessant, weil es eine heraufziehende Gefahr signalisieren könnte. Sie kennen sicher Situationen, wo sich etwas in Ihrem Augenwinkel bewegt und die Aufmerksamkeit auf sich zieht. Das kann man sich zunutze machen. Wenn Sie in ein volles Restaurant gehen und dort eine Gruppe Bekannter suchen, hilft es ungemein, wenn einer der Bekannten winkt. Sie finden die Gruppe dann auch bei einem komplett vollen Restaurant. Was sich jedoch permanent bewegt oder blinkt, obwohl es nicht Ihrer Aufmerksamkeit bedarf, etwa ein in der Ecke stehender Fernseher oder eine Uhr mit Pendel, kann dagegen nervtötend werden. Für die Gestaltung von Nutzungsschnittstellen bedeutet das vor allem, Animationen und blinkende Elemente mit Bedacht einzusetzen. Beide können dafür verwendet werden, die Aufmerksamkeit gezielt auf etwas zu ziehen, etwa wenn ein Fehler aufgetreten ist oder wenn aus einem anderen Grund die Aufmerksamkeit erforderlich ist.

Die Schreibmarke (der Cursor) ist auch dann leicht zu finden, wenn sie sich mitten in einem Text befindet. Den Mauszeiger hingegen kann man recht gut im Text verstecken. Dass der Cursor leicht zu finden ist, liegt daran, dass er blinkt. Da das Blinken des Cursors sehr gleichmäßig und der Cursor als Objekt zudem recht klein ist, ist er aber nicht so ablenkend, dass es einem schwer fallen würde, den Rest des Bildschirms zu betrachten.
Im Dock von Mac OS beginnen die Icons von Anwendungen, die gerade nicht aktiv sind, aber der Aufmerksamkeit bedürfen, zu hüpfen. Apple hat sich dazu entschlossen, dieses Hüpfen recht ungleichmäßig zu gestalten, was die aufmerksamkeitsleitende Wirkung noch verstärkt. Auch bei Windows können die Elemente in der Taskleiste die Aufmerksamkeit auf sich ziehen. Microsoft ist in der Gestaltung dabei etwas zurückhaltender und beschränkt sich auf ein Blinken.
Wenn die Aufmerksamkeit nicht auf eine bestimmte Region des Bildschirms oder auf bestimmte Elemente gezogen werden soll, sollten Blinken und Animationen möglichst vermieden werden. Wenn eine Animation dafür eingesetzt wird, einen Vorgang zu verdeutlichen, sollte darauf geachtet werden, dass die Animation glatte, gleichmäßige Bewegungen aufweist. Diese haben weniger Ablenkungspotenzial als unruhige, ruckartige Bewegungen.
Wenn Animationen in einer Dauerschleife ablaufen, sollten diese auf jeden Fall abschaltbar sein. Endlosschleifen zermürben und bringen keinen informationellen Zugewinn, außer andauernder Unruhe im äußeren Gesichtsfeld.
Es ist auf jeden Fall zu vermeiden, dass es mehrere blinkende oder sich bewegende Elemente auf einmal gibt. Die ablenkende Wirkung verstärkt sich mit jeder zusätzlichen Veränderungsquelle. Gleichzeitig geht die Möglichkeit der beabsichtigten Aufmerksamkeitsleitung verloren.

Bewegungen im peripheren Wahrnehmungsfeld werden vom Wahrnehmungssystem, wie soeben beschrieben, genutzt, um die Wahrnehmung zu steuern, um sie auf etwas potenziell Gefährliches hinzuweisen. Es gibt weitere solcher Trigger, die helfen, die Aufmerksamkeit auf Wichtiges in der Umwelt zu lenken.

Aufmerksamkeitsleitung: Präattentive Wahrnehmung

Der Mensch muss in der Lage sein, mit einem Blick zu erfassen, was wichtig ist, was also einer intensiveren Betrachtung bedarf und was nicht. Ein wichtiger Mechanismus ist dabei die präattentive Wahrnehmung. Präattentiv heißt vorbewusst. Es gibt also keinen bewussten Denkprozess der Art „Oh, das sieht aber interessant aus, das schaue ich mir mal an“. Der Vorteil der vorbewussten Verarbeitung ist, dass die Aufmerksamkeitsleitung sehr schnell und effizient ist. Nur potenziell bedeutsame Reize dringen ins Bewusstsein vor, alles andere wird ignoriert. Der damit verbundene Nachteil der präattentiven Wahrnehmung ist aber, dass wir uns gegen sie nicht wehren können.

Vorbewusste Wahrnehmung eines roten Punktes

Wir müssen keine Hellseher sein, um eine gute Prognose darüber abgeben zu können, welcher Punkt auf der Abbildung oben wohl als Erstes angesehen wird. Der Punkt in der Signalfarbe Rot sticht unter den anderen hervor. Die präattentive Verarbeitung in unserem Wahrnehmungssystem wählt ihn für uns aus und lenkt unsere Aufmerksamkeit automatisch dorthin. Natürlich können Sie sich den Rest der Abbildung anschauen, aber wenn Sie auf das Ganze blicken, wandert Ihr Blick unweigerlich zu diesem einen roten Punkt zurück. Gut, mögen Sie sagen, rot ist ja eine Signalfarbe. Vielleicht ist es eine erlernte Verhaltensweise, vielleicht aus dem Straßenverkehr, dass Sie bei Rot immer hinschauen.

Verschiedene Attribute sorgen für eine vorbewusste Wahrnehmung

So einfach ist es jedoch nicht, denn auch in diesen Abbildungen stechen jeweils mehrere Punkte besonders hervor: links der schwarze und rechts der größere Punkt. Schwarz ist aber keine Signalfarbe und auf der rechten Seite gibt es keinen Farbunterschied. Die präattentive Verarbeitung von Signalen erfolgt kontinuierlich, etwa bei einem Partygespräch, wo man interessiert einer Person lauscht, ohne das Gerede der anderen bewusst wahrzunehmen. In dem Augenblick jedoch, wo in diesem Geräuschwirrwarr der eigene Name auftaucht, wird die Aufmerksamkeit auf die neue Quelle ausgerichtet.

Gestaltungskonsequenzen

Präattentive Wahrnehmung ist ein fester Teil unseres Wahrnehmungssystems. Wir können sie nicht steuern und wir können uns auch nicht dagegen wehren. Dies gilt es bei der Gestaltung von Nutzungsschnittstellen zu bedenken. Sie können den Effekt ausnutzen, indem Sie ein Element am Bildschirm, von dem Sie wollen, dass es auf den ersten Blick wahrgenommen wird, mit einer präattentiven Eigenschaft versehen, es also zum Beispiel farbig herausstellen. Dieses Ausnutzen der präattentiven Wahrnehmung hat nicht nur Gestaltungskonsequenzen für das Element, das Sie tatsächlich herausstellen wollen, sondern auch für alle anderen Elemente auf dem Bildschirm, denn die Aufmerksamkeitsleitung funktioniert nur gut, wenn unter den anderen Objekten eine gewisse Uniformität herrscht.

Kombinationen präattentiver Merkmale verlieren ihre aufmerksamkeitsleitende Wirkung

Auf der Abbildung oben fällt es schwer das eine, sich von den anderen unterscheidende Element zu finden. Bei der großen visuellen Unruhe funktioniert die Vorauswahl unseres Wahrnehmungssystems nicht mehr. Der eine abweichende violette Punkt sticht unter den bunten Punkten nicht hervor.

Farbenvielfalt im App-Store von Windows 8

Generell birgt gerade die Farbgestaltung eine große Gefahr, die Potenziale der Aufmerksamkeitsleitung zu verschenken oder, schlimmer noch, eine ungewollte Aufmerksamkeitsleitung hervorzurufen. Obige Abbildung zeigt den App-Store von Windows 8. Da Microsoft jeder Anwendung seinerzeit zugestand, die Farbe der Kachel selbst zu bestimmen, bestand zum einen die Gefahr, dass sich einzelne Kacheln in den Vordergrund schieben, zum Beispiel die Audio-Recorder-Kachel oben rechts in Knallrot. Bei so einem Gestaltungsansatz ist es nicht mehr möglich, Farbe zuverlässig als Mittel der Auszeichnung zu nehmen.

Kontraststeigerung durch laterale Hemmung

Die Aufmerksamkeitsleitung durch Veränderungen im peripheren Wahrnehmungsfeld und durch die präattentive Wahrnehmung sind fest eingebaute Funktionsweisen unseres Wahrnehmungssystems, derer wir uns nicht entziehen können. Sie sortieren für uns vor und bestimmen, was wir uns jeweils intensiver anschauen. Auch die laterale Hemmung ist eine Eigenschaft der Wahrnehmung, die wir nicht bewusst steuern können. Sie sorgt dafür, dass wir Übergänge gut erkennen können. Sie kann aber bei ungeschickter Gestaltung auch für Fehlwahrnehmungen sorgen, die es zu vermeiden gilt.

Aufbau der Retina – Bild: Cajal, Anka Friedrich (CC BY-SA 3.0)

Hier ist eine schematische Zeichnung der Retina zu sehen. Die Lichtstrahlen kommen von links und müssen, zumindest außerhalb der Fovea, zunächst eine Reihe von Zellen passieren, bevor sie auf die lichtempfindlichen Zapfen und Stäbchen (rechts) treffen. Die verschiedenartigen Zellen, die vor den Sensorzellen liegen, verknüpfen mehrere Zapfen und Stäbchen und gewährleisten dadurch eine schnelle Vorverarbeitung. Für unsere Zwecke ist es nicht erforderlich, dass wir die Funktionsweise der verschiedenen Zellen im Detail behandeln. Wir stellen aber fest, dass es zwischen den Zapfen und Stäbchen rechts und den Ganglienzellen, den „Kugeln“, auf der linken Seite eine komplexe Verschaltung gibt. Insgesamt werden im Auge sechs Millionen Zapfen und 120 Millionen Stäbchen auf nur eine Million Ganglienzellen verschaltet. Es findet im Auge also eine Art Datenreduktion, eine Komprimierung statt. Ein Teil der Verschaltungen, die im Auge passieren, dient der Kontrastverstärkung. Dies geschieht durch sogenannte „laterale Hemmung“. Die Erregung einer Nervenzelle hemmt dabei die Erregung der benachbarten Zellen.

Die tatsächlichen Verschaltungen im menschlichen Auge sind recht komplex. Obige Grafik zeigt eine einfache Form der lateralen Hemmung, die das Konzept für unsere Zwecke hinreichend gut verdeutlicht. Im oberen Teil der Grafik ist ein Übergang von einer dunklen Fläche zu einer hellen Fläche zu sehen. Diese Struktur wird von acht Sensorzellen erfasst, vier davon erfassen die dunkle, vier die helle Seite. Die Sensorzellen messen im dunklen Teil einen Wert von 4, im hellen Teil einen Wert von 8. In der Ebene darunter befindet sich eine Reihe von Knoten. Jeder Sensorzelle ist einer dieser Knoten direkt als Eingang zugeordnet. Die Knoten sind aber auch untereinander verschaltet. Jeder Knoten hemmt die neben ihm liegenden Knoten mit einem Viertel seines Eingangswerts. Wir können nun die Ausgangswerte berechnen. Die beiden hellblauen Knoten lassen wir außen vor, denn ihnen fehlt jeweils ein Partner. Für den ersten dunkelblauen Knoten haben wir einen Eingangswert von 4 und zwei Hemmungen von jeweils 1. Es bleibt ein Ausgangswert von 4-1-1=2. Das Gleiche gilt für den zweiten Knoten. Beim dritten Knoten verhält es sich anders, da von der rechten Seite nun eine Hemmung von 2 zu berücksichtigen ist. Der Ausgangswert ist demnach 4-1-2=1. Der nächste Knoten ist der erste Knoten auf der hellen Seite der Struktur. Der Eingangswert ist daher 8. Der Knoten wird von der linken Seite, die ja noch im dunklen Teil der Struktur liegt, um 1 gehemmt und von der rechten Seite, die im Hellen liegt, um 2. Es ergibt sich dementsprechend ein Ausgangswert von 8-1-2=5. Die nächsten beiden Knoten werden von beiden Seiten jeweils gleich gehemmt. Der Wert ist 8-2-2=4. Im unteren Bereich sehen Sie das Ergebnis der Verschaltung. Der Kontrast an der Stelle des Übergangs wurde vom Verhältnis 1:2 zum Verhältnis 1:5 erhöht. Die Nebenwirkung dieser Kontrasterhöhung ist aber, dass der Übergang nun eine Art Aura hat. Die Randbereiche um die Übergangsstelle erscheinen dunkler bzw. heller, als sie tatsächlich sind.

Wahrnmungirritationen durch Laterale Hemmung

Die laterale Hemmung ermöglicht dem Menschen ein verlässliches Erkennen selbst geringer Helligkeitsunterschiede. Dies ist für eine schnelle Erkennung von Umrissen sehr hilfreich. Sie kann bei der Gestaltung von Nutzungsschnittstellen aber auch problematisch werden. Das weiße und das graue Rechteck unten links erhalten durch unsere Wahrnehmung eine dunkle bzw. helle Aura. Dieser Effekt stört aber in der Regel nicht. Problematisch ist hingegen der Helligkeitsverlauf. Er erhält durch die laterale Hemmung eine physisch nicht existierende helle Aura an seinem Ende. Obwohl er technisch einwandfrei gelöst ist, wirkt er schlecht gestaltet. Dem Problem kann dadurch abgeholfen werden, dass anstelle eines linearen ein logarithmischer Verlauf verwendet wird oder indem der Verlauf nicht nur über einen Teil, sondern über die komplette Fläche verläuft. Wie im Bild unten rechts zu erkennen ist, kann das Problem der hellen Aura auch bei einem Schlagschatten auftreten. Auch in diesem Fall hilft ein großflächigerer Verlauf.

Wahrnehmung als Hypothesenbildung

Zu Beginn dieses Kapitels haben wir erläutert, warum das Bilden von Hypothesen für das Wahrnehmungssystem notwendig ist. Hypothesenbildung gibt es in der Wahrnehmung auf verschiedenen Ebenen. Schon auf der Ebene der basalen Eigenschaften der visuellen Wahrnehmung lassen sich solche Hypothesen formulieren. Dass etwas, das sich im Augenwinkel bewegt, gefährlich sein kann oder dass sich ein Objekt (zum Beispiel eine Beere) von umgebenden Objekten (zum Beispiel den Blättern) unterscheidet, die Aufmerksamkeit verdient, ist ja letztlich nur eine Hypothese. Es muss nicht so sein, aber in der Evolution ist diese Annahme so lange von Vorteil, bis sich eine bessere Variante durchsetzt.

Hypothesenbildung findet man auch in anderen Teilen der Wahrnehmung. Viele dieser Hypothesen sind nicht genetisch bedingt, sondern von der individuellen Erfahrung eines Menschen abhängig. Für bestimmte Situationen ist offensichtlich, ob eine bestimmte Wahrnehmungshypothese erlernt ist oder direkt aus der Physiologie des Menschen ableitbar ist. In anderen Fällen ist das nicht so klar und die Übergänge sind fließend. Die Tiefenwahrnehmung, also einzuschätzen, ob etwas in der Nähe oder weit entfernt ist, ist zumindest teilweise erlernt²³. Man konnte das feststellen, als man indigene Völker untersuchte, die ausschließlich im Wald lebten und die Erfahrung der Sicht auf etwas weit Entferntes nie machen konnten. Führte man diese Menschen auf einen Berg, konnten sie nicht einschätzen, ob in der Ferne liegende Berge weit entfernt waren. Sie erschienen ihnen genauso nah wie tatsächlich in der Nähe befindliche Objekte. Dass wir Entfernungen einschätzen können, ist also nicht komplett biologisch verdrahtet, sondern hat auch mit unseren Erfahrungen zu tun. Man könnte auch von „kulturellen Erfahrungen“ sprechen.

Form und Bedeutung

Sicher ist es Ihnen schon mal so gegangen, dass Sie ein Muster erkennen, es aber nicht interpretieren konnten, während ein Experte das gleiche Bild ansah und sofort etwas erkannte. Ultraschallbilder sind ein gutes Beispiel dafür. Wenn Sie noch nie eines gesehen haben und nicht wissen, worum es geht, fehlen Ihnen vergleichbare Bilder, die es Ihnen ermöglichen, relevante von irrelevanten Mustern zu unterscheiden. Mit etwas Erfahrung ist es Ihnen jedoch möglich, die grundsätzlichen Umrisse eines Kindes zu erkennen. Mit der umfangreichen Erfahrung eines Arztes könnten Sie aber noch mehr erkennen.

Ähnlich verhält es sich bei Darstellungen wie dem unten abgebildeten Muster. Relativ amorphe Flecken werden zu einer sinnvollen Ganzheit gruppiert. Im Prozess der Wahrnehmung werden fehlende Bildelemente so ergänzt, dass eine sinnvolle Gestalt entsteht. Diese „Bedeutung“ liegt nicht allein an der Form der Flecken. Wahrscheinlich erkennen Sie im Bild die Silhouette eines Dalmatiners, der auf dem Boden schnüffelt. Oben links befindet sich ein Baum, der einen Schatten wirft. Sie können diese Objekte auf dem Bild nur dann sehen, wenn Sie eine ähnliche Szenerie kennen, wenn es Ihnen möglich ist, eine passende Hypothese, eine Dalmatiner-Hypothese, aufstellen zu können. Was Sie sehen, hängt also stark davon ab, welche Erfahrungen Sie in Ihrem Leben schon gemacht haben.

Ein Dalmatiner? Quelle: Johnson, Jeff: Designing with the Mind in Mind. Published in: Marr, David: Vision. A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman and Co., New York, p. 101. 1982.

Erst mit dem Erkennen einer dreidimensionalen Szenerie in einer Zeichnung entsteht auch der Eindruck einer Tiefenwahrnehmung. Wenn Sie auf dem Bild unten noch nichts erkannt haben, erscheint Ihnen das Bild sicherlich flach. Wenn wir Ihnen nun aber sagen, dass eine Person auf einer Bank sitzt und Sie das dann auch erkennen, scheint das Bild jetzt Tiefe zu haben.

Ein sitzender Mensch? – Bild: Rock, Irvin. "The logic of perception." (1983) — Ein sitzender Mensch? – Bild: Rock, Irvin. “The logic of perception.” (1983)

Ein verstecktes Gesicht in der Oper in Sydney – Foto: Richard Berenbrinck

Der Wahrnehmungsapparat des Menschen setzt die Sinnesreize in Beziehung zueinander, um eine bedeutungsvolle Form zu schaffen und sich auf eine bekannte Struktur zu beziehen. Diese Hypothesenbildung kann mitunter ein Eigenleben entwickeln. Auf dem Bild oben sehen Sie die Oper von Sydney. Haben Sie auf dem Bild in der Mitte auch ein großes Gesicht gesehen? Gerade in der Gesichtserkennung ist unser Wahrnehmungssystem besonders gut, weshalb Menschen oftmals dazu neigen, überall Gesichter zu erkennen, vom Jesus-Antlitz im Toastbrot bis hin zu Wolkenformationen. Solche Projektionen funktionieren aber auch für viele andere vertraute Objekte oder Strukturen.

Der Hypothesengenerator nach Gregory

Vereinfachte Version des Hypothesengenerators nach Gregory – Abwandlung von: Gregory, Richard L.: Eye and Brain. The Psychology of Seeing

Das Wahrnehmungssystem kann also als Einrichtung verstanden werden, die fortwährend Hypothesen generiert. Der Psychologe Richard Gregory beschreibt einen solchen Hypothesengenerator als zentrales Element der Wahrnehmungsarchitektur. Wir geben ihn hier in leicht vereinfachter Form wieder²⁴.

Der Hypothesengenerator speist sich aus mehreren Quellen. Teile der Außenwelt werden durch die Sinne erfasst (Bottom-Up). Dieser sensorische Teil der Wahrnehmung kommt in der Form von Signalen im Gehirn an. Diese Wahrnehmungsreize allein reichen aber zur Wahrnehmung eines Objekts nicht aus. Erst mit der Einbeziehung von Wissen und Erfahrung (Top-Down) kann das Gehirn hieraus „erraten“, was das Wahrgenommene ist. Um weitere Erkenntnisse darüber zu bekommen, ob richtig geraten wurde, muss der Mensch handeln und seine Umwelt manipulieren. Eine Bestätigung oder ein Widerspruch zur Hypothese geht in den Wissensschatz ein und kann zukünftige Hypothesen beeinflussen. Im Kapitel „Differenzerfahrung und Wissen“ haben wir dieses Überprüfen einer Hypothese durch Handlungen „Differenzerfahrung“ genannt. An Gregorys Hypothesengenerator ist neben dem Bottom-Up- und dem Top-Down-Weg noch ein Seitenweg von Abkürzungen beteiligt. Diese Abkürzungen sind ebenso Teil der Hypothesenbildung, entstammen aber nicht dem individuellen Wissen und den Erfahrungen, sondern sind im Wahrnehmungssystem unveränderlich verankert, entsprechen also allenfalls einer evolutionären Erfahrung. Hierunter fallen etwa die Mechanismen der Aufmerksamkeitsleitung, der peripheren Wahrnehmung und der präattentiven Vorauswahl.

Gehirnareale der räumlichen Verarbeitung (Quellen siehe Fußnote)

Diese Aspekte der Hypothesenbildung auf Grundlage der sensorischen Wahrnehmung und der Erfahrung finden sich in der Physiologie des Gehirns wieder. Obige Abbildung²⁵ verdeutlicht, dass zunächst eine Vorverarbeitung im visuellen Cortex stattfindet, in dem ganz grundlegende Eigenschaften wie Farben und Kanten erfasst werden. Das Ergebnis der so vorbehandelten sensorischen Informationen bildet den Bottom-Up-Teil der Wahrnehmung. Erst im Zusammenwirken mit Erfahrungswissen kann hieraus eine Hypothese über die Wahrnehmung abgeleitet werden. Die Architektur der menschlichen Wahrnehmung unterscheidet dabei zwischen der Erkennung, was wahrgenommen wird, von der Erkennung, wo sich etwas befindet. Dass diese beiden Wahrnehmungsaspekte voneinander getrennt sind und die jeweilige Hypothesenbildung unabhängig voneinander erfolgt, lässt sich an einem Alltagsphänomen gut nachvollziehen. Objekte, die sich stets an einem bestimmten Ort befanden, werden der Erwartung entsprechend auch an diesem Ort vermutet. Denken Sie zum Beispiel an Bücher in einem Regal. Sortiert man das bekannte Objektarrangement um, läuft diese Annahme in die Irre. Obwohl sich das Aussehen der einzelnen Bücher überhaupt nicht geändert hat, ist das Wiederfinden stark verzögert. Im Zusammenspiel mit der bereits zuvor erläuterten Beschränktheit des scharfen Sehens erklärt sich das zu beobachtende Phänomen, dass die Hypothesen über den Ort viel stärker wirken als die Hypothesen zum Aussehen. Die Hypothese, dass Objekte ihren Ort eher nicht ändern, ist in Hinblick auf die Umwelt folgerichtig.

Konstanzphänomene

Der Hypothesengenerator und die Betrachtung der Wahrnehmungsareale im Gehirn verdeutlichen, dass Wahrnehmen nicht ein simples Abbilden von Sinnesreizen in neuronale Muster, sondern stets eine Konstruktion ist. Einige interessante Phänomene, die das gut verdeutlichen, sind die sogenannten „Konstanzphänomene“. Sie alle sind unter der grundsätzlichen Annahme erklärbar, dass unsere Umgebung im Großen und Ganzen stabil ist. Diese Grundhypothese findet ihren Ausdruck in den Konstanzphänomenen der Wahrnehmung.

Änderungen der wahrgenommenen Form werden bevorzugt als Perspektivänderung wahrgenommen.

Formkonstanz: In den meisten Situationen ändern Gegenstände nicht ohne sichtbaren Einfluss ihre Form. Wenn sich die Form eines Objekts auf der Netzhaut daher ändert, gehen wir davon aus, dass sich nicht die Form des wahrgenommenen Gegenstands geändert hat, sondern dass sich die Perspektive auf diesem Gegenstand geändert hat, sich also der Betrachter oder der Gegenstand bewegt hat.

Größenkonstanz: Auch die Größe eines Objekts ändert sich üblicherweise nicht von selbst. Wenn sich also die Größe der Objektabbildung auf der Netzhaut ändert, weil wir unseren Abstand zum Objekt verändern, gehen wir nicht davon aus, dass das Objekt selbst größer oder kleiner geworden ist.

Helligkeitskonstanz: Die Oberflächenstruktur eines Objekts und damit seine Eigenschaft, Licht zu reflektieren, ändert sich in den meisten Situationen nicht. Wenn sich die Helligkeit einer Abbildung auf der Netzhaut daher ändert, interpretieren wir dieses nicht als Änderung der Oberflächenstruktur des Objekts, sondern gehen davon aus, dass sich die Beleuchtungssituation geändert hat. Solche Beleuchtungsänderungen sind im Gegensatz zu dunkler oder heller werdenden Objekten sehr häufig. Sie treten zum Beispiel auf, wenn sich eine Wolke vor die Sonne schiebt.

Farbkonstanz: Auch die Farbigkeit von Objekten ändert sich meist nicht. Ähnlich wie im Fall der Helligkeitskonstanz wird daher eine Farbänderung eines Objekts auf der Netzhaut nicht als Farbänderung des Objekts selbst, sondern als ein Wechsel in der Umgebungsbeleuchtung interpretiert. Wenn Sie einen Gegenstand etwa aus einem Platz am Fenster in einen Bereich bringen, der mit Glühlampen beleuchtet ist, gehen Sie nicht davon aus, dass dieser Gegenstand gelber geworden ist, sondern führen die Farbveränderung auf die Veränderung der Beleuchtungssituation zurück.

All diese Konstanzphänomene lassen sich mit der eingangs genannten Grundhypothese begründen. Unser Wahrnehmungssystem hat sich an eine stabile Umwelt angepasst. Dinge ändern nicht ohne Anlass ihre Farbe, werden heller oder dunkler, verformen sich oder verändern sich in ihrer Größe. Es kommt hingegen sehr oft vor, dass es heller und dunkler wird, dass sich die Lichtfarbe ändert, dass Dinge sich entfernen, näher kommen oder dass sich die Perspektive auf Gegenstände ändert.

Design-Konsequenzen

Vor allem die Helligkeits- und Farbkonstanz hat direkte Konsequenzen für die Gestaltung von Nutzungsschnittstellen. Beim Auswählen von Farben und beim Gestalten von Farbabstufungen muss immer bedacht werden, dass das menschliche Wahrnehmungssystem nie eine einzelne Farbe neutral wahrnimmt, sondern dass eine wahrgenommene Farbe in Bezug auf Farbton, Sättigung und Helligkeit im Kontext mit den Farben der Umgebung, insbesondere den angrenzenden Farben betrachtet werden muss.

Simultankontrast: Farben werden je nach Umgebung unterschiedlich wahrgenommen

Änderung der wahrgenommenen Leuchtkraft in Abhängigkeit vom Hintergrund

Die Farben werden jeweils in ihrer Umgebung „interpretiert“. Bei kaltem oder warmem Licht wird die gleiche im Auge eintreffende Farbe anders wahrgenommen. Im Bild sind der braune Fächer und die grünen Kreise jeweils technisch gleichfarbig. Sie erscheinen aber einen stark unterschiedlichen Farbton zu haben. Für die Gestaltung von Farbe am Bildschirm heißt das vor allem, dass Farbwirkungen nicht allein aus der technischen Farbbeschreibung bestimmt werden können, sondern dass die umgebenden Farben immer mitbedacht werden müssen, da Farbeindrücke in der Umgebung einer farbigen Fläche durch eben diese Flächenfarbe beeinflusst werden. Dieses Phänomen wird Simultankontrast genannt. Farben sollten also als Ensemble gestaltet werden.

Eine spezielle Form des Simultankontrastes und Folge der Helligkeitskonstanz ist die Abhängigkeit der Helligkeitswirkung eines Objekts von seiner Umgebungshelligkeit. In der Abbildung oben sehen Sie, dass die Objekte auf der rechten Seite leuchtender wirken als die auf der linken Seite. Dass das so ist, kann man als umgekehrte Anwendung der Helligkeitskonstanz interpretieren. Wird es in einem Raum dunkler, werden sowohl die wahrgenommene Helligkeit der Objekte im Raum als auch die der Umgebung dunkler. Wir interpretieren dies nicht als eine Abdunkelung des Objekts, sondern als eine Änderung in der Beleuchtung. Wird aber die Helligkeit des Raums dunkler und die tatsächliche Helligkeit der Objekte bleibt dennoch gleich, dann wird das folgerichtig vom Wahrnehmungssystem als Helligkeitsanstieg der Objekte interpretiert.

Optische Täuschungen

Die Hypothesen des Wahrnehmungssystems haben sich über lange Zeiträume bewährt und sind recht verlässlich. Mit geschickten Konstruktionen ist es jedoch möglich, falsche Schlussfolgerungen zu provozieren. Die optischen Täuschungen sind ein gutes Beispiel dafür.

Bei diesen Täuschungen liegen Wahrnehmungssituationen vor, in denen die Hypothesen des Wahrnehmungssystems offensichtlich fehllaufen. Uns erscheinen unterschiedlich lange, zueinander gerichtete, gebrochene oder unterschiedlich große Objekte unterschiedlich, obwohl sie faktisch gleich lang, parallel, durchgehend oder gleich groß sind. Viele dieser Täuschungen lassen sich mithilfe des Hypothesengenerators erklären, denn es handelt sich meist um geschickt isolierte Ausschnitte, die im Prozess des Sehens eine schnelle Interpretation des Wahrgenommenen ermöglichen. Da sie aber in dieser isolierten Form nie oder nur äußerst selten in der natürlichen Umgebung des Menschen auftreten, führen sie zu falschen Wahrnehmungseindrücken. Zwar lassen sich diese Eindrücke durch zusätzliche Informationen als falsch erkennen, doch verschwindet die Täuschung dadurch nicht. Da unser Wissen den Wahrnehmungseindruck nicht verändern kann, ist dies ein Hinweis darauf, dass diese Erkennungsmechanismen fest im Wahrnehmungsapparat verankert sind. Ähnlich wie bei den unmöglichen Figuren, wie z. B. dem Penrose-Dreieck, können durch die Einbettung in einen erweiterten Wahrnehmungskontext beispielsweise durch geänderte Perspektiven oder die Hinzunahme von Hilfsmitteln und Messgeräten optische Täuschungen und Illusionen als solche erkannt werden.

Zugewandte und abgewandte Kanten in alltäglichen Wahrnehmungssituationen

Die Isolierung aus einem natürlichen Wahrnehmungskontext wollen wir anhand der „Müller-Lyer-Täuschung“ illustrieren. Man betrachte diese beiden Darstellungen: Beide zeigen bekannte, recht unspektakuläre, Wahrnehmungssituationen. Links ist eine Ecke einer Abzweigung in einem Flur zu sehen. Klar erkennbar ist eine vertikale Kante, die als dem Betrachter zugewandte Kante interpretiert wird. Die Abbildung rechts zeigt das Innere eines Aufzugs. Auch hier ist eine vertikale Kante zu sehen. In diesem Falle wird sie aber als hinten liegende Kante erkannt.

Verantwortlich dafür, ob wir die Kante als vorne liegend interpretieren, bei der sich die angrenzenden Wände vom Betrachter weg fortsetzen, wie links, oder als eine hinten liegende, bei der die angrenzenden Wände sich in Richtung des Betrachters fortsetzen, wie rechts, kann aus den Winkeln geschlossen werden, die diese Wände mit denen der Decke und des Bodens bilden. In den Abbildungen unten sehen Sie diese Kanten eingezeichnet. Es ergibt sich genau die Situation der Müller-Lyer-Täuschung. Auch in den Abbildungen oben tritt die Täuschung auf. Beide vertikale Linien sind exakt gleich lang. Die Wahrnehmung, dass die rechte Kante als länger wahrgenommen wird, ist aber folgerichtig, denn die räumliche Interpretation der Szenerie gibt dem Wahrnehmungssystem den Hinweis, dass es sich rechts um eine weiter entfernte und links um eine näher liegende Kante handelt. Wenn diese optisch gleich groß sind, wird, der Größenkonstanz entsprechend, die rechte als länger und die linke als kürzer interpretiert.

Verdeutlichung der persektivischen Wahrnehmungsmerkmale

Wir haben nun die Fehlinterpretation der Müller-Lyer-Täuschung auf eine Hypothese über Gegebenheiten bei der Wahrnehmung dreidimensionaler Szenerien zurückgeführt. Ob diese Erklärung tatsächlich korrekt ist, lässt sich nicht endgültig feststellen. Die 3D-Hypothese ist aber ziemlich plausibel, denn unsere Wahrnehmung ist ja an unsere irdische Welt angepasst. Sie ist darauf geeicht, dreidimensionale Objekte zu erkennen. Im Folgenden schauen wir uns einige der Hypothesen für diese Wahrnehmungsbereiche an. Sie sind später auch grundlegend für viele Gestaltungsentscheidungen am Bildschirm.

3D-Raum-Hypothesen

Das menschliche Wahrnehmungssystem hat sich in einer Welt entwickelt, in der die Erkennung dreidimensionaler Objekte sich als evolutionär erfolgreich gezeigt hat. Somit ist es kein Wunder, dass auch bei der Betrachtung zweidimensionaler Bilder die Hypothesen für das Erkennen einer dreidimensionalen Welt zum Tragen kommen. Donald D. Hoffman²⁶ beschreibt in seinem Buch „Visuelle Intelligenz. Wie die Welt im Kopf entsteht“ umfangreich, nach welchen Regeln die dreidimensionale Interpretation konstruiert werden kann. Wir geben seine Gedanken nur in Auszügen mit besonderem Fokus auf die für uns später wichtigen Aspekte wieder.

Auf der Abbildung oben ist ein Würfel zu erkennen. Das zeigt, dass das menschliche Wahrnehmungssystem auch dann einen räumlichen Eindruck erzeugt, wenn keinerlei Textur oder Schattierung eine räumliche Interpretation nahelegen. Das Bild wird nämlich nicht als Ansammlung von horizontalen, vertikalen und diagonalen Linienzügen gesehen, sondern als ein sich im Raum befindliches dreidimensionales Gebilde. Wir sehen hier auch nicht irgendein räumliches Gebilde, sondern einen Würfel. Dabei könnte es eine Vielzahl von dreidimensionalen Drahtfiguren geben, die einen solchen Wahrnehmungseindruck auslösen. Aus der Überlegung, dass nicht beliebige, sondern nur spezielle Strukturen erkannt werden, leitet Hoffman Wahrnehmungsregeln ab, die wir in unserem Sinne als „Hypothesen“ bezeichnen können. Die Grundhypothese lautet, dass unser Wahrnehmungssystem alles Wahrgenommene dreidimensional interpretiert und dass das jeweils Wahrgenommene keine absolute Ausnahme ist, sondern einer eher typischen Wahrnehmungssituation entspricht.

Hier sehen Sie eine gerade Linie. Wenn diese Linie die Abbildung von etwas Dreidimensionalem ist, dann ist die Wahrscheinlichkeit hoch, dass das auch im Dreidimensionalen eine gerade Linie ist. Es gibt zwar Situationen, in denen etwas, das im Dreidimensionalen geschwungen ist, in einer zweidimensionalen Abbildung gerade erscheint. Diese Linie könnte etwa ein Kreis sein – wenn man genau von der Seite auf ihn schaut – aber das wäre eine absolute Ausnahmeperspektive. Eine minimale Änderung der Perspektive würde sofort wieder etwas Elliptisches zutage fördern. Hoffman formuliert daher:

Regel 1: Interpretiere eine gerade Linie in einem Bild stets als eine gerade Linie in 3-D.

Weitere Regeln beziehen sich darauf, wie sich die Relationen von Linienzügen im Zweidimensionalen zu denen im Dreidimensionalen verhalten.

Es ist schwierig, die linke Figur als Würfel zu sehen. Jetzt, wo Sie wissen, dass es ein Würfel sein soll, gelingt es Ihnen vielleicht, aber es erfordert zusätzliche Anstrengungen; ein Hinweis darauf, dass diese Sicht nicht mit den verankerten Wahrnehmungshypothesen übereinstimmt. In diesem Fall widerspricht die Interpretation als Würfels zwei Regeln, die Hoffman folgendermaßen beschreibt.

Regel 2: Wenn die Enden zweier Linien in einem Bild zusammenfallen, interpretiere sie stets so, dass sie auch in 3-D zusammenfallen.

Regel 3: Interpretiere Linien, die in einem Bild kollinear sind, also in einer Flucht erscheinen, auch in 3-D als kollinear.

Beim schwer erkennbaren Würfel fallen Linien zusammen, die im Dreidimensionalen nur unter einer einzigen Perspektive zusammenfallen. Andere Linienzüge scheinen in einer Flucht zu stehen, nicht aber in der entsprechenden dreidimensionalen Figur. Die Figur ist somit eine konstruierte Ausnahme ebenso wie der zuvor beschriebene aus einer Seitenperspektive betrachtete Kreis. Wie rechts zu sehen ist, bringt schon eine kleine Bewegungsänderung ein anderes Bild hervor. Die Interpretation als Würfel ist dann wieder einfacher möglich.

Hoffman stellt viele weitere Regeln für das Erkennen dreidimensionaler Figuren auf. Interessant sind zum Beispiel die Regeln, die beschreiben, wie man geschwungene, dreidimensionale Figuren, bei denen Teile der Figur andere Teile der Figur verdecken, interpretieren kann. Wir belassen es an dieser Stelle aber dabei und werfen abschließend einen Blick darauf, welche Hypothesen – in Hoffmans Sprachgebrauch Regeln genannt – man aufstellen kann, um eine dreidimensionale Figur in Teilfiguren zu zerlegen.

Schröder-Treppe von H. Schröder aus dem Jahr 1958 – Bild nach: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 117

Diese Abbildung zeigt die sogenannte Schröder-Treppe. Wie schon beim Würfel besprochen, gibt es mehrere mögliche Interpretationen dieser Figur. Wenn Sie länger hinsehen, springt Ihre Wahrnehmung vielleicht zwischen diesen Interpretationen hin und her. Mal erscheinen die Treppenstufen unten, mal scheinen sie unter der Decke zu hängen. Einigen wir uns zunächst einmal darauf, dass wir die Figur so interpretieren, dass die Stufen unten sind, es also eine Treppe ist, die man von links oben nach rechts unten hinabsteigen kann. Sie sehen zwei Punkte. Sehen Sie sie auf ein und derselben Treppenstufe oder auf zwei verschiedenen? Die Beantwortung dieser Frage läuft auf das Problem hinaus, wie Sie das Objekt Treppe in Teilobjekte unterteilen.

Hoffman stellt für solche Fälle die folgende Regel auf:

Regel 14: Regel der konkaven Falten: Zerlege Formen entlang konkaver Falten in Teile.

Diese Regel leitet sich aus der Betrachtung der Verdeckung von Objekten ab. Wenn zwei Figuren ineinandergesteckt werden, entsteht an der Schnittstelle zwischen den beiden Figuren eine scharfe Kante; im nachfolgenden Bild durch eine gestrichelte Linie dargestellt. An dieser Stelle entsteht zwischen den beiden Teilfiguren eine konkave Falte; sie zeigt in das Objekt hinein. Die rote Einzeichnung in der Abbildung verdeutlicht diese Falte:

Zwei Figuren, die sich schneiden, bilden eine konkave Falte – Quelle: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht, Seite 116

Auch bei der Schröder-Treppe von oben lassen sich solche konkaven Falten finden, im Folgenden rot eingezeichnet.

Dreidimensionale Zerlegung der Schröder-Treppe entlang der konkaven Falten.

Zerteilen wir an ihnen das Bild, ergibt sich obige Situation, also eine Aufteilung, bei der die beiden Punkte auf der gleichen Stufe liegen. Dreht man das Bild, wie rechts zu sehen, auf den Kopf, werden die Falten, die eben noch konkav waren, konvex und umgekehrt. Folglich liegen die beiden Markierungspunkte nun nicht mehr auf derselben Stufe, sondern auf zwei verschiedenen.

Verdeckungshypothesen

Auch wenn es in der klassischen Softwareergonomie nicht um die Darstellung „echter“ 3D-Objekte am Bildschirm geht, müssen wir bei der Interpretation der Nutzungsschnittstelle von einer Welt ausgehen, in der Objekte vor- und hintereinander liegen und einander somit verdecken. Dass die menschliche Wahrnehmung auf solche Situationen gut eingerichtet ist, lässt sich an den „Kanizsa-Dreiecken“ verdeutlichen.

Das obige Bild zeigt ein solches Kanizsa-Dreieck. Man sieht hier mehr, als es eigentlich zu sehen gibt: ein Dreieck, das nicht existiert. Das weiße Dreieck mit der Spitze nach oben scheint sogar heller zu sein als der Hintergrund. Viele unterschiedliche Hypothesen sind diskutiert worden, um diese Wahrnehmungstäuschung begründen zu können. Eine typische Erklärung lautet beispielsweise, dass wir über umfangreiche Erfahrungen mit Dreiecksfiguren verfügen und uns die Interpretation dieser Darstellung mit der zusätzlichen Figur eines weißen Dreiecks einfacher und damit plausibler erscheint, als ohne. Unser Wahrnehmungssystem konstruiert das Dreieck also als sinnvolle Ergänzung hinzu.

Weitere Beispiele für virtuelle Konturen

Auch in diesen Abbildungen werden Figuren erkannt, die es nicht gibt. Im linken Falle ist die Vermutung, dass die Interpretation mit dem zusätzlichen Quadrat einfacher sei als ohne, durchaus plausibel. Für die rechte Figur von Marc Albert ist diese Erklärung aber schon kritisch, denn die Interpretation von vier Kreuzen ist erheblich einfacher als eine mit einer kissenartigen Überlagerung, auch wenn eine solche kissenförmige Figur durchaus noch zu den bekannten Figuren gezählt werden kann.

Auch unbekannte und unregelmäßige Flächen können als virturelle Kontur erscheinen – Bild aus Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 80

Spätestens bei dieser Figur funktioniert diese Vermutung aber nicht mehr. Auch hier sehen wir vier dunkle Kleckse, die von einer eigenartig geformten weißen Figur überlagert zu sein scheinen. Diese Figur ist sicher keine, die in dieser Form üblich und bekannt ist. Warum sollte sie dann die Interpretation der Wahrnehmung vereinfachen? Das Argument der vertrauten Figuren ist zumindest nicht ausreichend. Hoffmann geht auch wieder von einer 3D-Hypothese aus und nimmt an, dass unser Wahrnehmungssystem darauf ausgelegt ist, ein vorne liegendes Objekt von einem im Hintergrund liegenden Objekt zu unterscheiden, also Verdeckungen zu erkennen.

Konvexe Zacken an Überlagerungsstellen – Bild aus Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 85

Nach Hoffman sind konvexe Zacken ein Hinweis für das Wahrnehmungssystem, eine Verdeckung anzunehmen. Wenn jedoch, wie man in der Abbildung sieht, eine im Vordergrund liegende Kontur ein im Hintergrund liegendes Objekt verdeckt, dann entsteht an der Hintergrundfigur der Eindruck einer konvexen Zacke. Bei allen Beispielen virtueller Verdeckung, die Sie auf den vorherigen Seiten gesehen haben, gibt es derartige konvexe Zacken. Sie dienen dem Wahrnehmungssystem als Hinweis darauf, dass an dieser Stelle eine Verdeckung vorliegen könnte.

Die Kanizsa-Dreiecke und ähnliche Figuren zeigen eindrücklich, dass das Wahrnehmungssystem auf die Erkennung von Verdeckungen eingerichtet ist. Die erfolgreiche Erkennung von Verdeckungen, also die Unterscheidung von Hintergrund und Vordergrund im Erkannten, kann entscheidend sein, um erkennen zu können, was abgebildet ist.

Obige Abbildung kann das gut verdeutlichen. Hier scheint nichts Bekanntes abgebildet zu sein. Zu erkennen sind nur auf eigenartige Weise unterbrochene Konturen.

Die Abbildung unten zeigt exakt die gleichen schwarzen Konturen. Allerdings wird jetzt ersichtlich, dass es sich bei den Konturen um einen durch ein anderes Objekt verdeckten Körper handelt. Erst durch das Interpretieren der Konturen als verdecktes Objekt setzt die Erkennung ein und das Objekt wird als großes M ohne Weiteres erkannt, obwohl von diesem M kein Deut mehr zu sehen ist als vorher.

Wenn eine Verdeckung erkannt wird, wird das Verdeckte erkennbar

Beleuchtungshypothesen

Das Verdeckungsbeispiel zeigt, dass unser Wahrnehmungssystem auf das Erkennen von Verdeckungen, also auf die Unterscheidung von Vordergrund und Hintergrund, optimiert zu sein scheint. Das ist auch nicht verwunderlich, denn diese Unterscheidung ist die Grundlage, um aus zweidimensionalen Netzhautbildern eine räumliche Vorstellung von der Umgebung zu gewinnen. Erfahrung spielt dabei offenbar eine Rolle. Strukturen werden als Vordergrund angesehen, wenn es sich um bekannte Figuren, wie etwa Silhouetten von Menschen, handelt. Für uns interessanter sind aber die Untersuchungen, die sich mit den optischen Hinweisen beschäftigen, anhand derer auch bei unbekannten Strukturen zwischen Vordergrund und Hintergrund unterschieden wird. Einige der Annahmen hierzu sind geometrischer Natur.

Wenn eine kleine Struktur, etwa ein Buchstabe, von einer größeren Struktur umgeben ist, wird die kleine Struktur als der Vordergrund angesehen.
Eine Figur, die viele konvexe Züge aufweist (also nach außen gestülpt ist), wird als im Vordergrund liegend angesehen.

Für unseren Zweck interessanter sind jedoch solche Hinweise, die sich auf Farbtöne, Helligkeiten und Sättigungen beziehen. Sie sind zum Beispiel dafür verantwortlich, in Bildern wie dem folgenden Tiefe zu erkennen. Dass Farbtöne, Helligkeit und Sättigung eine Rolle spielen, scheint klar zu sein, allerdings sind die Details auch in der Forschung noch nicht vollständig geklärt. In Experimenten zeigt sich, dass einige optische Hinweise nicht in jedem Kontext den gleichen Effekt auslösen. Realweltliche Szenerien wie die unten abgebildeten Beispiele zeichnen sich dadurch aus, dass mehrere Regeln gleichzeitig angewandt werden müssten. Welche Regeln jeweils Priorität haben, ist nicht immer klar. Zusammengenommen geben sie aber doch gute Hinweise darauf, welche optischen Andeutungen eine Vordergrund-Hintergrund-Unterscheidung unterstützen. Sie geben uns Hinweise darauf, wie eine solche Unterscheidung bei Bildschirmobjekten gestaltet werden kann.

Darstellung der Tiefe einer Landschaft in Neuseeland – Bild: Harald Selke

In Experimenten lassen sich folgende Tendenzen beobachten:

Befinden sich auf einem Bild in einem Bereich matte, ungesättigte Farben und in einem anderen Bereich kräftige, gesättigte Farben, wird die ungesättigte Region als hinten, die gesättigte als vorne interpretiert. Dies entspricht natürlichen Wahrnehmungssituationen, etwa auch im Bild oben. Licht, das von entfernten Objekten reflektiert wird, muss mehr Luft durchdringen und wird dort gestreut. Die Farben erscheinen daher ungesättigter²⁷.
Bestimmte Farben liegen tendenziell eher vor anderen Farben. Rot und Gelb werden tendenziell als im Vordergrund liegend angesehen. Grün und Blau werden eher als Hintergrund interpretiert. Ob dies tatsächlich so wahrgenommen wird, hängt stark von der Helligkeit und der Sättigung der Farben ab. Auch diese Hinweisregel kann gut mit der Wahrnehmung unserer natürlichen Umgebung in Zusammenhang gebracht werden. Im Bild oben sieht man gut, dass Licht von weit entfernten Objekten bläulich erscheint.²⁸ ²⁹.
Regionen, die in sich geringe Helligkeitskontraste aufweisen, werden als Hintergrund angesehen, solche mit hohen Helligkeitskontrasten als Vordergrund. Auch dieser Effekt ist im obigen Bild gut zu erkennen. Die Gräser im Vordergrund weisen einen hohen Detailkontrast auf, während die Berge im Hintergrund nur geringen Kontrast zeigen³⁰ ³¹. Grund ist wieder einmal die Streuung in der „dreckigen“ Luft.
Im Großen und Ganzen entsprechen Helligkeitsabstufungen dem Eindruck von Entfernungsabstufungen. In Experimenten unter Laborbedingungen wird die Richtung der Abstufung allerdings unterschiedlich aufgefasst. Einige Testpersonen tendierten zur Interpretation „Hinten dunkel, nach vorne hell“, andere zur Abstufung „Vorne dunkel, nach hinten heller“³² ³³.

Die vorgestellten optischen Hinweise für die Vordergrund-Hintergrund-Unterscheidung funktionieren auch für Bildausschnitte.

Auf dem ersten Ausschnitt ist der Vordergrund heller, gesättigter und kontrastreicher als der Hintergrund. Im zweiten Ausschnitt ist der Vordergrund zwar schon recht kontrastarm, aber immer noch erheblich kontrastreicher als der Hintergrund, der gänzlich frei von Details ist und zudem einen starken Blaustich aufweist. Der letzte Ausschnitt zeichnet sich vor allem durch den Kontrast zwischen einem dunkleren Farbton im Vordergrund und einem bläulichen Hintergrund aus, der in der Natur bei großen Distanzen durch die dazwischenliegende Atmosphäre entsteht. Diese lokalen Hinweise helfen dem Wahrnehmungssystem, die Szenerie schnell zu erfassen.

Übergänge versus plötzliche Farbänderungen

Die Abbildung unten Abbildung zeigt Farbquadrate von Jon Koenderink. Hoffman verwendet sie, um zu zeigen, dass die gleichen Farbunterschiede von unserem Wahrnehmungssystem verschieden interpretiert werden, je nachdem, ob sie in einem kontinuierlichen Übergang auftreten wie links, oder wenn es plötzliche Übergänge in Farbton, Sättigung oder Helligkeit gibt wie rechts. Die Teilquadrate rechts sind genau die gleichen wie die auf der linken Seite. Die mit 1 und 2 markierten Quadrate entsprechen sich jeweils. Im Gesamtquadrat links ergibt sich der Eindruck einer einheitlichen Fläche. Auf der rechten Seite hingegen scheint es sich nicht um eine einzige, zusammenhängende Fläche, sondern um eine zufällige Anordnung kleiner Flächen zu handeln.

Farbquadrate von Jon Koenderink zur Verdeutlichung der Wirkung kontinuierlicher Farbübergänge im Gegensatz zu willkürlichen Farbänderungen – Aus: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 146

Hoffmann erklärt die unterschiedliche Wahrnehmung mit den folgenden zwei Regeln.

Regel 21: Interpretiere allmähliche Veränderungen von Farbtönen, Sättigung und Helligkeit in einem Bild als Beleuchtungsveränderungen.

Regel 22: Interpretiere plötzliche Veränderungen von Farbtönen, Sättigung und Helligkeit in einem Bild als Flächenveränderungen.

Licht von Über-Kopf

Eine weitere, sehr plausible Wahrnehmungshypothese, die Hoffmann aufgreift, ist die, dass Licht stets von „über Kopf“ kommt. Diese Annahme stimmt mit den Wahrnehmungssituationen auf der Erde überein, bei der die natürlichen Lichtquellen Sonne oder auch Mond eine Szenerie immer von oben oder allenfalls von der Seite her beleuchten, nie aber, abgesehen von eher seltenen Reflektionen, von unten.

Das Bild unten verdeutlicht die Wirkung dieser Wahrnehmungshypothese. Unser Wahrnehmungssystem erkennt fünf nach außen gestülpte Halbkugeln, während eine weitere Halbkugel, mittig in der unteren Reihe, nach innen gestülpt zu sein scheint.

Simulation einer Beleuchtung von links oben – Bild nach Hoffmann, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 152

Die folgende Abbildung ist mit der vorherigen zu 100 % identisch. Sie wurde lediglich um 180 Grad gedreht. Mit der Drehung der Figur ändert sich auch die Interpretation des Wahrnehmungssystems. Nun erscheinen der Hypothese entsprechend die vorher ausgestülpten Halbkugeln hineingedrückt und umgekehrt.

Drehung des Bildes sorgt für eine Änderung der Tiefenwahrnehmung, da nach wie vor eine Beleuchtung von oben angenommen wird.

Zusammenfassung

Mit diesen Betrachtungen zur Architektur der Wahrnehmung haben wir verdeutlicht, dass Wahrnehmung grundsätzlich selektiv, dafür aber relativ schnell erfolgt. Darüber hinaus wurde auch deutlich, dass das jeweils Wahrgenommene eine Konstruktion ist. Das bedeutet nicht, dass das Ergebnis willkürlich ist, denn willkürliche Hypothesen würden uns keinen Geschwindigkeitsvorteil verschaffen, sondern eher für Verwirrung sorgen. Deshalb können wir, wenn wir die Mechanismen der Wahrnehmung verstanden haben, Erkennungsvorgänge gezielt unterstützen. Gleichwohl können wir als Gestalter mit der Anwendung einiger grundlegender Regeln eine bestimmte Wahrnehmungsinterpretation nicht erzwingen, denn was in der jeweiligen Situation für den Betrachtenden von Bedeutung ist, hängt von vielen Faktoren in der Umwelt ebenso ab wie von den Erfahrungen des Wahrnehmenden selbst. Jedoch gilt, je besser und umfassender wir die Bedingungen menschlicher Wahrnehmungssituationen durch die Ausnutzung der Regeln bzw. Wahrnehmungshypothesen gestalten können, desto wahrscheinlicher wird auch der von uns intendierte Wahrnehmungseindruck entstehen. Vor allem aber können wir dadurch Hindernisse und Umwege und zusätzliche Anstrengungen bei der Wahrnehmung vermeiden.

Damit beginnt jetzt unsere eigentliche Arbeit. Denn, wie Sie in dem nun folgenden Praxisteil sehen werden, lassen sich die hier behandelten Erkenntnisse leider weder kontextfrei anwenden noch widerspruchsfrei miteinander verknüpfen. Es entstehen immer Konflikte. Wir kombinieren daher die technischen Potenziale mit den Erfordernissen, die wir aus der Architektur der Wahrnehmung abgeleitet haben, um diese Konflikte bei der Gestaltung an praktischen Beispielen auszutarieren.

Up next

Differenzerfahrung und Artefaktgebrauch