Nutzungsschnittstellen ergonomisch gestalten
Nutzungsschnittstellen ergonomisch gestalten
Felix Winkelnkemper und Reinhard Keil
Buy on Leanpub

Einführung

Gestalten heißt Konflikte lösen

Ein Buch über Softwareergonomie? Braucht es das noch? Ist nicht schon alles über ergonomische Fragen bei der Arbeit mit interaktiven Systemen geschrieben worden? In der Tat gibt es unzählige Sammlungen von guten und vor allem von schlechten Beispielen, Checklisten, Heuristiken und goldene Regeln. Es gibt Normen für gebrauchstaugliche Software und Methoden des Usability Engineering, ebenso wie zahlreiche Lehrbücher sowie Empfehlungen der großen Geräte- und Betriebssystemhersteller. Was jedoch immer noch fehlt, ist ein ergonomischer Gestaltungsansatz, der aus der Sicht der Softwareentwicklung ein kohärentes und zugleich kompaktes Verständnis der Gestaltung interaktiver Systeme vermittelt.

Wer eine Nutzungsoberfläche gestaltet, wird feststellen, dass es mit der Betrachtung von schlechten Beispielen, allgemeinen Regeln und mit Normen und Methoden für eine nutzerzentrierte Softwareentwicklung allein nicht getan ist. Zwar können Sie aus Erfahrungen lernen, Nutzerhinweise verallgemeinern und Regeln und Normenvorgaben folgen, doch haben Sie in der Praxis stets das Problem, dass kaum eine Gestaltungsregel oder Erkenntnis konfliktfrei anwendbar ist. Nehmen wir ein einfaches Beispiel: Eine sinnvolle Empfehlung für die Gestaltung könnte lauten, möglichst viele Informationen gleichzeitig auf eine Bildschirmseite zu bringen. Das vermeidet unnötiges Blättern und verringert die Notwendigkeit, sich zusätzliche Informationen zur Orientierung merken zu müssen. Jedoch geht ein solches Vorgehen auf Kosten der Übersichtlichkeit. Es dauert also länger, das Objekt-Ensemble zu erfassen und seine Struktur zu verstehen. Umgekehrt erleichtert die Forderung, mit Bildschirmelementen sparsam zu sein und möglichst wenige davon gleichzeitig zu nutzen, die Gestaltung eines übersichtlichen Bildschirms und ermöglicht dadurch auch ein schnelles Erfassen der Struktur. Es steigt dann aber der Bedarf an Navigationshandlungen, um an alles Relevante zu gelangen – und somit steigt auch die Menge der zur Erledigung einer Aufgabe notwendigen Eingaben. Weder die eine Empfehlung noch die andere kann in der Praxis uneingeschränkt Anwendung finden, denn die beiden stehen in einem unauflösbaren Konflikt zueinander. Es ist eine wesentliche Anforderung an den Gestaltungsprozess, solche Konflikte jeweils bedarfsgerecht auflösen bzw. austarieren zu können. Da Konflikte dieser Art in der Gestaltungspraxis eine entscheidende Rolle spielen, werden sie zum Ausgangspunkt unseres ergonomischen Ansatzes.

Um Gestaltungskonflikte identifizieren und konstruktiv lösen zu können, müssen wir wissen, durch welche Forderungen sie hervorgerufen werden. Deshalb sind Anforderungen und Kriterien für die Gestaltung in den seltensten Fällen binäre Variablen, die entweder vollständig oder nicht erfüllt werden können. In der Praxis handelt es sich in der Regel um graduelle Abstufungen. Ein Bildschirmaufbau kann zum Beispiel insgesamt sehr unübersichtlich sein oder es werden nur einzelne Aspekte für eine gute Strukturiertheit verletzt. Da Übersichtlichkeit immer mit Platz bezahlt werden muss und deshalb unter Umständen nicht mehr alles auf eine Bildschirmseite passt, gilt es zwischen Übersichtlichkeit und der Minimierung von Bildschirmwechseln abzuwägen bzw. beide Forderungen auszutarieren. Dafür fehlen jedoch in den vorhandenen Materialien zur Softwareergonomie und Gebrauchstauglichkeit sowohl meist die theoretischen Grundlagen als auch entsprechende Hinweise auf wichtige Gestaltungskonflikte.

Die theoretisch-methodische Grundlage nimmt in unserer Betrachtung eine wichtige Rolle ein. Lassen Sie uns den Charakter einer solchen Grundlage mit einer Analogie beschreiben. Dazu betrachten wir die Softwareergonomie einmal analog zur Medizin. Diejenigen, die interaktive Systeme gestalten, sehen wir gemäß dieser Metapher in einer Art ärztlichen Funktion: Für eine gute Diagnose und Behandlung ist es nicht ausreichend, sich bei der betreffenden Person nach ihrem Befinden und ihren Wünschen zu erkundigen. Ein solches Vorgehen würde etwa einem User-Centered-Design in einer naiven Reinform entsprechen. Die Betroffenen können aber auftretende Probleme oft nicht in Worte fassen. Auch mögen ihnen Probleme als solche nicht auffallen, obwohl sie faktisch darunter leiden. Kopfschmerzen zum Feierabend sind beispielsweise ein guter Indikator für Probleme am Arbeitsplatz, lassen aber für sich genommen keine Rückschlüsse auf ihre tatsächlichen Ursachen zu. Auch Ratgeber mit Hinweisen für einen gesunden Lebenswandel – vergleichbar mit Usability-Heuristiken und goldenen Regeln – sind als Wissensgrundlage für eine ärztliche Behandlung ebenso wenig ausreichend wie der Versuch, eine Therapie ausschließlich aus bereits zuvor aufgetauchten Krankheitsfällen abzuleiten. Selbstverständlich sind Patientenbefragungen, Ratgeber und Erfahrungen aus vorherigen Diagnosen und Behandlungen wichtig und sinnvoll, doch für einen angemessenen Heilungsansatz ist zusätzliches explizites medizinisches Grundlagenwissen erforderlich, um bisher unerkannte Probleme aufdecken, Symptome richtig einordnen und angemessene Therapien auswählen zu können.

Medizinisches Wissen basiert zu einem großen Teil auf Erkenntnissen anderer Wissenschaften, etwa der Physik, der Biologie und der Chemie, beschränkt sich aber nicht darauf. Spezifische Bewertungen, Anpassungen und Erweiterungen mit eigenen Denkweisen und Methoden sind notwendig, um Diagnosen stellen und Krankheiten angemessen behandeln zu können. Das Repertoire der Grundlagenwissenschaften allein gibt das nicht her. Auf der anderen Seite sind medizinische Kompetenzen nicht darauf ausgerichtet, neue Erkenntnisse in der Physik, der Biologie oder der Chemie zu gewinnen. Vielmehr ist es für eine erfolgreiche Behandlung erforderlich, die relevanten Erkenntnisse dieser Disziplinen zu verstehen und zu bewerten, welche Rolle sie spielen. Dazu gilt es spezifische Konzepte zu erlernen und zu erarbeiten, um etwa Nebenwirkungen abschätzen, Krankheitsgeschichten analysieren, die Konstitution der Menschen berücksichtigen und die jeweiligen Lebensumstände einbeziehen zu können. Über diese vielfältigen Zusammenhänge bildet die Medizin ein Erkenntnisraum mit jeweils spezifischen Hypothesen, Therapieansätzen und theoretischen Annahmen aus, die zwar mit den Grundlagenerkenntnissen der anderen Disziplinen im Einklang stehen, jedoch nicht aus ihnen ableitbar sind.

Ähnlich sehen wir die Softwareergonomie. Wir beschäftigen uns im Grundlagenteil dieses Buches deshalb mit Erkenntnissen aus anderen Wissenschaftsdisziplinen, müssen diese aber für unsere Zwecke in ein eigenes „Weltbild“ einordnen, bei dem das Verstehen der mit dem Gebrauch technischer Geräte verbundenen Potenziale und Einschränkungen im Vordergrund steht. Da diese Aufgabe recht anspruchsvoll ist, gönnen wir uns einen theoretischen Teil, der umfangreicher ist als in vielen anderen Büchern zur Softwareergonomie, weil wir unter dem Blickwinkel der Gestaltung eigene Grundlagenbereiche benötigen bzw. vorhandene Grundlagen neu strukturieren müssen.

Technische Potenziale und Architektur der Wahrnehmung bilden die Grundlagen unserer Softwareergonomie
Technische Potenziale und Architektur der Wahrnehmung bilden die Grundlagen unserer Softwareergonomie
  1. Beim Konzept der Differenzerfahrung geht es um die Rolle der Umwelt für das Denken und die Erweiterung unserer geistigen Fähigkeiten mithilfe von technischen Geräten, Instrumenten und medialen Artefakten. Wir nennen diese Hilfsmittel „Denkzeuge“, weil wir damit verdeutlichen wollen, wie sehr unser bewusstes Denken auf physische Hilfsmittel angewiesen ist. Obwohl mitunter zwischen einer virtuellen und der realen Welt unterschieden wird, sind auch die von interaktiven Computersystemen angebotenen Schnittstellen physische, mediale Artefakte und damit Denkzeuge, denn sie ermöglichen es, das im Computer Verborgene wahrzunehmen und zu manipulieren sowie aus den Reaktionen des Systems Schlussfolgerungen zu ziehen und somit die nächsten Handlungsschritte planen und umsetzen zu können.
  2. Die Behandlung technischer Potenziale interaktiver Systeme trägt dieser Sichtweise Rechnung. Die Nutzungsschnittstelle eines Programms besteht aus programmierten Artefakten, die dazu dienen, den Computer zu steuern und die vom Programm angebotenen Anwendungsobjekte zu bearbeiten. Ein Blick auf die historische Entwicklung interaktiver Systeme offenbart, welche spezifischen technischen Potenziale mit ihnen verbunden sind. Diese Potenziale auszunutzen ist die Voraussetzung dafür, Nutzungsoberflächen so gestalten zu können, dass sie unnötige Belastungen vermeiden, die Erledigung von Aufgaben unterstützen und neue Nutzungsmöglichkeiten eröffnen.
  3. Die zentrale Grundlage bei der Interaktion mit heutigen Computersystemen ist eine wahrnehmbare Schnittstelle. Damit diese effektiv und effizient genutzt werden kann, muss die Nutzungsschnittstelle an die Architektur der Wahrnehmung angepasst sein. Das menschliche Wahrnehmungssystem hat sich im Verlauf der Evolution an die Umwelt angepasst und musste fortwährend Konflikte austarieren. Beispielsweise wird die Schnelligkeit der Reaktion auf einen Stimulus mit einem Verlust an Information erkauft. So kommt es, dass das Wahrnehmungssystem auf manche Situationen nahezu perfekt eingerichtet ist und diese effektiv erfassen kann, während andere Situationen mit erheblich mehr Aufwand erschlossen werden müssen. Eine ergonomische Nutzungsschnittstelle muss diesen Erkenntnissen entsprechend gestaltet sein, damit Wichtiges effektiv erkannt und genutzt werden kann und zugleich Unwichtiges nicht zur Ablenkung wird.

Der auf die Grundlagen folgende Praxisteil verdichtet die Erkenntnisse zu einer Gestaltungsorientierung. Für verschiedene Teilgebiete der Gestaltung von Nutzungsschnittstellen werden aus den Grundlagen Forderungen für die Gestaltung abgeleitet. Natürlich geht es dabei auch darum, wie diese Forderungen in alltagstypischen Lösungen umgesetzt werden können – doch das ist gar nicht einfach, denn wer eine Nutzungsschnittstelle gestaltet, der gestaltet nicht genau ein Objekt in Bezug auf genau eine Forderung. Vielmehr geht es um ein Ensemble von Objekten und um multiple Interaktionsformen, mit deren Hilfe verschiedene Aufgaben erledigt und Ziele realisiert werden können. Sobald das der Fall ist – also immer –, befinden wir uns wieder im Spannungsfeld konfligierender Forderungen, die es auszuloten gilt. Gestalten bedeutet in der Praxis eben immer, Konflikte zu lösen. Kurzum: Der Fokus unserer ergonomischen Abhandlungen liegt auf den grundlegenden ergonomischen Forderungen und den mit ihnen einhergehenden Gestaltungskonflikten. Diese gilt es zu identifizieren und die für ihre Austarierung erforderlichen Erkenntnisse kohärent aufzubereiten. Unserer Meinung nach sind diese Konflikte entscheidend für ein grundlegendes Verständnis guter ergonomischer Gestaltung. Unabhängig von der jeweils aktuellen Technologie und aktuellen Moden wird es dadurch möglich, einzelne Lösungen auf andere Bereiche zu übertragen bzw. zu prüfen, unter welchen Rahmenbedingungen eine solche Übertragung Erfolg versprechend sein könnte.

Verbunden mit diesem Streben nach Allgemeinheit ist eine wichtige Einschränkung unseres Ansatzes, die sich schon im etwas spröden Begriff Softwareergonomie ausdrückt. Wir grenzen diesen Begriff explizit von verwandten Begriffen wie der Gebrauchstauglichkeit (Usability) und dem Nutzungserlebnis (User Experience) ab. Eine Analogie aus dem nicht digitalen Bereich der Gestaltung kann diesen Unterschied verdeutlichen. Wir betrachten einmal den Designgegenstand „Stuhl“ aus verschiedenen Perspektiven:

  • Ergonomie: Wie muss ein Stuhl gestaltet sein, damit er für die teils stundenlange Nutzung durch Menschen geeignet ist, ohne dass diese bei der Nutzung mit Schäden zu rechnen haben? Hierzu würde zum Beispiel Wissen über die Proportionen von Menschen gehören sowie die Forderung, dass die Höhe eines Stuhls auf den individuellen Menschen angepasst sein muss.
  • Gebrauchstauglichkeit: Wie muss ein Stuhl gestaltet sein, damit er für die Aufgabe, bei deren Erfüllung er Teil sein soll, tauglich ist? Die Anforderungen an einen Melkschemel etwa sind ganz anders als an einen Bürostuhl, weil diese Stühle für ganz unterschiedliche Aufgaben verwendet werden. Man könnte schwerlich den Melkschemel im Büro und den Bürostuhl im Stall verwenden, denn diese Stühle wären dann jeweils für den Gebrauch nicht tauglich.
  • Nutzungserlebnis: Wie muss ein Stuhl gestaltet sein, um ein gewünschtes Erlebnis zu erzeugen? Mit dem Design von Stühlen ist weit mehr verbunden als nur ihre Ergonomie und ihre Zwecktauglichkeit. Ein Stuhl-Design kann zum Beispiel Geborgenheit ausdrücken oder auch modern wirken. Der Unterschied zwischen einem Bürostuhl und einem Gamingstuhl verdeutlicht dies gut. Sind diese gut gewählt, sind sie gleichermaßen ergonomisch und wären wohl auch für den jeweils aneren Zweck tauglich, doch wird mit einem Gamingstuhl durch das Design ein ganz anderes Bild erzeugt als durch einen eher nüchternen Bürostuhl.

Durch unsere Fixierung auf die Softwareergonomie beschränken wir uns stark auf das Grundlegendste und Verallgemeinerbarste. Gestaltet man Software unergonomisch, ist mit Leistungseinschränkungen, Unzufriedenheit und Schäden zu rechnen. Ergonomie allein garantiert aber noch keine Software, mit der sich eine Aufgabe gut erledigen ließe oder die eine positive Stimmung vermitteln würde. Wichtige Erkenntnis bei dieser Einschränkung ist, dass sich selbst die rein ergonomischen Gestaltungsfragen nicht ohne eine Betrachtung des Kontexts lösen lassen, denn die Konflikte zwischen den Forderungen an die Gestaltung müssen im Einsatzzusammenhang aufgelöst werden. Durch unsere Fokussierung auf die Gestaltungskonflikte stellen wir sicher, dass unsere Ausführungen kontextbezogen sind – denn der Kontext wird in der Auflösung der Konflikte eine zentrale Rolle spielen. Gleichzeitig sind wir aber nicht kontextspezifisch, setzen also nicht etwa einen spezifischen Einsatzkontext im Voraus fest.

Hinweise zu den Beispielen

Natürlich kommen unsere Ausführungen zur Softwareergonomie nicht ohne Beispiele aus. Beispiele sind aber tückisch, denn sie können schnell falsch verstanden werden.

In diesem Buch finden Sie sowohl gute als auch schlechte Gestaltungsbeispiele, meist aus verbreiteten Betriebssystemen oder aus Standardsoftware wie Textverarbeitungs- oder Präsentationsprogrammen. Wir verwenden sie, weil sie uns in unserer täglichen Arbeit begegnen und man sie relativ leicht nachvollziehen kann. Die Beispiele dienen dazu, jeweils ein bestimmtes Problem oder ein Konzept zu illustrieren. Sie verkörpern keine generellen Bewertungen, weder von Plattformen noch von Anwendungen, zumal heute gängige Plattformen und Standards ein relativ gute Gestaltungsqualität aufweisen. Umso mehr verwundert die Tatsache, dass es immer noch viele Defizite und Ungereimtheiten in der Gestaltung selbst solch professionell gestalteter Software gibt, ja schlimmer noch, dass immer wieder auch gute Ansätze und Gestaltungslösungen in einer nächsten Version der Software wieder aufgegeben oder gar durch schlechtere Lösungen ersetzt werden. Offensichtlich mangelt es an einem durchgängigen Gestaltungsansatz mit entsprechenden Grundlagen und Prinzipien. Diese Lücke will dieses Buch schließen.

Das eine oder andere Beispiel stammt aus der Frühzeit grafischer Nutzungsschnittstellen. Hier handelt es sich überwiegend um positive Beispiele, die auch heute noch als gutes Vorbild dienen können. In einigen wenigen Fällen verwenden wir auch ältere Negativbeispiele, denn manchmal lässt sich mit ihnen besonders gut oder in besonders eindeutiger Form das veranschaulichen, was wir Ihnen nahebringen wollen. Es handelt sich bei ihnen aber nicht um Beispiele aus einer Zeit, als man es noch nicht besser wusste, sondern um Beispiele für Gestaltungsprobleme, die auch heute noch auftreten.

Grundlagen

In den ersten drei Kapiteln stellen wir den Ansatz und die grundlegenden Konzepte vor, von denen wir unsere konkreten Hinweise zur ergonomischen Gestaltung von Nutzungsoberflächen ableiten. Dabei werden wir auch den Begriff der Interaktion präzisieren. Diese Kapitel bilden die Grundlage für viele Gestaltungsempfehlungen, die wir hier aber noch nicht vertiefen. Wenn Sie in erster Linie an den praktischen Hinweisen interessiert sind, können Sie diese drei Kapitel überspringen und direkt mit der Praxis starten. Wir empfehlen Ihnen jedoch nachdrücklich, diese Kapitel zu lesen, denn damit werden nicht nur die praktischen Forderungen verständlicher, sondern auch allgemeingültig begründet. Mit diesem Wissen lassen sich die praktischen Beispiele nicht nur leichter erschließen, sondern es liefert auch den nötigen Hintergrund, um die jeweiligen Gestaltungshinweise auf Techniken und Anwendungsbereiche zu übertragen, die wir in diesem Buch nicht behandeln.

Differenzerfahrung und Artefaktgebrauch

Zum besseren Verständnis und zur kritischen Bewertung eines Werkes ist es hilfreich, die zugrundeliegende Sichtweise oder auch Philosophie der Autoren zu kennen. Sichtweisen beleuchten bestimmte Aspekte oder Phänomene, lassen dafür aber andere im Dunkeln. Dabei geht es nicht um einzelne Fakten oder Befunde, sondern um die Frage, welche als relevant oder dem Zweck angemessen ausgewählt und wie sie mit anderen in Beziehung gesetzt werden. Je nach Zwecksetzung und Sichtweise eröffnen sich unterschiedliche Zugänge, wobei oftmals mehr als eine Sichtweise hilfreich sind.

Im Bereich der Softwareergonomie stammen viele Theorieansätze aus der Psychologie. Der unsrige tut dies nicht, denn wir arbeiten nicht in der Psychologie, sondern in der Informatik oder, im weitesten Sinne, in der Technikentwicklung. Damit ist für uns auch der Gegenstand ein anderer: Nicht das Entwickeln theoretischer Grundlagen zum Verstehen menschlichen Handelns ist unser Erkenntnisziel, sondern die ergonomische Gestaltung von Software. Wir gehen deshalb sowohl in der Praxis als auch bei der Erarbeitung unseres konzeptuellen Rahmens von der physischen Umwelt des Menschen sowie der Anreicherung dieser Umwelt mit Geräten, Instrumenten und Formalismen aus. Dabei interessiert uns vor allem, welche ihrer Eigenschaften und Merkmale neue oder erweiterte Handlungsoptionen eröffnen (Potenziale) und welche sich als hinderlich oder gar belastend erweisen. Diese Kopplung zwischen menschlichem Denken1 und der Umwelt des Menschen steht für uns im Kern aller Überlegungen, denn schließlich sind Nutzungsschnittstellen eines Computers nichts anderes als technisch gestaltete physische Arbeitsumgebungen. Da es vorrangig um die Unterstützung geistiger Prozesse geht, sprechen wir in Analogie zum Werkzeugbegriff auch von Denkzeugen.

Der erste Teil unserer Grundlagen beschäftigt sich mit dem Konzept der Differenzerfahrung, mit dem wir die Brücke zwischen menschlichem Handeln und der Rolle von Denkzeugen schlagen. Das Konzept der Differenzerfahung dient uns seit vielen Jahren als Forschungsparadigma nicht nur hinsichtlich der Gestaltung von Nutzungsschnittstellen, sondern auch bei der hypothesengeleiteten Entwicklung von Softwaresystemen, angefangen bei der Entwicklung schulischer und universitärer Lehr-/Lernumgebungen über virtuelle Forschungsumgebungen bis hin zur Konzeption neuartiger Interaktionstechniken2. Mithilfe dieses Konzepts ist es uns gelungen, Potenziale von Denkzeugen zu identifizieren und darauf aufbauend Gestaltungskonzepte zu formulieren.

Differenzerfahrung braucht sinnliche Wahrnehmung. Wenn wir in diesem Buch von „Wahrnehmung“ sprechen, konzentrieren wir uns meist auf den Sehsinn. Das Sehen spielt nicht nur bei jeder Form von „Wissensarbeit“ eine entscheidende Rolle, sondern ist auch der wichtigste Sinneskanal bei der Gestaltung von Nutzungsschnittstellen, die trotz Siri, Alexa und Co. immer noch größtenteils visueller Natur sind und das wohl auch bleiben werden. Diesen Punkt greifen wir im Abschnitt Dialog in den Exkursen nochmals auf.

Kognition und Umwelt

Der Philosoph Ludwig Wittgenstein stellt in seinen „Philosophischen Untersuchungen“3 die Frage, ob es möglich sei, eine Annahme über eine realweltliche Gegebenheit durch pures Nachdenken und Erinnern zu bestätigen oder zu widerlegen. Wittgenstein zieht dazu unter anderem einen Fahrplan als Beispiel heran. Der leichteren Formulierbarkeit halber sei im Folgenden, wenn auch sicher nicht sehr realistisch, davon ausgegangen, dass ein Fahrplaneintrag für eine Verbindung zu einem bestimmten Zeitpunkt auch bedeutet, dass tatsächlich zu diesem Zeitpunkt ein entsprechender Zug fährt. Ein Fahrplan kann unter diesen Bedingungen herangezogen werden, um festzustellen, ob zu einem bestimmten Zeitpunkt ein Zug zu einem gewünschten Ort abfahren wird. Er kann dann insbesondere dafür genutzt werden herauszufinden, ob die Annahme einer Person tatsächlich stimmt, dass zu einem gewissen Zeitpunkt, sagen wir um 15 Uhr, ein bestimmter Zug abfährt. Dass der Fahrplan sich für eine solche Überprüfung eignet, liegt daran, dass sein Inhalt unabhängig von den jeweiligen Erwartungen einer bestimmten Person fixiert ist. Man kann, wie Wittgenstein es formuliert, „an eine unabhängige Stelle appellieren“, nämlich an den Fahrplan, um sich Gewissheit zu verschaffen.

Die „unabhängige Stelle“ ist in diesem Fall ein physisches Objekt, der gedruckte Fahrplan. Etwas selbst Vorgestelltes kann nicht zur Überprüfung herangezogen werden, denn etwas Vorgestelltes ist keine „unabhängige Stelle“, da es nicht unabhängig von der Person ist, die es sich vorstellt. Wittgenstein macht das deutlich mit der Frage, ob denn nicht das aus der Erinnerung wieder hervorgebrachte Bild eines Fahrplans zur Überprüfung der Annahme dienen könne und bentwortet diese Frage:

Nein, denn dieser Vorgang muss nun wirklich die richtige Erinnerung hervorrufen. Wäre das Vorstellungsbild des Fahrplans nicht selbst auf seine Richtigkeit zu prüfen, wie könnte es die Richtigkeit der ersten Erinnerung bestätigen? (Als kaufte Einer mehrere Exemplare der heutigen Morgenzeitung, um sich zu vergewissern, dass sie die Wahrheit schreibt.)

In eine ähnliche Richtung argumentiert der Psychologe J.J. Gibson. Auch er verweist auf die Unmöglichkeit einer nur mental vorgenommenen Überprüfung und richtet den Fokus auf die Frage, was eine Vorstellung von der Realität unterscheidet. Der entscheidende Unterschied liegt seiner Darstellung nach darin, dass nur bei einer Untersuchung von Gegebenheiten der Realität Neues und Überraschendes gefunden werden könne. Wenn man etwas untersucht, das man sich nur vorstellt, kann das Ergebnis nicht in diesem Sinne unerwartet sein, denn dieses Ergebnis entstammt ja der eigenen Vorstellungswelt.

An imaginary object can undergo an imaginary scrutiny, no doubt, but you are not going to discover a new and surprising feature of the object this way. For it is the very features of the object that your perceptual system has already picked up that constitute your ability to visualize it. The most decisive test for reality is whether you can discover new features and details by the act of scrutiny. Can you obtain new stimulation and extract new information from it? Is the information inexhaustible? Is there more to be seen? The imaginary scrutiny of an imaginary entity cannot pass this test.4

Diese Gedankengänge machen zunächst stutzig, denn man kann sich über Gegebenheiten und Konzepte ja durchaus länger Gedanken machen, ohne andauernd „an eine unabhängige Stelle zu appellieren“, also ohne ständige Rückversicherung gegen etwas außerhalb des Kopfes. Bei solchen mentalen Prozessen kann auch etwas aufscheinen, das einem vorher nicht bewusst war. Es gibt jedoch eine gewichtige Einschränkung dieses „Denkens im Kopf“. Auch wenn nicht jeder einzelne Denkvorgang einer Wahrnehmung der Außenwelt bedarf, ist nämlich nach einer gewissen Zeit die Rückversicherung zur Realität unerlässlich5.

Nun könnten Sie einwenden, dass man sich sogar vieles vorstellen und manches bedenken kann, das es in der Realität nicht gibt. Literarische Werke leben davon. Wenn ein Utopist eine Gesellschaft entwirft oder ein Kinderbuchautor über einen rosa Elefanten auf Rollschuhen schreibt, dann halten diese Gedanken, obwohl es sie in unserer Vorstellungswelt gibt, einer Überprüfung in der realen Welt nicht stand. Trotzdem stellen sie vielfältige Bezüge zu dieser Welt her. Die Welt der Utopie ist nicht real und höchstwahrscheinlich finden sich auch keine rosa Elefanten auf Rollschuhen in unserer Umwelt, aber die Versatzstücke, aus denen die jeweilige Vorstellung zusammengesetzt ist, existieren eben doch. Dies könnten etwa bestimmte Gesellschaftsformen oder technische Entwicklungen sein oder Elefanten und Rollschuhe bei der Kindergeschichte. Wären diese nie der Wahrnehmung zugänglich, dann wären sie auch dem Denken nicht zugänglich gewesen. Es gibt sie als Phantasiegebilde und man kann an sie glauben, aber solange sie nicht mittels Differenzerfahrung mit der Umwelt abgeglichen werden können, verkörpern sie kein Wissen über unsere Umwelt.

Ein Denken rein im Kopf ist mit einem Tauchgang vergleichbar. Taucher können die Luft für eine gewisse Zeit anhalten. Mit Übung oder einem Tauchgerät können sie die Zeit bis zum notwendigen Auftauchen zwar verlängern, aber sie müssen irgendwann wieder auftauchen, um zu atmen. Das Atmen entspricht der Differenzerfahrung, denn ohne fortwährenden Abgleich von Vorgestelltem und sinnlich Wahrgenommenem gibt es kein Wissen und keine Gewissheit. Wir gehen deshalb von der Annahme aus, dass Denken letztendlich nicht ohne Wahrnehmung stattfinden kann: „Das Denken findet nicht im Kopf, sondern mit dem Kopf statt!“.

Zusammengefasst: Differenzerfahrung bezeichnet den Prozess der kognitiven Anpassung des Menschen an seine Umwelt. Sie ermöglicht es, über ein Phänomen, einen Sachverhalt oder einen Gegenstand neue Informationen zu gewinnen und darüber Erwartungen zu bestätigen oder zu widerlegen. Essenziell dafür ist, dass die sinnlich wahrgenommenen Eigenschaften oder Veränderungen unabhängig von den eigenen Erwartungen sind. Differenzerfahrungen passieren unablässig – gewissermaßen ein kognitives Atmen –, um Vorstellungswelt und Realität abzugleichen. Wichtig für das Verständnis des Konzepts ist, dass der Begriff der Differenz auch die Bestätigung von Annahmen und nicht nur Unterschiede oder Abweichungen umfasst. Differenzerfahrung beschreibt also den Vorgang und die Notwendigkeit des Abgleichs, nicht sein Ergebnis.

Der Kern von Differenzerfahrung, Hypothesen aufzustellen und diese mit der Realität abzugleichen, ist, wie wir im Kapitel Architektur der Wahrnehmung sehen werden, auch die Grundlage der menschlichen Wahrnehmung, denn das Wahrnehmungssystem kann nicht alle sensorischen Reize und Reizkombinationen auswerten, sondern ist auf Hypothesen angewiesen, die dann gezielt an einzelnen Punkten überprüft werden. Die auf diese Art gewonnene Schnelligkeit wird jedoch mit einem Verlust an Informationen bezahlt. Damit das nicht zu Unsicherheiten führt, ob denn auch die jeweils relevanten Wahrnehmungsreize aus der Umwelt aufgenommen wurden, muss diese Informationsreduktion sich in allen möglichen Wahrnehmungssituationen als verlässlich erweisen. Wahrnehmung ist kein statischer und passiver Prozess, sondern erfordert die Verschränkung kontinuierlichen Hypothesenbildens und aktiven motorischen Handelns. Im nächsten Abschnitt wollen wir anhand einiger einfacher Experimente verdeutlichen, wie eingeschränkt unsere Möglichkeiten zur Differenzerfahrung ohne mentale und physische Bewegung sind.

Persistente Objektarrangements

Experiment zur unmittelbaren Wahrnehmung von Anzahlen – Bild: Ifrah, Georges: Universalgeschichte der Zahlen. 2. Auflage. Campus Verlag Frankfurt am Main/New York. 1991
Experiment zur unmittelbaren Wahrnehmung von Anzahlen – Bild: Ifrah, Georges: Universalgeschichte der Zahlen. 2. Auflage. Campus Verlag Frankfurt am Main/New York. 1991

Für viele Differenzerfahrungen ist es notwendig, mehrere Objekte gleichzeitig ins Wahrnehmungsfeld zu bringen, um sie in Beziehung setzen zu können. Das gilt für einfache Vergleichsoperationen ebenso wie für das Zählen oder Ordnen. Zum Abgleich zwischen Vorstellung und Realität ist zudem meist ein stabiles und beständiges Umfeld erforderlich. Wir sprechen in einem solchen Fall von „Persistenz“. So mögen etwa Tiere, die auf der Weide wild durcheinanderlaufen, zwar stets zusammen im Wahrnehmungsfeld präsent sein, doch ist eine solche Herde kaum zählbar. Da die Tiere fortwährend ihren Platz wechseln, kann nicht ohne Weiteres verlässlich festgestellt werden, ob ein bestimmtes Tier schon gezählt worden ist oder nicht.6

Eine Beschränkung unseres Wahrnehmungsapparates lässt sich gut anhand des Bildes oben veranschaulichen: Der Hund, die zwei Löwen, die vier Bäume sowie die drei Pyramiden sind hinsichtlich ihrer Anzahl schnell zu erfassen. Bei sehr kleinen Mengen reicht dafür ein kurzer Blick. Allerdings müssen dazu die Objekte beieinanderstehen. Wären die Bäume verteilt, wären sie je nach Anordnung bzw. Abstand voneinander schwieriger zu zählen. Die Anzahl der Karaffen zu ermitteln ist schon erheblich aufwändiger. Statt eines kurzen Blicks muss ein bewusster Prozess des Abzählens erfolgen. Die Konsequenz ist, dass die Objekte so lange stabil sichtbar sein müssen, bis der Abzählprozess beendet ist. Würden sie zwischendurch erscheinen oder verschwinden oder sich während des Zählvorgangs bewegen, müsste man sich zusätzlich zum jeweiligen Zählstand auch noch merken, welche Objekte schon gezählt worden sind. In diesem Fall hätten wir es mit mehreren kognitiven Prozessen zu tun: Wir müssten individuelle Merkmale für jedes Objekt ermitteln, uns merken, welche Objekte wir schon gezählt haben, und gleichzeitig das Zählen selbst vornehmen. Das überfordert uns in den meisten Fällen. Bei gleich aussehenden Objekten hätten wir noch ein weiteres Problem, das wir nur durch die Hinzunahme von Denkzeugen wie z. B. individuelle Markierungen oder den Aufbau eines Zählgatters lösen könnten. Wenn man sich jedoch die Anzahl der individuell gezeichneten Köpfe ansieht, stellt man fest, dass die Identifikation einen erheblich größeren Aufwand an Zeit und Konzentration erfordert als das Zählen. Sie können sich das plausibel machen, indem Sie sich selbst beim Zählen der Köpfe beobachten. Sie werden nicht ermitteln, wie viele unterschiedliche Köpfe es gibt und was den jeweiligen Unterschied ausmacht, sondern Sie werden zum Abzählen in aller Regel die Köpfe entlang eines Pfades einen nach dem anderen abwandern und sie dabei zählen. Als einzige zusätzliche Information müssen Sie sich in diesem Fall nur die jeweilige Position im Prozess merken. Allerdings kann die Position schnell zu einem komplexen Gebilde werden, denn wenn die Anzahl größer wird und die Objekte sich nicht mehr auf einer gradlinigen Trajektorie befinden, müssten wir uns zusätzlich auch noch entsprechende Richtungsänderungen merken. Wenn sich jetzt auch noch die Objekte laufend verändern würden, müssten wir weitere zusätzliche Informationen als Zwischenergebnisse oder Zwischenzustände beim Zählen erfassen und bearbeiten.

Entscheidend ist die Stabilität des Wahrnehmungsfeldes bzw. der Objekte in ihm, die durch die Forderung nach Persistenz erfüllt werden kann. Bei unserem Bildbeispiel ist dies gegeben, denn das Bild verändert sich während des Betrachtens bzw. Zählens nicht. Würden wir das Bild aber immer nur für etwa eine Sekunde zeigen, würde Ihnen das Zählen der Karaffen, Köpfe oder der Striche kaum gelingen. Das Gleiche gilt, wenn wir die Elemente animieren würden. Persistenz ist eine essentielle Forderung, doch reicht sie allein nicht aus. Je größer oder ungeordneter die jeweiligen Mengen präsentiert werden, desto schwieriger ist ein Abzählen. Um die elf Köpfe zu zählen, liegt es bereits nahe, ein Hilfsmittel zu nutzen, denn die Differenzerfahrung wird erheblich einfacher und sicherer, wenn man z. B. die Köpfe einzeln ausstreicht.

Ob mit Hilfsmitteln oder nicht, entscheidend für den Erfolg beim Zählen der Objekte ist das persistente räumliche Arrangement. Es spielt aber nicht nur beim Zählen eine entscheidende Rolle: Nehmen wir als Beispiel zwei Gegenstände wie die unten abgebildeten Stifte. Diese sollen hinsichtlich ihrer Länge verglichen werden. Selbst wenn das Arrangement der Gegenstände persistent bleibt, ist es schwer, die entsprechende Differenzerfahrung zu machen. Vergleiche bezüglich der Dicke, der Form und der Farbe sind leicht zu machen, aber für die Länge ist der Vergleich in dieser Situation schwierig.

Längenvergleiche bei unterschiedlichen Arrangements
Längenvergleiche bei unterschiedlichen Arrangements

Im linken Bild kann man bei der gegebenen Perspektive auf die Stifte und aufgrund ihrer Anordnung zueinander nicht entscheiden, welcher der beiden Stifte der längere ist. Eine Änderung der Betrachtungsposition würde nicht helfen, denn die Stifte liegen so weit auseinander, dass man sie dann nur nacheinander anschauen könnte. Außerdem würde sich ihr ungünstiger Winkel zueinander in keinem Falle ändern. Wenn man die Stifte jedoch so arrangiert, dass sie sich stabil in unmittelbarer Nähe in paralleler Ausrichtung befinden wie im rechten Bild, ist die Einschätzung der relativen Längen unmittelbar ersichtlich.

Wahrnehmung und Handeln

Um Differenzerfahrung machen zu können, ist es also oft notwendig, die zu überprüfenden Phänomene oder zu untersuchenden Gegenstände mit ihren Eigenschaften möglichst persistent im Wahrnehmungsfeld zu halten oder sie dorthin zu bringen. Ein einzelner visueller Schnappschuss ist grundsätzlich mehrdeutig, weil es beim Interpretieren der zweidimensionalen Netzhautbilder immer mehrere Möglichkeiten gibt, daraus ein dreidimensionales Modell der Umwelt zu erstellen. Dabei muss man sich verdeutlichen, dass ein Wahrnehmungsereignis immer im Zusammenhang mit anderen Ereignissen steht und darüber unser Gehirn „Verrechnungen“ vornimmt, um einen stimmigen Gesamteindruck zu erzeugen. Die Interpretation des Wahrgenommenen ist eine Konstruktion auf Basis der „sensorischen Daten“. Um die damit verbundenen Hypothesen zu überprüfen, was unser Wahrnehmungssystem übrigens ohne unser bewusstes Zutun dauerhaft anstellt, ist aktives Handeln nötig.

Als Beispiel diene der Teller in der folgenden Abbildung, der aus einem schrägen Blickwinkel fotografiert worden ist. Auf der Netzhaut des Auges bildet sich die Form einer Ellipse ab. Ob sich beim Betrachter nun der Eindruck eines runden oder eines elliptischen Tellers einstellt, hängt von individuellen Erfahrungen ab. Will man auf Grundlage des ersten Eindrucks überprüfen, ob es sich in der Tat um einen kreisrunden oder um einen elliptischen Teller handelt, ist es unumgänglich, den Kopf in eine andere Position zu bringen oder den Teller hochzunehmen und zu kippen. Erst durch Erreichen einer lotrechten Perspektive, also etwa direkt von oben, kann die Hypothese, dass es sich um einen kreisrunden Teller handelt, bestätigt oder verworfen werden.

Die Silhouette ist oval, obwohl der Teller kreisrund ist.
Die Silhouette ist oval, obwohl der Teller kreisrund ist.

Zur Differenzerfahrung bezüglich der Tellerform ist eine Perspektivenveränderung und damit eine Interaktion mit der Umwelt notwendig. Diese Notwendigkeit besteht für alle Formen der Differenzerfahrung, bei der wir Hypothesen über die Beschaffenheit von Gegenständen anstellen, beispielsweise „Wie setzt sich der Körper in der Tiefe fort?“ oder „Wie ist seine Rückseite beschaffen?“. Angenommen unsere Hypothese lautet, die Unterseite dieses Tellers besitze die gleiche Oberflächenbeschaffenheit wie die Oberseite, dann müssten wir die Unterseite unseres Tellers ins Blickfeld bringen, indem wir uns selbst, den Gegenstand oder beides bewegen. Differenzerfahrung erfordert also neben einer Umwelt, deren Verhalten unabhängig von den Erwartungen oder Annahmen des Wahrnehmenden ist, ein handelndes Subjekt, das Wahrnehmen und Handeln in einer spezifischen Art und Weise miteinander verknüpft. Um Differenzerfahrungen zu ermöglichen bzw. zu unterstützen, gilt es, Handlung und Wahrnehmung sowohl zeitlich als auch räumlich eng zu koppeln. Je größer die Zeitspanne zwischen den Wahrnehmungsereignissen ist, die miteinander in Beziehung gesetzt werden müssen, desto schwieriger ist es, verlässliches Wissen über die Umwelt zu erlangen. Liegen Handlungsort und Wahrnehmungsort räumlich weit auseinander, führt das zwangsläufig auch dazu, dass die Zeitspanne zwischen Handlung und Wahrnehmung größer wird, denn beide können erst zeitlich versetzt zum Gegenstand der Aufmerksamkeit werden. Die daraus resultierende Forderung, einen engen zeitlichen und räumlichen Zusammenhang von Handlung und Wahrnehmung herzustellen, bezeichnen wir als „Kopplung von Handlungs- und Wahrnehmungsraum“.

Fassen wir zusammen: Mithilfe des Konzepts der Differenzerfahrung haben wir verdeutlicht, dass Denken nicht im Kopf, sondern mit dem Kopf stattfindet, denn wie die Beispiele zeigen, ist es erst durch den Abgleich von Erwartungen und Vorstellungen mit der Umwelt möglich, Wissen zu schöpfen und überprüfbare Einsichten zu entwickeln. Doch nicht alle interessanten Aspekte sind so offensichtlich und unmittelbar einsichtig wie die Beispiele mit den Stiften und dem Teller. Hier setzt unser Konzept der Denkzeuge an, mit dessen Hilfe wir aufzeigen, wie wir die sensorischen und kognitiven Beschränkungen unseres Körpers erweitern und so zu neuen Einsichten gelangen können. Wir erweitern damit die Möglichkeiten für neue Differenzerfahrungen.

Denkzeuge

Differenzerfahrungen durch Perspektivenwechsel, Arrangieren oder durch das Bereitstellen einer persistenten Anordnung sind relativ passiv. Zwar wird dann und wann mal ein Objekt bewegt, aber im Großen und Ganzen wird die Umwelt so belassen, wie sie ist. In vielen Fällen muss der Aufwand für Differenzerfahrung über diese recht statische Beobachtung hinaus gehen. Was würde man in obigem Beispiel mit den Stiften machen, wenn man sie, aus welchem Grund auch immer, nicht gemeinsam ins Wahrnehmungsfeld bringen könnte? Nehmen wir an, es wären nicht zwei Stifte, sondern zwei Felsen, die in ihrem Umfang verglichen werden sollen. Wir gehen davon aus, dass es nicht möglich ist, die Felsen für einen Abgleich zu versetzen. Was kann man nun tun, um an die gesuchten Erkenntnisse zu kommen? Ein zusätzliches Hilfsmittel, das sich besser handhaben lässt, wird benötigt, um die Felsen mit diesem Dritten zu vergleichen. Mit anderen Worten: Man würde den Umfang der Felsen mit einem Messgerät erfassen. Als Messgerät nehmen wir der Einfachheit halber eine Schnur, die um den ersten Felsen gelegt wird und dann in der Länge des Umfangs markiert wird. Beim Ausmessen des zweiten Felsens kann man durch Vergleich der Markierungen auf der Schnur dann ablesen, welcher Felsen größer ist oder ob beide gleich groß sind. Es ist nun ein drittes physisches Objekt an der Differenzerfahrung beteiligt, das für den Zweck des Vergleichens hergestellt bzw. für diesen Zweck angepasst worden ist. Generell bezeichnen wir ein künstlich (ars, artis), also vom Menschen hergestelltes (factum) und wahrnehmbares Objekt als Artefakt, um sie z. B. gegen Vorstellungsobjekte abzugrenzen. Da jedoch unter einem Artefakt in verschiedenen Wissenschaftsdisziplinen und in der Umgangssprache etwas sehr Verschiedenes verstanden wird und auch die Informatik unterschiedliche Ausprägungen dieses Begriffs kennt, reicht für unsere Zwecke eine einfache Definition:

Ein Artefakt ist ein von Menschen hergestellter, persistenter Gegenstand.

Für Artefakte, die zum Zweck der Differenzerfahrung hergestellt bzw. eingesetzt werden, benutzen wir den Begriff Denkzeug. Die Schnur, die Stifte und auch der Schreibtisch, auf dem die Stifte liegen, sind solche Denkzeuge, wenn sie zum Zweck der Differenzerfahrung eingesetzt werden. Auch Zeichen auf einem Blatt Papier (Inschrift) werden wir, genau wie das Blatt selbst, als Artefakt bezeichnen. Dasselbe gilt für ein Zeichen oder eine Grafik an einem Bildschirm. Nun mag man dazu neigen, eine Inschrift als persistent und dauerhaft zu betrachten, eine Bildschirmanzeige jedoch nicht. Der entscheidende Punkt ist nicht die absolute physische Dauerhaftigkeit, sondern unter dem Blickwinkel des Denkzeugs die Tatsache, dass das Artefakt mindestens so lange präsent bleibt, bis die jeweilige Differenzerfahrung abgeschlossen ist. Wir betrachten Persistenz deshalb nicht als unabhängige physische Eigenschaft, sondern unter dem Blickwinkel, dass die jeweiligen Denkzeuge den unmittelbaren Akt des Erzeugens und Nutzens bis zum jeweiligen Handlungsabschluss überdauern. Alle Artefakte haben das Potenzial, als Denkzeug zu fungieren; sie bereichern unsere Umwelt und damit das Reich für mögliche Differenzerfahrungen. Ob und welche Differenzerfahrungen das sind, hängt von der jeweiligen Art und Weise ihrer Verwendung ab. Die Schnur beispielsweise ermöglicht den Vergleich des Umfangs verschiedener Felsen, wenn man sie wie erläutert verwendet. Die Art und Weise, wie Artefakte zu erzeugen und zu manipulieren sind, bezeichnen wir als Technik. Beispielsweise ist im obigen Beispiel das Arrangieren, bei dem die Stifte an einem Ende ausgerichtet werden, eine Technik, um Differenzerfahrung zu ermöglichen.

Ob ein Artefakt oder eine Technik ein Mittel zur Differenzerfahrung ist, liegt nicht im Artefakt oder in der Handlung an sich, sondern hängt vom Einsatzzweck ab. Ein geradezu sprichwörtliches Beispiel ist der Knoten in einem Taschentuch mit dem Zweck, sich an etwas zu erinnern.

Taschentücher sind von Menschen hergestellte Objekte, also Artefakte. Sie sind aber zunächst einmal nicht als Mittel zur Differenzerfahrung gedacht, denn wir benutzen Taschentücher nicht, um Hypothesen zu überprüfen, sondern um uns die Nase zu putzen oder etwas wegzuwischen. Ein Taschentuch mit einem Knoten kann – muss aber nicht – als Denkzeug fungieren. Erst wenn der Knoten für diesen Zweck gezielt hergestellt worden ist, kann er als Denkzeug fungieren, da er unabhängig von der Vergesslichkeit der jeweiligen Person persistent ist und so eine Differenzerfahrung über die Zeit ermöglicht. Hat man jedoch vergessen, an was der Knoten erinnern soll, oder ist er zum passenden Moment nicht im Wahrnehmungsfeld präsent, scheitert die Differenzerfahrung. Das Taschentuch, ebenso wie alle anderen Denkzeuge, bietet nur das Potenzial für mögliche Differenzerfahrungen, nötigt sie aber weder auf noch erzwingt es sie. Der Begriff „Denkzeug“ charakterisiert also unabhängig von den spezifischen physischen Eigenschaften die Funktion von Artefakten, Unterschiede in der Umwelt zum Anlass für Differenzerfahrungen zu machen.

Für die Erfüllung dieser Funktion ist entscheidend, dass sie das Ergebnis der Differenzerfahrung nicht verfälschen dürfen. Ein Problem, dass die Wissenschaften seit der Begründung der experimentellen Naturwissenschaft durch Galileo bis hin zu den digitalen Geisteswissenschaften intensiv beschäftigt.

Beispiel: Fernrohr
Galileis Skizzen des Mondes
Galileis Skizzen des Mondes

Ein klassisches Beispiel für ein Artefakt als Mittel zur Differenzerfahrung ist der Einsatz eines Fernrohrs. Ein Fernrohr zählen wir zu den Instrumenten. Instrumente offenbaren Objekt- oder Prozesseigenschaften, die mit dem menschlichen Wahrnehmungsapparat allein nicht wahrnehmbar wären. Betrachten wir das an einem historischen Beispiel: Galileo Galilei ging der Frage nach, ob die sichtbaren Flecken auf dem Mond Farb- oder Höhenunterschiede sind. Mit bloßem Auge ist eine Unterscheidung hier nicht möglich, denn für die erforderliche Differenzerfahrung ist das Auflösungsvermögen des Auges nicht ausreichend bzw. der Mond am Himmel zu klein. Mit Galileos Fernrohr konnte nun die Wahrnehmungsgranularität geändert werden, indem etwas weit Entferntes gewissermaßen „herangeholt“ wurde.

Mithilfe des Fernrohrs konnte Galilei dann erkennen, dass zum einen immer ein ganzer Mond zu sehen ist, der dunkle Teil also immer schemenhaft erkennbar ist, und zum anderen die Grenze zwischen dem hellen und dem dunklen Teil des Mondes nicht gerade und glatt verläuft, sondern vielmehr unruhig und zackig. Diese Verlaufslinie war für ihn ein klares Indiz dafür, dass er einen Schattenwurf auf einer unebenen Oberfläche beobachtete und dass es folglich auf dem Mond Erhöhungen und Vertiefungen geben müsse.

Abgesehen von der kirchlichen Problematik, ob es denn statthaft sei, die göttliche Himmelsmechanik mit einem von Menschenhand gefertigten Gerät zu untersuchen, musste sich Galilei auch aus wissenschaftlicher Sicht zu Recht Fragen gefallen lassen. Wie zum Beispiel lässt sich beweisen, dass die Strukturen, die er beobachtet hat, tatsächlich Eigenschaften des Mondes sind und nicht etwa Eigenschaften des Fernrohrs selbst? So etwas kommt vor. Manch ein vorgeblich fotografiertes UFO entpuppte sich im Nachhinein als Reflexion innerhalb des Linsensystems. Es ist schwer, den Nachweis zu führen, dass ein Mittel zur Differenzerfahrung keine Verfälschungen oder Verzerrungen beinhaltet. Es erfordert aufwändige, organisierte Differenzerfahrungen, indem man Vergleiche mit weiteren Teleskopen anstellt, die Beobachtungen auf andere Bereiche überträgt, aus den Erfahrungen heraus Grundlagen der Optik entwickelt und all dieses durch weitergehende Beobachtungen und Aktivitäten bestätigt, wie dies beispielsweise heutzutage mithilfe der Raumfahrt und mit Satelliten möglich ist.

Der Prozess der Aufstellung von Hypothesen, ihrer Überprüfung durch Hilfsmittel, der Wiederholung der Überprüfung zu anderen Zeitpunkten durch andere Personen, der Infragestellung der Überprüfungsmethoden und des späteren Ergänzens um weitere Methoden ist eine typische Charakteristik der Naturwissenschaften7. In den Naturwissenschaften reicht eine einzelne Differenzerfahrung nie aus, denn die Naturwissenschaften systematisieren die fortwährende Verzahnung von Hypothesenbildung und (experimenteller) Überprüfung. Nur wenn etwas mehrfach an verschiedenen Orten von verschiedenen Personen und idealerweise mit verschiedenen Mitteln festgestellt und repliziert werden kann, gilt es als gesichert. Wie wir gesehen haben, gilt dies auch schon für die Wahrnehmung selbst, denn ein einziger isolierter kurzer Blick ist für eine gesicherte Erfahrung nicht ausreichend. Eine einzelne Differenzerfahrung stellt also einen Anlass für neue Hypothesen dar, die dann wiederum durch weitere Differenzerfahrungen überprüft werden müssen.

Beispiel: Wärmebildkamera
Aufnahme einer Wärmebildkamera – Bild: Lutz Weidner [CC BY-SA 2.0 de]
Aufnahme einer Wärmebildkamera – Bild: Lutz Weidner [CC BY-SA 2.0 de]

Auch in diesem Szenario der Überprüfung der Wanddämmung sind Handeln und Wahrnehmen miteinander verschränkt. Zeigt die Kamera ein Bild, wie auf der Abbildung zu sehen, bleibt es wahrscheinlich nicht bei diesem einen Bild, denn auf die Erkenntnis, dass ein Dämmproblem vorliegt, erfolgt ja in der Regel eine Handlung. Das Ergebnis dieser Handlung muss dann wieder auf ähnlichem Wege überprüft werden. Die Differenzerfahrung mittels eines Instruments gab also die nötigen Hinweise, die für das Einleiten einer Handlung nötig waren. Die Überprüfung ihres Erfolgs bedarf erneuter Differenzerfahrung.

Beispiel: Schiefe Ebene

In unserem dritten Beispiel, der schiefen Ebene, handelt es sich um eine experimentelle Konstruktion. Beim experimentellen Konstruieren geht es im Vergleich zu den Instrumenten nicht um das Verstärken oder Transformieren (Visualisierung oder Sonifikation, wie etwa beim Geigerzähler) von nicht direkt wahrnehmbaren physikalischen Größen, sondern darum, eine Umgebung zu schaffen, in der Objekteigenschaften oder Naturphänomene, wie beispielsweise die Schwerkraft, einer systematischen Beobachtung zugänglich gemacht werden. „Systematisch“ bedeutet hier, ein experimentelles Arrangement zu schaffen, in dem die Beobachtung jeweils unter ausgewählten Randbedingungen wiederholt werden kann. Über die Kontrolle der Auswahlparameter kann der Geltungsbereich hypothetischer Annahmen überprüft werden. Das erfordert umfangreiche Transformationen, um das Phänomen studierbar zu machen. Dabei können zwar Störeinflüsse beseitigt werden, doch werden zugleich neue idealisierte Bedingungen geschaffen, die selbst wieder einer kritischen Überprüfung standhalten müssen.

Dies lässt sich an einem weiteren wissenschaftshistorischen Beispiel aus dem Repertoire von Galileo Galilei beschreiben, der Entdeckung der Fallgesetze. Der Legende nach hat Galilei die Fallgesetze untersucht, indem er Gegenstände vom Schiefen Turm von Pisa hat herunterfallen lassen. Dabei soll er die beschleunigte Bewegung beobachtet haben. Kann das sein? Um die Eigenschaften des Fallens, also die beschleunigte Bewegung, zu messen, müsste die Position des fallenden Objekts zu festgelegten Zeiten nach dem Fallenlassen oder die vergangene Zeit beim Passieren des Objekts an festgelegten Orten gemessen werden. Unter den Bedingungen einer Fallhöhe von 56 Metern, einer Fallzeit von nur 3,4 Sekunden und einer Geschwindigkeit von 120 km/h beim Aufprall konnte Ende des 16. Jahrhunderts aber keine solche Beobachtung angestellt werden. Dafür hätte es etwa Lichtschranken und sehr genauer Uhren bedurft. Solche Geräte standen damals nicht zur Verfügung.

Experimentalaufbau zum Freien Fall mit schiefer Ebene und Wasseruhr
Experimentalaufbau zum Freien Fall mit schiefer Ebene und Wasseruhr

Die geniale Idee Galileis war es nicht, etwas vom schiefen Turm fallen zu lassen, sondern statt des Falls eines Objekts die beschleunigte Bewegung einer Kugel auf einer schiefen Ebene zu beobachten. Auf diese Weise konnte er den Prozess derart verlangsamen, dass er mit damaligen Mitteln beobachtbar und sogar messbar wurde. Das obere Bild verdeutlicht das experimentelle Arrangement von Galilei. Da kurze Zeitspannen damals noch nicht direkt messbar waren, bediente er sich einer Wasseruhr und maß anstelle der Zeit das Gewicht des in ein Gefäß gelaufenen Wassers. Wiegen konnte man gut, denn genaues Wiegen war für den Handel wichtig. Auf der Ebene konnten an verschiedenen Stellen Barrieren angebracht werden, sodass die herabrollende Kugel unterschiedlich lange Strecken durchlief. Der Wasserzulauf wurde beim Erreichen der Barriere gestoppt und somit die vergangene Zeit für den zurückgelegten Weg gemessen. Galilei tüftelte die Positionen der Barriere so aus, dass die Zeit, die die Kugel brauchte, um die Barriere zu erreichen, sich jeweils um die initiale Zeitspanne verlängerte. Hatte er das erreicht, wurden die Abstände der Barrieren gemessen und beides miteinander in Beziehung gesetzt. Dieses Experiment wurde in verschiedenen Formen mit verschiedenen Neigungen der Ebene wiederholt. Da die Zeit für die Bewältigung des Weges zwischen zwei Barrieren immer gleich war, der Abstand sich aber zunehmend vergrößerte, konnte er aus den Ergebnissen auf eine beschleunigte Bewegung beim Fallen von Objekten schließen.

Die Konstruktion aus schiefer Ebene, Barrieren und Wasseruhr ermöglichte es, den freien Fall eines Körpers der sinnlichen Wahrnehmung zugänglich zu machen. Es handelt sich bei dieser experimentellen Anordnung aber nicht um ein Beschleunigungsmessinstrument, sondern um eine Konstruktion, mit deren Hilfe man gewissermaßen der Umwelt gezielt Fragen stellen kann, indem man die passenden Randbedingungen herstellt.

Die experimentelle Anordnung Galileis wäre heute nicht mehr unbedingt nötig, denn heute gelänge es wohl, die Beschleunigung eines fallenden Gegenstands auch direkt – zum Beispiel am Schiefen Turm von Pisa – mit Instrumenten zu messen. Es gibt aber viele Fälle, in denen die Wahrnehmung bestimmter Eigenschaften der Natur ohne eine experimentelle Konstruktion nicht möglich ist. Um zum Beispiel nachzuweisen, dass die Fallgesetze für alle Körper unabhängig von ihrer Masse gleichermaßen gelten, dass also eine schwere Bleikugel und eine leichte Feder gleich schnell fallen, ist eine Konstruktion unumgänglich. Das Fallenlassen beider Objekte von einem hohen Punkt aus würde mit noch so genauen Instrumenten nicht zur Wahrnehmung einer gleich schnellen, beschleunigten Bewegung führen. Es braucht eine Konstruktion, in der ein Vakuum erzeugt wird, in dem die Objekte dann ohne den Einfluss des störenden Luftwiderstands frei fallen können.

Die geschaffenen, idealisierten Bedingungen schaffen neue Möglichkeiten der Beobachtung. Ein reines Beobachten ist für so etwas wie das Aufstellen der Fallgesetze für sich genommen aber noch nicht ausreichend. Das In-Beziehung-Setzen von Zeit (Wasseruhr) und Fallstrecke (Abstände zwischen den Barrieren) erfordert zusätzlich Rechenprozesse (Formalismen). Auch solche formalen Transformationen wie das (schriftliche) Rechnen sind ein Mittel zur Differenzerfahrung, zumindest dann, wenn man nicht aus Spaß an der Freude rechnet, sondern wenn sich die Rechnung auf eine reale Gegebenheit bezieht, denn dann kann man mit der Berechnung etwas über die Umwelt herausfinden.

Beispiel: Rechnen

Es sind zehn Stückchen Kuchen da. Sechs Freunde sollen am Nachmittag zu Besuch kommen. Für jeden soll es mindestens zwei Stückchen Kuchen geben. Reicht der Kuchen, oder muss noch nachgekauft werden? Wie ist in diesem Fall Differenzerfahrung möglich? Man könnte es drauf ankommen lassen, sprich, man lässt die Leute kommen und jeder soll versuchen, seine zwei Stückchen Kuchen zu essen. Will man es aber vorher wissen, muss man rechnen, und wahrscheinlich haben Sie es schon im Kopf überschlagen: 6*2 = 12 > 10 – es reicht nicht. Die Technik des Rechnens hat uns als Mittel zur Differenzerfahrung gedient.

Um rechnen zu können, muss es möglich sein, das realweltliche Problem in einer formalen Art und Weise aufzuschreiben8. Wenn das der Fall ist, kann man formale Umformungsregeln, ein sogenanntes „Kalkül“, auf die Zeichen anwenden. Genau wie bei den anderen Mitteln zur Differenzerfahrung können formale Umformungen wie das schriftliche Rechnen gerade deshalb ein Mittel zur Differenzerfahrung sein, weil der Rechenprozess und damit auch sein Ergebnis völlig entkoppelt von den Hypothesen oder Erwartungen des Rechnenden sind. Die Berechnung oben und die Art und Weise, wie man sie durchführt, hat nichts mit der eigenen Einschätzung der Kuchenverhältnisse zu tun. Der Formalismus und seine Umformungsregeln sind davon unabhängig. Korrekt zu rechnen, hat nichts mit menschlicher, sinnhafter Interpretation zu tun, sondern mit dem korrekten Befolgen von Regeln, wobei diese sich nur auf die Form und Anordnung der Zeichen beziehen.

Wenn ein Sachverhalt angemessen in den Formalismus übertragen worden ist, sind durch den Formalismus die Voraussetzungen für Probehandeln und Vorhersagen gegeben, die sonst nicht möglich wären. Formale Operationen haben also einen konstruktiven Charakter. Wenn die monatlichen Ausgaben mit dem zu erwartenden Gehalt verrechnet werden, kann frühzeitig festgestellt werden, ob noch Spielraum für weitere Anschaffungen besteht. Die Rechnung hat etwas sichtbar gemacht, was in den Zahlen grundsätzlich schon steckte, aber nicht unmittelbar der Wahrnehmung zugänglich war.

Ob das Ergebnis einer formalen Umformung wie einer Berechnung für die Beurteilung von Gegebenheiten in der Umwelt von Belang ist, ist keine Eigenschaft der Rechenregeln, sondern ob man die richtige Modellierung und das richtige formale Transformationssystem angewandt hat. Wie eine Redensart besagt, könne man Äpfel und Birnen nicht vergleichen, aber man kann sie durchaus addieren. Drei Äpfel und zwei Birnen ergeben fünf Stücke Obst. Will man aber wissen, was passiert, wenn man 1 m³ Ammoniak und 3 m³ Luft mischt, ist ein anderes formales Modell vonnöten. Die Wissenschaft der Chemie hat hier einiges im Angebot. Ein Addieren gemäß der Rechenregeln ist zwar möglich, führt aber nicht zur gewünschten Differenzerfahrung. Das Ergebnis „1 m³ Ammoniak + 3 m³ Luft = 4 m³ Gasgemisch“ wäre zwar richtig gerechnet, aber keine gute Voraussage für den tatsächlichen Versuch, weil dieser nicht zu 4 m³ eines Gasgemisches führen würde, sondern eher zu einem zerstörten Labor.

Die bislang angestellten Überlegungen verdeutlichen bereits unsere Herangehensweise. Schon beim Beispiel mit dem Zählen haben wir den mentalen Aufwand über den Gegenstandsbereich der Wahrnehmung und der jeweils zu erledigenden Aufgabe bestimmt und gezeigt, dass schon bei einer relativ geringen Anzahl von Objekten eine Technik des bewussten Zählens erforderlich ist. Je nach Arrangement und der gewählten Vorgehensweise sind weitere Informationsverarbeitungsprozesse notwendig, die relativ schnell unsere mentale Kapazität übersteigen. Mithilfe zusätzlicher physischer Hilfsmittel wie Markierungen oder der Mess-Schnur lassen sich Komplexität und kognitiver Aufwand verringern.

Externes Gedächtnis

Denkzeuge bieten nicht nur das Potenzial für Differenzerfahrung, sondern sie können zugleich in erheblichem Umfang für mentale Entlastungen sorgen. Oft geht das eine mit dem anderen einher. Dies wird in einer Anekdote aus Georges Ifrahs Buch „Die Universalgeschichte der Zahlen“9 anschaulich beschrieben:

Stellen wir uns einen Hirten vor, der nicht ‚zählen‘ kann und der eine Hammelherde zu hüten hat, die er allabendlich in einer Höhle einschließt. Es handelt sich um 55 Hammel, aber unser Hirte ist nicht in der Lage zu begreifen, was die Zahl 55 bedeutet. Er weiß lediglich, daß er ‚viele‘ Hammel hat. Da ihm diese Aussage zu ungenau ist, möchte er doch gerne wissen, ob seine Hammel jeden Abend auch vollzählig zurückgekehrt sind. Eines Tages hat er eine Idee… Er setzt sich in den Eingang seiner Höhle und läßt seine Hammel einen nach dem anderen hinein. Jedesmal, wenn ein Hammel an ihm vorbeikommt, macht er eine Kerbe in einen Wolfsknochen. Auf diese Weise hat er mit dem Durchgang des letzten Tieres genau fünfundfünfzig Kerben geschnitzt. Nun legt er jeden Abend, wenn seine Hammel wie immer einer hinter dem anderen zurückkommen, jedesmal den Finger in eine Kerbe, von einem Ende des Knochens bis zum anderen. Und wenn sein Finger dann bei der letzten Kerbe angekommen ist, ist unser Hirte beruhigt, denn nun sind alle seine Hammel in Sicherheit.

Der Schäfer in Ifrahs Anekdote hat ein Artefakt erzeugt, mit dem ihm etwas möglich wurde, was er selbst nicht konnte, nämlich zählen. Selbst wenn er hätte zählen können, wäre die Technik praktisch, denn die Kerben im Knochen halten das Endergebnis, die Zahl 55, fest, und die gefundene Zähltechnik mit linearem Abgreifen der Kerben vermeidet die Notwendigkeit, sich Zwischenergebnisse merken zu müssen. Die Kerben-Ritz-Technik des Schäfers ist ein Mittel zur Differenzerfahrung, denn der „Zählvorgang“ hat nichts damit zu tun, was der Zählende von ihrem Ausgang erwartet. Er hängt nur von der Anzahl der Schafe und der Anzahl der Ritzen ab, die beide unabhängig vom Zählenden sind. Die vom Schäfer gewählte Technik, Kerben in einen Knochen zu ritzen, eröffnet aber weit mehr Potenziale als nur eine Zählunterstützung und Gedächtnisentlastung. Dadurch dass die Technik auf einer persistenten Einschreibung (Kerben) in ein Medium (Knochen) basiert, kommen den Zählprozessen eine Reihe von „Unabhängigkeiten“ von der aktuellen Situation zu [^Gedächtnismedien]:

  • Unabhängigkeit vom Zeitpunkt: Da der Knochen persistent ist, kann die Überprüfung der Hammelzahl zu einem beliebigen anderen Zeitpunkt durchgeführt werden.
  • Unabhängigkeit vom Ort: Da der Knochen kompakt ist und mitgenommen werden kann, muss der Schäfer seine Überprüfung nicht etwa immer am gleichen Ort durchführen, sondern kann dies überall dort tun, wo er die Schafe vereinzeln kann.
  • Unabhängigkeit von der Person: Der Knochen kann an einen anderen Schäfer weitergegeben werden. Dieser Schäfer kann dann, ohne die ursprünglichen Einritzungen vorgenommen zu haben und ohne jemals vorher diese Herde gezählt zu haben, die Vollständigkeit der Herde überprüfen.

Die Technik, Kerben bzw. allgemeine Zeichen in einen Knochen zu ritzen, ist eine Einschreibtechnik. Beim Knochen kann man den Begriff „Einschreiben“ sehr wörtlich verstehen, denn es wird ja tatsächlich etwas in den Träger hineingeritzt. Wir nutzen das Wort „Einschreibtechnik“ hier aber etwas allgemeiner auch für alle Techniken, bei denen Zeichen auf einen Träger aufgebracht werden, indem dieser chemisch, physikalisch oder mechanisch verändert wird. In all diesen Fällen sagen wir, dass etwas in den Träger „eingeschrieben“, also untrennbar mit dem Trägermaterial verbunden ist. Mit technischen Mitteln lässt sich nur dieses Trägermaterial bearbeiten, nicht die Zeichen selbst. Einschreibtechniken sind, allgemeiner formuliert, Aufzeichnungstechniken. Technisch gesehen bedeutet Aufzeichnen, dass Prozesse Spuren in einem Artefakt hinterlassen. Dies gilt für das händische Ritzen oder Schreiben, wo die Schriftzeichen die Spur des Stifts auf dem Papier sind, oder auch für technische Aufzeichnungstechniken wie dem Einritzen von Rillen in Wachsplatten bei einer Schallplatte oder den Magnetisierungen von Metallbeschichtungen bei einer Festplatte. Die aufgezeichneten Spuren sind unabhängig vom zeitlichen und örtlichen Vollzug wiederholt bedenk- und bearbeitbar. Um eine Schallplatte, eine Musikkassette oder ein Videoband wiedergeben zu können, bedarf es aber neben dem Aufzeichnungsmedium selbst auch Kenntnisse über die Aufzeichnungs- und Wiedergabetechnik, denn aus dem Artefakt der Platte mit den Rillen oder der Festplatte mit der magnetisierten Beschichtung allein geht nicht hervor, welche Art von Aufzeichnung es ist und wie sie wiedergegeben wird, denn grundsätzlich ließe sich auch auf einer Schallplatte oder einer Musikkassette ein Bild speichern oder ein Videoband für die Aufzeichnung seismischer Aktivitäten nutzen.

Im Gegensatz zu den physisch wahrnehmbaren Spuren sind Bedeutungen und Interpretationen keine Eigenschaften der Artefakte. Die Bedeutung von Zeichen und Spuren erschließt sich Personen, die nicht mit dem Kontext der Aufzeichnungsprozesse vertraut sind, meist nicht. Bedeutungen von Zeichen sowie von sprachlichen Ausdrücken müssen immer sozial koordiniert werden. Dass Sie diesen Text lesen können, liegt an den Vereinbarungen über die Zeichen unseres Alphabets, den Regeln der deutschen Schriftsprache und den Erfahrungen und Konventionen zum Gebrauch. Kurz: Sie können diesen Text lesen, weil Sie die lateinischen Buchstaben kennen und lesen gelernt haben, weil Sie der deutschen Sprache mächtig sind und weil Sie zumindest im Groben eine Ahnung von den Dingen haben, über die wir sprechen. Auch die Nutzungsschnittstelle von Computersystemen besteht aus Zeichen und Spuren und auch deren Bedeutung erschließt sich logischerweise nicht aus sich selbst heraus. Das Erschließen eines komplexen interaktiven Systems ist daher – zumindest zu Beginn der Nutzung – mit einem hohen Lernaufwand verbunden. Dieser erfordert immer Differenzerfahrung und damit die Notwendigkeit, die zuvor besprochenen Voraussetzungen für diese Differenzerfahrungen zu schaffen.

Bei analogen Inschriften besteht ein Konflikt insofern, als dass nur das Trägermedium sowohl der technischen als auch der manuellen Bearbeitung zugänglich ist. Damit besteht auf nahezu allen Ebenen der Wissensarbeit ein Konflikt zwischen Persistenz und Manipulierbarkeit.

Objektgranularität und Räumlichkeit

Der vorhergehende Abschnitt macht deutlich, dass bei Einschreibtechniken Zeichen und andere Artefakte in ein räumliches Arrangement zu bringen sind, um effektiv Differenzerfahrungen ermöglichen zu können. Selbst bei der Zähltechnik des Hirten wurden die Kerben nicht willkürlich in den Knochen eingeritzt, sondern so, dass sie nacheinander mit dem Finger abgetastet werden konnten. Auch beim schriftlichen Rechnen spielt die Anordnung der Zeichen eine entscheidende Rolle, denn sie ist für eine korrekte Ausführung der Rechenoperationen und letztlich auch für das Aufschreiben und Lesen der Zahlen im Stellenwertsystem entscheidend.

Räumliche Arrangements sind überall dort wichtig, wo im Rahmen von Wissensarbeit mehrere Artefakte berücksichtigt werden müssen. Wenn Sie Dokumente sichten, stehen diese oft nicht für sich, sondern werden in Beziehung zu anderen Dokumenten und Artefakten gesetzt. Meist ist nicht das gesamte Dokument für den jeweiligen Zweck relevant. Sie brauchen vielmehr Ausschnitte, die Sie mit anderen kombinieren, mit eigenen Notizen und Anmerkungen ergänzen, bis schließlich ein neues Dokument entstanden ist. Der Prozess der Sichtung von Dokumenten und der Annotation und der Verdichtung zu einem neuen Dokument ist ohne die Möglichkeit der räumlichen Anordnung kaum durchzuführen. Sie müssten unentwegt in Dokumenten blättern und zusammenhängende Quellen blieben genauso voneinander getrennt wie Notizen zu dem, auf das sie sich beziehen. Sie würden im wahrsten Sinne des Wortes schnell den Überblick verlieren, weil insbesondere bei längerer Arbeit der jeweilige (Zwischen-)Stand Ihrer Erkenntnisse nicht durch eine schnelle direkte Wahrnehmung erfassbar wäre.

Ein Schreibtisch als Arbeitsplatz für Wissensarbeit – Bild: Die.keimzelle (CC BY 3.0)
Ein Schreibtisch als Arbeitsplatz für Wissensarbeit – Bild: Die.keimzelle (CC BY 3.0)

Ein Schreibtisch, wie beispielsweise hier abgebildet, ist ein traditionelles Möbel für diese Form von Wissensarbeit. Die Schreibtischoberfläche verkörpert einen geeigneten Raum, weil sie in der Regel groß genug ist, die unterschiedlichen Schriftstücke und Notizzettel auszubreiten und sie gemeinsam ins Wahrnehmungsfeld zu bringen. Zugleich bleibt jedes einzelne Schriftstück zur Bearbeitung in Reichweite. Werden beim Arbeiten mit den Dokumenten Zusammenhänge und Abhängigkeiten festgestellt, lassen sich diese auf einem Schreibtisch durch die Anordnung räumlich abbilden. Unter anderem ist es möglich, Dokumente zu ordnen und zu gruppieren, indem sie beispielsweise auf einen gemeinsamen Stapel oder in eine definierte Reihenfolge gelegt werden. Soll ein bestimmtes Dokument besondere Aufmerksamkeit genießen, kann dies zum Beispiel durch die Position, etwa direkt am Sitzplatz des Wissensarbeiters oder aber durch eine explizite Auszeichnung ausgedrückt werden. Ein Dokument könnte etwa schief auf einen Stapel gelegt werden, es kann farblich markiert werden oder eine Ecke einer Seite kann zu einem Eselsohr umgeknickt werden. Auf diese Weise können neue Dokumente oder Notizen hinzukommen, ohne dass die bisherige Anordnung komplett geändert werden müsste. Das jeweils aktuelle Arrangement verkörpert also zu einem gewissen Grad den erreichten Stand in der Wissensarbeit und kann deshalb selbst als Denkzeug betrachtet werden.

Betrachtet man von den vielen Möglichkeiten an einem Schreibtisch die Aspekte der räumlichen Anordnung, können wir eine kleine Zahl grundlegender räumlicher Arrangieroperationen als Techniken ausmachen:

Erzeugen: Es muss möglich sein, neue Artefakte im Wahrnehmungsfeld zu erzeugen. Damit ist nicht gemeint, dass ein Dokument im Sinne seines Trägers, also das Papier selbst, erzeugt wird, sondern dass es möglich ist, Zeichen in einen Träger einzuschreiben und damit persistent verfügbar zu machen.

Einfügen: Eine grundlegende Voraussetzung für eine Arbeitsumgebung ist die Möglichkeit, weitere Artefakte zum vorhandenen Arrangement hinzuzufügen. Im Büro kann das zum Beispiel geschehen, indem ein Dokument aus einem Aktenschrank oder einem Ordner entnommen und auf den Schreibtisch gelegt wird.

Umordnen: Ein Großteil der Wissensarbeit in einer Arbeitsumgebung wie einem Schreibtisch bedeutet, Artefakte an- und umzuordnen, sie also im Wahrnehmungsfeld zu bewegen. Das Schaffen solcher Arrangements eröffnet die Möglichkeit, Artefakte zu vergleichen und aufeinander zu beziehen. Darüberhinausgehend ist es möglich, bestimmten Positionen eine Bedeutung zuzuordnen und Gruppen mit gemeinsamen Merkmalen zu bilden.

Entfernen: Genauso wie Artefakte in den Wahrnehmungsraum gebracht oder in ihm erzeugt werden können, muss es möglich sein, Artefakte aus dem Wahrnehmungsfeld zu entfernen. Das kann in diesem Zusammenhang bedeuten, ein Artefakt zu zerstören. Es kann aber, gerade beim Beispiel Schreibtisch, auch das Ablegen eines nicht mehr benötigten Dokuments bedeuten.

Mit diesen vier Operationen sind bereits viele der typischen Handlungen zum Erzeugen eines Dokument-Arrangements möglich. Eine weitere, besondere Operation ist jedoch dann nötig, wenn der interessierende Bedeutungsausschnitt nicht mit der Granularität des Trägermediums identisch ist. Das Arrangieren eines einzelnen Artefakts reicht dann nicht mehr aus. Vielmehr muss bislang Zusammenhängendes nun getrennt behandelt werden.

Rekomponieren: Rekomponieren beinhaltet die Möglichkeit, die Granularität eines Artefakts zu verändern, also Artefakte in mehrere einzelne Objekte zu zerteilen und einzeln zu bearbeiten oder auch mehrere Objekte zu einem gemeinsamen Artefakt zusammenzufassen. Ist dies flexibel möglich, kann man etwa einen Text dadurch erstellen, dass Abschnitte und Kapitel räumlich sortiert und dann zu einem gemeinsamen Objekt zusammengefügt werden.

Jeder von Ihnen, der an einem komplexen Projekt gearbeitet und dafür Dokumente auf dem Schreibtisch ausgebreitet hat, wird schon festgestellt haben, dass es schon bei umfangreicheren Artefakten an diesen wenigen Funktionen Probleme geben kann. Nehmen wir als Beispiel eine Aufgabe, bei der Sie in einem Buch nach interessanten Aspekten forschen. Sie finden einen interessanten Punkt, sagen wir mal auf Seite 20. Ein anderer damit zusammenhängender Aspekt steht auf Seite 53. Sie würden nun gerne die Seite 20 nach links hin anordnen und die Seite 53 auf den Stapel auf der rechten Seite befördern, um beide schnell in Bezug setzen zu können. Das Buch ist dafür aber nicht gemacht, denn die Seiten sind, im wahrsten Sinne des Wortes, gebunden. Sie könnten nun das Buch auseinanderreißen, um seine Teile, wie oben beschrieben, rekomponieren zu können. Alternativ könnten Sie an einen Kopierer gehen, zwei Kopien machen, die Sie interessierenden Teile ausschneiden und diese dann nach Ihren Wünschen anordnen. In beiden Fällen machen Sie jedoch einen Umweg, denn Sie beschäftigen sich für eine gewisse Zeit nicht mit Ihrer eigentlichen Recherche und den Inhalten, sondern mit dem Objekt Buch, dem Kopierer und der Schere, also den technisch-materiellen Veränderungen der jeweiligen Trägermedien.

Persistenz versus Bearbeitbarkeit

Dieses und viele ähnlich gelagerte Probleme liegen an einer Grundcharakteristik analoger Medien, nämlich der, dass Persistenz, also Beständigkeit, und Bearbeitbarkeit sich entgegenstehen. Bei vielen Formen von Wissensarbeit wie dem Prozess der Texterzeugung wird aber sowohl Persistenz als auch Bearbeitbarkeit gefordert, denn mit Artefaktunterstützung über etwas nachzudenken, heißt einerseits Artefakte zu bearbeiten, aber andererseits auch das Festhalten von Ergebnissen in persistenten Einschreibungen.

Alles, was analog eingeschrieben ist, ist persistent, und damit auf dieser Ebene der Einschreibung nicht mehr bearbeitbar. Das verdeutlicht ein Beispiel: Wenn Sie die Zahlen 1 2 3 4 5 6 auf Papier schreiben, dann sind sie persistent dort eingeschrieben. Solange der Papierträger nicht zerstört wird, bleibt die Anordnung der Zeichen erhalten. Zwar kann man einzelne Zahlen umrahmen oder unterstreichen, ihnen also etwas hinzufügen. Man kann je nach eingesetzter Technik die Zahlen sogar chemisch (Tintenkiller) oder mechanisch (Radiergummi) entfernen, aber ein Arrangieren im Sinne eines Bewegens der Zeichen selbst ist nicht möglich. Wenn man nun unter das Geschriebene einen Strich macht und die gleichen Zeichen in der Anordnung

1  2  3
6  5  4

neu aufschreibt, hat man die Zeichen nicht wirklich arrangiert, sondern ein komplett neues Arrangement bestehend aus neuen Zeichen erstellt. Damit einzelne Zeichen in der analogen Medienwelt arrangierbar sind, könnten sie jeweils in einen eigenen Medienträger eingeschrieben werden – in diesem Fall jede Ziffer auf einem eigenen Stück Papier. Diese Träger können dann auf einer Arbeitsfläche wie einem Schreibtisch arrangiert werden. Die Verwendung einer solchen Technik ist ein Trick, denn eigentlich wird das Problem nicht gelöst. Die eingeschriebenen Zeichen können nach wie vor nicht bewegt werden. Stattdessen werden nun die Medienträger selbst bewegt. Die dann entstehende Anordnung ist bearbeitbar, aber nicht mehr im gleichen Maße persistent wie die Einschreibung auf einem Blatt Papier, wie das Öffnen eines Fensters oder ein ungewollter Nieser schnell verdeutlichen können.

Ausschnitt aus einer Übersichtstafel einer Raumplanung
Ausschnitt aus einer Übersichtstafel einer Raumplanung

Ein komplexes Beispiel für eine Technik mit kleinen, arrangierbaren Medienträgern ist die obige in einem kleinen Ausschnitt abgebildete Raumplanung. Kleine Karten sind per Magneten an einer stundenplanartigen Struktur befestigt. Gelbe Karten symbolisieren sich wiederholende Veranstaltungen, während rote Karten individuelle Raumbuchungen darstellen. Durch die Tafeln haben die Mitarbeiter der Raumplanung immer die komplette Situation im Überblick. Sie können auf den ersten Blick freie Räume oder sich ergebende Doppelbuchungen erkennen. Durch das Verwenden der kleinen Zettel und der Magnete ist das Arrangement sehr flexibel. Dies geht jedoch stark auf Kosten der Stabilität. Das komplette Arrangement ist recht fragil und ließe sich leicht versehentlich zerstören. Würde man versuchen, das Arrangement zu transportieren, müsste beim Transport große Vorsicht an den Tag gelegt werden. Weniger problematisch in dieser Hinsicht ist der Transport durch ein Foto. Dieses bietet zwar den Vorteil eines Einschreibmediums, indem es den unfallfreien Transport und das Überdauern in der Zeit ermöglicht, hat aber den Nachteil, dass die Flexibilität für Manipulationen verloren geht.

Ergo: Das Eingeschriebene in oder auf einem Träger sorgt einerseits für eine erwünschte Persistenz, erlaubt also, etwas dauerhaft oder wiederholt ins Wahrnehmungsfeld zu bringen. Andererseits führt genau diese Einschreibung dazu, dass die Möglichkeit des Rearrangierens stark eingeschränkt ist. Diese ist nur auf der Ebene der Medienträger, nicht aber auf der Ebene der Zeichen an sich gegeben. Ein auf Papier geschriebener Text kann zerschnitten, rearrangiert und neu zusammengeklebt werden (daher Cut & Paste). Filme wurden früher auf ähnliche Weise „geschnitten“ und neu zusammengeklebt. Auch bei Tonbändern sind das Schneiden und Zusammenkleben auf diese Art möglich.

Digitale Techniken haben ein enormes Potenzial, diesen inhärenten Konflikt zwischen Persistenz und Bearbeitbarkeit neu zu gestalten. Wir werden dieses Potenzial deshalb ausführlicher in unserer Betrachtung von Interaktivität im nächsten Kapitel behandeln.

Differenzerfahrung in Nutzungsschnittstellen?

In diesem Kapitel haben wir das Konzept der Differenzerfahrung skizziert und gesehen, dass Differenzerfahrung die Voraussetzung für verlässliche Erkenntnisse über die Umwelt des Menschen ist. Der Computer ist in unserer Betrachtungsweise Teil dieser Umwelt. Bei der Gestaltung von Nutzungsschnittstellen müssen wir dafür sorgen, dass Differenzerfahrungen ermöglicht werden, indem z. B. die Nutzungsschnittstelle den relevanten Status des Systems klar anzeigt oder dadurch dass Objekte der Nutzungsschnittstelle, die sich aufeinander beziehen, auch gemeinsam dargestellt werden können. Die Mittel zur Differenzerfahrung innerhalb der Nutzungsschnittstelle sollten so gestaltet sein, dass sie Hinweise für Anschlusshandlungen liefern. Dazu müssen die Folgen einer Handlung an den virtuellen Objekten der Nutzungsschnittstelle so sichtbar gemacht werden, dass sie als auf die jeweilige Handlung zurückführbare und nachvollziehbare Reaktionen wahrnehmbar sind. Indem ein Handlungs- und Wahrnehmungsraum entworfen wird, der es ermöglicht, Objekte so zu manipulieren, dass die erforderlichen Differenzerfahrungen ermöglicht werden, lässt sich die Erschließbarkeit eines Systems ergonomisch gestalten 10.

Im Weiteren konzentrieren wir uns darauf, gemäß der vorgestellten Sichtweise die technischen Potenziale interaktiver Systeme herzuleiten. Zwar funktionieren unsere heutigen Computer vom Grundprinzip her kaum anders als die Rechenungetüme der 1950er und 1960er Jahre, doch waren die damaligen Nutzungsschnittstellen, und damit die möglichen Nutzungsformen, ganz anders als die heutigen. Im folgenden Kapitel werden wir beleuchten, wie sich Nutzungsschnittstellen entwickelt haben und welche Beweggründe es für diese Entwicklungen gab. Dabei werden wir sehen, dass technische Entwicklungen und das mit ihnen einhergehende Potenzial für Differenzerfahrung (Denkzeug) stets in einem Wechselwirkungsverhältnis stehen.

Potenziale interaktiver Nutzungsschnittstellen

Im vorhergehenden Kapitel haben wir das Konzept der Differenzerfahrung eingeführt und beschrieben, wie mithilfe von Denkzeugen der Bereich des Wahrnehmbaren und damit auch des Bedenkbaren stark erweitert werden kann. Dieses Potenzial geht in der Regel mit einer kognitiven Entlastung einher, denn diese Mittel zur Differenzerfahrung überdauern als physische Objekte meist den Prozess der Erzeugung und ermöglichen dadurch Differenzerfahrungen über verschiedene Orte hinweg (Übertragung) als auch Differenzerfahrungen über die Zeit (externes Gedächtnis). Wir wollen nun diese Ideen möglichst konstruktiv auf die Gestaltung von Nutzungsschnittstellen übertragen. Anhand einer kurzen rückblickenden Betrachtung der Entstehung heutiger Nutzungsschnittstellen werden wir die technischen Prinzipien und Konzepte verdeutlichen, bevor wir dann im Hauptteil diese Einsichten zu einem konkreten Gestaltungsansatz verdichten. Damit können wir zugleich auch den Begriff der Interaktivität aus technischer Sicht präzisieren und einige irreführende Annahmen geraderücken.

Nach unserem Verständnis umfasst eine Nutzungsschnittstelle alle wahrnehmbaren und manipulierbaren Objekte, also z. B. auch Dateien und Ordner im Explorer oder Texte und grafische Objekte in einem Präsentationsprogramm. All diese Objekte existieren nur durch die Ausführung eines Programms. Denn nur innerhalb einer Software wie PowerPoint oder Keynote gibt es beispielsweise die Elemente einer Folienpräsentation, also Grafiken und Texte, als sichtbare und manipulierbare Objekte. Unter der Nutzungsoberfläche existieren sie als Datenstruktur und darunter schließlich als Konfigurationen von Zuständen. Erst eine explizit programmierte Nutzungsschnittstelle erzeugt die Objekte auf dem Bildschirm, macht sie ansprechbar und manipulierbar. Zwingend notwendig sind in all diesen Fällen weitere Objekte wie Buttons oder Menüs, deren einziger Zweck das Zugänglichmachen von Programmfunktionen ist. Jacob Nielsen bezeichnet solche Objekte als Chrome11.

Sowohl dieses Chrome als auch die Datenobjekte entstehen durch die Programmierung der Nutzungsoberfläche. Bruce Tognazzini beschreibt in seinem Buch „Tog on Interface“12 von 1992 die Benutzungsoberfläche des Apple Macintosh als eine „fanciful illusion“, deren Charakter anders sei als das darunter liegende Betriebssystem. Tognazzini zielt mit dieser Beschreibung zwar auf die grafische Nutzungsschnittstelle des Macintosh ab, sein Gedanke trägt aber für Nutzungsschnittstellen generell, denn auch wenn auf einem Unix-System eine Datei auf der Festplatte mit den Befehlen ls gelistet und mit cat ausgegeben wird, geht das nur, weil eine programmierte Nutzungsschnittstelle die Datei als Objekt zur Verfügung stellt. Wenn Sie einen Computer zerlegen, würden Sie keine Dateien finden, selbst wenn Sie die Magnetisierungen auf einer Festplatte oder die Zustände der Bits eines Speichermediums direkt wahrnehmen könnten. Das Betriebssystem liegt als Zwischenschicht13 zwischen der Nutzung und der gerätetechnischen Umsetzung. Es sorgt dafür, dass man sich nicht mit den gerätespezifischen Aspekten der Datei und Speicherverwaltung befassen muss. Ebenso sorgt das Betriebssystem dafür, dass ein Programm nicht etwa unter Angabe einer physikalischen Adresse in den Speicher kopiert werden muss, sondern dass das Programm mit einem Bezeichner angesprochen werden kann und dann automatisch geladen wird. Gemäß dieser Kapselung der technischen Realitäten und der gleichzeitigen Bereitstellung virtueller Objekte für die Nutzung sind in unserer Sichtweise große Teile des Betriebssystems auch Teil der Nutzungsschnittstelle eines Computers.

Bei den frühen Computern, die in den 1930er, 1940er und 1950er Jahren gebaut wurden, gibt es noch keine Nutzungsschnittstelle als Zwischenschicht. Die Schnittstellen des Rechners, meist große Bedienkonsolen mit vielen Knöpfen und Lämpchen, entsprachen genau den Hardwarezuständen der Maschine. Es handelte sich um Schnittstellen zur Maschinenüberwachung und -steuerung, nicht um von laufenden Programmen erzeugte virtuelle Objekte. Solche Objekte, die von einem Computer angezeigt und direkt mit dem Computer manipuliert werden können, bedürfen eines interaktiven[^interaktiv] Computers. In diesem Kapitel zeichnen wir anhand der Entwicklung interaktiver Nutzungsoberflächen nach, welche technischen Potenziale diese eröffnen und welche technischen Voraussetzungen gegeben oder entwickelt werden mussten, um sie zu verwirklichen.

Ein Hinweis zur Begriffswahl: Der Begriff „Interaktivität“ wird zwar vielfach verwendet, ist aber kaum definiert. Einen kurzen Überblick über verschiedene Definitionsversuche finden Sie in der Dissertation von Felix Winkelnkemper „Responsive Positioning – A User Interface Technique Based on Structured Space“ auf den Seiten 9 bis 14. Für unsere Zwecke ist es nicht wichtig, eine genaue Definition zu finden, sondern die Eigenschaften der Nutzungsoberflächen herauszuarbeiten, die wir interaktiv nennen. Das ist kein Selbstzweck, sondern die genauere Betrachtung der „Evolution“ der Nutzungsschnittstellen gibt uns wichtige Hinweise auf Gestaltungspotenziale. Potenziale verkörpern immer nur Möglichkeiten, keine Zwangsläufigkeiten. Sie können einen Mehrwert entfalten, müssen dies aber nicht. Manchmal ist das auch nicht gefragt oder gewollt. Oft jedoch entsteht aus dem verschenkten Potenzial ein ergonomisches Problem. Viele der Anforderungen der Kapitel Rückmeldung, Eingabeminimalität und Übergänge, die wir später behandeln werden, können beispielsweise direkt aus solchen Potenzialen abgeleitet werden.

Wir erarbeiten in diesem Kapitel die besagten Potenziale digitaler Nutzungsschnittstellen durch eine Betrachtung ihrer Entstehungsgeschichte. Das kann an dieser Stelle nur schlaglichtartig erfolgen. Es gäbe zur Computergeschichte gerade unter dem Aspekt der Entwicklung von Nutzungsschnittstellen noch viel mehr zu sagen. Wenn Sie das Thema interessiert, können wir Ihnen das Buch „Interface Evolution“14 empfehlen, welches die Thematik sehr viel umfangreicher behandelt und vor allem auch die Entwicklung der Nutzungsschnittstelle des PCs einbezieht; sie muss an dieser Stelle außen vor bleiben. Für unsere Zwecke reicht es zu skizzieren, welche Ziele und Vorteile jeweils mit der nächsten Entwicklungsstufe des Computers verbunden waren, um darüber die technischen Potenziale zu bestimmen, die wir in Gestaltungskonzepte umsetzen können. Dabei möchten wir zugleich verdeutlichen, wie durch technische Innovationen unnötige Arbeitsschritte eingespart werden können, die weder explizit gefordert werden noch zur Erledigung der jeweiligen Aufgabe erforderlich sind. Vielmehr sind sie der Wahl des jeweiligen Denkzeugs bzw. seiner Ausgestaltung geschuldet. In diesem Sinne bedeutet ergonomische Gestaltung für uns zweierlei: zum einen Belastungen zu vermeiden, zum anderen neue Handlungsmöglichkeiten zu erschließen.

Programmierung durch Verkabelung

Des amerikanische ENIAC wird oft als erster digitaler Computer aufgeführt. Dieser von 1943 bis 1945 für das amerikanische Militär gebaute Rechner war dreißig Tonnen schwer, füllte eine Halle und hatte eine Leistungsaufnahme von sage und schreibe 150 kW. Er war unter anderem für komplexe Berechnungen wie etwa ballistische Flugbahnen konzipiert worden. Seine auffälligste Eigenheit war jedoch, dass er per Verkabelung programmiert wurde und dass Werte unter anderem durch das Stellen von Drehschaltern eingegeben wurden.

Der ENIAC – Bild: Public Domain (US Army Photo)
Der ENIAC – Bild: Public Domain (US Army Photo)

Das obige Bild zeigt eine typische Ansicht des ENIAC. Auf der linken Seite sehen Sie das Programm in Form der Verkabelung der Hardwaremodule des Rechners. Auf der rechten Seite sind auf fahrbaren Gestellen angebrachte Anordnungen von Drehschaltern zu sehen, mit denen Werte eingestellt werden konnten. Programmieren bedeutete beim ENIAC etwas anderes, als man es sich heute vorstellt. Der ENIAC war ohne Programm, also ohne gesteckte Kabel, einfach nur eine Sammlung von Hardwaremodulen wie einem Taktgeber, Akkumulatoren, Multiplikatoren, Dividierern, Einstellfeldern sowie Druckern, Lochkartenlesern und -stanzern für die Ein- und Ausgabe. Den ENIAC zu programmieren bedeutete, diese Module der gewünschten Berechnung entsprechend miteinander zu verbinden. Ein Programm beim ENIAC war also nicht mit dem erst etwas später eingeführten Begriff „Programm“ im heutigen Sinne zu vergleichen. Gemäß der Konzeption von John von Neuman (1945) wird unter einem Programm eine Folge von Anweisungen verstanden, die dazu dient, den Computer zu steuern. Ein Programm wird Anweisung für Anweisung abgearbeitet. Beim ENIAC kann man das nicht sagen, denn er verarbeitete kein Programm und das Programm steuerte auch nicht den ENIAC. Er verkörperte vielmehr einen Bausatz, der für jedes Programm neu zusammensetzt werden musste. Der ENIAC, der die Funktion A ausführen konnte, war also genau genommen nicht der gleiche Computer wie der, der die Funktion B ausführen konnte.

Ausschnitt aus einem Programm für den ENIAC – Bild: Public Domain (US Army Photo)
Ausschnitt aus einem Programm für den ENIAC – Bild: Public Domain (US Army Photo)

Ein Programm für den ENIAC, also seine Verkabelung zum Ausführen einer speziellen Berechnung, wurde auf Papier geplant. Oben ist ein Ausschnitt aus einem solchen „Panel Diagram“ abgebildet. Das Erstellen solcher Pläne dauerte oft Wochen, das Programmieren des Rechners durch das Stecken von Kabeln dauerte mehrere Tage. Die eigentliche Berechnung erfolgte, wenn er bestimmungsgemäß funktionierte und bei der Planung und der Verkabelung kein Fehler passiert war. Innerhalb weniger Minuten oder Stunden war eine Berechnung erledigt.

Computernutzung ohne Computerkontakt

Eine Programmierung durch Konfiguration und Verkabelung von Hardware-Bausteinen war nicht komfortabel und in Bezug auf mögliche Differenzerfahrungen äußerst unzureichend. Spätere Computer (und auch manch frühere) funktionierten deshalb auch nicht mehr auf diese Art und Weise. Um sie zu programmieren, wurde nicht mehr neu verkabelt, sondern ein symbolisches Programm im modernen Sinne wurde von einem Medium eingelesen und zumeist im internen Speicher abgelegt. Typische Medien für Programme waren zunächst Lochstreifen und Lochkarten.

Lochstreifen – Bild: TedColes (CC0)
Lochstreifen – Bild: TedColes (CC0)

Lochstreifen sind, wie oben zu sehen ist, Papierstreifen mit einer Perforation für den Transport durch einen entsprechenden Leser oder Stanzer. Auf diesen Streifen werden Reihen von Löchern gestanzt. Eine solche Reihe ist jeweils eine binäre Codierung eines Zeichens, also eine Codierung in Ja und Nein, 1 und 0 oder wie in diesem Fall Loch und Nicht-Loch. Typische Lochstreifen ermöglichten pro Zeile 5 oder 8 Löcher je nach eingesetztem System. Die wichtigste Alternative zu Lochstreifen waren Lochkarten. Das Prinzip einer Lochkarte ist dem eines Lochstreifens grundsätzlich sehr ähnlich. Statt eines kontinuierlichen Papierstreifens wurde jedoch eine Vielzahl von Papierkarten verwendet. Ein Lochkartenleser liest einen Lochkartenstapel Karte für Karte ein. Beschrieben werden können Lochkarten mithilfe von Lochkartenstanzern. Üblicherweise entsprach eine Karte einem Datensatz oder, im Falle der Programmierung, einer einzelnen Programmzeile, so etwa auch im unten abgebildeten Beispiel, das zugleich einen weiteren Vorteil offenbart: Neben dem Stanzcode ermöglicht das Trägermedium auch die äquivalente symbolische Beschriftung (im Bild am oberen Rand). Ein weiterer wichtiger Vorteil von Lochkarten war, dass das Trägermedium nicht ein einziges (langes) Artefakt war, sondern feingranularer aufgebaut ist. Dadurch wurden nicht nur lokale Änderungen erheblich vereinfacht, sondern auch die Möglichkeiten, einzelne Karten räumlich oder zeitlich verteilt zu erstellen, sie zusammenzuführen und ihre Reihenfolge zu ändern.

Eine Lochkarte – Bild: Mutatis mutandis (CC-SA 3.0)
Eine Lochkarte – Bild: Mutatis mutandis (CC-SA 3.0)

Mit Ausnahme weniger früher Computer wurde bei den meisten Geräten das Programm vor der Ausführung komplett eingelesen und in den internen Speicher des Computers übertragen. Um einen solchen „Stored Program Computer“ zu nutzen, mussten sowohl das Programm als auch alle Eingabedaten vor dem Programmablauf vorliegen. Wenn ein neues Programm geschrieben wurde, geschah dies in einem umständlichen und aufwändigen Prozess:

  • Das Programm wurde auf Papier in einer Assembler-Sprache sehr nah am Maschinencode ausgearbeitet. Auch höhere Programmiersprachen waren möglich. Diese kamen aber erst Anfang der 1960er Jahre auf.
  • Aus dem Assembler-Code musste das Programm in die Maschinensprache umcodiert werden. Aus Befehlen, die aus kurzen Buchstabenfolgen bestanden, etwa JMP für den Sprungbefehl, wurden Zahlenwerte, die der Computer direkt verarbeiten konnte.
  • Dieses Maschinensprachenprogramm musste nun auf Lochkarten oder Lochstreifen übertragen werden.
  • Die Lochkarten oder Lochstreifen mit dem Programm und allen Eingabedaten wurden einem Operator übergeben. Der Operator verwaltete eine Warteschlange von Programmen, die vor dem eigenen noch abzuarbeiten waren.
  • Wenn das eigene Programm an der Reihe war, ließ der Operator es einlesen, legte die Eingabedaten in den Lochstreifen- oder Lochkartenleser und startete das Programm.
  • Resultate des Programms wurden auf einem Drucker ausgegeben.
  • Der Operator legte das Programm, die Eingabedaten und die ausgedruckten Ausgaben des Programms in einem Ausgabefach bereit, wo sie abgeholt werden konnten.

Charakteristisch für diese Arbeitsweise ist, dass die Prozesse der Entwicklung und des Ausführens von Programmen personell und räumlich getrennt waren. Ein Programm musste korrekt in Assembler-Sprache auf Papier programmiert, ggf. fehlerfrei in Maschinencode übertragen und dann auch noch korrekt abgelocht worden sein. Auf all diesen Ebenen konnten Fehler passieren, die sich aber erst während der Ausführung offenbarten. Zudem war es bei dieser Art der Computernutzung nicht möglich, ein Programm zu schreiben, bei dem abhängig vom Programmablauf Entscheidungen getroffen wurden. Alle Entscheidungen mussten vor Beginn der Programmausführung getroffen werden. Die zugrundeliegenden Prinzipien sind unter dem Namen John von Neumanns veröffentlicht. In diesem „First Draft Report on the EDVAC“15 von 1945 wird ausgeführt:

An automatic computing system is a (usually highly composite) device, which can carry out instructions to perform calculations of a considerable order of complexity — e.g. to solve a non-linear partial differential equation in 2 or 3 independent variables numerically. The instructions which govern this operation must be given to the device in absolutely exhaustive detail. They include all numerical information which is required to solve the problem under consideration: Initial and boundary values of the dependent variables, values of fixed parameters (constants), tables of fixed functions which occur in the statement of the problem. These instructions must be given in some form which the device can sense: Punched into a system of punchcards or on teletype tape, magnetically impressed on steel tape or wire, photographically impressed on motion picture film, wired into one or more fixed or exchangeable plugboards—this list being by no means necessarily complete. All these procedures require the use of some code to express the logical and the algebraical definition of the problem under consideration, as well as the necessary numerical material.

Once these instructions are given to the device, it must be able to carry them out completely and without any need for further intelligent human intervention. At the end of the required operations the device must record the results again in one of the forms referred to above. The results are numerical data; they are a specified part of the numerical material produced by the device in the process of carrying out the instructions referred to above. (Hervorhebung nicht im Original)

Von Neumann beschreibt hier einen Computer, bei dem Programme „without any need for further intelligent human intervention“ ablaufen. Von einer Nutzungsschnittstelle spricht er an keiner Stelle. Auch Computer, wie von Neumann sie charakterisierte, brauchten einige Bedienelemente. Dazu gehörten unter anderem Knöpfe zum Ein- und Ausschalten, zum Starten und Unterbrechen der Operation und zum Einlesen des Programms und der Daten vom Lochkarten- bzw. Lochstreifenleser. In der Tat gab es aber für die eigentliche Funktion des Computers, das Programm selbst, keinerlei Nutzungsschnittstelle. Das Programm lief völlig ohne menschliche Intervention ab. Zwar wurde bei dieser Art von Computern nicht mehr neu verkabelt, um zu programmieren, doch waren Bedienelemente und Anzeigen unabhängig von der jeweiligen Anwendung. Sie zeigten die Funktion von Systemkomponenten an oder gaben direkt den Inhalt von Registern und Akkumulatoren aus und erlaubten deren Manipulation zum Zweck der Fehlerbeseitigung. Sie dienten nicht zur Steuerung des Programmablaufs oder der Eingabe zusätzlicher Daten.

Während das Personal der Rechenzentren in der Frühzeit der Computer noch mit den Datenträgern der Programme und Daten in Kontakt kam, wurden im Laufe der nächsten Jahre die Abläufe zunehmend verkürzt und vereinfacht. Computer wurden im sogenannten Batch-Modus betrieben. Ein Rechenauftrag, üblich war der Ausdruck „Job“, wurde mittels einer vorgelagerten Maschine zunächst auf Magnetbänder übertragen. Der eigentliche Hauptcomputer arbeitete diesen Stapel von Jobs, den „Batch“, nach und nach ab. Ausgaben wurden wiederum auf Magnetbänder geschrieben, die später in eine nachgelagerte Maschine eingelesen wurden, die die Daten auf Papier druckte. Auf diese Art und Weise wurde der Rechenablauf optimiert, da die teure Recheneinheit nicht mehr darauf warten musste, dass neue Lochkarten oder Lochstreifen von langsamen Lesegeräten eingelesen oder Zeichen auf langsamen Ausgabegeräten gedruckt werden mussten. Personen, die die Jobs programmierten, konnte die Optimierung der Zuführung von Programm und Daten egal sein, denn sie kamen mit dem Computer ohnehin nicht direkt in Berührung. Der komplette Programmierprozess war nach wie vor vorgelagert und fand nur mit analogen, mechanischen Mitteln statt. Programmiert wurde auf sogenannten „Codierbögen“. Dies geschah üblicherweise nicht direkt im Maschinencode des Computers, sondern zumindest in Assembler-Code, zumeist aber in einer höheren Programmiersprache wie Fortran, Algol, COBOL oder LISP.

Die große Verzögerung zwischen Programmabgabe und der Ergebnispräsentation stellte ein gravierendes Problem dar, da es kaum jemals gelingt, ein komplexes Programm auf Anhieb korrekt zu schreiben. Meist gibt es Fehler, sowohl syntaktischer als auch semantischer Art. Gerade die semantischen Fehler sind die problematischen, denn bei ihnen kann das Programm durchaus syntaktisch korrekt ausgeführt werden, es tut aber nicht, was man von ihm erwartet. Weil Fehler jedoch erst nach Stunden offenbar wurden, erforderte die Fehlerbeseitigung zusätzlichen organisatorischen und mentalen Aufwand. Heute dagegen ist es möglich, ein Programm bei einem auftretenden Fehler schnell zu korrigieren. Das heute übliche Programmieren durch schrittweises Annähern an die gesuchte Lösung hätte damals Tage bis Wochen gedauert.

Responsivität: Echtzeit-Computer

Die Probleme, die durch die sehr langen Zeiten zwischen Programmabgabe und Aushändigung des Ergebnisses entstanden, sowie der Nachteil, auf Lochkarten und Lochstreifen programmieren zu müssen, ohne den Computer selbst zur Fehlerbehebung und Bearbeitung nutzen zu können, waren offensichtlich. Benötigt wurden Computer im Echtzeitbetrieb, bei denen Eingaben direkt verarbeitet und Ausgaben direkt erzeugt werden konnten. Solche Computer gab es bereits früher, als man meinen sollte. Computer wie die IBM 305 RAMAC oder der Librascope LGP-30 ermöglichten bereits in den 1950er Jahren, einen Computer in gewisser Weise interaktiv zu nutzen. Die RAMAC-Machine etwa wurde für Buchhaltungs- und Verwaltungsaufgaben eingesetzt. Dabei wurden keine hohen Anforderungen an die Rechenleistung gestellt, nur wenige Personen verwendeten den Rechner und auch die Menge der verschiedenen Programme war überschaubar. Unter solchen Bedingungen konnte eine Betriebsart, in der z. B. Lagerstände abgefragt werden konnten und das System zeitnah die Antworten lieferte, durchaus verantwortet werden.

Time-Sharing

Im Bereich großer Rechenanlagen wurde die Lösung des Problems der langen Zeiten zwischen Programmabgabe und Aushändigung der Ergebnisse und vor allem auch der mangelnden Eingriffsmöglichkeiten während des Programmierprozesses selbst im Time-Sharing gefunden. Die theoretischen Vorarbeiten hierzu begannen schon Mitte der 1950er Jahre. Das erste kommerzielle Time-Sharing-System wurde 1964 am Dartmouth College in Betrieb genommen. Ab Mitte der 1960er Jahre folgten dann viele weitere Systeme. Hinter Time-Sharing steckt die Idee, die Ressourcen des Computers zu teilen. Der Computer ist durchgehend in Betrieb und wird über ein mit ihm verbundenes Terminal genutzt. Meist diente dazu ein Fernschreiber oder eine elektrische Schreibmaschine. Es arbeitet aber nicht nur eine einzige Person mit der Maschine, sondern viele gleichzeitig. Sie werden im Rundumverfahren bedient. Wenn die Geschwindigkeit unterhalb der Wahrnehmungsschwelle liegt, entsteht für alle Beteiligten die Illusion, den Computer jeweils nur für sich allein zu nutzen.

Wenn beim Time-Sharing viele Programme gleichzeitig verarbeitet werden, wird die Abarbeitung eines einzelnen Programms langsamer als vorher, denn der Computer wechselt zwischen den Programmen hin und her. Ein Programm wird also nur in kurzen Schüben ausgeführt. Obwohl sich dadurch die Laufzeit eines Programms verlängerte, war der Verarbeitungsprozess insgesamt viel schneller, weil die enormen Wartezeiten im Batch-Prozess entfielen. Die Zeit von einer Programmkorrektur bis zur Überprüfung, ob die Korrektur zum richtigen Ergebnis führte, dauerte mit dem Time-Sharing nicht mehr Tage oder Stunden, sondern nur noch Minuten oder Sekunden. Mit dem Time-Sharing änderten sich auch die Ein- und Ausgabemedien. Statt Lochkartenstapel abzugeben und als Ergebnis die Lochkarten und den Ergebnisausdruck zurückzuerhalten, wurden nun Befehle per Texteingabe über die Tastatur eines Fernschreibers an den Computer gegeben. Durch die Abschaffung der damit einhergehenden Medienwechsel konnte der Zusatzaufwand für die Behandlung unterschiedlicher Formate und Codierungen sowie der Trägermedien entfallen. Er war allein den mangelnden technischen Möglichkeiten geschuldet und nicht den zu erledigenden Arbeitsaufgaben.

Time-Sharing eröffnete das Potenzial der Responsivität, erhielt aber die komplette Flexibilität der individuellen Programmierung und Datenverarbeitung. Nach wie vor konnten mehrere Personen unabhängig voneinander ihr eigenes Programm erstellen und laufen lassen.

Responsivität bedeutet, dass auf Eingaben innerhalb kurzer Zeit eine Ausgabe erfolgt. Responsivität fördert einen iterativen Stil bei der Problemlösung und ermöglicht es, Lösungsmöglichkeiten durch Probehandeln zu erarbeiten.

Mit dem Übergang zum Time-Sharing ging der Übergang von Konsolen zur Steuerung und Überwachung der Maschine zu eigens programmierten Nutzungsschnittstellen einher. Die Konsolen boten Zugriff auf die Hardware des Rechners, auf interne Zustände und Speicherregister. Von Interesse bei der Nutzung sind jedoch nicht interne Maschinenzustände und Speicheradressen, sondern die Möglichkeiten, die jeweils interessierenden Daten, Funktionen und Objektstrukturen anzusprechen und manipulieren zu können.

Interaktiver Editor

Eine große Errungenschaft der Einführung der Time-Sharing-Technik war die Möglichkeit, Programme direkt am Computer zu programmieren und über den Erfolg der Programmierung zeitnah Rückmeldung zu bekommen. Mittels eines Fernschreibers, der an einen zentralen Computer angeschlossen war, war das grundsätzlich möglich, wenn das Computersystem über einen Editor verfügte, der es erlaubte, ein Programm im interaktiven Betrieb zu schreiben, zu bearbeiten und jederzeit abzuspeichern. Diese Möglichkeit, Programme unter direkter Nutzung des Computers zu bearbeiten und auf diese Weise die Misslichkeiten der Programmierung mit Lochkarten und Lochstreifen hinter sich zu lassen, war eine der Hauptantriebskräfte hinter der Entwicklung von Time-Sharing-Systemen. Dass mit diesen Systemen nun auch Programme möglich waren, die interaktiv gesteuert werden konnten, wurde zwar gesehen, stand aber nicht unbedingt im Vordergrund und war auch nicht in jedem Time-Sharing-System von Beginn an möglich.

Ein Editor zur damaligen Zeit entsprach jedoch nicht unseren heute gebräuchlichen Editoren. Der Grund dafür liegt darin, dass mit Schreibgeräten wie Fernschreibern, Schreibmaschinen oder auch Druckern nur Inschriften produziert werden können. Einmal geschrieben ist der Text fixiert und es lässt sich immer nur etwas Weiteres dazuschreiben. Die Aufgabe eines Editors ist jedoch, einen im Computer befindlichen Text bearbeiten, also ändern zu können. Was auf dem Papier steht, lässt sich aber nicht mehr ändern. Es gibt bei Fernschreibern, ebenso wie bei Schreibmaschinen kein Löschen16, kein Backspace im heutigen Sinne und keine Möglichkeit, einen Cursor im Text zu positionieren, um etwas an dieser Stelle einzufügen oder zu ersetzen. Diese Aufgaben können nur erledigt werden, wenn es zusätzliche Befehle gibt, die beschreiben, wie ein Text angepasst werden kann.

Diese Funktionsweise früher Editoren lässt sich noch an heutigen Linux- oder Unix-System (inklusive MacOS) nachvollziehen. Der in diesen Systemen enthaltene Zeileneditor „ed“ stammt aus der Frühzeit des Betriebssystems Unix Anfang der 1970er Jahre, aus einer Zeit also, in der viele Computer noch per Fernschreiber genutzt wurden. Wird der Editor durch die Eingabe von „ed“ in der Kommandozeile gestartet, passiert zunächst nichts, außer dass ein Zeilenvorschub ausgelöst wird (oder im modernen Bildschirm-Terminal der Cursor in die nächste Zeile wandert). Tippen Sie nun nacheinander H und P jeweils gefolgt von „Enter“. Diese beiden Befehle sorgen dafür, dass Fehlermeldungen ausgegeben werden und dass mit einem * angezeigt wird, wenn Sie eine Befehlseingabe machen können. Nun kann eine Datei zur Bearbeitung geladen werden. Mit der Eingabe von r textfile.txt wird die Datei mit besagtem Namen „textfile.txt“ eingelesen. Der Editor antwortet mit der Anzahl der gelesenen Bytes, in unserem Beispiel 86. Da die Datei nicht groß ist, können Sie sie in ganzer Länge ausgeben. Dies geschieht durch die Eingabe des Befehls ,l (hierbei handelt es sich um ein kleines L und nicht um die Zahl 1).

$ed
H
P
*r textfile.txt
86
*,l
This is the heading.$
The text starts hree. There may be many important things to say.$

Wie Sie sehen, handelt es sich um einen einfachen Text, bestehend aus zwei Zeilen. Das Dollarzeichen steht jeweils für ein Zeilenende. Sie können diesen Text nun bearbeiten, indem Sie entsprechende Befehle eingeben. Im Beispiel werden wir zum einen unterhalb der Überschrift eine Zeile mit Plus-Zeichen einfügen, um sie besser abzusetzen, und zum anderen das Wort „hree“ – wohl ein Tippfehler – durch das korrekte Wort „here“ ersetzen.

Um die Pluszeichen hinzuzufügen, müssen Sie dem Editor mitteilen, dass Sie in Zeile 2 etwas einfügen wollen. Dies geschieht durch den Befehl 2i. Nun können Sie den neuen Text eingeben. Um die Eingabe abzuschließen, schreiben Sie einen einzelnen Punkt in eine Zeile:

*2i
+++++++++++++++++++++
.

Die ehemalige Zeile 2 müsste durch das Einfügen einer weiteren Zeile jetzt zur Zeile 3 geworden sein. Sie können das überprüfen, indem Sie die Zeile 3 mit dem Befehl ,3 ausgeben lassen.

*,3
The text starts hree. There may be many important things to say.$ 

Nun geben Sie den Befehl ein, in Zeile 3 das erste Vorkommen von „hree“ durch „here“ zu ersetzen und geben anschließend den kompletten berichtigten Text nochmals aus.

*3s/hree/here/
*,l
This is the heading.$
+++++++++++++++++++++$
The text starts here. There may be many important things to say.$

Hiermit sind die beabsichtigten Änderungen abgeschlossen. Abschließend können Sie den verbesserten Text mit w besser.txt abspeichern. Der Editor quittiert das wiederum durch die Angabe der geschriebenen Bytes. Die Eingabe des Befehls q beendet dann den Editor.

Das Bearbeiten eines Textes ist auf diese Art und Weise sehr umständlich, denn man bearbeitet den Text nur indirekt. Der Text liegt zwar im Computer als bearbeitbares Objekt vor, aber man kann ihn nicht als Objekt sehen und auch nicht als Objekt an Ort und Stelle bearbeiten. Vielmehr muss man stattdessen Befehle zur Bearbeitung eingeben und den aktuellen Zustand des Textes immer wieder vollständig oder in Ausschnitten abfragen. Das entspricht einer Arbeitsweise, bei der man eine Person anruft, die einen Text vor sich liegen hat und diesen immer in Teilen durchgibt. Dieser Person könnte man nun die Änderungen beschreiben, die man vornehmen will, und dann jeweils den aktuellen Zustand des Textes erfragen, um zu sehen, ob auch das Ergebnis den Absichten entspricht. Das Beispiel verdeutlicht, dass der Begriff „Dialogsystem“ von Beginn an irreführend war und das eigentliche Potenzial in der Bereitstellung einer interaktiv nutzbaren Arbeitsumgebung besteht. Wir gehen darauf noch einmal im Abschnitt Dialog in den Exkursen ein.

Manipulierbare virtuelle Objekte

Auch wenn ein solcher Editor heute unpraktisch erscheinen mag, führte er damals ein neues Konzept ein, das zuvor nicht möglich und auch nicht nötig war. Der Editor stellt den Text nicht in seiner internen Repräsentation als Bitstrom oder als lange Zeichenkette dar, sondern erzeugt in der Nutzungsoberfläche für die Nutzung verständliche, selektierbare, wahrnehmbare und veränderbare Objekte. Beim einfachen „ed“ sind dies nur Zeilen und Worte. Denkbare Objekte wären auch Absätze oder Seiten. Würde „ed“ nicht über diese Objekte verfügen, wäre es noch viel umständlicher, denn dann könnte man sich nicht auf Zeilen beziehen, sondern müsste Bytes innerhalb des Datenstroms adressieren und manipulieren.

Nutzungsoberflächen für Echtzeitsysteme erzeugen virtuelle Objekte, auf die sich die Nutzung beziehen kann. Bei „ed“ sind es Zeilen, auf der Ebene des Kontrollprogramms – der Shell oder Eingabeaufforderung – sind es Programme und Dateien; verwenden Sie ein Terminprogramm, sind es Kalendereinträge. In all diesen Fällen beziehen Sie sich auf ein Objekt der Nutzungsschnittstelle, statt auf Adressbereiche und Maschinenoperationen. Auch wenn dies eine einfache Nutzungsschnittstelle ist, die einem sehr technisch vorkommen mag, wird sie durch den Computer explizit für die Nutzung erzeugt, statt nur eine Schnittstelle für den Computer zu sein. Programme auf Echtzeitcomputern erzeugen die Steuerungselemente selbst, mithilfe derer sie genutzt werden können. Was auf der anderen Seite der Nutzungsschnittstelle steckt, also die technische Implementierung der Software, ist für die Nutzung in dieser Sichtweise nicht von Belang.

Die von einem interaktiven Programm erzeugten Entitäten, die per Name ansprechbar sind und mithilfe von Befehlen manipuliert werden können, bezeichnen wir als virtuelle Objekte. Zu diesen zählen nicht nur die Objekte der Nutzungsschnittstelle im engeren Sinne, sondern auch die von den jeweiligen Anwendungsprogrammen erzeugten Objekte, mit deren Hilfe die zu erledigenden Aufgaben unabhängig von technischen Interna bearbeitet werden können. Insofern lassen sich viele unserer Betrachtungen zur Ergonomie von Nutzungsschnittstellen auch auf Fragen der Anwendungsgestaltung übertragen. Solche Übertragungen gehören in den Bereich der Gebrauchstauglichkeit und erfordern einen engen Bezug zum Einsatzkontext, den wir in diesem Buch bis auf ein paar allgemeine, weitgehend kontextunabhängige Überlegungen (vgl. u. a. den Abschnitt Übergänge) nicht behandeln.

Räumliche Objektarrangements

Wenngleich Time-Sharing das Bearbeiten von Programmen und Daten vereinfacht, indem der Computer selbst für diese Aufgabe genutzt werden kann und dadurch die Rücklaufzeiten stark verkürzt werden, sind die oben beschriebenen Nachteile der Nutzung per Fernschreiber oder einer elektrischen Schreibmaschine offensichtlich. Mit der Verwendung von Terminals mit Bildschirm und Tastatur konnten diese Nachteile abgebaut werden.

Terminal ADM-3A – Bild: FreeImages.com/Konrado Fedorczyko
Terminal ADM-3A – Bild: FreeImages.com/Konrado Fedorczyko

Die Abbildung zeigt das verbreitete Terminal ADM-3A von Lear Siegler von 1976. Ein solches Terminal konnte anstelle eines Fernschreibers an einen Computer angeschlossen werden und dann zunächst genauso wie dieser verwendet werden. Anstelle eines Ausdrucks wurden die Zeichen aber auf dem Bildschirm ausgegeben. Zeilen rutschten automatisch nach oben. Terminals mit zusätzlichem Speicher erlaubten auch das Scrollen nach oben, um das in der Vergangenheit Ausgegebene ansehen zu können. Ein Terminal konnte also prinzipiell wie ein Fernschreiber verwendet werden. Scherzhaft wurde in so einem Fall der Begriff „Glass Teletype“ verwendet, denn das Terminal ist in diesem Fall funktionsidentisch mit einem Fernschreiber, bei dem das Papier durch eine rasend schnell änderbare Fluoreszenzschicht ersetzt wird, deren Anzeige durch permanentes Neu(ein-)schreiben den Eindruck von Persistenz vermittelt.

Ein Terminal anstelle eines Fernschreibers zu verwenden, sparte Papier und war auch weniger laut. Der eigentliche Vorteil von Terminals wie dem ADM-3A lag aber nicht darin, sondern in der Möglichkeit, Zeichen nicht nur ausgeben, sondern auch löschen und vor allem einen Cursor frei auf dem Bildschirm positionieren zu können. Dadurch wurde es möglich, die Buchstaben auf dem Bildschirm zu arrangieren und dieses Arrangement flexibel zu aktualisieren. Terminals, bei denen mit Steuerzeichen der Bildschirminhalt gelöscht und Ein- und Ausgabecursor frei positioniert werden konnten, bildeten die Grundlage für die Aktualisierung von Statusanzeigen, Formularen am Bildschirm, Menüs oder auch Editoren, bei denen der bearbeitete Text am Bildschirm kontinuierlich zu sehen ist.

Screen-Editing: Von „ed“ zu „vi“
Der UNIX-Editor vi
Der UNIX-Editor vi

Der oben abgebildete UNIX-Editor „vi“ aus dem Jahr 1976 – „vi“ steht für visual – ist dem Editor „ed“ bezüglich der Funktionsweise nicht unähnlich. Im Gegensatz zu „ed“ sieht man bei „vi“ aber einen Ausschnitt des Textes dauerhaft am Bildschirm. „Vi“ erlaubt es, einen Cursor im Text zu positionieren, dann in einen Einfügemodus zu wechseln und neue Textinhalte an der Stelle des Eingabecursors einzufügen. Im Befehlsmodus verhält sich „vi“ wie „ed“ und erlaubt die Eingabe von Befehlen in eine Befehlszeile am unteren Bildschirmrand. Im Gegensatz zu „ed“ werden die Resultate der dort befohlenen Manipulationen, zum Beispiel das Ersetzen eines Wortes durch ein anderes, in „vi“ aber sofort als Änderung des dargestellten Textes angezeigt. Die Bedienung von „vi“ ist für heutige Maßstäbe kryptisch und kompliziert, doch verwirklicht der Editor seinem Namen entsprechend das Potenzial mit dauerhaft am Bildschirm sichtbaren und zugleich bearbeitbaren Zeichen. Zwar erlaubt der Editor die Eingabe von Befehlen, doch müssen diese nicht mehr für das Einfügen genutzt werden; für die Ausgabe ist es zudem nicht mehr nötig, die Zeilennummer im Text zu kennen.

Vergleicht man die Ur-Version von „vi“ mit der Funktionalität heutiger Text-Editoren, bemerkt man, dass eine heute grundlegende Eigenschaft fehlt: Der große Vorteil der Textbearbeitung an Terminals ist ja, dass der ausgegebene Text direkt an Ort und Stelle bearbeitet werden kann. Statt eines Befehls der Art „Füge in Zeile 20 nach dem 4. Wort ein Komma ein“ kann mit dem Cursor an diese Stelle navigiert und das Komma eingegeben werden. Jeder moderne Editor unterstützt diese Arbeitsweise – so auch „vi“. Was aber bei „vi“ noch nicht möglich war, ist die räumliche Markierung eines Textausschnitts und das Anwenden eines Manipulationsbefehls auf diesen Bereich. Wenn Sie heute dagegen auf einem Linux- oder Unix-basierten System „vi“ eingeben, öffnet sich ein Editor, den Sie wie „vi“ verwenden können. Es handelt sich aber in der Regel nicht mehr um den „vi“ aus den 1970er Jahren, sondern um eine erweiterte Version mit dem Namen „vim“ (für vi improved). „vim“ wurde Ende der 1980er Jahre entwickelt und besitzt einen Modus, der eine räumliche Selektion von Textteilen erlaubt. Die selektierten Textteile werden invertiert dargestellt. Das Selektieren unter „vim“ funktioniert dann wie folgt:

  • Sicherstellen, dass Sie sich im Befehlsmodus befinden, den Einfügemodus gegebenenfalls durch ESC verlassen.
  • Den Cursor am Beginn des Blocks positionieren.
  • Durch Eingabe von SHIFT+v die komplette Zeile oder durch STRG+v den kompletten Block markieren oder
    • v eingeben, um den Blockanfang festzulegen.
    • Mit dem Cursor zum Blockende navigieren.
    • d (delete) eingeben, um den Block auszuschneiden oder y (yank), um ihn zu kopieren.
  • Mit dem Cursor zur Zielposition navigieren.
  • p (paste) eingeben, um den Block an dieser Stelle einzufügen.

Statt der Notwendigkeit einer verbalen Formulierung von Position und Ausdehnung einer Auswahl ermöglicht die räumliche Selektion der auf dem Bildschirm angezeigten Elemente bei „vi“ und „vim“ eine „direkte” Manipulation. Üblicherweise wird der Begriff „direkte Manipulation“ mit Zeigegeräten wie Maus oder Stift und grafischen Darstellungen verbunden17. Grundsätzlich reicht aber ein Textterminal aus, insofern Objekte räumlich dargestellt und auch räumlich selektiert und manipuliert werden können. „Direkte Manipulation“ erfordert, dass Handlungs- und Wahrnehmungsraum gekoppelt sind bzw. genauer, dass Handlungsraum und Wahrnehmungsraum übereinstimmen. Objekte werden bei „vi“ an einem Ort am Bildschirm angezeigt, werden an eben diesem Ort selektiert und dann auch an Ort und Stelle manipuliert. Anders ist es, wenn „vi“ im Befehlsmodus verwendet wird. In diesem Fall werden die Anweisungen zur Manipulation in einer Befehlszeile eingegeben, wirken sich aber an anderer Stelle auf Objekte aus. Handlungs- und Wahrnehmungsraum fallen auseinander.

Direkte Manipulation

Im „vim“-Beispiel des vorherigen Abschnitts wurde ein Cursor mehrfach räumlich positioniert, um Objekte am Bildschirm zu selektieren. Eine solche Selektion per Cursortasten ist aber recht umständlich und indirekt. Die Auswahl eines Objekts in einem Smartphone, etwa eines Kontaktes aus einer Kontaktkiste, erfolgt deutlich direkter durch das Zeigen auf dieses Objekt. Interessanterweise war etwas Ähnliches bereits in den 1950er Jahren möglich. Jedoch erforderte dies ein Zusatzgerät, das direkt auf eine Position auf den Bildschirm gerichtet werden konnte, um dort ein Objekt zu selektieren.

Die Anfänge der direkten räumlichen Selektion liegen, wie so oft in der Computergeschichte, beim Militär, namentlich beim Whirlwind-Computer und dem darauf aufbauenden SAGE-Computer. SAGE steht für Semi-Automatic Ground Environment. Das Herzstück von SAGE waren zwei riesige von IBM hergestellte Computer, die dauerhaft eingehende Daten von Radarstellen auswerteten und mit den Daten bekannter und gemeldeter Flugbewegungen abglichen, um angreifende sowjetische Jets frühzeitig erkennen und darauf reagieren zu können. Das Ziel war nicht ein automatisches Abfangen, sondern, wie im Namen ersichtlich, ein halb-automatischer Umgang mit der Situation. SAGE verfügte daher über eine Schnittstelle, die aufbereitete Daten anzeigte und über Knöpfe und Schalter Eingaben entgegennahm. Zentrale Komponenten der Eingabekonsolen des Systems waren die „View Scopes“ genannten Bildschirme und die als „Lightgun“ bezeichneten Zeigegeräte.

Eine Weapons Director Console des SAGE-Systems – Bild mit freundlicher Genehmigung des Computer History Museums
Eine Weapons Director Console des SAGE-Systems – Bild mit freundlicher Genehmigung des Computer History Museums
Lightgun – Bild mit freundlicher Genehmigung des Computer History Museums
Lightgun – Bild mit freundlicher Genehmigung des Computer History Museums

SAGE war ein rein militärisches Projekt. In Zeiten des Kalten Krieges beflügelten sich zivile und militärische Forschung oft gegenseitig. Das Lincoln Lab des MIT, das auch Whirlwind baute und am SAGE-System beteiligt war, entwickelte 1955 bis 1956 einen experimentellen, auf den im Rahmen des SAGE-Systems entstandenen Konzepten aufbauenden Computer mit dem Namen TX-0. Genau wie das SAGE-System verfügte er über eine grafische Ausgabe mittels eines der Radartechnik entlehnten Bildschirms und wie beim SAGE-System konnte ein Gerät zur räumlichen Eingabe am Bildschirm genutzt werden. Im nicht militärischen Kontext wurde aber nicht von der Lightgun, sondern vom Lightpen gesprochen. Von der Funktionsweise her waren beide nahezu identisch. Es handelte sich im Prinzip um sehr einfache Gebilde. Sie bestanden im Großen und Ganzen nur aus einer einfachen Fotozelle, konnten also nur feststellen, ob es an der Spitze des Stifts oder der Pistole hell war oder nicht. Auf Bildschirmen, die mittels Kathodenstrahl ein Bild erzeugen, also den klassischen „Röhrenbildschirmen“, konnte auf diese Weise die Position auf dem Bildschirm festgestellt werden. Diese Technik basiert darauf, dass das Bild nicht gleichmäßig leuchtet, sondern auf sehr schnelle Art und Weise Punkt für Punkt, Zeile für Zeile aufgebaut wird. Der Zeitpunkt, an dem es unter dem Lightpen hell wird, kann mit der bekannten Ausrichtung des Kathodenstrahls zu diesem Zeitpunkt verrechnet und darüber die Position des Stifts auf dem Bildschirm bestimmt werden.

1958 wurde am Lincoln Lab als direkter Nachfolger des TX-0 der TX-2 in Betrieb genommen. An den Systemen TX-0 und TX-2 wurden bereits in den 1950er und 1960er Jahren an Handschrifterkennung, Texteditoren, interaktiven Debuggern, grafischen Schachprogrammen und Projekten der Künstlichen Intelligenz gearbeitet. Auch ein System namens „Sketchpad“ wurde am TX-2 entwickelt; es war wegweisend für heutige Nutzungsschnittstellen und Grafikprogramme.

Das Sketchpad-System, das 1963 von Ivan Sutherland im Rahmen seiner Doktorarbeit entwickelt wurde, war wegweisend für die Entwicklung von Nutzungsschnittstellen mit räumlich-grafischer Anzeige und Objektmanipulation. Das Foto zeigt Timothy Johnson vom MIT bei der Arbeit mit dem auf dem TX-2 laufenden Sketchpad-System. In der Hand hat er einen Lightpen. Mit diesem Stift konnten im System zum Beispiel neue Linienzüge auf dem Bildschirm erzeugt werden. Dies ging durch Zeigen auf einen Punkt und die Betätigung einer der Tasten auf der Tastatur auf der linken Seite. Auf diese Art und Weise konnten auf dem Bildschirm Strecken oder Kreise aufgezogen werden. Betrachten wir der Einfachheit halber zunächst einmal nur Strecken: Das System zeichnete während der Erzeugung der Strecke fortlaufend eine gerade Linie zwischen dem eben fixierten Punkt und der aktuellen Position des Stifts auf dem Bildschirm. Ein weiterer Tastendruck fixierte diesen Punkt, der dann wiederum zum Ausgangspunkt der nächsten Strecke wurde. Der Prozess konnte durch Knopfdruck oder durch Wegnehmen des Stifts vom Bildschirm abgebrochen werden.

Timothy Johnson nutzt Sketchpad am TX-2 – Bild: Computer Sketchpad, National Education Television, MIT 1964
Timothy Johnson nutzt Sketchpad am TX-2 – Bild: Computer Sketchpad, National Education Television, MIT 1964

Beim Sketchpad-System konnten alle Punkte der Strecken auch im Nachhinein noch bearbeitet werden. Dafür musste ein Punkt zunächst ausgewählt werden. Dies geschah durch Zeigen mit dem Lightpen auf den Punkt. Der Punkt musste aber nicht genau getroffen werden. Das System unterstützte vielmehr die Auswahl dadurch, dass auch die unmittelbare Umgebung eines Punktes diesem zugeordnet wird. Auch wenn mit dem Stift also leicht neben den Punkt gezeigt wurde oder wenn die Abtastung nicht genau war, konnte ein Punkt verlässlich selektiert werden. War ein Punkt erst einmal selektiert, konnte er durch Betätigen einer Taste in einen Verschiebezustand gebracht werden, der wiederum per Tastendruck oder durch Wegnehmen des Stifts beendet werden konnte. Auch bei dieser Operation wurde während des kompletten Manipulationsvorgangs die Zeichnung laufend aktualisiert, sodass während der Nutzung von Sketchpad kontinuierlich die Konsequenzen einer Manipulation sichtbar waren. Diese enge Kopplung von Handlung und Wahrnehmung erzeugte den Eindruck, die Objekte tatsächlich in Echtzeit direkt zu erzeugen und zu manipulieren.

Direkte Manipulation bedeutet in diesem Fall, dass Objekte nicht durch textuelle Funktionsaufrufe erzeugt und verändert werden (zum Beispiel: Zeichne einen Kreis mit dem Radius R um den Mittelpunkt an der Koordinate X,Y), sondern durch die Manipulation ihrer Darstellung am Bildschirm.

Damit eine unmittelbare Manipulation möglich ist, muss eine Reihe von technischen Voraussetzungen erfüllt sein, die erst mit der Entwicklung schneller Prozessoren und Grafikkarten ökonomisch realisierbar wurden:

  • Objekte müssen dauerhaft und stabil sichtbar sein. Hierfür bedarf es eines Bildschirms, der Zeichen oder Grafiken in so schneller Folge zur Anzeige bringt, dass sie wie stabile Objekte erscheinen.
  • Die Objekte müssen räumlich selektiert werden können. Es bedarf also eines räumlichen Eingabegeräts, das sich auf Koordinaten am Bildschirm beziehen kann, sowie einer Programmierung, die diese Koordinaten den dort vorhandenen Objekten zuordnen kann.
  • Die Bearbeitung der Objekte muss direkt an Ort und Stelle erfolgen. Änderungen der räumlichen Eingabe müssen dauerhaft und in hoher Frequenz verarbeitet und als Manipulationskommandos interpretiert werden.
  • Die Konsequenzen einer Manipulation müssen umgehend und fortlaufend, also ohne ein explizit ausgelöstes Aktualisieren dargestellt werden. Nur so ist der Eindruck einer direkten räumlichen Manipulation erreichbar. Kommt es zu Verzögerungen, ist ein präzises Arbeiten nicht mehr möglich. Um die notwendige Schnelligkeit zu erreichen, bedarf es geeigneter Datenstrukturen und einer hohen Rechenleistung.

Responsive Manipulation

Die vier bislang von uns beschriebenen technischen Potenziale Responsivität, Virtuelle Objekte, Räumlichkeit und Direkte Manipulation ermöglichen den flexiblen Umgang mit Zeichen und Objekten, indem sie die Nachteile analoger Einschreibmedien aufheben. Bei letzteren kann einmal Geschriebenes weder verändert werden noch kann eine zeitnahe formale Auswertung eines Objekt- und Zeichenarrangements erfolgen. Mit interaktiven Systemen lassen sich Umgebungen kreieren, in denen Objekte flexibel manipuliert und arrangiert werden können. Durch die Kombination der Potenziale können wir aber noch einen Schritt weiter gehen: Der Computer ermöglicht es die Zeichen zu manipulieren, die Grundlage seiner Operationen sind. Beim interaktiven Programmieren beispielsweise wird der Quelltext bearbeitet und in der Folge ausgeführt.

In einem Artikel von 1997 mit dem Titel „Why Interaction is More Powerful Than Algorithms“18 beschreibt Peter Wegner die Vorteile interaktiver Systeme wie folgt:

Objects and robots have similar interactive models of computation; robots differ from objects only in that their sensors and effectors have physical rather than logical effects.

Wegner hatte bei seiner Aussage den Vorteil im Blick, den Programme mit Interventionen zur Nutzungszeit im Vergleich mit rein algorithmischen Programmen haben, bei denen also wie beim Batch-Betrieb das Programm ohne jegliche Intervention abläuft. Seine Beschreibung der Objekte mit Sensoren und Effektoren passt aber noch besser auf das, was wir „Responsive Manipulation“ nennen wollen. Virtuelle Objekte können, wie Roboter, so programmiert werden, dass sie auf Änderungen in ihrer Umgebung reagieren. Welche Möglichkeiten sich daraus ergeben, wollen wir kurz anhand der nachfolgenden Tabelle skizzieren:

  nicht-reflektiv referenzierend reflektiv
explizit Ausführung Auswertung Transformation
implizit   Responsive Auswertung Responsive Manipulation

Bezüglich der gewählten Begrifflichkeiten geht es uns darum, die Dimensionen der Kombination aus interaktiver Manipulation und responsiver Auswertung zu verdeutlichen. Wir verwenden dafür zwei Dimensionen: Zum einen unterscheiden wir, ob eine Auswertung explizit in Gang gesetzt werden muss oder nicht, zum anderen ist es ein großer Unterschied, ob das Ergebnis der Auswertung von Objekten am Bildschirm Einfluss auf diese Objekte selbst hat oder nicht. Die daraus resultierenden Ausführungen, Auswertungen und Manipulationen lassen sich wie folgt charakterisieren:

  • Eine Ausführung liegt vor, wenn die Verarbeitung der Zeichen explizit gestartet wird und dann den Computer steuert, ohne dass sich das, was dann passiert oder erzeugt wird, auf die verarbeiteten Zeichen auswirkt. Es gibt in diesem Fall also ein Arrangement von Objekten, das den Computer in seiner Ausführung steuert, ohne dass es selbst dabei verändert würde. Ein klassisches Beispiel hierfür ist ein Programm-Code, der vom Computer zu seiner Steuerung ausgewertet wird.
  • Bei einer Auswertung wird ein neues Zeichen- oder Objektarrangement erzeugt, das sich auf die verarbeiteten Zeichen bezieht. Eine Auswertung ändert das Objektarrangement selbst nicht, bezieht sich aber darauf. Auswertungen liegen zum Beispiel vor, wenn ein Compiler eine Reihe von Fehlermeldungen erzeugt, die auf Codestellen verweisen, oder wenn ein Programm einen Bericht über die Wortwahl in einem Text liefert, ohne diesen selbst zu verändern.
  • Eine Responsive Auswertung wird, im Gegensatz zur oben beschriebenen Form, ohne expliziten Auslöser durchgeführt. Eine Textverarbeitung aktualisiert beispielsweise laufend die angezeigte Anzahl der Zeichen, Worte und Seiten in einem Dokument, ohne dass diese Aktualisierung durch einen expliziten Aufruf ausgelöst werden müsste.
  • Explizit hingegen ist eine Transformation. Bei einer Transformation werden Objekte, ihre Eigenschaften und Positionen ausgewertet und diese dabei selbst verändert. Viele Aspekte der Textverarbeitung sind Transformationen. In der Programmierung zählt beispielsweise die Minimierung von Code oder das sogenannte „Pretty Printing“, also das gleichmäßige Einrücken von Code-Bestandteilen, zu den Transformationen.
  • Die Responsive Manipulation ist die vielleicht interessanteste, aber auch die komplizierteste Form der Verarbeitung der Objekte und ihrer Anordnung, denn sie vereint Reflektivität und Implizität. Responsive Manipulation heißt, dass eine Manipulation eines Objekt- oder Zeichenarrangements durchgeführt und diese unmittelbar ausgewertet wird und dass das Resultat dieser Auswertung ebenso unmittelbar eine Veränderung des Objektarrangements bewirkt. Responsive Manipulationen sind noch selten. Beispiele, wie so etwas aussehen könnte, sind in der Dissertation „Responsive Positioning“ von Felix Winkelnkemper beschrieben.

Fazit

Interessant ist, dass es bis heute keine präzise technische Definition grundlegender Begriffe wie Interaktivität gibt, die allgemein anerkannt und gebräuchlich ist. Ein entscheidender Punkt ist dabei die nahezu durchgängige Verwendung von Metaphern, die aus der Sphäre individuellen menschlichen Verhaltens und seiner sozialen Einbettung entlehnt sind. Solche Metaphern verleiten zu ungeeigneten Assoziationen, da sie eine funktionelle Äquivalenz zwischen menschlicher Informationsverarbeitung und maschineller Datenverarbeitung suggerieren.

Der Begriff „Dialogsystem“ ist ein markantes Beispiel dafür, denn selbst in den von uns skizzierten Systemen mit kommandoorientierten Eingaben geht es an keiner Stelle der Nutzungsschnittstelle um einen Dialog zwischen Mensch und Maschine als einer wechselseitigen Bezugnahme zum Zweck der gegenseitigen Verständnisbildung. Auch der Begriff „grafische Benutzungsoberflächen“ und damit zusammenhängend die Formulierung „Ein Bild sagt mehr als tausend Worte“, mit dem gelegentlich der Nutzen von Icons charakterisiert wird, lenkt, wie wir im Kapitel zur Icon-Gestaltung ausführlicher darstellen, vom eigentlichen Potenzial ab. Statt der Möglichkeit, Funktionen und Objekte räumlich platzieren zu können und dadurch einen Wahrnehmungs- und Handlungsraum zu schaffen, in dem Objekte angeordnet und arrangiert werden können, wird lediglich ihr Aussehen thematisiert.

Auf der Grundlage unserer Überlegungen zur Rolle von Denkzeugen für Differenzerfahrung haben wir die historische Entwicklung von Benutzungsschnittstellen rekonstruiert und die damit einhergehenden Nutzungspotenziale charakterisiert, die schließlich zu unseren heutigen Schnittstellen geführt haben:

  • Das Konzept der Responsivität ermöglichte es, in die ursprünglich unterbrechungsfreie Ausführung eines Programms zur Laufzeit einzugreifen. Die Grundlage für Interaktivität war gelegt.
  • Es wurden Techniken entwickelt, um virtuelle Objekte kontinuierlich anzeigen und über räumliche Positionen selektiv ansprechen zu können.
  • Zusätzliche Eingabegeräte boten die Möglichkeit, Objekte der Wahrnehmung direkt anzusprechen und manipulieren zu können (direkte Manipulation).
  • Die zunehmend verbesserte Kopplung von Handlungs- und Wahrnehmungsraum ermöglichte es, persistente räumliche Arbeitsumgebungen zu kreieren, in denen Bildschirmobjekte adressiert, arrangiert, verändert und ausgewertet werden konnten.

In all diesen Entwicklungsschritten wurden durch technische Innovationen

  • zum einen Hindernisse abgebaut, die für den Nutzungszweck nicht relevant gewesen sind, sondern nur dem jeweils eingesetzten Mittel geschuldet waren,
  • zum anderen die Handlungsspielräume zur Nutzungszeit durch das interaktive Eingreifen erheblich erweitert.

Sowohl in Bezug auf die Beseitigung von Hindernissen als auch auf das Eröffnen neuer Handlungsmöglichkeiten ist die möglichst enge Kopplung von Handlungs- und Wahrnehmungsraum entscheidend.

Technische Potenziale können, müssen sich aber nicht unmittelbar in der Nutzungsschnittstelle offenbaren. Wie wir beschrieben haben, liegt wischen der Nutzungswelt auf der einen und der technischen Welt auf der anderen Seite ein System von technischen Übersetzungsschichten. Es sind diese Schichten, die die technische Realisierung von den vorgestellten interaktiven Potenzialen auf der anderen Seite trennen. Diese Darstellung ist jedoch noch nicht vollständig, denn Computer können zum Beispiel miteinander vernetzt sein. Auch diese Vernetzung wird gemäß eines Protokolls in Schichten realisiert. Auf der untersten Schicht geht es um das Senden und Empfangen elektrischer oder elektromagnetischer Signale. Die darüber liegenden Schichten sorgen gemäß Protokoll dafür, dass auf beiden Seiten der vernetzten Geräte diese Signale auf dieselben Strukturen und Objekte abgebildet werden. Beispielsweise ermöglicht eine solche Vernetzung, auf einer entsprechenden Schicht von einem Computer aus auf die Dateien eines anderen Computers zuzugreifen. Der Zugriff selbst erfolgt gekapselt, d. h. ohne Intervention durch den Menschen und in der Regel so schnell, dass er nicht mehr wahrnehmbar ist. Das Netz verhält sich transparent. Dadurch kann der Eindruck entstehen, als lägen Dateien auf der lokalen Festplatte des eigenen Rechners. Da die Netzwerkkommunikation sich der Aufmerksamkeit entzieht, bedingt sie auch keinen mentalen Zusatzaufwand bei der Nutzung.

Das Potenzial des Zugriffs auf ein Objekt, dessen Daten nicht auf dem Gerät der Bearbeitung, sondern einem entfernten vorliegen, entfaltet sein größtes Potenzial bei der gemeinsamen Nutzung durch verschiedene (entfernte) Personen; sie können die gleiche Datei öffnen und gleichzeitig mit ihr arbeiten. Hier täuscht jedoch der Eindruck, denn tatsächlich arbeiten beide Personen mit einer lokalen Kopie. Durch geschickte, zeitlich unmittelbar ausgeführte Synchronisationsverfahren kann der Eindruck entstehen, an einem einzigen Objekt zu arbeiten. Auch hier ist die Schnittstelle transparent.

Ein weiteres Potenzial einer transparenten Vernetzung liegt dann vor, wenn die Nutzungsschnittstelle auf verschiedene Geräte verteilt ist. Zur Illustration nutzen wir folgendes Szenario: Eine digitale Tafel erlaubt das Erstellen und Positionieren von Objekten auf der Oberfläche. Eine Person nutzt die Tafel, indem sie die Objekte mit einem digitalen Stift erstellt und manipuliert. Die Eingabe vermittels eines digitalen Stifts ist aber nicht für alle Arten von Eingaben ideal. Auf dieser Tafel, die ja alle sehen können, nun einen Datei-Browser zu öffnen, sodass ein Foto ausgewählt werden kann, wäre unpraktisch. Die verteilte Nutzungsschnittstelle erlaubt es nun, dass an der Tafel das Objekt markiert wird und dann das Smartphone genutzt wird, um ein Foto auszuwählen oder um direkt ein Foto zu erstellen. Es erscheint dann an der entsprechenden Stelle auf der Tafel. Ähnliches kann man sich für Textfelder vorstellen. Diese könnten an der Tafel ausgewählt, dann aber von einem Laptop aus befüllt werden. Alle drei Geräte, die digitale Tafel, das Smartphone und der Laptop bilden die Nutzungsschnittstelle für die Bearbeitung derselben Objekte.

Die beiden genannten Potenziale, die gemeinsamen verteilten Objekte und die verteilte Nutzungsschnittstelle, bringen komplexe Gestaltungsanforderungen mit sich. Bei gleichzeitiger Nutzung eines gemeinsamen Objekts, zum Beispiel eines Textes, an dem gemeinsam geschrieben wird, muss zum Beispiel dafür gesorgt werden, dass jeder beteiligten Person die Änderungen der anderen Beteiligten vergegenwärtigt werden. Man spricht von Gewärtigkeits- oder Awareness-Informationen. Auch im Szenario der verteilten Nutzungsschnittstelle im Beispiel der digitalen Tafel besteht die Herausforderung darin, den Nutzenden die Möglichkeit der Eingabe an einem anderen Gerät bewusst zu machen und sie dabei zu unterstützen, die Objektzuordnung nicht zu verlieren. Wir behandeln diese speziellen Anforderungen deshalb nicht, weil, ebenso wie bei den sogenannten „natürlichen“ Nutzungsschnittstellen wie Touch, Gestik, Sprache usw., in diesen Fällen sehr spezifische und situationsabhängige Faktoren zu berücksichtigen sind, die über die zu vermittelnden allgemeinen Gestaltungskonzepte deutlich hinausgehen19. Unabhängig von diesen speziellen Anforderungen sind die gleichen grundsätzlichen Gestaltungsanforderungen zu erfüllen wie für grafische Nutzungsschnittstellen mit Bildschirm, Tastatur und Zeigegeräten, die wir im Weiteren behandeln.

Architektur der Wahrnehmung

In den vorhergehenden Abschnitten haben wir die Nutzungsschnittstelle des Computers als Teil der Umwelt des Menschen beschrieben, gewissermaßen als physischen, von uns zu gestaltenden Handlungs- und Wahrnehmungsraum. In diesem dritten und letzten Grundlagen-Kapitel wenden wir uns nun der menschlichen Wahrnehmung zu, denn um mit der Nutzungsschnittstelle Differenzerfahrungen zu ermöglichen und Hindernisse zu vermeiden, müssen wir etwas über die Architektur menschlicher Wahrnehmung und ihrer spezifischen Merkmale wissen.

Das menschliche Wahrnehmungssystem ist Gegenstand umfangreicher Forschung in Biologie, Medizin und Psychologie. Mit unserer Ingenieurperspektive können und wollen wir nicht den Forschungsstand all dieser Disziplinen in seiner Breite darstellen. Das wäre nicht zielführend. Zum einen gibt es bis heute keine abgeschlossene und allgemein akzeptierte Theorie der Wahrnehmung, die sämtliche Wahrnehmungsphänomene gleichermaßen erfasst und erklärt. Vielmehr müssen wir gestaltungsrelevante Einsichten, Erkenntnisse und Modellvorstellungen dieser Disziplinen auswählen und zu einem Wissenshintergrund verdichten, der im Kontext der Gestaltung effektiv und konstruktiv ist. Unsere Darstellung ist also sehr schlaglichtartig.

Schon im Kapitel Differenzerfahrung haben wir uns in Bezug auf die Wahrnehmung auf den Sehsinn konzentriert. Diese Orientierung behalten wir bei, denn abseits spezieller Techniken wie virtueller und erweiterter Umgebungen (AR/VR), begreifbarer Interaktion (tangible interaction) oder auch der Eingabe über Gesten und natürliche Sprache, die alle ihre je eigenen Forschungsbereiche eröffnen, begrenzt das Zusammenspiel von Display, Tastatur und Zeigegeräten bzw. Touch-Eingaben für das Gros der IT-Anwendungen nach wie vor den Gestaltungsraum. Dementsprechend ist der Sehsinn für uns der bei Weitem wichtigste Wahrnehmungskanal.

Ein evolutionärer Kompromiss

Naiv betrachtet könnte man meinen, der Mensch besitze vorne am Kopf zwei kleine Kameras, die ihre Bilder an das Gehirn schicken und damit die Außenwelt abbilden. Gemäß dieser Vorstellung betrachtet unser Gehirn über die Augen unsere Außenwelt wie durch ein Fenster. Das Problem: So funktioniert es nicht!

Untersuchungen zur Gestalterkennung von Wolfgang Köhler von 1929 – Quelle: Wolfgang Köhler, Gestalt Psychology, 1959, S. 115 und S. 110
Untersuchungen zur Gestalterkennung von Wolfgang Köhler von 1929 – Quelle: Wolfgang Köhler, Gestalt Psychology, 1959, S. 115 und S. 110

Obige kleine Exkursion in das Forschungsfeld der Gestaltwahrnehmung verdeutlicht, dass die Wahrnehmung einer Gestalt offenbar von mehr als der physischen Beschaffenheit der Form selbst abhängt. Beide Darstellungen entstammen dem Buch „Gestalt Psychology“ von Wolfgang Köhler aus dem Jahr 192920. Sowohl die linke als auch die rechte Strichzeichnung enthalten die Ziffer „4“. Wahrscheinlich haben Sie wenig Probleme damit, diese Vier auf der linken Seite zu erkennen. Rechts hingegen ist es nicht einfach, die Vier zu erkennen, obwohl sie auch hier physisch vorhanden ist.

Die Linienzüge, die die Vier bilden, erscheinen auf der rechten Seite nicht als Teil der gleichen Figur, sondern als Teile zweier getrennter Figuren, was das Erkennen der Vier nahezu unmöglich macht. Diese Beobachtung passt nicht zur naiven Vorstellung vom Sehen als einer passiven Informationsaufnahme, denn dann müsste ja alles, was über das Auge erschlossen wird, auch der Wahrnehmung zugänglich sein. Doch die Vier entzieht sich in diesem Beispiel unserem Blick. Im komplexen System der Wahrnehmung, das aus weit mehr als nur dem Auge selbst besteht, findet offenbar eine Art Interpretation und Vorauswahl statt und diese Interpretation in unserer Wahrnehmung scheint teilweise unabhängig von unserem bewussten Denken zu sein, denn wenn Sie sich nun noch einmal die Abbildungen ohne die markierte Vier angucken, dann gelingt es Ihnen zwar nachzuvollziehen, wo sie versteckt ist, aber sie tritt trotzdem nicht als eigenes Objekt hervor.

Die Gestaltpsychologen haben versucht, durch die Beschreibung von Merkmalen und Eigenschaften des (visuellen) Stimulus in Form von Regeln, den sogenannten „Gestaltgesetzen“, vorherzusagen, welche bedeutungsvollen Formen eine Person in einer bestimmten Situation wahrnehmen wird. Trotz mancher Teilerfolge ist es ihnen bis heute nicht gelungen, eine allgemein akzeptierte und vollständige Menge von Gestaltgesetzen aufzustellen. Auch die dahinterstehenden theoretischen Vorstellungen sind nicht unproblematisch. Wir folgen daher einem Ansatz, der stärker vom Prozess der Wahrnehmung und wie er sich evolutionär entwickelt hat ausgeht, also einem eher biologischen bzw. neurologischen Ansatz. Dabei interessiert uns besonders das Zusammenspiel zwischen Wahrnehmungssystem und Umwelt.

Dazu ein Gedankenexperiment: Ohne Anspruch auf anthropologische Genauigkeit stellen wir uns eine Anzahl von Menschen vor, die in der Savanne leben, sich dort von Pflanzen und von der Jagd ernähren und zugleich in der Gefahr leben, von Raubtieren aufgespürt und überfallen zu werden. Sagen wir der Einfachheit halber, dass Pflanzen-Essen, Jagen und Flüchten die einzigen drei Dinge sind, die unsere Menschengruppe tut. Wie müsste der Sehsinn dieser Personen beschaffen sein, um Pflanzen zu finden, zu jagen und bei drohender Gefahr durch ein Raubtier rechtzeitig die Flucht ergreifen zu können?

Vollständigkeit: Unsere Menschen müssen die Beschaffenheit ihrer Umwelt sehr genau wahrnehmen, um sich orientieren zu können und vor allem auch, um in der Landschaft die essbaren Pflanzen und die zu jagenden Tiere zu finden. Idealerweise ist die Wahrnehmung also so angelegt, dass möglichst viel wahrgenommen wird, damit unser Mensch im wahrsten Sinne des Wortes „voll im Bilde“ ist.

Schnelligkeit: Wollen unsere Menschen erfolgreich Tiere jagen, müssen sie sie in der Landschaft erkennen und schnell wahrnehmen können, wohin sie sich bewegen. Ebenso müssen sie Gefahren möglichst schnell erkennen können, um zum Beispiel nicht selbst Opfer eines Raubtiers zu werden. Nur dann können sie rechtzeitig entscheiden, welche Abwehrmaßnahmen sie einleiten können oder ob sie besser die Flucht ergreifen sollten.

Die beiden Anforderungen an das Wahrnehmungssystem sind gleichermaßen berechtigt, stehen aber im Konflikt zueinander: Jede der beiden Anforderungen kann jeweils nur auf Kosten der jeweils anderen erfüllt werden. Unser Wahrnehmungssystem verkörpert eine durch die Evolution entstandene Austarierung solcher Konflikte. Zustande gekommen ist diese Austarierung durch natürliche Selektion. Wahrnehmungsprozesse, die sowohl hinreichend vollständig als auch zugleich schnell genug sind, waren evolutionär vorteilhafter und setzten sich dadurch zunehmend durch. Über viele Generationen entwickelte sich auf diese Art und Weise eine Architektur der Wahrnehmung, die gut an die Gegebenheiten der Umwelt angepasst war. Die biologische Architektur der Wahrnehmung, die sich im Laufe der Evolution herausgebildet hat, ist also kein fauler Kompromiss, sondern eine sehr geschickte „Lösung“ des Problems21. Schnelligkeit wird dadurch erreicht, dass schon im Auge die Menge der aufgenommenen Reize stark reduziert wird. Sowohl auf der sensorischen Ebene als auch durch vorbewusste Verarbeitungsprozesse auf dem Weg der Stimuli zum Sehzentrum und den anderen Bereichen im Gehirn wird somit die Erhöhung der Verarbeitungsgeschwindigkeit mit einem Verlust an sensorischen Informationen erkauft. Vollständigkeit entsteht erst wieder durch den konstruktiven Teil des Wahrnehmungssystems. Hier wird aus den beschränkten sensorischen Informationen ein umfangreiches Bild der Umwelt zusammengesetzt.

Lassen Sie uns erneut ein Gedankenspiel wagen, in dem wir uns selbst in die Rolle unseres Wahrnehmungssystems begeben. Wir sitzen in einem kleinen, dunklen Raum und können die Außenwelt nur wahrnehmen, indem wir durch ein kleines Loch nach draußen schauen. Durch das Loch sehen wir immer nur einen kleinen Teil der Außenwelt. Wenn wir andere Bereiche wahrnehmen wollen, können wir unsere Position vor dem Loch ändern, um eine andere Perspektive zu bekommen, oder den kompletten Raum rotieren lassen. Unsere Aufgabe ist es nun, aus der Folge einzelner ausschnitthafter Wahrnehmungen ein möglichst angemessenes Bild von der Außenwelt zu gewinnen. Beim Sehsinn verhält es sich ähnlich. Nur ein kleiner Teil dessen, was sich in unserer Umgebung befindet, kann direkt gesehen werden. Das Wahrnehmungssystem muss diese Einzelinformation zu einem größeren Bild zusammensetzen und dazu noch weitere Informationen ergänzen.

Dieses Beschaffen weiterer Informationen erfordert motorische Aktivitäten wie Augen-, Kopfbewegungen oder Bewegungen des ganzen Körpers. Diese Bewegungen sind sehr aufwändig und kosten entsprechend Zeit. Es wäre zwar möglich, die komplette Umgebung systematisch abzutasten, aber nicht effizient. Es gilt, mit möglichst wenig Aktivität zu einer möglichst guten Abschätzung zu kommen. Wie kann das erreicht werden?

  1. Um nicht die komplette Umgebung mit den Augen erwandern zu müssen, können Hinweise innerhalb dessen, was gerade zu sehen ist, genutzt werden. Sieht man etwa eine Kante, kann man eine plausible Vermutung darüber anstellen, dass sich ein Objekt vor einem Hintergrund befindet. Damit haben wir eine gute Voraussage, wo als nächstes hingeschaut werden sollte, um die Szenerie zu erfassen.
  2. Dieser Prozess hat viel mit Erfahrung zu tun. Aufgrund vorheriger Situationen etwa können wir eine gute Hypothese darüber aufstellen, wo in der Umgebung wichtige Informationen zu erwarten sind. Wir müssen weder systematisch das gesamte Wahrnehmungsfeld nach relevanten Informationen absuchen noch grundsätzlich vom Himmel oder den Füßen ausgehend die Umwelt erkunden, denn der jeweilige Handlungszusammenhang legt mit großer Wahrscheinlichkeit die Bereiche nahe, wo relevante Informationen zu erwarten sind. Oftmals befinden sich diese Bereiche eher im mittleren Gesichtsfeld.
  3. In manchen Fällen können wir es uns komplett sparen, bestimmte Bereiche der Umgebung überhaupt anschauen zu müssen. Aufgrund unserer Erfahrung vertrauen wir darauf, dass wir die richtigen Schlüsse aus relativ wenigen Informationen ziehen können. Indem wir einen kleinen Wahrnehmungsausschnitt für das Ganze nehmen, ersparen wir uns erheblichen sensorischen und motorischen Aufwand. Der damit erzielte Geschwindigkeitsvorteil lässt sich noch verstärken, wenn zusätzlich entscheidende Features in den Stimuli gewissermaßen automatisiert bzw. routinehaft verarbeitet werden. Vermutungen dieser Art sind aber immer gefährlich, denn sie können sich als falsch erweisen. Insofern müssen automatisiert verarbeitete Features sehr robust sein, um in den meisten Wahrnehmungssituationen zu verlässlichen Ergebnissen zu führen. Soweit es gelingt solche Features zu erkennen, können wir sie auch recht verlässlich bei der Gestaltung von Systemen einsetzen.

Wenn wir bzw. unser Wahrnehmungssystem dieses „Raten“ oder besser gesagt die Hypothesenbildung gut bewerkstelligen, haben wir die Forderungen nach Vollständigkeit und Schnelligkeit der Wahrnehmung gut ausgewogen. Dass unsere Wahrnehmung der Umwelt angemessen ist, steht und fällt also mit den Hypothesen, die das Wahrnehmungssystem bildet und mithilfe derer es das sensorisch Wahrgenommene ergänzt und die nächsten Wahrnehmungserkundungen steuert. Dieses Bilden von Hypothesen funktioniert in der Regel recht gut. Andernfalls würden wir in unserem täglichen Agieren in der Welt ständig Wahrnehmungstäuschungen unterliegen oder Wesentliches nicht registrieren, sodass es laufend zu Unglücken käme. Das ist aber nicht so. Vielmehr lässt sich feststellen, dass die Situationen, in denen uns die Wahrnehmung täuscht oder der Wahrnehmung Relevantes entgeht, erst durch aufwändige Experimente hervorgebracht werden können. Das ist auch der Grund, warum z. B. viele optische Täuschungen nach ihren ‘Entdeckern’ benannt worden sind. Kämen sie laufend vor, wäre das nicht so.

Die Hypothesenbildung findet sich auf allen Stufen der Wahrnehmung wieder, von evolutionär ausgeprägten Erkennungsmustern bis hin zu erlernten Verhaltensschemata. Einige dieser Hypothesen könnte man gebündelt als Hypothese einer stabilen Umwelt bezeichnen. Ein Baum beispielsweise verschwindet nicht von einer Sekunde zur anderen. Auch ein Hügel in der Landschaft ist – abgesehen von Naturkatastrophen – stabil. Weder fällt die Sonne innerhalb einer Sekunde vom Himmel noch verschwindet ein Gebäude, nur weil man sich gerade umdreht und nicht hinschaut. Solche Hypothesen helfen im großen Stil Wahrnehmungsaufwand zu ersparen. Man muss sich einmal vorstellen, wie aufwändig wir ohne diese Stabilitätsannahme die Welt erschließen müssten. Wir müssten ständig umherschauen und uns fortwährend bewegen, um uns zu vergewissern, dass Objekte immer noch vorhanden sind und der Boden unter den Füßen immer noch stabil ist.

Viele Hypothesen hängen mit individuellen Lernprozessen zusammen, die im sozialen Umfeld jeweils angeeignet werden müssen. Der Straßenverkehr kann gut als Beispiel dienen. Hier haben Kinder oft Probleme, auf die relevanten Objekte und ihre Bewegungen zu achten. Ohne ein spezielles Training sehen sie alles Mögliche, das sie interessiert, aber nicht unbedingt das für ihre Sicherheit Wesentliche. Entscheidend sind nicht isolierte Einzelwahrnehmungen, sondern die kontinuierliche Einbettung, Bewertung und Anpassung. Auch der Weg von der Fahrschule bis zum erfahrenen Umgang im Straßenverkehr ist durch solche Lern- und Übungsprozesse geprägt. Es entsteht eine Art professioneller Tunnelblick, bei dem die relevanten Reize der Umgebung beachtet, aber Vieles am Straßenrand nicht registriert wird.

Andere Hypothesen des Wahrnehmungssystems beruhen nicht auf individueller Erfahrung, sondern sind als Resultat der Evolution quasi fest in das Wahrnehmungssystem eingebaut. Die Architektur unseres Wahrnehmungssystems sorgt zum Beispiel dafür, dass plötzliche Änderungen im sogenannten peripheren Sichtfeld die Aufmerksamkeit so stark leiten, dass die aktuelle Handlung zumindest kurz unterbrochen wird, um die Änderung zu prüfen. Eine plausible Erklärung dafür ist, dass Veränderungen im Rücken eines Menschen eine Gefahr signalisieren könnten, auf die man unmittelbar reagieren muss, um ihr begegnen zu können. Da das periphere Sichtfeld genau den Übergangsbereich zwischen dem vorderen sichtbaren Bereich und dem hinteren nicht sichtbaren Bereich abdeckt, fungiert es gewissermaßen als Frühwarnsystem. Die Wahrnehmungshypothese lautet entsprechend: Eine Bewegung am Rande des Wahrnehmungsfeldes signalisiert eine potenzielle Gefahr und erfordert daher die unmittelbare und sofortige Aufmerksamkeit.

Das menschliche Wahrnehmungssystem ist auf das Erkennen von typischen Situationen in einer physischen Umwelt ausgelegt. In diese Umwelt hinein konstruieren wir als Softwaregestalter interaktive Nutzungsschnittstellen. Insofern betrachten wir solche Nutzungsschnittstellen als Handlungs- und Wahrnehmungsraum, der mit demselben Wahrnehmungssystem sensorisch erschlossen und kognitiv durchdrungen bzw. (re-)konstruiert werden muss. Je besser wir die Mechanismen und Eigenschaften unseres Wahrnehmungssystems mit Hypothesen und den damit verbundenen Konflikten verlässlich beschreiben können, desto angemessener und robuster können wir diese Einsichten in Gestaltungsempfehlungen umsetzen. Von daher ist auch nicht verwunderlich, dass es darauf ankommt, konfligierende Forderungen zu erkennen und Überlegungen anzustellen, wie sie im Zusammenspiel mit weiteren Forderungen angemessen austariert werden können. Dafür bereiten wir nachfolgend die Grundlage auf. Es geht also zunächst noch nicht in erster Linie um konkrete Gestaltungsbeispiele, sondern darum die Wirkmechanismen offenzulegen. Im praktischen Teil kümmern wir uns dann detaillierter um konkrete Gestaltungsregeln und daraus ableitbare Lösungsvorschläge.

Visuelle Wahrnehmung

Aufbau des Auges – Bild: Jmarchn (CC BY-SA 3.0)
Aufbau des Auges – Bild: Jmarchn (CC BY-SA 3.0)

Wie groß der Unterschied zwischen Abbilden und Wahrnehmen ist, zeigt sich im Vergleich menschlicher Wahrnehmung und einem Fotoapparat. Beim Fotografieren wird zu einem festen Zeitpunkt ein vollständiges Abbild erstellt, das unabhängig von vorherigen Aufnahmen ist. Beim Sehen hingegen findet ein mehrstufiger komplexer Prozess statt, bei dem schon im Auge eine gehörige Reduktion stattfindet. Schauen wir uns das Auge ein bisschen genauer an, um zu verstehen, wie diese Reduktion stattfindet und welche Konsequenzen sie für uns in der Gestaltung von Nutzungsschnittstellen hat.

Oben sehen Sie den Aufbau des Auges beginnend mit der nach außen gestülpten Hornhaut und dahinter die Pupille und die Linse. Auf der anderen Seite der mit einer gelartigen Substanz gefüllten Kammer (Glaskörper) befindet sich die Netzhaut mit den lichtempfindlichen Nervenzellen.

Chromatische Aberration und Blau-Weitsichtigkeit

Um Objekte in verschiedenen Entfernungen scharf wahrnehmen zu können, kann das Auge die Brennweite der Linse anpassen. Wie diese Anpassung erfolgen muss, ist aber nicht nur von der Entfernung des Auges zum Objekt abhängig, sondern auch von der betrachteten Farbe. Das liegt an der physikalischen Eigenschaft, dass Licht verschiedener Wellenlängen an Prismen und Linsen unterschiedlich stark gebrochen wird. Diese Abweichung nennt sich „chromatische Aberration“, zu Deutsch etwa „Farbabweichung“ oder auch „Farbfehler“.

Problematisch wird diese chromatische Aberration, wenn sehr kurzwelliges und sehr langwelliges Licht, also rot und blau, in direkter Nähe zueinander verwendet werden. Die Abbildung zeigt so eine Situation, die vor allem an einem leuchtenden Bildschirm einen sehr unangenehmen Eindruck erzeugt. Der Grund dafür ist, dass es dem Auge nicht möglich ist, das Bild richtig zu fokussieren. Fokussiert das Auge auf die roten Bereiche, werden die blauen Bereiche unscharf. Beim Fokussieren auf den blauen Bereich werden dementsprechend die roten Bereiche unscharf. Da diese Regionen aber direkt nebeneinander und ineinander liegen, ist immer ein Teil des gerade betrachteten Bildes unscharf. Mit jeder Änderung des Fokus von einem Bereich in den anderen muss das Auge entsprechend die Linsenstellung anpassen und tut dies doch nie richtig.

Wirkung der Blau-Rot-Aberration
Wirkung der Blau-Rot-Aberration
Lichtbrechung bei verschiedenen Wellenlängen
Lichtbrechung bei verschiedenen Wellenlängen

Weißes Licht setzt sich aus Lichtstrahlen verschiedener Wellenlängen zusammen. Die chromatische Aberration sorgt dafür, dass es eine Farbtrennung gibt. Wenn ein farbloses graues oder weißes Objekt angeschaut wird, fokussiert ein normalsichtiges Auge im Prinzip auf den Gelb-Anteil des Objekts. Der grüne Lichtanteil hat demnach seinen Brennpunkt knapp vor der Retina, der rote knapp dahinter. Die leichte Unschärfe in diesen Farbanteilen nehmen wir allerdings nicht wahr.

Wie die Grafik zeigt, resultiert daraus, dass der Brennpunkt des blauen Lichtanteils weit vor der Retina liegt. Normalsichtige Menschen sind also blau-weitsichtig. Diese Fehlsichtigkeit hat Folgen für die ergonomische Farbwahl am Bildschirm. Problematisch ist vor allem voll gesättigtes Blau als Hintergrundfarbe oder als feine Struktur, zum Beispiel als blauem Text auf dunklem Hintergrund.

Problematische Verwendung von Blau als Hintergrund- oder Textfarbe
Problematische Verwendung von Blau als Hintergrund- oder Textfarbe

Zentrales Sehen

Auf der Netzhaut sind zwei Bereiche besonders interessant. Zum einen gibt es dort den blinden Fleck. Das ist die Stelle, an der der Sehnerv zum Gehirn verläuft. Da an dieser Stelle kein Platz für Rezeptoren ist, kann das Auge hier folglich keinen sensorischen Reiz liefern. Besonders gut sieht es dagegen im gelben Fleck, der Fovea. Dies liegt daran, dass die Nervenzellen auf der Retina nicht gleichmäßig verteilt sind. Bei den lichtempfindlichen Zellen unterscheidet man zwei Arten, die nach ihrem Aussehen auch als „Zapfen“ und „Stäbchen“ bezeichnet werden. Mit ihrer Funktion haben diese Namen nichts zu tun. In der Fovea gibt es fast nur Zapfen und das in einer hohen Dichte. Zapfen sind relativ lichtunempfindlich, ermöglichen aber die Wahrnehmung von Farben. Dadurch dass sie in der Fovea in hoher Dichte vorhanden sind, kann mit diesem Teil des Auges besonders scharf gesehen werden. Auch weiter außen auf der Retina gibt es Zapfen, allerdings in erheblich geringerer Dichte. Stäbchen gibt es auf der kompletten Retina außerhalb der Fovea. Sie haben ihre höchste Dichte in einem Ring um die Fovea. Stäbchen erlauben keine Farbwahrnehmung, sind aber dafür sehr lichtempfindlich. Stäbchen dienen dem Sehen bei Nacht, wenn nur der Mond oder die Sterne zur Beleuchtung dienen. Bei Tage spielen die Stäbchen beim Sehen keine Rolle.

Vereinfachte Darstellung des Bereichs des zentralen Sehens
Vereinfachte Darstellung des Bereichs des zentralen Sehens

Die Abbildung vermittelt eine Vorstellung davon, was ein einzelnes Auge zu einem Zeitpunkt „sieht“. Der Bereich des zentralen Sehens ist sehr klein. Als Daumenregel, im wahrsten Sinne des Wortes, entspricht der von der Fovea wahrgenommene Bildteil etwa der Größe eines Daumennagels bei ausgestrecktem Arm. Nach außen hin nehmen die Farbwahrnehmung und auch die Sehschärfe stark ab. An der Darstellung nicht stimmig ist, dass die weit von der Fovea entfernten Bereiche gänzlich farblos dargestellt sind. Tatsächlich ist die Farbwahrnehmung im peripheren Sichtbereich sehr eingeschränkt. Vollständig farbenblind ist man dort aber nicht. Große farbige Bereiche können farbig wahrgenommen werden, kleinere Strukturen allerdings nicht mehr.

Von besonderer Wichtigkeit für uns ist das zentrale Blickfeld, also der Bereich, in dem wir scharf, detailliert und farbig sehen können. Nur was wir hier erfassen, ist der bewussten Verarbeitung zugänglich. Das Wahrnehmungssystem bringt deshalb fortwährend andere Ausschnitte der Umgebung in diesen Bereich. Dies geschieht für natürliche Situationen sehr effektiv und wird dem Sehenden selbst in der Regel nicht bewusst, denn auch wenn man den Kopf nicht bewegt, ist das Auge mit kleinen ruckartigen Bewegungen unablässig auf Erkundungstour. Betrachtet man das Auge und seine Bewegungen, kann man im Großen und Ganzen zwei Phasen unterscheiden: Während der sogenannten „Sakkaden“-Bewegung wird das Auge in sehr schnellen, kurzen Bewegungen um etwa zwei bis zehn Grad in 20 bis 25 Millisekunden an eine andere Position gerichtet, auf der es dann verweilt. Dieses Verweilen nennt man „Fixation“. Während der Fixation findet die bewusste Verarbeitung des Gesehenen statt. Die Sakkaden hingegen werden von unserem Wahrnehmungssystem gefiltert, sodass sie nicht wahrgenommen werden.

Sakkadenbewegungen beim Betrachten eines Gesichts – Quelle: Yarbus, Alfred L.: Eye Movements and Vision. Springer, 2013.
Sakkadenbewegungen beim Betrachten eines Gesichts – Quelle: Yarbus, Alfred L.: Eye Movements and Vision. Springer, 2013.

Diese Abbildung von Alfred Yarbus22 verdeutlicht, dass das Wahrnehmungssystem anhand von früheren Erfahrungen bei der Erschließung eines Bildes selektiv vorgeht und bei der Betrachtung eines Gesichts dieses nicht etwa komplett abtastet. Große Teile des Bildes werden in diesem Beispiel nicht beachtet. Die Hauptaufmerksamkeit des Wahrnehmungssystems liegt klar auf Mund, Nase und vor allem der Augenpartie, also genau den Teilen des Gesichts, an denen sich Menschen gut unterscheiden lassen.

Die Konsequenzen der Lokalität der Wahrnehmung lassen sich gut an sogenannten „unmöglichen Figuren“ verdeutlichen. Der Grund, warum diese Figuren so irritierend sind, ist, dass sie an jedem Punkt lokal korrekt, aber global unmöglich sind. An jeder Stelle, auf die wir schauen, erhalten wir korrekte Hinweise darauf, wie sich die Figur fortsetzt, welcher Teil hinten liegt und welcher vorne, was oben und was unten ist usw. Nach einer Weile der Betrachtung stellen wir dann fest, dass die aktuelle Wahrnehmungshypothese und das aktuelle Wahrnehmungsbild nicht mehr zusammenpassen. Das Zusammensetzen funktioniert nicht, obwohl kein lokaler Fehler erkennbar ist.

Unmögliche Figuren – Quelle: 4C (CC-BY-SA 3.0) via Wikimedia Commons
Unmögliche Figuren – Quelle: 4C (CC-BY-SA 3.0) via Wikimedia Commons

Ist unser Wahrnehmungssystem deshalb unzuverlässig und fehlerhaft? Im Gegenteil! Die Tatsache, dass all diese unmöglichen Strukturen erst mit entsprechendem Aufwand gefunden und konstruiert werden konnten, ist ein Indikator dafür, dass das Auftreten einer solchen Wahrnehmungssituation in einer nicht absichtlich gestalteten Umgebung sehr unwahrscheinlich ist.

Eine scheinbar unmögliche Figur als Kunstobjekt – Bilder: Bjørn Christian Tørrissen (CC BY-SA 3.0)
Eine scheinbar unmögliche Figur als Kunstobjekt – Bilder: Bjørn Christian Tørrissen (CC BY-SA 3.0)

Die Abbildung oben zeigt die Skulptur „Impossible Triangle“ auf einem Kreisverkehr in Perth in Australien. Die Skulptur wurde geschickt so erstellt, dass aus einer bestimmten Perspektive tatsächlich eine unmögliche Figur, das sogenannte „Penrose-Dreieck“, zu sehen ist. Auch hier stößt unser Wahrnehmungssystem wieder auf dasselbe Problem: An jeder Stelle des Dreiecks ist es leicht, lokal eine Hypothese über die Figur zu treffen, doch in ihrer Gesamtheit passen diese Hypothesen nicht zusammen. Unser Verstand sagt uns, dass es so nicht sein kann, doch gelingt es uns nicht, die Figur anders zu sehen. Eine fehlerhafte Annahme unseres Wahrnehmungssystems könnte sein, dass es sich um eine geschlossene Figur handeln muss. Diese Hypothese ist in diesem Sonderfall nicht richtig. Die resultierende Fehlwahrnehmung ist verblüffend, bleibt aber, selbst wenn sie einmal auftreten sollte, in nicht statischen Szenerien eine nur sehr kurz auftretende Erscheinung. Schon eine kleine Änderung der Position des Betrachtenden reicht aus, um durch Differenzerfahrung die Fehlwahrnehmung aufzulösen.

Peripheres Sehen

Die Eigenschaften des peripheren Sehens, also des Sehens außerhalb des zentralen Wahrnehmungsbereichs, unterscheidet sich sehr stark von dem in der Fovea. Die peripheren Netzhautbereiche haben eine viel geringere räumliche Auflösung, eignen sich also nicht zur Detailwahrnehmung. Auch die Farbauflösung ist dort gering. Das bedeutet, dass nur große, farbige Bereiche (etwa ein blauer Himmel im Vergleich zum braunen Feld) im peripheren Wahrnehmungsfeld wahrgenommen werden. Die Farbunterschiede kleinerer Bereiche hingegen werden nicht registriert. Gleichermaßen hoch wie im zentralen Bereich des Sehens ist die Wahrnehmung von Bewegungen. Dies ermöglicht dem Menschen zwar nicht direkt zu erkennen, was sich von der Seite nähert oder bewegt, wohl aber schnell zu bemerken, dass sich etwas bewegt. Dies gibt dem Wahrnehmungssystem den Anreiz, den Fokus der Wahrnehmung zu ändern und dem Menschen die Voraussetzung über die mit der Wahrnehmung verbundenen Konsequenzen zu entscheiden, also zum Beispiel die Flucht zu ergreifen.

Die Aufteilung der Wahrnehmung im Auge in den zentralen und den peripheren Bereich zeigt gut die Anpassung des Menschen an seine Umwelt und damit das Austarieren der eingangs genannten Anforderungen Vollständigkeit und Schnelligkeit. Das menschliche Sehen ist kein fauler Kompromiss, der ein bisschen vollständig und zugleich ein bisschen schnell ist, sondern ein fein austariertes System, das die Notwendigkeit der vollständigen Wahrnehmung mindert, wo sie aller Wahrscheinlichkeit nach nicht nötig ist, und die Schnelligkeit der Wahrnehmung als Trigger zur Wahrnehmungssteuerung selbst nutzt.

  zentral peripher
Lokalisation Fixationspunkt Äußeres Gesichtsfeld
Farbauflösung hoch niedrig
Räumliche Auflösung (Sehschärfe) hoch gering
Zeitliche Auflösung (Bewegung) hoch hoch
Rolle Detailwahrnehmung Aufmerksamkeitsleitung
Gestaltungskonsequenzen

Schon aus diesen elementaren Eigenschaften der Wahrnehmungsarchitektur lassen sich direkt Handlungskonsequenzen für die Gestaltung von Nutzungsschnittstellen ableiten.

Alle Veränderungen im peripheren Blickfeld sind aufmerksamkeitssteuernd. Was sich am Rande bewegt, ist potenziell interessant, weil es eine heraufziehende Gefahr signalisieren könnte. Sie kennen sicher Situationen, wo sich etwas in Ihrem Augenwinkel bewegt und die Aufmerksamkeit auf sich zieht. Das kann man sich zunutze machen. Wenn Sie in ein volles Restaurant gehen und dort eine Gruppe Bekannter suchen, hilft es ungemein, wenn einer der Bekannten winkt. Sie finden die Gruppe dann auch bei einem komplett vollen Restaurant. Was sich jedoch permanent bewegt oder blinkt, obwohl es nicht Ihrer Aufmerksamkeit bedarf, etwa ein in der Ecke stehender Fernseher oder eine Uhr mit Pendel, kann dagegen nervtötend werden. Für die Gestaltung von Nutzungsschnittstellen bedeutet das vor allem, Animationen und blinkende Elemente mit Bedacht einzusetzen. Beide können dafür verwendet werden, die Aufmerksamkeit gezielt auf etwas zu ziehen, etwa wenn ein Fehler aufgetreten ist oder wenn aus einem anderen Grund die Aufmerksamkeit erforderlich ist.

  • Die Schreibmarke (der Cursor) ist auch dann leicht zu finden, wenn sie sich mitten in einem Text befindet. Den Mauszeiger hingegen kann man recht gut im Text verstecken. Dass der Cursor leicht zu finden ist, liegt daran, dass er blinkt. Da das Blinken des Cursors sehr gleichmäßig und der Cursor als Objekt zudem recht klein ist, ist er aber nicht so ablenkend, dass es einem schwer fallen würde, den Rest des Bildschirms zu betrachten.
  • Im Dock von Mac OS beginnen die Icons von Anwendungen, die gerade nicht aktiv sind, aber der Aufmerksamkeit bedürfen, zu hüpfen. Apple hat sich dazu entschlossen, dieses Hüpfen recht ungleichmäßig zu gestalten, was die aufmerksamkeitsleitende Wirkung noch verstärkt. Auch bei Windows können die Elemente in der Taskleiste die Aufmerksamkeit auf sich ziehen. Microsoft ist in der Gestaltung dabei etwas zurückhaltender und beschränkt sich auf ein Blinken.
  • Wenn die Aufmerksamkeit nicht auf eine bestimmte Region des Bildschirms oder auf bestimmte Elemente gezogen werden soll, sollten Blinken und Animationen möglichst vermieden werden. Wenn eine Animation dafür eingesetzt wird, einen Vorgang zu verdeutlichen, sollte darauf geachtet werden, dass die Animation glatte, gleichmäßige Bewegungen aufweist. Diese haben weniger Ablenkungspotenzial als unruhige, ruckartige Bewegungen.
  • Wenn Animationen in einer Dauerschleife ablaufen, sollten diese auf jeden Fall abschaltbar sein. Endlosschleifen zermürben und bringen keinen informationellen Zugewinn, außer andauernder Unruhe im äußeren Gesichtsfeld.
  • Es ist auf jeden Fall zu vermeiden, dass es mehrere blinkende oder sich bewegende Elemente auf einmal gibt. Die ablenkende Wirkung verstärkt sich mit jeder zusätzlichen Veränderungsquelle. Gleichzeitig geht die Möglichkeit der beabsichtigten Aufmerksamkeitsleitung verloren.

Bewegungen im peripheren Wahrnehmungsfeld werden vom Wahrnehmungssystem, wie soeben beschrieben, genutzt, um die Wahrnehmung zu steuern, um sie auf etwas potenziell Gefährliches hinzuweisen. Es gibt weitere solcher Trigger, die helfen, die Aufmerksamkeit auf Wichtiges in der Umwelt zu lenken.

Aufmerksamkeitsleitung: Präattentive Wahrnehmung

Der Mensch muss in der Lage sein, mit einem Blick zu erfassen, was wichtig ist, was also einer intensiveren Betrachtung bedarf und was nicht. Ein wichtiger Mechanismus ist dabei die präattentive Wahrnehmung. Präattentiv heißt vorbewusst. Es gibt also keinen bewussten Denkprozess der Art „Oh, das sieht aber interessant aus, das schaue ich mir mal an“. Der Vorteil der vorbewussten Verarbeitung ist, dass die Aufmerksamkeitsleitung sehr schnell und effizient ist. Nur potenziell bedeutsame Reize dringen ins Bewusstsein vor, alles andere wird ignoriert. Der damit verbundene Nachteil der präattentiven Wahrnehmung ist aber, dass wir uns gegen sie nicht wehren können.

Vorbewusste Wahrnehmung eines roten Punktes
Vorbewusste Wahrnehmung eines roten Punktes

Wir müssen keine Hellseher sein, um eine gute Prognose darüber abgeben zu können, welcher Punkt auf der Abbildung oben wohl als Erstes angesehen wird. Der Punkt in der Signalfarbe Rot sticht unter den anderen hervor. Die präattentive Verarbeitung in unserem Wahrnehmungssystem wählt ihn für uns aus und lenkt unsere Aufmerksamkeit automatisch dorthin. Natürlich können Sie sich den Rest der Abbildung anschauen, aber wenn Sie auf das Ganze blicken, wandert Ihr Blick unweigerlich zu diesem einen roten Punkt zurück. Gut, mögen Sie sagen, rot ist ja eine Signalfarbe. Vielleicht ist es eine erlernte Verhaltensweise, vielleicht aus dem Straßenverkehr, dass Sie bei Rot immer hinschauen.

Verschiedene Attribute sorgen für eine vorbewusste Wahrnehmung
Verschiedene Attribute sorgen für eine vorbewusste Wahrnehmung

So einfach ist es jedoch nicht, denn auch in diesen Abbildungen stechen jeweils mehrere Punkte besonders hervor: links der schwarze und rechts der größere Punkt. Schwarz ist aber keine Signalfarbe und auf der rechten Seite gibt es keinen Farbunterschied. Die präattentive Verarbeitung von Signalen erfolgt kontinuierlich, etwa bei einem Partygespräch, wo man interessiert einer Person lauscht, ohne das Gerede der anderen bewusst wahrzunehmen. In dem Augenblick jedoch, wo in diesem Geräuschwirrwarr der eigene Name auftaucht, wird die Aufmerksamkeit auf die neue Quelle ausgerichtet.

Gestaltungskonsequenzen

Präattentive Wahrnehmung ist ein fester Teil unseres Wahrnehmungssystems. Wir können sie nicht steuern und wir können uns auch nicht dagegen wehren. Dies gilt es bei der Gestaltung von Nutzungsschnittstellen zu bedenken. Sie können den Effekt ausnutzen, indem Sie ein Element am Bildschirm, von dem Sie wollen, dass es auf den ersten Blick wahrgenommen wird, mit einer präattentiven Eigenschaft versehen, es also zum Beispiel farbig herausstellen. Dieses Ausnutzen der präattentiven Wahrnehmung hat nicht nur Gestaltungskonsequenzen für das Element, das Sie tatsächlich herausstellen wollen, sondern auch für alle anderen Elemente auf dem Bildschirm, denn die Aufmerksamkeitsleitung funktioniert nur gut, wenn unter den anderen Objekten eine gewisse Uniformität herrscht.

Kombinationen präattentiver Merkmale verlieren ihre aufmerksamkeitsleitende Wirkung
Kombinationen präattentiver Merkmale verlieren ihre aufmerksamkeitsleitende Wirkung

Auf der Abbildung oben fällt es schwer das eine, sich von den anderen unterscheidende Element zu finden. Bei der großen visuellen Unruhe funktioniert die Vorauswahl unseres Wahrnehmungssystems nicht mehr. Der eine abweichende violette Punkt sticht unter den bunten Punkten nicht hervor.

Farbenvielfalt im App-Store von Windows 8
Farbenvielfalt im App-Store von Windows 8

Generell birgt gerade die Farbgestaltung eine große Gefahr, die Potenziale der Aufmerksamkeitsleitung zu verschenken oder, schlimmer noch, eine ungewollte Aufmerksamkeitsleitung hervorzurufen. Obige Abbildung zeigt den App-Store von Windows 8. Da Microsoft jeder Anwendung seinerzeit zugestand, die Farbe der Kachel selbst zu bestimmen, bestand zum einen die Gefahr, dass sich einzelne Kacheln in den Vordergrund schieben, zum Beispiel die Audio-Recorder-Kachel oben rechts in Knallrot. Bei so einem Gestaltungsansatz ist es nicht mehr möglich, Farbe zuverlässig als Mittel der Auszeichnung zu nehmen.

Kontraststeigerung durch laterale Hemmung

Die Aufmerksamkeitsleitung durch Veränderungen im peripheren Wahrnehmungsfeld und durch die präattentive Wahrnehmung sind fest eingebaute Funktionsweisen unseres Wahrnehmungssystems, derer wir uns nicht entziehen können. Sie sortieren für uns vor und bestimmen, was wir uns jeweils intensiver anschauen. Auch die laterale Hemmung ist eine Eigenschaft der Wahrnehmung, die wir nicht bewusst steuern können. Sie sorgt dafür, dass wir Übergänge gut erkennen können. Sie kann aber bei ungeschickter Gestaltung auch für Fehlwahrnehmungen sorgen, die es zu vermeiden gilt.

Aufbau der Retina – Bild: Cajal, Anka Friedrich (CC BY-SA 3.0)
Aufbau der Retina – Bild: Cajal, Anka Friedrich (CC BY-SA 3.0)

Hier ist eine schematische Zeichnung der Retina zu sehen. Die Lichtstrahlen kommen von links und müssen, zumindest außerhalb der Fovea, zunächst eine Reihe von Zellen passieren, bevor sie auf die lichtempfindlichen Zapfen und Stäbchen (rechts) treffen. Die verschiedenartigen Zellen, die vor den Sensorzellen liegen, verknüpfen mehrere Zapfen und Stäbchen und gewährleisten dadurch eine schnelle Vorverarbeitung. Für unsere Zwecke ist es nicht erforderlich, dass wir die Funktionsweise der verschiedenen Zellen im Detail behandeln. Wir stellen aber fest, dass es zwischen den Zapfen und Stäbchen rechts und den Ganglienzellen, den „Kugeln“, auf der linken Seite eine komplexe Verschaltung gibt. Insgesamt werden im Auge sechs Millionen Zapfen und 120 Millionen Stäbchen auf nur eine Million Ganglienzellen verschaltet. Es findet im Auge also eine Art Datenreduktion, eine Komprimierung statt. Ein Teil der Verschaltungen, die im Auge passieren, dient der Kontrastverstärkung. Dies geschieht durch sogenannte „laterale Hemmung“. Die Erregung einer Nervenzelle hemmt dabei die Erregung der benachbarten Zellen.

Grundprinzip lateraler Hemmung
Grundprinzip lateraler Hemmung

Die tatsächlichen Verschaltungen im menschlichen Auge sind recht komplex. Obige Grafik zeigt eine einfache Form der lateralen Hemmung, die das Konzept für unsere Zwecke hinreichend gut verdeutlicht. Im oberen Teil der Grafik ist ein Übergang von einer dunklen Fläche zu einer hellen Fläche zu sehen. Diese Struktur wird von acht Sensorzellen erfasst, vier davon erfassen die dunkle, vier die helle Seite. Die Sensorzellen messen im dunklen Teil einen Wert von 4, im hellen Teil einen Wert von 8. In der Ebene darunter befindet sich eine Reihe von Knoten. Jeder Sensorzelle ist einer dieser Knoten direkt als Eingang zugeordnet. Die Knoten sind aber auch untereinander verschaltet. Jeder Knoten hemmt die neben ihm liegenden Knoten mit einem Viertel seines Eingangswerts. Wir können nun die Ausgangswerte berechnen. Die beiden hellblauen Knoten lassen wir außen vor, denn ihnen fehlt jeweils ein Partner. Für den ersten dunkelblauen Knoten haben wir einen Eingangswert von 4 und zwei Hemmungen von jeweils 1. Es bleibt ein Ausgangswert von 4-1-1=2. Das Gleiche gilt für den zweiten Knoten. Beim dritten Knoten verhält es sich anders, da von der rechten Seite nun eine Hemmung von 2 zu berücksichtigen ist. Der Ausgangswert ist demnach 4-1-2=1. Der nächste Knoten ist der erste Knoten auf der hellen Seite der Struktur. Der Eingangswert ist daher 8. Der Knoten wird von der linken Seite, die ja noch im dunklen Teil der Struktur liegt, um 1 gehemmt und von der rechten Seite, die im Hellen liegt, um 2. Es ergibt sich dementsprechend ein Ausgangswert von 8-1-2=5. Die nächsten beiden Knoten werden von beiden Seiten jeweils gleich gehemmt. Der Wert ist 8-2-2=4. Im unteren Bereich sehen Sie das Ergebnis der Verschaltung. Der Kontrast an der Stelle des Übergangs wurde vom Verhältnis 1:2 zum Verhältnis 1:5 erhöht. Die Nebenwirkung dieser Kontrasterhöhung ist aber, dass der Übergang nun eine Art Aura hat. Die Randbereiche um die Übergangsstelle erscheinen dunkler bzw. heller, als sie tatsächlich sind.

Wahrnmungirritationen durch Laterale Hemmung
Wahrnmungirritationen durch Laterale Hemmung

Die laterale Hemmung ermöglicht dem Menschen ein verlässliches Erkennen selbst geringer Helligkeitsunterschiede. Dies ist für eine schnelle Erkennung von Umrissen sehr hilfreich. Sie kann bei der Gestaltung von Nutzungsschnittstellen aber auch problematisch werden. Das weiße und das graue Rechteck unten links erhalten durch unsere Wahrnehmung eine dunkle bzw. helle Aura. Dieser Effekt stört aber in der Regel nicht. Problematisch ist hingegen der Helligkeitsverlauf. Er erhält durch die laterale Hemmung eine physisch nicht existierende helle Aura an seinem Ende. Obwohl er technisch einwandfrei gelöst ist, wirkt er schlecht gestaltet. Dem Problem kann dadurch abgeholfen werden, dass anstelle eines linearen ein logarithmischer Verlauf verwendet wird oder indem der Verlauf nicht nur über einen Teil, sondern über die komplette Fläche verläuft. Wie im Bild unten rechts zu erkennen ist, kann das Problem der hellen Aura auch bei einem Schlagschatten auftreten. Auch in diesem Fall hilft ein großflächigerer Verlauf.

Wahrnehmung als Hypothesenbildung

Zu Beginn dieses Kapitels haben wir erläutert, warum das Bilden von Hypothesen für das Wahrnehmungssystem notwendig ist. Hypothesenbildung gibt es in der Wahrnehmung auf verschiedenen Ebenen. Schon auf der Ebene der basalen Eigenschaften der visuellen Wahrnehmung lassen sich solche Hypothesen formulieren. Dass etwas, das sich im Augenwinkel bewegt, gefährlich sein kann oder dass sich ein Objekt (zum Beispiel eine Beere) von umgebenden Objekten (zum Beispiel den Blättern) unterscheidet, die Aufmerksamkeit verdient, ist ja letztlich nur eine Hypothese. Es muss nicht so sein, aber in der Evolution ist diese Annahme so lange von Vorteil, bis sich eine bessere Variante durchsetzt.

Hypothesenbildung findet man auch in anderen Teilen der Wahrnehmung. Viele dieser Hypothesen sind nicht genetisch bedingt, sondern von der individuellen Erfahrung eines Menschen abhängig. Für bestimmte Situationen ist offensichtlich, ob eine bestimmte Wahrnehmungshypothese erlernt ist oder direkt aus der Physiologie des Menschen ableitbar ist. In anderen Fällen ist das nicht so klar und die Übergänge sind fließend. Die Tiefenwahrnehmung, also einzuschätzen, ob etwas in der Nähe oder weit entfernt ist, ist zumindest teilweise erlernt23. Man konnte das feststellen, als man indigene Völker untersuchte, die ausschließlich im Wald lebten und die Erfahrung der Sicht auf etwas weit Entferntes nie machen konnten. Führte man diese Menschen auf einen Berg, konnten sie nicht einschätzen, ob in der Ferne liegende Berge weit entfernt waren. Sie erschienen ihnen genauso nah wie tatsächlich in der Nähe befindliche Objekte. Dass wir Entfernungen einschätzen können, ist also nicht komplett biologisch verdrahtet, sondern hat auch mit unseren Erfahrungen zu tun. Man könnte auch von „kulturellen Erfahrungen“ sprechen.

Form und Bedeutung

Sicher ist es Ihnen schon mal so gegangen, dass Sie ein Muster erkennen, es aber nicht interpretieren konnten, während ein Experte das gleiche Bild ansah und sofort etwas erkannte. Ultraschallbilder sind ein gutes Beispiel dafür. Wenn Sie noch nie eines gesehen haben und nicht wissen, worum es geht, fehlen Ihnen vergleichbare Bilder, die es Ihnen ermöglichen, relevante von irrelevanten Mustern zu unterscheiden. Mit etwas Erfahrung ist es Ihnen jedoch möglich, die grundsätzlichen Umrisse eines Kindes zu erkennen. Mit der umfangreichen Erfahrung eines Arztes könnten Sie aber noch mehr erkennen.

Ähnlich verhält es sich bei Darstellungen wie dem unten abgebildeten Muster. Relativ amorphe Flecken werden zu einer sinnvollen Ganzheit gruppiert. Im Prozess der Wahrnehmung werden fehlende Bildelemente so ergänzt, dass eine sinnvolle Gestalt entsteht. Diese „Bedeutung“ liegt nicht allein an der Form der Flecken. Wahrscheinlich erkennen Sie im Bild die Silhouette eines Dalmatiners, der auf dem Boden schnüffelt. Oben links befindet sich ein Baum, der einen Schatten wirft. Sie können diese Objekte auf dem Bild nur dann sehen, wenn Sie eine ähnliche Szenerie kennen, wenn es Ihnen möglich ist, eine passende Hypothese, eine Dalmatiner-Hypothese, aufstellen zu können. Was Sie sehen, hängt also stark davon ab, welche Erfahrungen Sie in Ihrem Leben schon gemacht haben.

Ein Dalmatiner? Quelle: Johnson, Jeff: Designing with the Mind in Mind. Published in: Marr, David: Vision. A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman and Co., New York, p. 101. 1982.
Ein Dalmatiner? Quelle: Johnson, Jeff: Designing with the Mind in Mind. Published in: Marr, David: Vision. A Computational Investigation into the Human Representation and Processing of Visual Information. W. H. Freeman and Co., New York, p. 101. 1982.

Erst mit dem Erkennen einer dreidimensionalen Szenerie in einer Zeichnung entsteht auch der Eindruck einer Tiefenwahrnehmung. Wenn Sie auf dem Bild unten noch nichts erkannt haben, erscheint Ihnen das Bild sicherlich flach. Wenn wir Ihnen nun aber sagen, dass eine Person auf einer Bank sitzt und Sie das dann auch erkennen, scheint das Bild jetzt Tiefe zu haben.

Ein sitzender Mensch? – Bild: Rock, Irvin. "The logic of perception." (1983)
Ein sitzender Mensch? – Bild: Rock, Irvin. “The logic of perception.” (1983)
Ein verstecktes Gesicht in der Oper in Sydney – Foto: Richard Berenbrinck
Ein verstecktes Gesicht in der Oper in Sydney – Foto: Richard Berenbrinck

Der Wahrnehmungsapparat des Menschen setzt die Sinnesreize in Beziehung zueinander, um eine bedeutungsvolle Form zu schaffen und sich auf eine bekannte Struktur zu beziehen. Diese Hypothesenbildung kann mitunter ein Eigenleben entwickeln. Auf dem Bild oben sehen Sie die Oper von Sydney. Haben Sie auf dem Bild in der Mitte auch ein großes Gesicht gesehen? Gerade in der Gesichtserkennung ist unser Wahrnehmungssystem besonders gut, weshalb Menschen oftmals dazu neigen, überall Gesichter zu erkennen, vom Jesus-Antlitz im Toastbrot bis hin zu Wolkenformationen. Solche Projektionen funktionieren aber auch für viele andere vertraute Objekte oder Strukturen.

Der Hypothesengenerator nach Gregory

Vereinfachte Version des Hypothesengenerators nach Gregory – Abwandlung von: Gregory, Richard L.: Eye and Brain. The Psychology of Seeing
Vereinfachte Version des Hypothesengenerators nach Gregory – Abwandlung von: Gregory, Richard L.: Eye and Brain. The Psychology of Seeing

Das Wahrnehmungssystem kann also als Einrichtung verstanden werden, die fortwährend Hypothesen generiert. Der Psychologe Richard Gregory beschreibt einen solchen Hypothesengenerator als zentrales Element der Wahrnehmungsarchitektur. Wir geben ihn hier in leicht vereinfachter Form wieder24.

Der Hypothesengenerator speist sich aus mehreren Quellen. Teile der Außenwelt werden durch die Sinne erfasst (Bottom-Up). Dieser sensorische Teil der Wahrnehmung kommt in der Form von Signalen im Gehirn an. Diese Wahrnehmungsreize allein reichen aber zur Wahrnehmung eines Objekts nicht aus. Erst mit der Einbeziehung von Wissen und Erfahrung (Top-Down) kann das Gehirn hieraus „erraten“, was das Wahrgenommene ist. Um weitere Erkenntnisse darüber zu bekommen, ob richtig geraten wurde, muss der Mensch handeln und seine Umwelt manipulieren. Eine Bestätigung oder ein Widerspruch zur Hypothese geht in den Wissensschatz ein und kann zukünftige Hypothesen beeinflussen. Im Kapitel „Differenzerfahrung und Wissen“ haben wir dieses Überprüfen einer Hypothese durch Handlungen „Differenzerfahrung“ genannt. An Gregorys Hypothesengenerator ist neben dem Bottom-Up- und dem Top-Down-Weg noch ein Seitenweg von Abkürzungen beteiligt. Diese Abkürzungen sind ebenso Teil der Hypothesenbildung, entstammen aber nicht dem individuellen Wissen und den Erfahrungen, sondern sind im Wahrnehmungssystem unveränderlich verankert, entsprechen also allenfalls einer evolutionären Erfahrung. Hierunter fallen etwa die Mechanismen der Aufmerksamkeitsleitung, der peripheren Wahrnehmung und der präattentiven Vorauswahl.

Gehirnareale der räumlichen Verarbeitung (Quellen siehe Fußnote)
Gehirnareale der räumlichen Verarbeitung (Quellen siehe Fußnote)

Diese Aspekte der Hypothesenbildung auf Grundlage der sensorischen Wahrnehmung und der Erfahrung finden sich in der Physiologie des Gehirns wieder. Obige Abbildung25 verdeutlicht, dass zunächst eine Vorverarbeitung im visuellen Cortex stattfindet, in dem ganz grundlegende Eigenschaften wie Farben und Kanten erfasst werden. Das Ergebnis der so vorbehandelten sensorischen Informationen bildet den Bottom-Up-Teil der Wahrnehmung. Erst im Zusammenwirken mit Erfahrungswissen kann hieraus eine Hypothese über die Wahrnehmung abgeleitet werden. Die Architektur der menschlichen Wahrnehmung unterscheidet dabei zwischen der Erkennung, was wahrgenommen wird, von der Erkennung, wo sich etwas befindet. Dass diese beiden Wahrnehmungsaspekte voneinander getrennt sind und die jeweilige Hypothesenbildung unabhängig voneinander erfolgt, lässt sich an einem Alltagsphänomen gut nachvollziehen. Objekte, die sich stets an einem bestimmten Ort befanden, werden der Erwartung entsprechend auch an diesem Ort vermutet. Denken Sie zum Beispiel an Bücher in einem Regal. Sortiert man das bekannte Objektarrangement um, läuft diese Annahme in die Irre. Obwohl sich das Aussehen der einzelnen Bücher überhaupt nicht geändert hat, ist das Wiederfinden stark verzögert. Im Zusammenspiel mit der bereits zuvor erläuterten Beschränktheit des scharfen Sehens erklärt sich das zu beobachtende Phänomen, dass die Hypothesen über den Ort viel stärker wirken als die Hypothesen zum Aussehen. Die Hypothese, dass Objekte ihren Ort eher nicht ändern, ist in Hinblick auf die Umwelt folgerichtig.

Konstanzphänomene

Der Hypothesengenerator und die Betrachtung der Wahrnehmungsareale im Gehirn verdeutlichen, dass Wahrnehmen nicht ein simples Abbilden von Sinnesreizen in neuronale Muster, sondern stets eine Konstruktion ist. Einige interessante Phänomene, die das gut verdeutlichen, sind die sogenannten „Konstanzphänomene“. Sie alle sind unter der grundsätzlichen Annahme erklärbar, dass unsere Umgebung im Großen und Ganzen stabil ist. Diese Grundhypothese findet ihren Ausdruck in den Konstanzphänomenen der Wahrnehmung.

Änderungen der wahrgenommenen Form werden bevorzugt als Perspektivänderung wahrgenommen.
Änderungen der wahrgenommenen Form werden bevorzugt als Perspektivänderung wahrgenommen.

Formkonstanz: In den meisten Situationen ändern Gegenstände nicht ohne sichtbaren Einfluss ihre Form. Wenn sich die Form eines Objekts auf der Netzhaut daher ändert, gehen wir davon aus, dass sich nicht die Form des wahrgenommenen Gegenstands geändert hat, sondern dass sich die Perspektive auf diesem Gegenstand geändert hat, sich also der Betrachter oder der Gegenstand bewegt hat.

Größenkonstanz: Auch die Größe eines Objekts ändert sich üblicherweise nicht von selbst. Wenn sich also die Größe der Objektabbildung auf der Netzhaut ändert, weil wir unseren Abstand zum Objekt verändern, gehen wir nicht davon aus, dass das Objekt selbst größer oder kleiner geworden ist.

Helligkeitskonstanz: Die Oberflächenstruktur eines Objekts und damit seine Eigenschaft, Licht zu reflektieren, ändert sich in den meisten Situationen nicht. Wenn sich die Helligkeit einer Abbildung auf der Netzhaut daher ändert, interpretieren wir dieses nicht als Änderung der Oberflächenstruktur des Objekts, sondern gehen davon aus, dass sich die Beleuchtungssituation geändert hat. Solche Beleuchtungsänderungen sind im Gegensatz zu dunkler oder heller werdenden Objekten sehr häufig. Sie treten zum Beispiel auf, wenn sich eine Wolke vor die Sonne schiebt.

Farbkonstanz: Auch die Farbigkeit von Objekten ändert sich meist nicht. Ähnlich wie im Fall der Helligkeitskonstanz wird daher eine Farbänderung eines Objekts auf der Netzhaut nicht als Farbänderung des Objekts selbst, sondern als ein Wechsel in der Umgebungsbeleuchtung interpretiert. Wenn Sie einen Gegenstand etwa aus einem Platz am Fenster in einen Bereich bringen, der mit Glühlampen beleuchtet ist, gehen Sie nicht davon aus, dass dieser Gegenstand gelber geworden ist, sondern führen die Farbveränderung auf die Veränderung der Beleuchtungssituation zurück.

All diese Konstanzphänomene lassen sich mit der eingangs genannten Grundhypothese begründen. Unser Wahrnehmungssystem hat sich an eine stabile Umwelt angepasst. Dinge ändern nicht ohne Anlass ihre Farbe, werden heller oder dunkler, verformen sich oder verändern sich in ihrer Größe. Es kommt hingegen sehr oft vor, dass es heller und dunkler wird, dass sich die Lichtfarbe ändert, dass Dinge sich entfernen, näher kommen oder dass sich die Perspektive auf Gegenstände ändert.

Design-Konsequenzen

Vor allem die Helligkeits- und Farbkonstanz hat direkte Konsequenzen für die Gestaltung von Nutzungsschnittstellen. Beim Auswählen von Farben und beim Gestalten von Farbabstufungen muss immer bedacht werden, dass das menschliche Wahrnehmungssystem nie eine einzelne Farbe neutral wahrnimmt, sondern dass eine wahrgenommene Farbe in Bezug auf Farbton, Sättigung und Helligkeit im Kontext mit den Farben der Umgebung, insbesondere den angrenzenden Farben betrachtet werden muss.

Simultankontrast: Farben werden je nach Umgebung unterschiedlich wahrgenommen
Simultankontrast: Farben werden je nach Umgebung unterschiedlich wahrgenommen
Änderung der wahrgenommenen Leuchtkraft in Abhängigkeit vom Hintergrund
Änderung der wahrgenommenen Leuchtkraft in Abhängigkeit vom Hintergrund

Die Farben werden jeweils in ihrer Umgebung „interpretiert“. Bei kaltem oder warmem Licht wird die gleiche im Auge eintreffende Farbe anders wahrgenommen. Im Bild sind der braune Fächer und die grünen Kreise jeweils technisch gleichfarbig. Sie erscheinen aber einen stark unterschiedlichen Farbton zu haben. Für die Gestaltung von Farbe am Bildschirm heißt das vor allem, dass Farbwirkungen nicht allein aus der technischen Farbbeschreibung bestimmt werden können, sondern dass die umgebenden Farben immer mitbedacht werden müssen, da Farbeindrücke in der Umgebung einer farbigen Fläche durch eben diese Flächenfarbe beeinflusst werden. Dieses Phänomen wird Simultankontrast genannt. Farben sollten also als Ensemble gestaltet werden.

Eine spezielle Form des Simultankontrastes und Folge der Helligkeitskonstanz ist die Abhängigkeit der Helligkeitswirkung eines Objekts von seiner Umgebungshelligkeit. In der Abbildung oben sehen Sie, dass die Objekte auf der rechten Seite leuchtender wirken als die auf der linken Seite. Dass das so ist, kann man als umgekehrte Anwendung der Helligkeitskonstanz interpretieren. Wird es in einem Raum dunkler, werden sowohl die wahrgenommene Helligkeit der Objekte im Raum als auch die der Umgebung dunkler. Wir interpretieren dies nicht als eine Abdunkelung des Objekts, sondern als eine Änderung in der Beleuchtung. Wird aber die Helligkeit des Raums dunkler und die tatsächliche Helligkeit der Objekte bleibt dennoch gleich, dann wird das folgerichtig vom Wahrnehmungssystem als Helligkeitsanstieg der Objekte interpretiert.

Optische Täuschungen

Die Hypothesen des Wahrnehmungssystems haben sich über lange Zeiträume bewährt und sind recht verlässlich. Mit geschickten Konstruktionen ist es jedoch möglich, falsche Schlussfolgerungen zu provozieren. Die optischen Täuschungen sind ein gutes Beispiel dafür.

Optische Täuschungen
Optische Täuschungen

Bei diesen Täuschungen liegen Wahrnehmungssituationen vor, in denen die Hypothesen des Wahrnehmungssystems offensichtlich fehllaufen. Uns erscheinen unterschiedlich lange, zueinander gerichtete, gebrochene oder unterschiedlich große Objekte unterschiedlich, obwohl sie faktisch gleich lang, parallel, durchgehend oder gleich groß sind. Viele dieser Täuschungen lassen sich mithilfe des Hypothesengenerators erklären, denn es handelt sich meist um geschickt isolierte Ausschnitte, die im Prozess des Sehens eine schnelle Interpretation des Wahrgenommenen ermöglichen. Da sie aber in dieser isolierten Form nie oder nur äußerst selten in der natürlichen Umgebung des Menschen auftreten, führen sie zu falschen Wahrnehmungseindrücken. Zwar lassen sich diese Eindrücke durch zusätzliche Informationen als falsch erkennen, doch verschwindet die Täuschung dadurch nicht. Da unser Wissen den Wahrnehmungseindruck nicht verändern kann, ist dies ein Hinweis darauf, dass diese Erkennungsmechanismen fest im Wahrnehmungsapparat verankert sind. Ähnlich wie bei den unmöglichen Figuren, wie z. B. dem Penrose-Dreieck, können durch die Einbettung in einen erweiterten Wahrnehmungskontext beispielsweise durch geänderte Perspektiven oder die Hinzunahme von Hilfsmitteln und Messgeräten optische Täuschungen und Illusionen als solche erkannt werden.

Zugewandte und abgewandte Kanten in alltäglichen Wahrnehmungssituationen
Zugewandte und abgewandte Kanten in alltäglichen Wahrnehmungssituationen

Die Isolierung aus einem natürlichen Wahrnehmungskontext wollen wir anhand der „Müller-Lyer-Täuschung“ illustrieren. Man betrachte diese beiden Darstellungen: Beide zeigen bekannte, recht unspektakuläre, Wahrnehmungssituationen. Links ist eine Ecke einer Abzweigung in einem Flur zu sehen. Klar erkennbar ist eine vertikale Kante, die als dem Betrachter zugewandte Kante interpretiert wird. Die Abbildung rechts zeigt das Innere eines Aufzugs. Auch hier ist eine vertikale Kante zu sehen. In diesem Falle wird sie aber als hinten liegende Kante erkannt.

Verantwortlich dafür, ob wir die Kante als vorne liegend interpretieren, bei der sich die angrenzenden Wände vom Betrachter weg fortsetzen, wie links, oder als eine hinten liegende, bei der die angrenzenden Wände sich in Richtung des Betrachters fortsetzen, wie rechts, kann aus den Winkeln geschlossen werden, die diese Wände mit denen der Decke und des Bodens bilden. In den Abbildungen unten sehen Sie diese Kanten eingezeichnet. Es ergibt sich genau die Situation der Müller-Lyer-Täuschung. Auch in den Abbildungen oben tritt die Täuschung auf. Beide vertikale Linien sind exakt gleich lang. Die Wahrnehmung, dass die rechte Kante als länger wahrgenommen wird, ist aber folgerichtig, denn die räumliche Interpretation der Szenerie gibt dem Wahrnehmungssystem den Hinweis, dass es sich rechts um eine weiter entfernte und links um eine näher liegende Kante handelt. Wenn diese optisch gleich groß sind, wird, der Größenkonstanz entsprechend, die rechte als länger und die linke als kürzer interpretiert.

Verdeutlichung der persektivischen Wahrnehmungsmerkmale
Verdeutlichung der persektivischen Wahrnehmungsmerkmale

Wir haben nun die Fehlinterpretation der Müller-Lyer-Täuschung auf eine Hypothese über Gegebenheiten bei der Wahrnehmung dreidimensionaler Szenerien zurückgeführt. Ob diese Erklärung tatsächlich korrekt ist, lässt sich nicht endgültig feststellen. Die 3D-Hypothese ist aber ziemlich plausibel, denn unsere Wahrnehmung ist ja an unsere irdische Welt angepasst. Sie ist darauf geeicht, dreidimensionale Objekte zu erkennen. Im Folgenden schauen wir uns einige der Hypothesen für diese Wahrnehmungsbereiche an. Sie sind später auch grundlegend für viele Gestaltungsentscheidungen am Bildschirm.

3D-Raum-Hypothesen

Necker-Würfel
Necker-Würfel

Das menschliche Wahrnehmungssystem hat sich in einer Welt entwickelt, in der die Erkennung dreidimensionaler Objekte sich als evolutionär erfolgreich gezeigt hat. Somit ist es kein Wunder, dass auch bei der Betrachtung zweidimensionaler Bilder die Hypothesen für das Erkennen einer dreidimensionalen Welt zum Tragen kommen. Donald D. Hoffman26 beschreibt in seinem Buch „Visuelle Intelligenz. Wie die Welt im Kopf entsteht“ umfangreich, nach welchen Regeln die dreidimensionale Interpretation konstruiert werden kann. Wir geben seine Gedanken nur in Auszügen mit besonderem Fokus auf die für uns später wichtigen Aspekte wieder.

Auf der Abbildung oben ist ein Würfel zu erkennen. Das zeigt, dass das menschliche Wahrnehmungssystem auch dann einen räumlichen Eindruck erzeugt, wenn keinerlei Textur oder Schattierung eine räumliche Interpretation nahelegen. Das Bild wird nämlich nicht als Ansammlung von horizontalen, vertikalen und diagonalen Linienzügen gesehen, sondern als ein sich im Raum befindliches dreidimensionales Gebilde. Wir sehen hier auch nicht irgendein räumliches Gebilde, sondern einen Würfel. Dabei könnte es eine Vielzahl von dreidimensionalen Drahtfiguren geben, die einen solchen Wahrnehmungseindruck auslösen. Aus der Überlegung, dass nicht beliebige, sondern nur spezielle Strukturen erkannt werden, leitet Hoffman Wahrnehmungsregeln ab, die wir in unserem Sinne als „Hypothesen“ bezeichnen können. Die Grundhypothese lautet, dass unser Wahrnehmungssystem alles Wahrgenommene dreidimensional interpretiert und dass das jeweils Wahrgenommene keine absolute Ausnahme ist, sondern einer eher typischen Wahrnehmungssituation entspricht.

Hier sehen Sie eine gerade Linie. Wenn diese Linie die Abbildung von etwas Dreidimensionalem ist, dann ist die Wahrscheinlichkeit hoch, dass das auch im Dreidimensionalen eine gerade Linie ist. Es gibt zwar Situationen, in denen etwas, das im Dreidimensionalen geschwungen ist, in einer zweidimensionalen Abbildung gerade erscheint. Diese Linie könnte etwa ein Kreis sein – wenn man genau von der Seite auf ihn schaut – aber das wäre eine absolute Ausnahmeperspektive. Eine minimale Änderung der Perspektive würde sofort wieder etwas Elliptisches zutage fördern. Hoffman formuliert daher:

Regel 1: Interpretiere eine gerade Linie in einem Bild stets als eine gerade Linie in 3-D.

Weitere Regeln beziehen sich darauf, wie sich die Relationen von Linienzügen im Zweidimensionalen zu denen im Dreidimensionalen verhalten.

Kopfermannsche Figuren
Kopfermannsche Figuren

Es ist schwierig, die linke Figur als Würfel zu sehen. Jetzt, wo Sie wissen, dass es ein Würfel sein soll, gelingt es Ihnen vielleicht, aber es erfordert zusätzliche Anstrengungen; ein Hinweis darauf, dass diese Sicht nicht mit den verankerten Wahrnehmungshypothesen übereinstimmt. In diesem Fall widerspricht die Interpretation als Würfels zwei Regeln, die Hoffman folgendermaßen beschreibt.

Regel 2: Wenn die Enden zweier Linien in einem Bild zusammenfallen, interpretiere sie stets so, dass sie auch in 3-D zusammenfallen.

Regel 3: Interpretiere Linien, die in einem Bild kollinear sind, also in einer Flucht erscheinen, auch in 3-D als kollinear.

Beim schwer erkennbaren Würfel fallen Linien zusammen, die im Dreidimensionalen nur unter einer einzigen Perspektive zusammenfallen. Andere Linienzüge scheinen in einer Flucht zu stehen, nicht aber in der entsprechenden dreidimensionalen Figur. Die Figur ist somit eine konstruierte Ausnahme ebenso wie der zuvor beschriebene aus einer Seitenperspektive betrachtete Kreis. Wie rechts zu sehen ist, bringt schon eine kleine Bewegungsänderung ein anderes Bild hervor. Die Interpretation als Würfel ist dann wieder einfacher möglich.

Hoffman stellt viele weitere Regeln für das Erkennen dreidimensionaler Figuren auf. Interessant sind zum Beispiel die Regeln, die beschreiben, wie man geschwungene, dreidimensionale Figuren, bei denen Teile der Figur andere Teile der Figur verdecken, interpretieren kann. Wir belassen es an dieser Stelle aber dabei und werfen abschließend einen Blick darauf, welche Hypothesen – in Hoffmans Sprachgebrauch Regeln genannt – man aufstellen kann, um eine dreidimensionale Figur in Teilfiguren zu zerlegen.

Schröder-Treppe von H. Schröder aus dem Jahr 1958 – Bild nach: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 117
Schröder-Treppe von H. Schröder aus dem Jahr 1958 – Bild nach: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 117

Diese Abbildung zeigt die sogenannte Schröder-Treppe. Wie schon beim Würfel besprochen, gibt es mehrere mögliche Interpretationen dieser Figur. Wenn Sie länger hinsehen, springt Ihre Wahrnehmung vielleicht zwischen diesen Interpretationen hin und her. Mal erscheinen die Treppenstufen unten, mal scheinen sie unter der Decke zu hängen. Einigen wir uns zunächst einmal darauf, dass wir die Figur so interpretieren, dass die Stufen unten sind, es also eine Treppe ist, die man von links oben nach rechts unten hinabsteigen kann. Sie sehen zwei Punkte. Sehen Sie sie auf ein und derselben Treppenstufe oder auf zwei verschiedenen? Die Beantwortung dieser Frage läuft auf das Problem hinaus, wie Sie das Objekt Treppe in Teilobjekte unterteilen.

Hoffman stellt für solche Fälle die folgende Regel auf:

Regel 14: Regel der konkaven Falten: Zerlege Formen entlang konkaver Falten in Teile.

Diese Regel leitet sich aus der Betrachtung der Verdeckung von Objekten ab. Wenn zwei Figuren ineinandergesteckt werden, entsteht an der Schnittstelle zwischen den beiden Figuren eine scharfe Kante; im nachfolgenden Bild durch eine gestrichelte Linie dargestellt. An dieser Stelle entsteht zwischen den beiden Teilfiguren eine konkave Falte; sie zeigt in das Objekt hinein. Die rote Einzeichnung in der Abbildung verdeutlicht diese Falte:

Zwei Figuren, die sich schneiden, bilden eine konkave Falte – Quelle: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht, Seite 116
Zwei Figuren, die sich schneiden, bilden eine konkave Falte – Quelle: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht, Seite 116

Auch bei der Schröder-Treppe von oben lassen sich solche konkaven Falten finden, im Folgenden rot eingezeichnet.

Dreidimensionale Zerlegung der Schröder-Treppe entlang der konkaven Falten.
Dreidimensionale Zerlegung der Schröder-Treppe entlang der konkaven Falten.

Zerteilen wir an ihnen das Bild, ergibt sich obige Situation, also eine Aufteilung, bei der die beiden Punkte auf der gleichen Stufe liegen. Dreht man das Bild, wie rechts zu sehen, auf den Kopf, werden die Falten, die eben noch konkav waren, konvex und umgekehrt. Folglich liegen die beiden Markierungspunkte nun nicht mehr auf derselben Stufe, sondern auf zwei verschiedenen.

Verdeckungshypothesen

Auch wenn es in der klassischen Softwareergonomie nicht um die Darstellung „echter“ 3D-Objekte am Bildschirm geht, müssen wir bei der Interpretation der Nutzungsschnittstelle von einer Welt ausgehen, in der Objekte vor- und hintereinander liegen und einander somit verdecken. Dass die menschliche Wahrnehmung auf solche Situationen gut eingerichtet ist, lässt sich an den „Kanizsa-Dreiecken“ verdeutlichen.

Kanizsa-Dreieck
Kanizsa-Dreieck

Das obige Bild zeigt ein solches Kanizsa-Dreieck. Man sieht hier mehr, als es eigentlich zu sehen gibt: ein Dreieck, das nicht existiert. Das weiße Dreieck mit der Spitze nach oben scheint sogar heller zu sein als der Hintergrund. Viele unterschiedliche Hypothesen sind diskutiert worden, um diese Wahrnehmungstäuschung begründen zu können. Eine typische Erklärung lautet beispielsweise, dass wir über umfangreiche Erfahrungen mit Dreiecksfiguren verfügen und uns die Interpretation dieser Darstellung mit der zusätzlichen Figur eines weißen Dreiecks einfacher und damit plausibler erscheint, als ohne. Unser Wahrnehmungssystem konstruiert das Dreieck also als sinnvolle Ergänzung hinzu.

Weitere Beispiele für virtuelle Konturen
Weitere Beispiele für virtuelle Konturen

Auch in diesen Abbildungen werden Figuren erkannt, die es nicht gibt. Im linken Falle ist die Vermutung, dass die Interpretation mit dem zusätzlichen Quadrat einfacher sei als ohne, durchaus plausibel. Für die rechte Figur von Marc Albert ist diese Erklärung aber schon kritisch, denn die Interpretation von vier Kreuzen ist erheblich einfacher als eine mit einer kissenartigen Überlagerung, auch wenn eine solche kissenförmige Figur durchaus noch zu den bekannten Figuren gezählt werden kann.

Auch unbekannte und unregelmäßige Flächen können als virturelle Kontur erscheinen – Bild aus Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 80
Auch unbekannte und unregelmäßige Flächen können als virturelle Kontur erscheinen – Bild aus Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 80

Spätestens bei dieser Figur funktioniert diese Vermutung aber nicht mehr. Auch hier sehen wir vier dunkle Kleckse, die von einer eigenartig geformten weißen Figur überlagert zu sein scheinen. Diese Figur ist sicher keine, die in dieser Form üblich und bekannt ist. Warum sollte sie dann die Interpretation der Wahrnehmung vereinfachen? Das Argument der vertrauten Figuren ist zumindest nicht ausreichend. Hoffmann geht auch wieder von einer 3D-Hypothese aus und nimmt an, dass unser Wahrnehmungssystem darauf ausgelegt ist, ein vorne liegendes Objekt von einem im Hintergrund liegenden Objekt zu unterscheiden, also Verdeckungen zu erkennen.

Konvexe Zacken an Überlagerungsstellen – Bild aus Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 85
Konvexe Zacken an Überlagerungsstellen – Bild aus Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 85

Nach Hoffman sind konvexe Zacken ein Hinweis für das Wahrnehmungssystem, eine Verdeckung anzunehmen. Wenn jedoch, wie man in der Abbildung sieht, eine im Vordergrund liegende Kontur ein im Hintergrund liegendes Objekt verdeckt, dann entsteht an der Hintergrundfigur der Eindruck einer konvexen Zacke. Bei allen Beispielen virtueller Verdeckung, die Sie auf den vorherigen Seiten gesehen haben, gibt es derartige konvexe Zacken. Sie dienen dem Wahrnehmungssystem als Hinweis darauf, dass an dieser Stelle eine Verdeckung vorliegen könnte.

Die Kanizsa-Dreiecke und ähnliche Figuren zeigen eindrücklich, dass das Wahrnehmungssystem auf die Erkennung von Verdeckungen eingerichtet ist. Die erfolgreiche Erkennung von Verdeckungen, also die Unterscheidung von Hintergrund und Vordergrund im Erkannten, kann entscheidend sein, um erkennen zu können, was abgebildet ist.

Was sehen Sie hier?
Was sehen Sie hier?

Obige Abbildung kann das gut verdeutlichen. Hier scheint nichts Bekanntes abgebildet zu sein. Zu erkennen sind nur auf eigenartige Weise unterbrochene Konturen.

Die Abbildung unten zeigt exakt die gleichen schwarzen Konturen. Allerdings wird jetzt ersichtlich, dass es sich bei den Konturen um einen durch ein anderes Objekt verdeckten Körper handelt. Erst durch das Interpretieren der Konturen als verdecktes Objekt setzt die Erkennung ein und das Objekt wird als großes M ohne Weiteres erkannt, obwohl von diesem M kein Deut mehr zu sehen ist als vorher.

Wenn eine Verdeckung erkannt wird, wird das Verdeckte erkennbar
Wenn eine Verdeckung erkannt wird, wird das Verdeckte erkennbar

Beleuchtungshypothesen

Das Verdeckungsbeispiel zeigt, dass unser Wahrnehmungssystem auf das Erkennen von Verdeckungen, also auf die Unterscheidung von Vordergrund und Hintergrund, optimiert zu sein scheint. Das ist auch nicht verwunderlich, denn diese Unterscheidung ist die Grundlage, um aus zweidimensionalen Netzhautbildern eine räumliche Vorstellung von der Umgebung zu gewinnen. Erfahrung spielt dabei offenbar eine Rolle. Strukturen werden als Vordergrund angesehen, wenn es sich um bekannte Figuren, wie etwa Silhouetten von Menschen, handelt. Für uns interessanter sind aber die Untersuchungen, die sich mit den optischen Hinweisen beschäftigen, anhand derer auch bei unbekannten Strukturen zwischen Vordergrund und Hintergrund unterschieden wird. Einige der Annahmen hierzu sind geometrischer Natur.

  • Wenn eine kleine Struktur, etwa ein Buchstabe, von einer größeren Struktur umgeben ist, wird die kleine Struktur als der Vordergrund angesehen.
  • Eine Figur, die viele konvexe Züge aufweist (also nach außen gestülpt ist), wird als im Vordergrund liegend angesehen.

Für unseren Zweck interessanter sind jedoch solche Hinweise, die sich auf Farbtöne, Helligkeiten und Sättigungen beziehen. Sie sind zum Beispiel dafür verantwortlich, in Bildern wie dem folgenden Tiefe zu erkennen. Dass Farbtöne, Helligkeit und Sättigung eine Rolle spielen, scheint klar zu sein, allerdings sind die Details auch in der Forschung noch nicht vollständig geklärt. In Experimenten zeigt sich, dass einige optische Hinweise nicht in jedem Kontext den gleichen Effekt auslösen. Realweltliche Szenerien wie die unten abgebildeten Beispiele zeichnen sich dadurch aus, dass mehrere Regeln gleichzeitig angewandt werden müssten. Welche Regeln jeweils Priorität haben, ist nicht immer klar. Zusammengenommen geben sie aber doch gute Hinweise darauf, welche optischen Andeutungen eine Vordergrund-Hintergrund-Unterscheidung unterstützen. Sie geben uns Hinweise darauf, wie eine solche Unterscheidung bei Bildschirmobjekten gestaltet werden kann.

Darstellung der Tiefe einer Landschaft in Neuseeland – Bild: Harald Selke
Darstellung der Tiefe einer Landschaft in Neuseeland – Bild: Harald Selke

In Experimenten lassen sich folgende Tendenzen beobachten:

  • Befinden sich auf einem Bild in einem Bereich matte, ungesättigte Farben und in einem anderen Bereich kräftige, gesättigte Farben, wird die ungesättigte Region als hinten, die gesättigte als vorne interpretiert. Dies entspricht natürlichen Wahrnehmungssituationen, etwa auch im Bild oben. Licht, das von entfernten Objekten reflektiert wird, muss mehr Luft durchdringen und wird dort gestreut. Die Farben erscheinen daher ungesättigter27.
  • Bestimmte Farben liegen tendenziell eher vor anderen Farben. Rot und Gelb werden tendenziell als im Vordergrund liegend angesehen. Grün und Blau werden eher als Hintergrund interpretiert. Ob dies tatsächlich so wahrgenommen wird, hängt stark von der Helligkeit und der Sättigung der Farben ab. Auch diese Hinweisregel kann gut mit der Wahrnehmung unserer natürlichen Umgebung in Zusammenhang gebracht werden. Im Bild oben sieht man gut, dass Licht von weit entfernten Objekten bläulich erscheint.28 29.
  • Regionen, die in sich geringe Helligkeitskontraste aufweisen, werden als Hintergrund angesehen, solche mit hohen Helligkeitskontrasten als Vordergrund. Auch dieser Effekt ist im obigen Bild gut zu erkennen. Die Gräser im Vordergrund weisen einen hohen Detailkontrast auf, während die Berge im Hintergrund nur geringen Kontrast zeigen30 31. Grund ist wieder einmal die Streuung in der „dreckigen“ Luft.
  • Im Großen und Ganzen entsprechen Helligkeitsabstufungen dem Eindruck von Entfernungsabstufungen. In Experimenten unter Laborbedingungen wird die Richtung der Abstufung allerdings unterschiedlich aufgefasst. Einige Testpersonen tendierten zur Interpretation „Hinten dunkel, nach vorne hell“, andere zur Abstufung „Vorne dunkel, nach hinten heller“32 33.

Die vorgestellten optischen Hinweise für die Vordergrund-Hintergrund-Unterscheidung funktionieren auch für Bildausschnitte.

Auf dem ersten Ausschnitt ist der Vordergrund heller, gesättigter und kontrastreicher als der Hintergrund. Im zweiten Ausschnitt ist der Vordergrund zwar schon recht kontrastarm, aber immer noch erheblich kontrastreicher als der Hintergrund, der gänzlich frei von Details ist und zudem einen starken Blaustich aufweist. Der letzte Ausschnitt zeichnet sich vor allem durch den Kontrast zwischen einem dunkleren Farbton im Vordergrund und einem bläulichen Hintergrund aus, der in der Natur bei großen Distanzen durch die dazwischenliegende Atmosphäre entsteht. Diese lokalen Hinweise helfen dem Wahrnehmungssystem, die Szenerie schnell zu erfassen.

Übergänge versus plötzliche Farbänderungen

Die Abbildung unten Abbildung zeigt Farbquadrate von Jon Koenderink. Hoffman verwendet sie, um zu zeigen, dass die gleichen Farbunterschiede von unserem Wahrnehmungssystem verschieden interpretiert werden, je nachdem, ob sie in einem kontinuierlichen Übergang auftreten wie links, oder wenn es plötzliche Übergänge in Farbton, Sättigung oder Helligkeit gibt wie rechts. Die Teilquadrate rechts sind genau die gleichen wie die auf der linken Seite. Die mit 1 und 2 markierten Quadrate entsprechen sich jeweils. Im Gesamtquadrat links ergibt sich der Eindruck einer einheitlichen Fläche. Auf der rechten Seite hingegen scheint es sich nicht um eine einzige, zusammenhängende Fläche, sondern um eine zufällige Anordnung kleiner Flächen zu handeln.

Farbquadrate von Jon Koenderink zur Verdeutlichung der Wirkung kontinuierlicher Farbübergänge im Gegensatz zu willkürlichen Farbänderungen – Aus: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 146
Farbquadrate von Jon Koenderink zur Verdeutlichung der Wirkung kontinuierlicher Farbübergänge im Gegensatz zu willkürlichen Farbänderungen – Aus: Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 146

Hoffmann erklärt die unterschiedliche Wahrnehmung mit den folgenden zwei Regeln.

Regel 21: Interpretiere allmähliche Veränderungen von Farbtönen, Sättigung und Helligkeit in einem Bild als Beleuchtungsveränderungen.

Regel 22: Interpretiere plötzliche Veränderungen von Farbtönen, Sättigung und Helligkeit in einem Bild als Flächenveränderungen.

Licht von Über-Kopf

Eine weitere, sehr plausible Wahrnehmungshypothese, die Hoffmann aufgreift, ist die, dass Licht stets von „über Kopf“ kommt. Diese Annahme stimmt mit den Wahrnehmungssituationen auf der Erde überein, bei der die natürlichen Lichtquellen Sonne oder auch Mond eine Szenerie immer von oben oder allenfalls von der Seite her beleuchten, nie aber, abgesehen von eher seltenen Reflektionen, von unten.

Das Bild unten verdeutlicht die Wirkung dieser Wahrnehmungshypothese. Unser Wahrnehmungssystem erkennt fünf nach außen gestülpte Halbkugeln, während eine weitere Halbkugel, mittig in der unteren Reihe, nach innen gestülpt zu sein scheint.

Simulation einer Beleuchtung von links oben – Bild nach Hoffmann, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 152
Simulation einer Beleuchtung von links oben – Bild nach Hoffmann, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Seite 152

Die folgende Abbildung ist mit der vorherigen zu 100 % identisch. Sie wurde lediglich um 180 Grad gedreht. Mit der Drehung der Figur ändert sich auch die Interpretation des Wahrnehmungssystems. Nun erscheinen der Hypothese entsprechend die vorher ausgestülpten Halbkugeln hineingedrückt und umgekehrt.

Drehung des Bildes sorgt für eine Änderung der Tiefenwahrnehmung, da nach wie vor eine Beleuchtung von oben angenommen wird.
Drehung des Bildes sorgt für eine Änderung der Tiefenwahrnehmung, da nach wie vor eine Beleuchtung von oben angenommen wird.
Zusammenfassung

Mit diesen Betrachtungen zur Architektur der Wahrnehmung haben wir verdeutlicht, dass Wahrnehmung grundsätzlich selektiv, dafür aber relativ schnell erfolgt. Darüber hinaus wurde auch deutlich, dass das jeweils Wahrgenommene eine Konstruktion ist. Das bedeutet nicht, dass das Ergebnis willkürlich ist, denn willkürliche Hypothesen würden uns keinen Geschwindigkeitsvorteil verschaffen, sondern eher für Verwirrung sorgen. Deshalb können wir, wenn wir die Mechanismen der Wahrnehmung verstanden haben, Erkennungsvorgänge gezielt unterstützen. Gleichwohl können wir als Gestalter mit der Anwendung einiger grundlegender Regeln eine bestimmte Wahrnehmungsinterpretation nicht erzwingen, denn was in der jeweiligen Situation für den Betrachtenden von Bedeutung ist, hängt von vielen Faktoren in der Umwelt ebenso ab wie von den Erfahrungen des Wahrnehmenden selbst. Jedoch gilt, je besser und umfassender wir die Bedingungen menschlicher Wahrnehmungssituationen durch die Ausnutzung der Regeln bzw. Wahrnehmungshypothesen gestalten können, desto wahrscheinlicher wird auch der von uns intendierte Wahrnehmungseindruck entstehen. Vor allem aber können wir dadurch Hindernisse und Umwege und zusätzliche Anstrengungen bei der Wahrnehmung vermeiden.

Damit beginnt jetzt unsere eigentliche Arbeit. Denn, wie Sie in dem nun folgenden Praxisteil sehen werden, lassen sich die hier behandelten Erkenntnisse leider weder kontextfrei anwenden noch widerspruchsfrei miteinander verknüpfen. Es entstehen immer Konflikte. Wir kombinieren daher die technischen Potenziale mit den Erfordernissen, die wir aus der Architektur der Wahrnehmung abgeleitet haben, um diese Konflikte bei der Gestaltung an praktischen Beispielen auszutarieren.

Ergonomische Nutzungsschnittstellen

In den vorangehenden Kapiteln haben wir die Grundlagen unseres Ansatzes vorgestellt. Gemäß der dort entwickelten Perspektive betrachten wir die Nutzungsschnittstelle eines Computersystems als physische Arbeitsumgebung, in der virtuelle Objekte in räumlichen Zusammenhängen, die sich über mehrere Wahrnehmungsbereiche erstrecken können, präsentiert und bearbeitet werden. In den vorhergehenden drei Kapiteln Differenzerfahrung und Wissen, Potenziale interaktiver Nutzungsschnittstellen und Architektur der Wahrnehmung haben wir die grundsätzliche Rolle der Umwelt und insbesondere die von Artefakten zur Unterstützung geistiger Tätigkeiten betrachtet. Jetzt geht es darum, daraus spezifische Forderungen an die ergonomische Gestaltung einer solchen Arbeitsumgebung abzuleiten.

Überblick über die Forderungen der Software-Ergonomie
Überblick über die Forderungen der Software-Ergonomie

Die Forderungen, die wir Ihnen in den folgenden Kapiteln vorstellen werden, sehen Sie oben abgebildet. Wir beginnen mit Forderungen an die Präsentation, also dem Aussehen und der Anordnung von Bildschirmobjekten. Da das Objektensemble in Nutzungsschnittstellen nicht statisch ist, widmen wir uns bei den Forderungen an die Interaktion den Eingaben, Prozessen und Rückmeldungen. Forderungen an den Umgang mit einem großen Funktions- und Inhaltsumfang stellen wir im Unterkapitel Orientierung auf. Die Forderungen an die Flexibilität sollen schlussendlich sicherstellen, dass Nutzungsschnittstellen der großen Heterogenität von Nutzungskonstellationen gerecht werden können.

All diese Forderungen sind nicht unveränderlich und in Stein gemeißelt, sondern haben, wie bei allen Gestaltungsprozessen, hypothetischen Charakter. Sie sind jedoch gemäß der vorgestellten Sichtweise gut begründet, zu einem großen Teil auch empirisch belegt und sie sind – wenn auch manchmal ohne oder mit etwas anderen Argumentationen – in der Praxis der Gestaltung von Nutzungsschnittstellen weitgehend akzeptiert.

Die Begründung der Gestaltungshinweise verknüpft Charakteristika der menschlichen Wahrnehmung mit Überlegungen zu den Potenzialen des Technikeinsatzes zur Unterstützung geistiger Tätigkeiten. Dies ist unser Alleinstellungsmerkmal. Wir sind uns bewusst, dass unser Vorgehen Probleme mit sich bringt. Da wäre zum einen die mangelnde Übereinstimmung mit den etablierten Begriffsrastern, die man nicht ohne triftigen Grund aufgeben sollte. Zum anderen besteht das Risiko, dass durch die konstruktive Orientierung nicht alle Probleme erfasst oder angemessen ins Blickfeld gerückt werden können. Auch in unserem Gestaltungsansatz gibt es vermutlich blinde Flecken. Diese gibt es jedoch auch bei allen anderen Ansätzen, seien es beispielsweise die tradierten Kategorien der ISO 9241 (siehe „Ein Blick auf die DIN-EN-ISO 9241“), die Heuristiken von Jacob Nielsen 1 oder auch die acht goldenen Regeln von Ben Shneiderman 2.

Problematischer ist jedoch die Tatsache, dass dort Gestaltungskonflikte und Wechselwirkungen zwischen einzelnen Kategorien oder Gestaltungsregeln systematisch ausgeblendet oder zumindest nicht konstruktiv genutzt werden. Bei unserem Ansatz hingegen spielen sie eine zentrale Rolle, die sich entsprechend in unserem Begriffsraster niederschlägt. Ein weiterer wichtiger Punkt ist die übergreifende Leitforderung nach der Reduzierung erzwungener Sequenzialität, die uns als Gestaltungsmantra in allen Bereichen begleiten wird.

Grundforderung: Reduzierung erzwungener Sequenzialität

Um die Vielfalt des aus unseren Grundlagen ableitbaren Gestaltungswissens intellektuell beherrschbar und überschaubar zu gestalten, führen wir eine Leitforderung ein, der sich alle anderen Gestaltungsforderungen unterordnen. Die Leitforderung der Reduzierung erzwungener Sequenzialität beinhaltet ein Menschenbild, das sich einerseits aus den vorgestellten Grundlagen ableiten lässt, zugleich aber mit bestimmten Wertsetzungen darüber hinaus weist. Unser Gestaltungsziel ist, in der Nutzung ein weitestgehend selbst bestimmtes Handeln zu ermöglichen, Abläufe nicht durch unnötig vorgegebene Interaktionssequenzen zu zementieren und – vor dem Hintergrund der Analyse technischer Potenziale – möglichst alle Hindernisse aus dem Weg zu räumen, die eine schnelle und sichere Erledigung der jeweiligen Aufgaben erschweren oder verhindern. Kaum jemand würde dem widersprechen wollen, doch sind wir uns im Klaren darüber, dass diese Wertsetzung nicht absolut sein kann. Denken Sie zum Beispiel an Nutzungsschnittstellen zur Steuerung eines Atomkraftwerks oder eines medizinischen Geräts, bei denen es der Sicherheit vieler Menschen dient, wenn die Nutzung durch rigide Vorschriften eingeschränkt wird. In solchen Fällen muss die Freiheit und Kreativität in der Nutzung eingeschränkt werden. Aber die Konsequenz aus unserer Wertsetzung ist, dass solche Einschränkungen immer ausdrücklich zu begründen bzw. durch wissenschaftliche Untersuchungen zu legitimieren sind.

Alle aufgestellten Forderungen sind Konkretisierungen der Grundforderung nach Reduzierung erzwungener Sequenzialität. Wir illustrieren dieses Leitbild zunächst an ein paar Beispielen, um die Breite des Spektrums erzwungener Sequenzialitäten zu erläutern. Da es sich um eine Ingenieurperspektive handelt, gehen wir von technischen Gestaltungsmerkmalen aus und betrachten, welche erwartbaren Wirkungen und Wechselwirkungen mit ihnen verknüpft sind.

Unnötige Hindernisse

Ein Zusatzaufwand kann dadurch entstehen, dass bei der Erledigung einer Aufgabe unnötige Hindernisse zu überwinden sind. Solche Hindernisse können unterschiedlicher Art sein. Schauen wir uns dazu ein Beispiel an, bei dem die Gestaltung der Nutzungsoberfläche unzureichend an die Wahrnehmungseigenschaften des Menschen angepasst wurde.

Teil der Charms-Bar von Windows 8
Teil der Charms-Bar von Windows 8

Hier abgebildet ist ein Teil der sogenannten „Charms-Bar“ von Windows 8. Mithilfe dieser Leiste war es in Windows 8 möglich, grundlegende Einstellungen zum aktuell laufenden Programm, aber auch zum System als Ganzem vorzunehmen. Unter anderem konnten über die Charms-Bar auch die „Systemeinstellungen“ geöffnet werden. Zwar ermöglichte diese Leiste, sobald sie geöffnet war – was ein Thema für sich ist –, technisch den schnellen Zugriff auf die Einstellungen mit nur einem Klick auf den Text „PC-Einstellungen ändern“, doch die Gestaltung dieses Elements war ungünstig, da es keinen wahrnehmbaren Hinweis auf ein anklickbares Element gab. Der Text wirkte vielmehr wie die Beschriftung der darüber befindlichen Icons, die ja in der Tat eine Teilmenge der Systemeinstellungen darstellen. Die Folgen dieser ungeschickten Gestaltung sind bestenfalls ein längeres Innehalten vor der korrekten Bedienung oder aber unnötige Suchaufwände oder Fehlbedienungen, die rückgängig gemacht werden müssen. In jedem Fall entsteht erzwungene Sequenzialität, weil mentale bzw. motorische Zusatzhandlungen nötig sind, die hätten vermieden werden können, wenn eine bessere Gestaltung gewählt worden wäre.

Unnötige Schritte

Im Charms-Bar-Beispiel wurde die Schaltfläche zwar ungünstig gestaltet, doch war, sofern man wusste, wohin man klicken musste, eine zügige Bedienung möglich, denn die Charms-Bar ermöglichte das Erreichen der Systemeinstellungen mit nur einem Klick und bot für häufig genutzte Einstellungen Icons an, die den Zugriff darauf abkürzten. Nicht immer ist Software jedoch so gestaltet, dass etwas, was mit wenigen Schritten erledigt werden könnte, auch tatsächlich mit wenigen Schritten erledigt werden kann. Erzwingt eine Nutzungsschnittstelle statt wenigen viele Schritte zu gehen, liegt ebenfalls erzwungene Sequenzialität vor, denn die zusätzlichen Schritte sind unnötiger Aufwand.

Fehlermeldung beim Update von Microsoft Excel
Fehlermeldung beim Update von Microsoft Excel

Das obige Beispiel zeigt eine Meldung des Update-Programms von Microsoft Office am Mac. Die Update-Software stellt fest, dass das zu aktualisierende Programm noch geöffnet ist, und fordert zum Schließen des Programms auf; ein geöffnetes Programm kann nicht aktualisiert werden. An dieser Stelle entsteht zusätzlicher Nutzungsaufwand, der ohne Weiteres vermieden werden könnte, indem das Aktualisierungs-Tool die Möglichkeit böte, das Programm direkt zu beenden. Es wäre jedoch keine gute Idee, das Programm automatisch zu beenden3, da ja noch ungespeicherte Änderungen vorhanden sein könnten. Wohl aber könnte die Option angeboten werden, mit nur einem Klick auf einen Button das Programm zu beenden und mit der Installation fortzufahren. Mit besonderem Komfort könnte auch die Speichern-Funktion des Programms direkt von dieser Stelle aus aufgerufen oder aber die geöffneten Dokumente automatisch zwischengespeichert werden, um das Programm dann automatisch zu beenden und die Arbeitsblätter nach dem Update wiederherzustellen. Alle dazu erforderlichen Informationen liegen systemseitig vor. Stattdessen wird eine bereits feststehende Sequenz von Nutzungshandlungen erzwungen, gegebenenfalls inklusive des Wechsels zwischen verschiedenen Fenstern und Anwendungen.

Vergleichbare unnötige Hindernisse können auch an anderen Stellen entstehen. Im Exkurskapitel über die Dialog-Metapher etwa behandeln wir Zusatzaufwände, die dadurch entstehen, dass ein Pseudo-Dialog geführt wird. Dadurch entsteht zusätzlicher mentaler Aufwand, weil eine vorgegebene Antwort erst im Kontext der Frage interpretiert werden muss, um zu verstehen, welcher Zielzustand mit den jeweiligen Antwortoptionen verbunden ist. Würden die möglichen Zielzustände direkt angeboten, wäre dieser Zwischenschritt nicht erforderlich.

Erzwungene Reihenfolgen

Beispiel für eine erzwungene Reihenfolge in LibreOffice
Beispiel für eine erzwungene Reihenfolge in LibreOffice

In den bisher erläuterten Beispielen waren die Handlungssequenzen aufgrund schlechter Gestaltung länger als nötig. Es mussten motorische und mentale Zusatzhandlungen aufgewendet werden, weil der direkte Weg nicht möglich oder nicht erkennbar war. Problematisch sind nach unserem Konzept der Reduzierung erzwungener Sequenzialität aber nicht nur gänzlich unnötige bzw. unnötig lange, sondern auch unnötig unflexible Sequenzen, wenn eine Software also eine bestimmte Reihenfolge der Handlungsschritte erzwingt, obwohl zur Erledigung der Aufgabe auch andere Reihenfolgen gleichermaßen zielführend wären.

Die Abbildung oben zeigt einen Ausschnitt aus einem Beispiel für eine erzwungene Reihenfolge. Zu sehen ist die Eingabemaske zum Erstellen einer Bildunterschrift in LibreOffice. Die Bildunterschrift für das im Hintergrund zu sehende Bild soll aus einer bereits im Fließtext unter dem Bild befindlichen Wortfolge bestehen. Diese Wortfolge muss also sinnvollerweise kopiert und als Bildunterschrift eingefügt werden. Es ist jedoch bei geöffnetem Konfigurationsfenster nicht mehr möglich, den Text zu markieren und zu kopieren. Das Fenster zur Konfiguration der Bildunterschrift ist als sogenannter „Modaler Dialog“ umgesetzt. Es muss also erst geschlossen werden, bevor im Hauptfenster des Programms weitergearbeitet werden kann. Mausklicks auf den Hintergrund werden folglich ignoriert. Das Programm zwingt dazu, entweder den Text nochmals händisch einzutippen oder das Kopieren des Textes zwangsweise vor dem Öffnen des Fensters zu erledigen. Somit werden nicht nur zusätzliche Handlungen erforderlich, sondern es wird auch zum Teil die Reihenfolge der Handlungsschritte festgelegt, ohne dass es dafür einen inhaltlichen Grund gäbe. An anderer Stelle wurde es übrigens besser gelöst. Ruft man die Funktion zum Suchen und Ersetzen von Text auf, erscheint ein ganz ähnliches Zusatzfenster, man wird aber nicht daran gehindert, Text aus dem Dokument zu kopieren und in das Zusatzfenster einzufügen, denn das eingeblendete Fenster liegt zwar optisch vor allen anderen, blockiert aber nicht die Interaktion mit dem Dokument.

Nicht jede Sequenzialität muss vermieden werden!

Sequenzialität per se ist weder etwas Schlechtes noch etwas, das Sie auf Gedeih und Verderb vermeiden sollten. Ein gewisses Maß an Sequenzialität ist unvermeidbar und auch hilfreich. Im Beispiel der Eingabe der Bildunterschrift wird eine Sequenz von Manipulations- und Wahrnehmungsschritten erzwungen, ohne dass diese Sequenz in der zu erledigenden Aufgabe oder physischen Randbedingungen begründet wäre. Diese Formen von erzwungener Sequenzialität gilt es zu reduzieren. Umgekehrt müssen jedoch notwendige Abfolgen beachtet werden. Sie lassen sich nicht reduzieren und sind auch nicht gemeint, da sie unvermeidlich, gewollt oder der Aufgabe inhärent sind und somit nicht erzwungen, d. h. durch die Gestaltung des technischen Artefakts hervorgerufen werden. Beispielsweise kann man einen Text erst drucken oder auch per E-Mail verschicken, nachdem man ihn geschrieben hat. Wenn jedoch ein Mailprogramm die Eingabe eines Empfängers verlangt, bevor der Nachrichtentext eingegeben werden kann, wäre das in unserem Sinne wiederum erzwungene Sequenzialität.

Die Reduzierung erzwungener Sequenzialität sorgt für mehr Freiheit bei der Nutzung des Computersystems und folgt damit der Linie, Unterstützung ohne Bevormundung. Doch können zu viele Handlungsmöglichkeiten auch zu Problemen wie Orientierungsverlust oder Überforderung führen. Das lässt sich vermeiden, indem eine vorgegebene Sequenz zwar nicht erzwungen, aber doch als eine zusätzliche Option angeboten oder auch explizit empfohlen wird. Sie können das vergleichen mit dem Angebot einer Stadtrundfahrt auf vorgegebenen Routen. Diese können sie buchen, müssen es aber nicht. Stattdessen können sie auch die Stadt individuell nach eigenen Plänen und Vorlieben erkunden. Bei der Gestaltung von Nutzungsschnittstellen kann es entsprechend sinnvoll sein, Sequenzialität zwar nicht zu erzwingen, aber doch nahezulegen. Ein Serienbriefassistent eines Textverarbeitungssystems beispielsweise führt in Schritten durch den Prozess der Erstellung eines Serienbriefs. Der Assistent legt eine Reihenfolge nahe, gibt sie teilweise auch vor. Die Textverarbeitung erzwingt allerdings nicht die Verwendung des Assistenten und ermöglicht es, ihn jederzeit abzubrechen.

Ein typisches Beispiel für eine freiwillig gewählte Sequenzialität liegt dann vor, wenn bei der Nutzung bestimmte Operationsfolgen immer wieder ausgeführt werden, obwohl es „kürzere Wege“ gibt. Die Gründe sind vielfältig, mal hängt es von der Vertrautheit mit dem System ab, mal von individuellen Vorlieben oder von Routinehandlungen, die möglichst verlässlich ausgeführt werden sollen. Solche Handlungen sind je nach Situation unterschiedlich und verändern sich auch durch Lernen. Da zum Zeitpunkt der Entwicklung die Dynamik im Nutzungskontext nicht verlässlich vorhergesehen werden kann, sollte keine Bevormundung stattfinden, indem der jeweils kürzeste Weg zur Nutzung aufgenötigt wird. Wie zuvor besteht die Lösung darin, zusätzliche Optionen wie zum Beispiel einen Lernmodus anzubieten, bei dem das System mithilfe vorgegebener Sequenzen verdeutlicht, was in welcher Reihenfolge getan werden kann. In anderen Fällen könnte es helfen, zusätzliche Mechanismen zur Anpassung des Systemverhaltens anzubieten.

Herausforderungen und Grenzen der Gestaltung

Nach der Erarbeitung von Grundlagen und dem Aufstellen einer Leitforderung geht es nun darum, Forderungen an die Gestaltung abzuleiten. Nur mit dem Entwickeln dieser Forderungen ist es jedoch noch nicht getan. Es gilt, über die einzelnen Gestaltungsanforderungen hinaus, weitere Aspekte zu berücksichtigen.

Anforderungen aus dem Anwendungsbereich

Bei der Gestaltung einer Software müssen Sie nicht nur die Forderungen der Ergonomie berücksichtigen, sondern haben es mit vielen Anforderungen aus dem jeweiligen Anwendungsbereich zu tun. Unsere Übersichtsgrafik zeigt diese Anforderungen als „Gebrauchstauglichkeit“ außerhalb des Bereichs der Ergonomie. Anforderungen aus dem Anwendungsbereich können dem ergonomisch Gebotenen durchaus widersprechen. Dazu ein Beispiel aus einem Computerspiel: Ein zentraler Aspekt vieler Spiele ist es, eine Welt schrittweise zu erkunden. Zu Beginn sehen die Akteure nur einen kleinen Teil. Dass bei einem solchen Spiel nicht alle Informationen von vornherein angeboten werden und dass einem Spieler nicht alle möglichen Hilfen zur Orientierung von Anfang an zur Seite gestellt werden, ist verständlich und richtig, auch wenn es unseren Anforderungen an die Erschließbarkeit, wie wir sie später definieren, widersprechen wird. Dramaturgie erfordert Sequenzialität. Die Anforderungen an die Spielmechanik haben in diesem Fall Vorrang vor der Erschließbarkeit.

Bei der Softwareentwicklung treffen verschiedene Akteure mit unterschiedlichen Blickwinkeln und Interessen im Gestaltungsprozess aufeinander. Die unvermeidlich auftretenden Konflikte müssen methodisch im Rahmen einer nutzungszentrierten Gestaltung erhoben und geklärt werden. Diese Aufgabe gehört zum Bereich des „Usability Engineering“. In unserem Buch klammern wir die damit verbundenen Fragen und Methoden aus und widmen uns dem Herausarbeiten der Forderungen an die Gestaltung, die weitgehend anwendungsunabhängig sind, obwohl auch sie letztlich immer in einem größeren Zusammaenhang betrachtet werden müssen.

Gestaltungskonflikte

Das Ernstnehmen von Gestaltungskonflikten ist ein zentrales Merkmal unseres Ergonomieansatzes. Viele der typischen Checklisten und Leitfäden zur Gestaltung von Nutzungsschnittstellen gehen davon aus, dass Forderungen, Empfehlungen oder Gestaltungsregeln im Großen und Ganzen binäre Variablen sind, die entweder erfüllt oder nicht erfüllt sind. Konflikte zwischen verschiedenen Forderungen werden zwar mitunter angesprochen, allerdings nicht gestaltungsleitend betrachtet. Allenfalls wird anerkannt, dass manche Forderung nicht in jedem Kontext angewandt werden kann.

Für uns spielen Konflikte eine sehr wichtige Rolle. In der Praxis zeigt sich, dass die Erfüllung einer bestimmten, wohl begründeten Forderung dazu führen kann, dass andere, ebenso gut begründete Forderungen nicht oder nur noch eingeschränkt erfüllt werden können. Wir sprechen in diesem Fall von einem Designkonflikt. Solch ein Konflikt ist kein Gestaltungsdefizit, das es zu vermeiden oder zu ignorieren gilt. Vielmehr sind solche Konflikte eine entscheidende Erkenntnisquelle. Wir gehen von der Hypothese aus, dass sich ein gut gestaltetes System dadurch auszeichnet, dass konfligierende Forderungen aufgedeckt und im jeweiligen Kontext angemessen austariert werden. Um einen Designkonflikt zu verstehen, muss man das Geflecht von voneinander abhängigen oder sich wechselseitig beeinflussenden Forderungen durchschauen. Erst dann kann man einen Lösungsansatz entwickeln, der die Forderungen angemessen austariert.

Gestaltungskonflikte treten übrigens nicht nur bei der Gestaltung von Nutzungsschnittstellen auf. Grundsätzlich kann man feststellen, dass derartige Konflikte ein Wesensmerkmal evolutionärer Prozesse sind, wie das Hoimar von Ditfurth in seinem Buch „Der Geist fiel nicht vom Himmel“ anschaulich beschrieben hat. Wir haben im Kapitel Architektur der Wahrnehmung ein Beispiel für einen Konflikt in einem evolutionären Prozess kennengelernt, der für uns speziell relevant ist:

  1. Der Mensch muss seine Umwelt umfassend wahrnehmen können, um auf guter Grundlage Entscheidungen treffen zu können.
  2. Der Mensch muss schnell Entscheidungen treffen können, da vielfach sein Überleben davon abhängt.

Diese beiden Ansprüche stehen in Konflikt zueinander, da die Kapazität der Wahrnehmung des Menschen beschränkt ist. Das umfassende Wahrnehmen der Umwelt erfordert deshalb viel Aufwand und benötigt entsprechend Zeit. Schnelle Entscheidungen sind auf Grundlage einer solchen Wahrnehmung nicht möglich. Eine Wahrnehmung, die schnelle Reaktionen ermöglichen soll, muss folglich mit Informationsverlust bezahlt werden. Die beiden „Forderungen“ können nicht zugleich erfüllt werden. Es musste eine Art Kompromiss gefunden werden, bei dem die Wahrnehmung umfassend genug und gleichzeitig schnell genug erfolgt. Die im Kapitel Architektur der Wahrnehmung beschriebenen Eigenschaften der menschlichen Wahrnehmung, ihre Selektivität und die Art und Weise, welche Vorauswahl das Wahrnehmungssystem trifft, bilden eine evolutionäre „Lösung“ dieses Konflikts.

Um entscheiden zu können, wie eine Nutzungsschnittstelle als virtuelle Arbeitsumgebung beschaffen sein muss, um erzwungene Sequenzialitäten möglichst gut zu vermeiden, müssen wir deshalb die von der Natur entwickelte Architektur der Wahrnehmung verstanden haben. Erst dann können wir mit diesem Wissen beispielsweise die Konflikte bei der Icon-Gestaltung aufzeigen und entsprechende Gestaltungsvorschläge entwickeln. Da diese Empfehlungen nicht oder nicht nennenswert vom konkreten Einsatzkontext abhängen, können tatsächlich Lösungen gefunden werden, die für alle Nutzungskonstellationen gleichermaßen passend sind4. In anderen Fällen, etwa bei der Gestaltung von Menüs, hängt das Austarieren der damit verbundenen Designkonflikte stärker von Kontexten ab, etwa wie komplex die zu erledigende Aufgabe ist oder in welcher Umgebung die zu gestaltende Anwendung genutzt werden soll.

Beschränktheit der Gestaltungsreichweite

Die Gestaltung von Nutzungsschnittstellen ist in vielerlei Hinsicht verschieden von zum Beispiel der Gestaltung eines Beitrags in einem Printmedium. Hier liegen zum Zeitpunkt der Gestaltung alle Elemente wie Bilder, Grafiken und Texte vor. Alle Gestaltungsentscheidungen beziehen sich darauf und alle Gestaltungsergebnisse lassen sich zum Zeitpunkt der Gestaltung überprüfen. Beim Entwerfen von Nutzungsschnittstellen gibt es diesen Luxus nicht, denn Vieles wird vorgegeben und liegt somit außerhalb des eigenen Gestaltungs- bzw. Verantwortungsbereichs. Sie können ohne Weiteres in einem Magazin ein Überschriften-Design wählen, das nur für kurze Überschriften funktioniert, weil Sie wissen, dass der Beitrag, den Sie gestalten, eine kurze Überschrift hat. Bei einer Software können Sie hingegen nicht sicher sein, dass zum Beispiel eine Button-Beschriftung oder ein Menüeintrag kurz sein wird, wenn sie etwa von frei wählbaren Dateinamen oder Titeln abhängt oder sie auch in anderen Sprachen angezeigt werden soll. Beim Magazin gestalten Sie stets die ganze Seite oder das ganze Heft. Sie haben also die Kontrolle über sämtliche Aspekte, die später zu sehen sein werden. So können Sie entscheiden, dass ein Text an einer bestimmten Stelle umgebrochen werden sollte oder dass eine spezielle Art der Textformatierung gerade für diesen Text besonders gut wäre. Bei der Gestaltung von Nutzungsschnittstellen gibt es diese Sicherheit nicht. Während der Softwareentwicklung muss man zwar festlegen, wie ein Meldungsfenster gestaltet sein sollte, doch liegt zu diesem Zeitpunkt kein verlässliches Wissen darüber vor, welcher Meldungstext jeweils angezeigt werden soll. Dennoch muss zumindest die Formatierung festgelegt werden.

Kurzum: Sie müssen bei der Gestaltung von Nutzungsschnittstellen Entscheidungen treffen, obwohl Sie die vom Programmverlauf und von den jeweiligen Eingaben abhängigen genauen Gegebenheiten auf dem Bildschirm nicht kennen können. Insofern sollten Sie bei Designentscheidungen nicht auf ein in jeder Hinsicht perfektes Erscheinungsbild zielen. Vielmehr kommt es darauf an, die einzelnen Elemente so zu gestalten, dass nur mit geringer Wahrscheinlichkeit Nutzungskonstellationen auftreten, die zu ergonomischen Problemen führen. Ein Design, dass solchen Designentscheidungen folgt und schwer zu erschüttern ist, nennen wir „robust“ und verlangen entsprechend Robustheit als zentrale Forderung der Nutzungsschnittstellengestaltung.

Ausschnitt aus einem Konfigurationsfenster
Ausschnitt aus einem Konfigurationsfenster

In der Praxis kostet es einige Anstrengungen, robust zu gestalten. Sie können das an diesem Beispiel gut sehen. Im unteren Bereich der Abbildung in der Sektion „Seitenressourcen“ sehen Sie rote Schrift auf blauem Grund und – ganz wie im Kapitel Architektur der Wahrnehmung vorausgesagt – ist der Text nahezu unlesbar. Wie ist es dazu gekommen? Fand jemand tatsächlich diese Kombination besonders gut? Wahrscheinlich nicht. Eher ist anzunehmen, dass zwei unabhängig voneinander getroffene Entscheidungen in Konflikt miteinander geraten sind. Die eine Entscheidung basiert auf der Forderung, Verweise auf Ressourcen, die nicht gefunden werden können, rot einzufärben. Die rote Textfarbe ist also eine Fehlermarkierung und damit sinnvoll gewählt. Die andere Entscheidung hat die Firma Apple in ihrem Betriebssystem umgesetzt, indem als Standardfarbe für selektierte Elemente eine blaue Hinterlegung vorgegeben wird. Diese beiden unabhängig voneinander getroffenen Entscheidungen sorgen nun für ein ergonomisches Problem.

Wie könnte man in diesem Fall robust gestalten? An der Designentscheidung von Apple können wir nichts ändern. Zwar kann man bei der Nutzung des Systems die Farbe von Markierungen verändern, allerdings kann man dies weder erwarten noch voraussetzen. Die Wahrscheinlichkeit, dass es zu dieser ungeschickten Kombination kommen kann, ist also hoch. Wenn bei der Gestaltung einer Software rot gesättigte Schrift eingesetzt werden soll, gilt es, die Gestaltung im größeren Stile selbst in die Hand zu nehmen und das Ergebnis nicht dem Zufall zu überlassen. In der Konsequenz heißt das, sowohl die Vordergrundfarbe, die Hintergrundfarbe und die Selektionsfarbe selbst zu bestimmen. Nur dann kann – zumindest in dieser Hinsicht – nichts mehr schief gehen.

Fazit: Unser Ansatz ist, Forderungen zur Reduzierung erzwungener Sequenzialität herauszuarbeiten und die zwangsläufig entstehenden Konflikte produktiv mit dem Ziel zu untersuchen, Gestaltungskonsequenzen und Lösungstechniken abzuleiten. Dieses Vorgehen hat den Vorteil, dass es jeweils nicht um genau eine beste Lösung geht, deren Übertragbarkeit bei leichten Änderungen schon gefährdet sein könnte. Die von uns vorgestellten Beispiele und Techniken sind Lösungsansätze, die zeigen, wie man Forderungen und Konflikte im Kontext heute üblicher Einsatzszenarien und des heutigen Standes der Nutzungsschnittstellentechnik umsetzen und auflösen kann. Sie illustrieren somit unser Verständnis der Gestaltungssituation, die jedes Mal neu angepasst werden kann und in den meisten Fällen auch muss. Die konkreten Lösungen mögen mit dem technischen Fortschritt der Nutzungsschnittstellen oder auch mit der Mode5 im Einzelfall obsolet werden, doch steht mit den Forderungen zur Reduzierung erzwungener Sequenzialität und der Betrachtung von Designkonflikten ein Rahmen zur Verfügung, um auch neue Gestaltungslösungen nach den gleichen Prinzipien bewerten oder entwickeln zu können.

Präsentation

Der erste Bereich, den wir behandeln, ist mit Präsentation überschrieben und umfasst alles, was es auf dem Bildschirm zu sehen gibt.

Im Kapitel Architektur der Wahrnehmung haben wir erläutert, dass das menschliche Wahrnehmungssystem als das Ergebnis der evolutionären Anpassung des Menschen an seine natürliche Umwelt verstanden werden kann. Mit diesem Wahrnehmungssystem werden auch die vom Computer bereitgestellten Nutzungsschnittstellen erfasst und verarbeitet. Entsprechend sollten die am Bildschirm sichtbaren Objekte und Strukturen so gestaltet werden, dass die Hypothesen, die das Wahrnehmungssystem anstellt, zielführend sind. Laufen sie dagegen ins Leere, kann die Software nicht effektiv genutzt werden, weil ihre schnelle und korrekte Wahrnehmung erschwert oder gar verhindert wird. In jedem Fall bedeutet es erhöhten Aufwand, der im Sinne der Reduzierung erzwungener Sequenzialität zu vermeiden ist.

Bildschirmobjekte

In unserem ersten Praxiskapitel werfen wir einen Blick auf die Gestaltung visueller Objekte am Bildschirm. Die grundlegende Voraussetzung für den Umgang mit diesen Objekten ist, dass sie gut und schnell erkennbar sowie sicher unterscheidbar sind und dass wichtige Objekte leicht aufgefunden werden können. All das sollte möglichst ohne ungewollte Ablenkungen vonstatten gehen, denn eine Ablenkung verkörpert immer erzwungene Sequenzialität.

Unterscheidung von Objekt und Hintergrund

Objekte am Bildschirm als solche erkennbar zu gestalten bedeutet zunächst einmal, sie vom Hintergrund abzusetzen. Bevor wir uns näher mit dieser Frage beschäftigen, schauen wir uns eine problematische Gestaltung aus einem ganz anderen Bereich an:

Lageplan eines Gebäudekomplexes
Lageplan eines Gebäudekomplexes

Bei diesem Lageplan einer Universität dürfte Ihnen vielleicht an der Farbgebung auffallen, wie typisch diese für die 1970er Jahre ist. Wie ergonomisch die Wahl der Farben an sich ist, wollen wir an dieser Stelle nicht thematisieren. Wir kommen am Ende dieses Kapitels noch auf das Thema Farbwahl und Farbpaletten zu sprechen. Das größte Problem ist nicht die Farbwahl an sich, sondern die Art und Weise der Auszeichnung von Bildschirmobjekten oder eher der Nicht-Auszeichnung dieser Objekte. Der gezeigte Plan sollte zwei Aufgaben erfüllen. Betrachten Sie die Darstellung zunächst unter der Annahme, dass sie den im Gebäude befindlichen Personen die Orientierung ermöglichen soll, wie sie von einem Gebäude in ein anderes gelangen können.

Der Hintergrund der Karte ist eine dunkelgelbe Fläche. Auf den ersten Blick sieht man eine sich eindeutig davon abhebende hellblaue Struktur. Die hellblauen Flächen verkörpern jedoch nicht die Gebäude, die zur Orientierung von vorrangigem Interesse sind. Herausgestellt werden erstaunlicherweise die Straßen und Parkplätze auf dem Uni-Campus. Die Gebäude sind zwar ebenfalls eingezeichnet, aber nur zu erkennen, wenn man den Plan ganz genau anschaut, denn sie sind nur als Umrisse gezeichnet und werden damit optisch zu einem Teil des Hintergrunds, statt sich von diesem abzusetzen.

Betrachtet man den Plan mit einer anderen Intention, ist die Auszeichnung schon verständlicher. Demnach sollte nicht dargestellt werden, wie man sich in der Gebäudestruktur orientieren kann, sondern wo sich Versammlungs- und Rettungsplätze befinden und wie man am schnellsten ins Freie kommt. Aber auch für diesen Zweck ist die Darstellung problematisch, da schwer ersichtlich ist, wo man sich genau befindet und wie man von dort zum nächsten Versammlungsplatz findet. Eine solche Karte, auf der die Rettungswege dargestellt sind, mag interessant für die Anfahrt der Feuerwehr sein, zur Orientierung innerhalb der Gebäude ist sie ergonomisch schlecht geeignet.

Eine Gestaltung, bei der die eigentlichen Objekte des Interesses nicht zu erkennen sind, sollte uns bei der Gestaltung von Nutzungsschnittstellen möglichst nicht unterlaufen. Objekte müssen als solche gut wahrnehmbar sein, indem sie sich als optisch erkennbare Gebilde vom Hintergrund absetzen. Die Erkennbarkeit von Objekten ist daher auch die erste unserer Forderungen zur Reduzierung erzwungener Sequenzialität.

Erkennbarkeit bedeutet im Speziellen, dass es einen sichtbaren Unterschied zwischen dem Objekt und dem Hintergrund geben muss. Der wichtigste Unterschied ist die Helligkeit, genauer: ein hoher Helligkeitskontrast. Ist der Hintergrund beispielsweise weiß, kann ein Objekt im Vordergrund schwarz oder auch zum Beispiel dunkelgrün sein. Ist der Hintergrund hingegen dunkelgrau oder schwarz, setzt sich ein hellgraues, ein weißes, aber auch ein gelbes Objekt gut davon ab. Ein Absetzen nur durch Wählen einer höheren oder niedrigeren Sättigung (Sättigungskontrast) oder durch die Wahl eines anderen Farbtons (Farbtonkontrast) sollten Sie vermeiden, denn in diesem Fall haben Sie nur bei der Kombination von gelb auf blau einen hinreichend großen Kontrast. Dass die Farbkombination gelb-blau genügend Kontrast bietet, liegt vor allem an der Unzulänglichkeit der Farbmischung an RGB-Monitoren im Verhältnis zur Farbwahrnehmung des menschlichen Auges. Beim RGB-Farbmodell haben alle drei Grundfarben die gleiche technische Helligkeit. Gelb ist die Kombination aus rot und grün. Rein technisch betrachtet ist RGB-Gelb (100 %,100 %,0 %) doppelt so hell wie RGB-Blau (0 %,0 %,100 %). Hinzu kommt, dass das menschliche Auge über weitaus weniger Zapfen für den Blaubereich verfügt als für andere Bereiche des Spektrums. Die Kombination blau-gelb auf RGB-Monitoren ist daher nur auf den ersten Blick ein Farbtonkontrast. Faktisch handelt es sich in der Wahrnehmung um einen starken Helligkeitskontrast.

Auszeichnung manipulierbarer und aktivierbarer Objekte

Besonderes Augenmerk muss bei der Gestaltung auf Objekte gelegt werden, die anklickbar sind, die ausgewählt oder verschoben werden können oder in die etwas eingegeben werden kann. Derartige Objekte müssen sich von den anderen Elementen am Bildschirm so deutlich unterscheiden, dass sie als andersartig wahrgenommen werden. Die Objekte müssen also eine hohe Unterscheidbarkeit aufweisen.

Die Forderung nach Unterscheidbarkeit bewirkt, dass bestimmte Objekte als andersartig wahrgenommen werden können, und ermöglicht damit entsprechende Differenzerfahrungen. Diese wahrgenommene Andersartigkeit reicht aber allein nicht aus, um feststellen zu können, was es genau mit der Andersartigkeit auf sich hat oder wie ein auf diese Art ausgezeichnetes Objekt funktioniert. Wir müssen an dieser Stelle daher einem weit verbreiteten Missverständnis vorbeugen: Die vielfach erhobene Forderung, Nutzungsschnittstellen intuitiv zu gestalten, sodass bei der Nutzung ohne Vorwissen erkennbar ist, wofür Bildschirmobjekte stehen und wie Programme zu handhaben sind, ist nicht erfüllbar. Die Unterstellung einer intuitiven Nutzbarkeit unterschlägt die bereits vor der aktuellen Nutzung stattgefundenen Lernprozesse.

Es gibt keine Nutzungsschnittstelle, die für eine beliebige Person, die mit dem System nicht vertraut ist, unmittelbar einsichtig wäre oder bei der die Zwecke der einzelnen Objekte aus sich heraus offensichtlich wären. Wenn Sie den Eindruck haben, dass Sie allein durch scharfes Hinsehen ein Objekt am Bildschirm beispielsweise als Button erkennen können, liegt das daran, dass Sie schon viele Buttons gesehen haben und wissen, wie diese üblicherweise gestaltet werden. Sie haben also schon vorher an vergleichbaren Beispielen gelernt, wie ein Button aussieht. Würden Sie die Nutzungsschnittstelle einer Person zeigen, die noch nie ein solches Bildschirmobjekt gesehen hat, würde sie sicher nicht verstehen, was sie da sieht und wie man es benutzt 1.

Intuitivität verweist daher in unserem Fachgebiet lediglich auf etablierte Praktiken der Gestaltung und Nutzung von Artefakten.

Die Gestaltung von Schaltflächen (Buttons)

Ein Button ist ein Textobjekt, das beim Anklicken eine Funktion auslöst. Nur der typografische Text gäbe keinen Hinweis darauf, dass dieses Textobjekt anders ist als die umgebenden. Ein verbreiteter Ansatz, die Klickbarkeit dieses Textobjekts zu kennzeichnen, besteht darin, den Text blau darzustellen oder zu unterstreichen. Diese Art der Darstellung entstammt dem World Wide Web und kam mit den Webbrowsern auf. Von der ergonomischen Gestaltung her ist dieser „Link-Stil“ jedoch nicht so gut. Wir kommen darauf im Kapitel Typographie zu sprechen und lassen diese Variante zunächst beiseite. Welche anderen Möglichkeiten gibt es, ein anklickbares Objekt oder einen Bereich auszuzeichnen, also so darzustellen, dass er sich von anderen Objekten und Bereichen absetzt?

Weboberfläche für die Suche in einer Literaturdatenbank
Weboberfläche für die Suche in einer Literaturdatenbank

Dieses Beispiel zeigt, dass es nicht ausreichend ist, lediglich ein besonders auffälliges Element zu gestalten, um zu verdeutlichen, dass es sich um ein anklickbares Objekt handelt. Die Grafik unten links, der Schriftzug „Search“ mit der Lupe davor, ist in der Bildschirmdarstellung ein animiertes GIF. Die Lupe bewegt sich unentwegt über dem Text hin und her. Dies ist grundsätzlich schon nicht ergonomisch, denn das sich dauerhaft bewegende Element besitzt ein erhebliches Ablenkungspotenzial. Das größere Problem ist jedoch, dass ebendieses Element mit der sich bewegenden Lupe die aktive Schaltfläche verkörpert. Man muss auf die bewegte Grafik drücken, um die Suche in der Datenbank zu starten. Wären Sie darauf gekommen? Warum erkennt man diesen „Button“ nicht, obwohl er doch das auffälligste Element auf dem Bildschirm ist? Eine Reihe von Gründen spielen hier eine Rolle, denn die Gestaltung widerspricht vielen der Forderungen, die wir in den nachfolgenden Kapiteln ausführlich besprechen werden:

  • Die Gestaltung dieser „Schaltfläche“ ist sehr verschieden von den anderen Buttons in demselben Formular. Es wurde ein gestalterischer Unterschied eingeführt, der bedeutungslos ist. (Wir behandeln dies später genauer bei der Forderung nach Interner Konsistenz)
  • Die Positionierung des Elements ist ungünstig, denn die Gestaltung entspricht nicht der Leseflussrichtung. Befände sich die Grafik unten rechts, wäre die Wahrscheinlichkeit, dass man sie als Auslöser erkennt, möglicherweise höher. (Hierzu mehr im Kapitel über Kulturelle Konventionen)
  • Die Animation hat ein großes Ablenkungspotenzial. Da diese Störquelle kontinuierlich aktiv ist, muss man sich regelrecht darauf konzentrieren, das Element zu ignorieren. Dieses Phänomen ist auch als „Banner Blindness“ bekannt2.
  • Das Element entspricht keiner Konvention für anklickbare Objekte: Animierte Grafiken dieser Art sind üblicherweise Überschriften, Zierwerk oder allenfalls ein Prozessindikator.

Für uns ist an dieser Stelle am wichtigsten:

  • Das Element lenkt zwar die Aufmerksamkeit auf sich, es setzt sich aber nicht räumlich vom Hintergrund ab. Es wird also eher als integraler Bestandteil der Umgebung bzw. des Hintergrunds angesehen als ein davon abgesetztes Objekt.

Während das aktive Element im obigen Beispiel zu auffällig war, geht es im folgenden Beispiel nahezu unter:

Links: Charms-Bar von Windows 8, Rechts: Einfache Verbesserungen
Links: Charms-Bar von Windows 8, Rechts: Einfache Verbesserungen

Den linken Teil dieser Abbildung haben Sie bereits im Einführungskapitel kennengelernt. Zu sehen ist ein Teil der sogenannten „Charms-Bar“ von Windows 8. Diese Leiste kann bei Windows 8 jederzeit geöffnet werden, um bestimmte Systemfunktionen, aber auch Funktionen des gerade laufenden Programms zu erreichen. Unter anderem ermöglicht die Charms-Bar auch den Zugriff auf die Systemeinstellungen. Dafür muss im unteren Bereich der Leiste auf den Text „PC-Einstellungen ändern“ geklickt werden.

Diese Gestaltung ist problematisch, weil der Text nicht als eigenes Objekt erkennbar ist. Es wirkt als Beschriftung und erzeugt nicht den Eindruck einer Schaltfläche. Dass man an dieser Stelle klicken kann, muss man wissen oder man entdeckt es durch Zufall. Der rechte Teil der Abbildung zeigt eine mögliche Verbesserung mit minimalen Mitteln. Es wurde lediglich der Hintergrund um den Text herum aufgehellt. Die kleine Änderung macht einen großen Unterschied, denn jetzt erscheint der Text als eigenständiges Objekt, das sich durch die Helligkeitsstaffelung räumlich abhebt und zudem auch noch einer typischen Konvention für das Aussehen von Buttons entspricht.

Interessanterweise treten Fehler in der mangelnden Unterscheidung von Objekt und Hintergrund bis heute auf. Auch die bekannte Grafiksoftware Photoshop von Adobe hielt sich bis vor einigen Jahren stets an das Farbschema des Betriebssystems und damit auch an das Standarddesign von Schaltflächen und Eingabebereichen. Inzwischen ist man aber zu einer eigenen, in Dunkel gehaltenen Darstellung übergegangen.

Einstellungen zum Erstellen eines neuen Bildes in Adobe Photoshop
Einstellungen zum Erstellen eines neuen Bildes in Adobe Photoshop

Über die Probleme dieser Negativdarstellung sprechen wir intensiver im Kapitel Typographie. Das eigentliche Problem im oben abgebildeten Fenster ist nicht die Darstellung von heller Schrift auf dunklem Grund, sondern, dass die Buttons und die Eingabefelder nur schwer erkennbar sind. Buttons heben sich nicht mehr ab, sondern sind nur noch mit einer sehr dünnen Linie umrahmt. Gravierender noch ist die fehlende Auszeichnung der Eingabefelder zum Beispiel hinter „Breite“ und „Höhe“. Der Eingabebereich ist nur noch durch einen sehr dünnen, etwas helleren, grauen Strich ausgezeichnet. Dadurch ist schwer zu erkennen, wo etwas einzugeben ist und wo es sich um eine reine Ausgabe handelt. Wenn eine Firma wie Adobe eine solche Designänderung durchführt, ist das Grund genug zu überlegen, was die Gründe dahinter gewesen sein mögen. In gewisser Weise ist die Entscheidung, ein dunkles, zurückhaltendes Design zu wählen, sinnvoll, denn bei einer Anwendung zur Bildbearbeitung sollte das zu bearbeitende Bild im Vordergrund stehen. Die Objekte der Nutzungsschnittstelle sind nur ein notwendiges Übel. Sie sollten daher zurückhaltend gestaltet sein und möglichst nicht auffallen. Dieses Ziel wurde durch die Designänderung zwar erreicht, doch wurde dabei das Kind mit dem Bade ausgeschüttet. Das Design ist nicht aufdringlich, aber es ist eben auch nicht prägnant genug, sodass durch zusätzliche Anforderungen an das Orientierungsvermögen und die Konzentration erzwungene Sequenzialität entsteht und dadurch die Nutzung erschwert wird.

Auf der folgenden Abbildung sehen Sie eine schnelle Überarbeitung desselben Fensters, bei dem die Buttons leicht aufgehellt und die Eingabefelder leicht abgedunkelt wurden. Durch diese minimale Änderung sind die Objekte der Manipulation und der Interaktion deutlich besser erkennbar, ohne dass die Oberfläche unruhiger und aufdringlicher geworden wäre.

Verbesserte Version der vorhergehenden Abbildung
Verbesserte Version der vorhergehenden Abbildung

Die Simulation von Plastizität

Vor allem am Beispiel der Buttons haben wir bisher überlegt, wie diese gestaltet werden können, um als Objekte am Bildschirm gut erkennbar zu sein. Damit ein Bildschirmelement als Objekt erkennbar ist, muss es sich optisch absetzen. Oben haben wir das durch einen Helligkeitsunterschied zur Umgebung erreicht. Diese einfache Gestaltung passt zur Grundhypothese aus dem Kapitel Architektur der Wahrnehmung, wonach unser Wahrnehmungssystem auf eine Welt von dreidimensionalen, einander verdeckenden, beleuchteten Objekten ausgeht. Ziehen wir die dort herausgearbeiteten Beleuchtungs-Hypothesen heran, können wir leicht weitere Gestaltungsvorschläge ableiten, die dieser Grundhypothese des Wahrnehmungssystems entsprechen.

Eine eingefärbte Fläche hebt sich von ihrer Umgebung ab. Diese Art der Auszeichnung durch die Einfärbung des Hintergrunds und durch eine eventuelle zusätzliche Umrandung hat den Vorteil, sehr einfach zu sein. Der Wahrnehmungseindruck bleibt aber, ähnlich wie bei Text auf Papier, im Zweidimensionalen.

Bei diesem Button hingegen, obwohl in der technischen Umsetzung sehr ähnlich, gibt es einen plastischen Effekt. Dadurch dass der Hintergrund dunkel und die Buttonfarbe heller gestaltet ist, erscheint der Button optisch näher als der Hintergrund.

Simulierte Schlagschatten

Neben solchen Helligkeits- und Sättigungsunterschieden sind in zweidimensionalen Darstellungen vor allem Schlagschatten Indikatoren für Tiefe. Die folgenden beiden Darstellungen können das gut verdeutlichen.

Plastizität durch simulierte Schattenwürfe
Plastizität durch simulierte Schattenwürfe

Beide Quadrate auf diesen Abbildungen befinden sich an genau der gleichen relativen Position zum Hintergrund. Der Eindruck des Vom-Hintergrund-abgesetzt-Seins und eines größeren Abstands zwischen Vordergrund und Hintergrund auf der rechten Seite entsteht ausschließlich durch die Position und das Aussehen des simulierten Schlagschattens. So einen Schatten zu simulieren bedeutet, eine virtuelle Lichtquelle zu simulieren. Aber wo sollten Sie diese Lichtquelle positionieren? Von den vielen Möglichkeiten sind nur einige wenige sinnvoll.

  • Die imaginäre Lichtquelle muss sich auf jeden Fall hinter dem Nutzer befinden, denn sonst würden die Objekte keinen Schatten auf den Bildschirmhintergrund werfen und die Lichtquelle wäre nutzlos.
  • Die imaginäre Lichtquelle muss sich oberhalb des Kopfes befinden. Dies entspricht den natürlichen Wahrnehmungssituationen mit einer Beleuchtung vom Himmel her, also von oben. Damit entspricht eine solche Gestaltung auch der Architektur der Hypothesenbildung im Wahrnehmungssystem.
  • Letztendlich funktionieren die Schatteneffekte besser, wenn die imaginäre Lichtquelle von der Seite kommt. Im Prinzip ist es egal, ob das Licht von links oder von rechts her scheint. Ein Lichteinfall von links ist aber schon seit Langem die in der Kunst und Malerei bevorzugte Positionierung, sodass wir diese Variante empfehlen.
Prinzip von Buttons mit Schlagschatten
Prinzip von Buttons mit Schlagschatten

Nimmt man diese Hinweise zusammen, simuliert man also eine Lichtquelle von oben-links-hinter-Kopf, hebt sich ein Button, wie er hier dargestellt ist, noch stärker vom Hintergrund ab, als dies nur durch die Helligkeitsstaffelung möglich wäre. Die Schlagschatten müssen bei Weitem nicht so auffällig gestaltet sein wie in der obigen Abbildung. Für den plastischen Effekt reicht auch ein viel subtilerer Schatten.

Der unten abgebildete Button etwa hat einen minimalen Schlagschatten, den man fast nicht bewusst wahrnimmt. Dennoch sorgt er dafür, dass sich der Button vom Hintergrund stärker abhebt, als es eine helle Fläche allein tun würde.

Button mit minimalem Schlagschatten
Button mit minimalem Schlagschatten
Darstellungen von Aus- und Einstülpungen

Sehr effektiv, aber leider aus der Mode gekommen, ist das Vermitteln von Plastizität durch das Simulieren von Aus- und Einstülpungen, also der Darstellung von Flächen, die aus dem Hintergrund heraus oder in diesen hinein zu reichen scheinen.

Verdeutlichung der plastischen Darstellung durch Beleutungsunterschiede an Reliefkanten
Verdeutlichung der plastischen Darstellung durch Beleutungsunterschiede an Reliefkanten

Ein Button wie der rechts abgebildete simuliert ein auf dem Hintergrund liegendes Objekt mit abgeschrägtem Profil. Die simulierte Beleuchtung liegt in diesem Falle in der linken oberen Bildschirmecke. Sie sorgt dafür, dass der von oben betrachtete Button zwei Kanten aufweist, die von der Lichtquelle direkt beleuchtet werden, die linke und die obere, und zwei Kanten, die im Schatten liegen, die rechte und die untere. Faktisch bedeutet dies, dass zwei Kanten heller als die Button-Grundfarbe und zwei Kanten dunkler als diese gestaltet werden sollten.

Button-Beispiel aus Windows 95
Button-Beispiel aus Windows 95

Diese Darstellung von Buttons war in den 1990er Jahren sehr verbreitet. Oben sehen Sie ein Exemplar aus Windows 95. Buttons so zu gestalten, erfordert jedoch bestimmte Randbedingungen: Die Gestaltung funktioniert nicht gut auf weißem oder schwarzem Hintergrund, wenn Kanten des Buttons selbst weiß oder schwarz werden müssen. In Windows 95 mit seiner vorherrschenden mittelgrauen Farbe funktionierte es hingegen hervorragend.

Die Vorteile dieser Technik sind zum einen, dass sie keiner großen grafischen Finesse, wie etwa der Simulation eines Schlagschattens mit einem Helligkeitsverlauf, bedürfen und daher auch auf Systemen ohne hohe Farbauflösung leicht umsetzbar sind. Der Plastizitätseffekt ist trotz dieser einfachen Gestaltung groß. Ein wichtiger Vorteil gegenüber den zuvor vorgestellten Gestaltungsalternativen ist aber vor allem, dass ein solcher Button einem realweltlichen Druckschalter ähnelt. Ein Button hebt sich damit nicht nur räumlich ab, sondern erinnert durch seine Gestaltung auch an seine Funktion. Er hat dadurch eine höhere Wiedererkennbarkeit als eine anders gestaltete Schaltfläche.

Achtung: Es gilt weiterhin unser Hinweis, dass man ohne Vorwissen nicht an der Gestaltung eines Objekts erkennen kann, wofür ein Objekt steht bzw. wie es funktioniert. Wiedererkennbarkeit bedeutet lediglich, dass die Gestaltung dabei unterstützt, etwas, das man schon erlernt hat, wiederzuerkennen. Wir werden das Potenzial der Wiedererkennbarkeit später als eine wichtige Anforderung beim Icon-Design kennenlernen und uns da vor allem mit dem wichtigen Unterschied zwischen Erkennen und Wiedererkennen befassen.

Helligkeitsverläufe

Eine komplementäre Technik, um ein Objekt plastisch hervorzuheben, ist der Einsatz von Helligkeitsverläufen. Sie entsprechen dem natürlichen Wahrnehmungseindruck, bei dem eine beleuchtete Fläche immer einen gewissen Helligkeitsverlauf aufweist.

Ein Button im Windows-XP-Stil und ein Button aus der Software Picasa
Ein Button im Windows-XP-Stil und ein Button aus der Software Picasa

Dieser Button von Windows XP (links) weist einen solchen Helligkeitsverlauf auf. Er ist oben heller als unten. Das simulierte Licht kommt demnach von mittig oben. Daneben abgebildet ist ein Button aus Googles ehemaliger Software Picasa. Auch hier gibt es einen vergleichbaren Helligkeitsverlauf von oben nach unten. Die Richtung des Verlaufs ist wichtig! Aus dem gleichen Grunde, aus dem wir zuvor dafür argumentiert haben, dass eine Lichtposition von oben angenommen werden muss, müssen wir auch hier von einer natürlichen Beleuchtung von oben ausgehen.

Button aus Adobe Lightroom Classic CC
Button aus Adobe Lightroom Classic CC

Die vorgestellten Techniken lassen sich auch kombinieren. Der abgebildete Button aus Adobes Lightroom Classic CC hat sowohl einen Helligkeitsverlauf von oben nach unten, der in der vorliegenden Abbildung kaum noch zu erkennen ist, als auch leicht angedeutete helle Kanten links und oben.

Die vorgestellten Techniken zur Simulation von Plastizität am Bildschirm gelten nicht nur für Schaltflächen, sondern können auf eine Vielzahl von Objekten übertragen werden.

Helligkeitsverläufe im Reiter eines Browsers
Helligkeitsverläufe im Reiter eines Browsers

Diese Darstellung eines Browser-Reiters arbeitet beispielsweise mit den hier vorgestellten Techniken. Der ausgewählte Reiter ist heller als der Hintergrund und als die übrigen, nicht ausgewählten Reiter. Ein leichter Schlagschatten unterstützt das visuelle Absetzen und schlussendlich wird die Plastizität durch einen leichten Helligkeitsverlauf unterstützt.

Maßvoller Einsatz

Bei allen hier vorgestellten Techniken gilt es, sie maßvoll anzuwenden. Werden sie übertrieben angewandt, unterstützen sie nicht mehr die Wahrnehmung der Objekte und der Struktur am Bildschirm, sondern werden zu ablenkenden Elementen.

Ablenkende und störende Zierleiste in der Software Stellar Phoenix
Ablenkende und störende Zierleiste in der Software Stellar Phoenix

Im obigen Beispiel des Datenrettungsprogramms Stellar Phoenix gibt es Elemente, bei denen zu starke Verläufe und sogar Texturen eingesetzt werden. Dazu gehören die Buttons im unteren Bereich, die mit Glanzeffekten und mit einer Textur eine edelsteinartige Anmutung haben, die die Erkennbarkeit und Unterscheidbarkeit nicht fördert, wohl aber starke visuelle Unruhe erzeugt. Dieser visuelle Reichtum hat nicht nur keine eigene Funktion, sondern vermindert unnötig die Erkennbarkeit der eigentlichen Abbildungen der Buttons. Noch kritischer ist die mit „Stellar Phoenix Macintosh 4.1“ beschriftete Leiste oben im Bild. Diese Leiste hat keine Funktion, ist aber das bei Weitem auffälligste Element im gesamten Fenster. Die Verwendung eines Helligkeitsverlaufs dieser Art, der entfernt an die Darstellung eines Metallrohrs erinnert, lenkt ab, ohne einen Zweck zu erfüllen. Gestaltungen dieser Art verstoßen gegen die Forderung nach Einfachheit.

Wir werden uns mit dieser Forderung beim Icon-Design und im Kapitel Anordnung noch intensiver beschäftigen.

Fensterdesign früher Versionen von Mac OS X – Bild: http://static.userland.com/images/radiodiscuss/xfindDialog.jpg
Fensterdesign früher Versionen von Mac OS X – Bild: http://static.userland.com/images/radiodiscuss/xfindDialog.jpg

In diesem Bild sehen Sie ein älteres Design von Mac OS X. Auch hier wurde eine Gestaltung gewählt, die zwar sehr plastische Objekte erzeugt, aber die Forderung nach Einfachheit der Darstellung nicht berücksichtigt. Am augenfälligsten wird dies bei den Buttons, die eine Glasanmutung inklusive Glanzeffekten haben. Dies ist zwar auffällig, hat aber gegenüber den optisch eher „langweiligen“ Buttons wie den zuvor gezeigten von Windows 95 keinerlei Vorteile.

Vorsicht bei teiltransparenten Elementen

Der Ansatz, Plastizität am Bildschirm zu erzeugen, ist letztlich der Versuch, den Eindruck von sich verdeckenden Elementen und eine daraus resultierende Tiefe zu erzeugen. Eine aufwändige Möglichkeit, diesen Eindruck zu erzielen, ist, Elemente der Nutzungsschnittstelle teildurchsichtig zu machen, also so zu gestalten, dass der Hintergrund teilweise durchscheint. Die Verwendung dieser Technik sieht in Produktvorstellungen oft besonders gut aus. Gegenwärtig ist die Verwendung teiltransparenter Objekte in vielen Anwendungen und Betriebssystemen verbreitet und sowohl im Windows-, Apple- als auch Linux-Bereich zu finden. In der Praxis ergeben sich durch diese Gestaltung jedoch Probleme, die ihren Einsatz eigentlich verbieten sollten, da sie der Forderung nach Robustheit in der Gestaltung widerspricht.

Zur Erinnerung: Im Gegensatz zur Gestaltung eines Spiels oder eines statischen Bildes lassen sich bei der Entwicklung einer Nutzungsschnittstelle nie alle Kombinationen von möglicherweise gemeinsam auftretenden Bildschirmelementen vorhersehen. In Multitasking-Systemen mit mehreren gleichzeitig sichtbaren Programmen verstärkt sich dieses Problem. Bei der Gestaltung einer einzelnen Anwendung ist nicht mehr durchgängig klar, mit welchen anderen Programmen und Fenstern es zusammen auf dem Bildschirm erscheinen wird, wie die Fenster angeordnet sein werden und welcher individuelle Hintergrund bei der jeweiligen Nutzung gewählt worden ist. Bei teiltransparenten Elementen wird das zu einem Problem. Da zum Zeitpunkt der Gestaltung nicht generell vorhersehbar ist, welche Objekte hinter dem teiltransparenten Objekt liegen werden, kann es zu eigenartigen Störeffekten kommen.

Beispiele für den problematischen Einsatz teiltransparenter Elemente
Beispiele für den problematischen Einsatz teiltransparenter Elemente

Das Problem veranschaulichen die obigen Abbildungen. Im linken Beispiel scheint die Scrollbar eines hinten liegenden Fensters durch ein im Vordergrund befindliches Menü durch und das recht auffällig. Der so entstandene Balken ist bestenfalls überflüssiger Hintergrund, der wahrgenommen werden muss. Schlimmstenfalls kommt es zu Irritationen und Fehlinterpretationen. In beiden Fällen entsteht erzwungene Sequenzialität. Im rechten Beispiel ist es ähnlich. Der Hintergrund einiger Elemente auf der linken Seite scheint eingefärbt zu sein. Diese Färbung hat aber nichts mit den dort sichtbaren Elementen zu tun, sondern ist auf ein dahinter liegendes Fenster mit einem großen, roten Element zurückzuführen. Diese Seiteneffekte aus anderen Fenstern und Programmen können in der Bedienung zu Irritationen führen. Nochmals gesteigert wird der Irritationseffekt, wenn der Hintergrund nicht statisch ist, sondern zum Beispiel aus einem Video oder einer blinkenden Werbeanzeige besteht. Dieses Blinken und Flackern hat mit der aktuell zu erledigenden Aufgabe nichts zu tun und ist daher störend.

Unsere dringende Erinnerung daher an dieser Stelle: Nutzungsschnittstellen möglichst robust gestalten! Robust gestalten bedeutet zurückhaltend gestalten, indem auf visuelle Spielereien und ornamentale Ausschmückungen verzichtet wird, um die potenzielle Zahl von Konfliktsituationen bei der Kombination von Bildschirmelementen zu reduzieren. Die Verwendung teiltransparenter Elemente vergrößert die Zahl möglicher Komplikationen und verringert dadurch die Robustheit.

Objektauszeichnung

Objekte als bearbeitbar und aktiv darzustellen, ist nur ein Grund für eine Auszeichnung. Es gibt noch viele weitere Notwendigkeiten, ein Objekt unterschiedlich dar- und dadurch herauszustellen. In einer visuellen Nutzungsschnittstelle können Objektzustände nur dann Gegenstand des Denkens und der Differenzerfahrung werden, wenn sie auch visuell wahrnehmbar sind. Für die Anwendung wichtige Zustandsinformationen müssen daher möglichst deutlich als Objekteigenschaft erkennbar sein und sie dadurch von anderen absetzen. Nutzer müssen zum Beispiel die Objekte einer Auswahl, also selektierte Objekte, von anderen unterscheiden können. In einem Formular kann es notwendig sein, durch einen optischen Unterschied klarzumachen, dass bestimmte Eingabefelder momentan nicht zur Verfügung stehen. In einem System zur Überwachung einer Industrieanlage kann es notwendig sein, bestimmte Bildschirmobjekte, die ein defektes Aggregat oder einen gefährlichen Messwert repräsentieren, von den übrigen Objekten abzusetzen.

Selektiertes Icon in Windows XP (links) und Windows 7 (rechts)
Selektiertes Icon in Windows XP (links) und Windows 7 (rechts)

Diese Abbildung zeigt zwei Beispiele für die Auszeichnung von Objekten: In beiden Fällen ist je ein Objekt ausgezeichnet – es ist selektiert. Das Beispiel auf der linken Seite stammt von Windows XP, das rechte von Windows 7. In beiden Fällen liegt eine Auszeichnung der Selektion durch den Einsatz von Farbe vor. Bei Windows XP wird zur Darstellung der Selektion das Icon mit einem Blauschleier versehen. Auch die Icon-Beschriftung wird blau hinterlegt. Bei Windows 7 wird das Icon nicht mehr verändert, sondern stattdessen die Umgebung des Icons, quasi eine Kachel, eingefärbt. Die Einfärbung des Hintergrunds vermeidet das Problem, das entsteht, wenn die Farbe des Icons mit der Auszeichnungsfarbe übereinstimmt oder ihr zumindest sehr nahekommt. In diesen Fällen erscheint ein Icon auch im nicht selektierten Zustand als selektiert. Beim Hinterlegen ist der Zustand eindeutig erkennbar. Allerdings können auch dabei Konflikte auftreten, sodass das Icon selbst schlechter zu erkennen ist. Vor allem wenn verschiedene Personen zu verschiedenen Zeitpunkten die Art und Weise der Darstellung der Selektion und die Auswahl und Darstellung von Icons gestalten, funktioniert die Windows-7-Variante immer. Das Hinterlegen mit einer Farbe ist also die robustere Technik für eine Auszeichnung.

Die Verwendung von Signalfarben

Besondere Vorsicht ist bei der Auszeichnung mit Signalfarben geboten. Problematisch ist hier vor allem das gesättigte Rot. Signalfarben leiten die Wahrnehmung stark. Sie eignen sich damit gut, die Aufmerksamkeit auf ein problematisches Element zu ziehen oder um eine Fehlermeldung mit dem Hinweis auszuzeichnen, dass etwas potenziell Gravierendes passiert ist, das eine Reaktion erfordert. Sie eignen sich auch gut, um ein Objekt möglichst auffällig zu gestalten.

Ein rotes X steuert die Aufmerksamkeit stark.
Ein rotes X steuert die Aufmerksamkeit stark.

Die Zeichen dieser Abbildung sind sehr auffällig gestaltet. Sie ziehen deshalb die Aufmerksamkeit auf sich. Das ist gerechtfertigt, wenn sie in Situationen eingesetzt werden, in denen die Aufmerksamkeit von der momentanen Handlung auf eine andere Situation gerichtet werden soll. Die Objekte erfüllen dann die Forderung nach Attentionalität.

Im Umkehrschluss heißt das, dass Signalfarben nicht eingesetzt werden sollten, wenn es nicht notwendig ist, Aufmerksamkeit zu erzeugen oder auf ein Element explizit hinzuweisen, denn dann entsteht eine unnötige Ablenkung und die Forderung nach Ablenkungsfreiheit ist verletzt.

Die aufgestellten Forderungen nach Attentionalität und Ablenkungsfreiheit wirken so, als wären sie absolut unvereinbar, legt doch Attentionalität nahe, Gestaltungsmittel zu nutzen, um die Aufmerksamkeit auf etwas zu ziehen, und Ablenkungsfreiheit, genau diese Gestaltungsmittel zu vermeiden, um nicht abzulenken. Hier einen unlösbaren Konflikt zu vermuten, ist jedoch ein Trugschluss, denn nicht jede erregte Aufmerksamkeit ist eine unerwünschte Ablenkung. Auf ein Problem beim Speichern oder eine Inkonsistenz in den Daten hinzuweisen, ist keine Ablenkung im Sinne unserer Forderung. Eine Aufmerksamkeitsleitung ist nur dann eine Ablenkung, wenn sie keinen Zweck erfüllt. Eine attentionale Gestaltung kann die Ablenkungsfreiheit nicht verletzen, wenn diese in der Situation nicht erforderlich ist. Andersherum kann eine Verletzung der Ablenkungsfreiheit nicht mit Attentionalität gerechtfertigt werden. Es tritt immer nur die eine oder die andere Forderung zu einem Zeitpunkt auf und Signalfarben sind nur im Fall der Attentionalität gerechtfertigt.

Leider werden Signalfarben in gutem Glauben oft in falschen Situationen eingesetzt:

Problematische einfefärbte Steuerungselemente einer Firefox-Version unter Windows 7
Problematische einfefärbte Steuerungselemente einer Firefox-Version unter Windows 7

Die obige Abbildung einer Version des Firefox Browsers unter Windows 7 zeigt gleich zwei problematische Elemente, von denen eins auf die Gestaltung der Software, das andere auf die Gestaltung des Betriebssystems zurückzuführen ist. Zum einen gibt es das orange Firefox-Menü innerhalb der Titelleiste. Es ist in der Umgebung aus sonst blauen Farbtönen sehr dominant und zieht die Aufmerksamkeit auf sich, obwohl das Menü in der täglichen Nutzung recht selten verwendet wird und daher keine Notwendigkeit besteht, permanent darauf hinzuweisen.

Noch problematischer – und ein typisches Beispiel, das leider auch in vielen anderen Anwendungen anzutreffen ist – ist die Gestaltung des Schließen-Knopfes des Fensters von Windows XP bis Windows 8. Welchen Grund sollte es geben, diesen Knopf rot zu gestalten und damit zu einem der auffälligsten Elemente eines jeden Fensters zu machen? Die Intention hinter der roten Einfärbung dürfte gewesen sein, mit der roten Farbe davor zu warnen, hier versehentlich zu klicken. Die Anwendung der Signalfarbe Rot ist hier aber widersinnig und fehlangewandt, denn der rote Knopf zieht die Aufmerksamkeit auf sich, wenn er eigentlich ncht genutzt werden sollte. Microsoft hat später in Windows 10 das Aussehen des Fenster-Schließens geändert. Der Knopf ist nicht mehr dauerhaft rot und damit auch nicht mehr ablenkend. Er wird erst dann rot, wenn man den Mauszeiger auf ihm ruhen lässt. Diese Gestaltungsentscheidung ist zwar nachvollziehbar, aber damit erhält der rot werdende Knopf die Bedeutung „Achtung, das Drücken könnte etwas potenziell Gefährliches auslösen“. Die Frage ist nur: Wieso soll eine normale und gewollte Operation als problematisch ausgezeichnet werden? Ein Hinweis oder eine Aufforderung zur Bestätigung der letzten Eingabe bei etwaigem Datenverlust muss ohnehin separat ermittelt und angezeigt werden.

Problematische Drop-Icons in der Datenbankverwaltung phpMyAdmin
Problematische Drop-Icons in der Datenbankverwaltung phpMyAdmin

Diese Abbildung zeigt eine ältere Version des Datenbankverwaltungs-Tools phpMyAdmin. Hier gibt es genau die gleiche Unsinnigkeit. Die Funktion „Drop“, also das Löschen einer Tabelle, ist mit einem auffällig roten Icon versehen. Man schaut unweigerlich dort hin. Warum? Um zu wissen, dass man genau das jetzt nicht tun sollte?

Eine rote Färbung ist nicht dazu geeignet, eine Warnung vor der Nutzung zu sein. Rote Elemente im Auto (Schalter für Warnblinklicht), an Anlagen (Not-Aus) oder im Zug (Notbremse) sind nicht rot, damit man davor gewarnt ist, sie nicht zu nutzen, sondern damit man sie, wenn man sie mal nutzen muss, nicht erst lange suchen muss. Es will uns aber kein sinnvoller Grund einfallen, ein Fenster im Notfall schnell zu schließen oder eine Tabelle im Notfall schnell zu löschen. Sollten Sie dafür in Ihrer Software doch einen triftigen Grund haben, können Sie ein rotes Element verwenden, sonst bitte nicht, denn Sie erreichen damit nicht den gewünschten Effekt.

Objekte im Ensemble gestalten!

Wir werden in den folgenden Kapiteln noch öfter darauf zu sprechen kommen, dass Objekte im Zusammenhang zu betrachten sind. Icons beispielsweise müssen immer im Ensemble betrachtet werden, denn nur so kann sichergestellt werden, dass sie hinreichend ähnlich gestaltet sind und somit nicht ein Icon aus den anderen heraussticht (siehe Kapitel Icon-Gestaltung). Auch Forderungen wie Robustheit in der Gestaltung können nicht mit Blick auf jeweils einzelne Objekte umgesetzt werden. Die Notwendigkeit, einzelne Objekte nicht isoliert zu entwerfen, betrifft fast alle Aspekte der Gestaltung.

Verfügt eine Maske beispielsweise über mehrere Buttons, so sollten diese Buttons möglichst gleichartig gestaltet werden. Eine unbegründete Abweichung im Design wird zu einer unbegründeten Auszeichnung eines einzelnen Objekts und führt damit zu erzwungener Sequenzialität, denn sie zieht die Aufmerksamkeit unnötigerweise auf sich, sei es durch die schiere optische Auffälligkeit oder dadurch, dass über den Grund des Unterschieds nachgedacht wird. Auch wenn ein Objekt explizit ausgezeichnet werden soll, müssen die anderen Objekte betrachtet werden, denn nur dann kann die Gestaltung ja bewusst abweichend sein. Wollen wir eine farbliche Auszeichnung festlegen, müssen die Farben der nicht ausgezeichneten Objekte betrachtet werden, um sicherstellen zu können, dass auch bei jeder Kombination ein Unterschied schnell und sicher erkennbar ist.

Gerade beim Einsatz von Farben zur Auszeichnung und zur plastischen Gestaltung von Bildschirmumgebungen gilt es, einige Fallstricke zu vermeiden. Allzu leicht entstehen ungewollte Ablenkungen oder die Erkennbarkeit leidet.

Maßvoller Einsatz von Farbe

Schon die Hinweise zum Einsatz von Signalfarben legen nahe, dass bei der Farbwahl generell Maßhalten angebracht ist. Der Einsatz von Signalfarben sollte eine Ausnahme sein, auch wenn sie nicht das einzige Problem für die Farbwahl am Bildschirm sind. Das Problem einer zurückhaltenden Gestaltung lässt sich bei der Farbgestaltung mit dem Slogan „Farblich, aber nicht bunt!“ charakterisieren. Um Ablenkungen zu vermeiden, gilt es Maß zu halten und vor allem die Anzahl gesättigter Farben auf ein Minimum zu reduzieren. Vor allem bei der Verwendung stark gesättigter Farben kommt es zu physischen Belastungen des Auges (etwa durch den starken Effekt der chromatischen Aberration). Es gilt also, Objekte am Bildschirm nicht auf gut Glück einzufärben, sondern sich eine abgestimmte Farbpalette zu erstellen.

Ein kleiner Farbwinkel
Ein kleiner Farbwinkel

Zum Erzeugen einer Farbpalette braucht es Wissen über das HSB/HSV-Farbmodell, das wir in Kapitel Farbmodelle behandeln! Die folgende Anleitung kann zum Erstellen von Paletten eine gute Leitlinie sein.

Bestimmen Sie einen Grundfarbton für Ihre Anwendung. Die Farbpalette, die Sie nun erzeugen, enthält zunächst einmal Abstufungen dieses Farbtons in verschiedenen Helligkeits- und Sättigungsstufen. Beachten Sie: Zu dieser Palette gehören auch immer alle Abstufungen von Grau (Sättigung 0), sodass sich schon jetzt eine auf Grau basierende Nutzungsschnittstelle mit der von Ihnen ausgesuchten Farbe als Auszeichnungsfarbe realisieren ließe.

Entfernen Sie nun aus der Palette Farben mit hoher Helligkeit oder hoher Sättigung. In HSB bedeutet das, dass Sie keine Sättigung über 50 % wählen sollten.

Als Resultat bleiben Farben wie die folgenden übrig:

Wird eine weitere kräftigere Auszeichnungsfarbe (innerhalb der obigen Schranken) gebraucht, wählen Sie einen Farbwinkel zwischen der Grundfarbe und der Auszeichnungsfarbe von nicht mehr als 45 Grad. Die so entstehende Farbe ist hinreichend abweichend, um erkennbar zu sein, aber noch ähnlich genug, um nicht zu sehr abzulenken.

Fügen Sie auffällige Auszeichnungsfarben mit höherer Sättigung nur dann hinzu, wenn es einen guten Grund dafür gibt. Dieser ist dann gegeben, wenn es notwendig ist, Objekte so auszuzeichnen, dass sie die Aufmerksamkeit stark auf sich lenken. Wenn möglich, verwenden Sie diese Auszeichnungsfarben nur auf kleinen Flächen, um einen zu bunten Gesamteindruck und damit ungewollte Ablenkungen zu vermeiden.

Wenn es einen Grund dafür gibt, eine Vielzahl von Farben in der Nutzungsschnittstelle zu verwenden, zum Beispiel wenn sie für eine farbliche Codierung genutzt werden sollen, beschränken Sie sich auf Pastelltöne für den Hintergrund (etwa V bzw. B > 65 % in HSV/HSB) und/oder gedeckte, dunkle Töne für den Vordergrund (etwa V < 30 %).

Farbfehlsichtigkeit beachten!

Beim Einsatz zu vieler oder zu greller Farben werden unsere Forderungen nach Einfachheit und Ablenkungsfreiheit verletzt. Die Forderung nach Unterscheidbarkeit hingegen wird dann ein Problem, wenn eine Unterscheidung durch farbliche Auszeichnung nicht erkannt werden kann. Um bei farblicher Codierung eine Unterscheidbarkeit zu gewährleisten, muss ein hinreichend großer Sättigungs- oder Farbtonkontrast gewählt werden. Nicht alle Menschen können Farben gleichermaßen gut wahrnehmen. Vollständige Farbenblindheit ist selten. Weitaus häufiger sind Farbschwächen, vor allem die Rot-Grün-Schwäche. Etwa 9 % aller Männer leiden darunter. Aus genetischen Gründen sind Frauen erheblich weniger davon betroffen.

Die Ishihara-Tafeln von 1917, von denen unten nur eine kleine Auswahl abgebildet ist, werden noch heute genutzt, um Farbsehschwächen zu diagnostizieren. Die Tafeln sind geschickt ausgetüftelt, sodass mit ihnen festgestellt werden kann, unter welcher Art von Farbfehlsicht man leidet. Beachten Sie, dass es häufig beim Einscannen oder bei der Wiedergabe am Bildschirm zu Farbverschiebungen kommen kann. Wenn Sie also auf der Abbildung oben etwas nicht erkennen können oder etwas anderes erkennen, als Sie erkennen sollten, kann es sein, dass nicht Sie eine Farbschwäche haben, sondern dass das Medium, das Sie benutzen, über keine optimale Farbdarstellung verfügt. Wenn die Wiedergabe korrekt ist und wenn Sie keine Farbfehlsicht haben, sollten Sie hier auf allen Karten, bis auf einer, Zahlen lesen können: 45, 2, -, 42, 74, 97, 6, 3. Bei verschiedenen Farbwahrnehmungsproblemen sehen Betrachter teilweise nichts auf den Karten, erkennen andere Zahlen als die oben angegebenen oder erkennen auf der dritten Karte eine Zahl, die Menschen mit normaler Farbsicht nicht erkennen können.

Acht Ishihara-Bildtafeln zur Bestimmung der Farbfehlsichtigkeit – Bild: Science Museum, London. Wellcome Images images@wellcome.ac.uk http://wellcomeimages.org (CC BY 4.0)
Acht Ishihara-Bildtafeln zur Bestimmung der Farbfehlsichtigkeit – Bild: Science Museum, London. Wellcome Images images@wellcome.ac.uk http://wellcomeimages.org (CC BY 4.0)

Farbfehlsichtigkeit stellt in Bezug auf die Gestaltung von Nutzungsschnittstellen meist kein Problem dar. Die Wahrnehmung von Helligkeits- und Sättigungsabstufungen zur Erzeugung eines plastischen Eindrucks zur Vermittlung von Objektverdeckungen ist zum Beispiel davon nicht betroffen. Problematisch wird es, wenn ausschließlich Farben zur Kodierung von Informationen und zur Auszeichnung verwendet werden. Wenn Sie beispielsweise eine Software zur Steuerung einer technischen Anlage konstruieren und diese Software einen Statusbildschirm hat, auf dem die Messwerte vieler Sensoren eingezeichnet sind, kann es naheliegend sein, diese Messwerte grün anzuzeigen, wenn sie in den Spezifikationen liegen, und rot, wenn es eine besorgniserregende Abweichung gibt. Selbst wenn Sie hier voll gesättigte Farben nehmen, die auch Menschen mit Rot-Grün-Schwäche unterscheiden können, mangelt es für diese Personen am Farbkontrast. Sie können bei genauem Hinsehen zwar feststellen, dass der eine Wert rot dargestellt ist, der andere grün, aber im großen Überblick hebt sich für sie der rote Wert nicht von den anderen ab. Bei kritischen Prozessen stellt dies ein erhebliches Sicherheitsrisiko dar.

Verwenden Sie also nie ausschließlich Farbe zur Auszeichnung. Bei der Anlagensteuerung könnten die betroffenen Werte zum Beispiel zusätzlich fett dargestellt werden oder gar blinken. Nutzer mit Rot-Grün-Schwäche und anderen Farbschwächen können auch durch die Möglichkeit der Verwendung verschiedener Farbschemata unterstützt werden. So könnten Nutzer die Software auf die Unterscheidung etwa in Blau und Orange umstellen, falls das für sie besser unterscheidbar ist.

Typographie

Wenn wir in diesem Buch von Nutzungsschnittstellen sprechen, meinen wir „grafische Nutzungsschnittstellen“. Dieser Begriff wurde eingeführt, um sich von auf Textzeichen basierenden Nutzungsschnittstellen abzusetzen. Doch auch die grafischen Nutzungsschnittstellen enthalten zu einem großen Teil Text. Fast schon als ironisch zu bezeichnen ist die Tatsache, dass der Textgestaltung bei grafischen Nutzungsschnittstellen viel mehr Bedeutung zukommt als in textbasierten Systemen. Bei einer textuellen Schnittstelle ist das Aussehen des Textes eine Frage der Hardware oder bestenfalls des Betriebssystems. Der Gestaltungsspielraum ist auf die Auswahl von Textfarben oder den Einsatz eines dynamischen Features wie dem Blinken von Text beschränkt. Eine grafische Nutzungsschnittstelle bietet dagegen sehr viel mehr Gestaltungsoptionen, denn sie ermöglicht es, das Aussehen des Textes am Bildschirm zu bestimmen und schafft damit die Voraussetzung, mit diesem Aussehen auch die Funktion eines Textes im Objektarrangement am Bildschirm besser auszudrücken. Diese zusätzlichen Freiheiten bergen zugleich neue Gefahren, denn jetzt können Texte auch schwer lesbar gestaltet werden oder als Quelle für ungewollte visuelle Störungen dienen. Damit das nicht passiert, ist grundlegendes Wissen über die Gestaltung von Schrift am Bildschirm erforderlich.

Spätestens seit Johannes Gutenberg im 15. Jahrhundert den Buchdruck mit beweglichen Lettern in Europa bekannt gemacht hat, beschäftigen sich in der westlichen Welt Buchdrucker und Schriftgelehrte damit, wie gedruckte Schrift gestaltet werden soll. Das Wissen über das Schreiben mit Buchstaben, der Typographie (von griechisch τύπος (typos) = Buchstabe und γράφειν (graphein) = Schreiben), ist also über Jahrhunderte gewachsen, hat sich weiterentwickelt, wurde aktualisiert und tradiert. Im Laufe der Zeit – vom Buchdruck mit Bleilettern bis zum modernen Desktop-Publishing – haben sich sehr viele Praktiken und Konventionen herausgebildet. All diese Details zu behandeln würde für unsere Zwecke zu weit gehen, denn ein großer Teil des typographischen Wissens für den Druck eines gut lesbaren und ästhetisch anspruchsvollen Buches ist für unsere Gestaltungsaufgaben gänzlich ungeeignet.

Doch was unterscheidet Buchdruck-Typographie von Nutzungsschnittstellen-Typographie? Das Offensichtlichste ist der Unterschied im Medium: Beim Buchdruck geht es um die Gestaltung von Text, der in der Regel mit einer dunklen Tinte auf hellem Papier gedruckt wird. Die Drucktechnik erlaubt schon seit Jahrhunderten eine saubere Darstellung sehr fein strukturierter Zeichen. Am Bildschirm handelt es sich dagegen um eine Fläche aus leuchtenden Pixeln. Bis vor wenigen Jahren war die Menge dieser Pixel pro Flächeneinheit, die Pixeldichte oder Auflösung, eher gering. Text am Bildschirm war also im Vergleich zu gedrucktem Text sehr grob. Ein weiterer wichtiger Unterschied betrifft die Textlänge. Im Buchdruck liegt das Hauptaugenmerk auf der lesefreundlichen Gestaltung von langen Fließtexten. In der Nutzungsschnittstelle hingegen haben wir es oft mit kurzen Texten, manchmal mit nur einzelnen Worten oder Zeichen zu tun.

Ein letzter und sehr wichtiger Unterschied zwischen dem Design von Text für eine Nutzungsschnittstelle und der Textgestaltung im klassischen Druck hängt mit unserer Grundforderung nach Robustheit zusammen. Wenn ein Buchtext gesetzt wird – wobei es egal ist, ob es klassisch mit Bleilettern oder modern mit einer DTP-Software passiert –, liegt der komplette Text vor. Der Setzer hat die Gelegenheit, die Gestaltung jedes einzelnen Wortes, jedes einzelnen Satzes und des Textes im Ganzen zu optimieren. Bei Nutzungsschnittstellen hingegen hängt der dargestellte Text zu einem nicht geringen Teil von früheren Eingaben oder vom Zustand des Programms ab. Zum Zeitpunkt der Gestaltung ist es deshalb nicht möglich, für sämtliche Konstellationen vorherzubestimmen, welche Worte an welcher Position und in welchem Zusammenhang am Bildschirm erscheinen werden.

Diese Unterschiede sind, wie wir gleich zeigen werden, sehr bedeutsam. Sie führen dazu, dass am Bildschirm andere Entscheidungen bezüglich der Schriftwahl und der Formatierung gewählt werden müssen als auf gedrucktem Papier.

Lesen als Hypothesenbildung

Bevor wir mit konkreten Hinweisen beginnen können, wollen wir uns nochmal kurz unseren Grundlagen zuwenden und einige Konkretisierungen vornehmen. Der nachfolgende Text erschien in dieser Form in der Frankfurter Allgemeinen Zeitung 3:

FKARFNRUT, 23. Sptbemeer. Ncah enier nueen Sutide, die uetnr aerdnem von der Cmabirdge Uinertvisy dührruchgeft wrdoen sien slol, ist es eagl, in wlehcer Rehenifloge Bcuhstbaen in eneim Wrot sethen, Huaptschae, der esrte und ltzete Bcuhstbae snid an der rhcitgien Setlle. Die rsetclhien Bshcuteban kenönn ttoal druchenianedr sien, und man knan es tortzedm onhe Poreblme lseen, wiel das mneschilhce Gherin nhcit jdeen Bcuhstbaen enizlen leist, snodren das Wrot als gnazes. Mti dme Pähonemn bchesfätgein shci mherere Hhcochsluen, acuh die aerichmkianse Uivnäseritt in Ptstbigurh. Esrtmlas üebr das Tmeha gchseibren hat aebr breteis 1976 - und nun in der rgchitien Bruecihhsetnafoelngbe - Graham Rawlinson in sieenr Dsiestraiton mit dem Tetil “The Significance of Letter Position in Word Recognition” an der egnlsicehn Uitneivrsy of Ntitongahm.

Dass das Lesen derart verdrehter Texte kaum Probleme bereitet, ist verblüffend, weshalb sich auch Wissenschaftler mit diesem Phänomen beschäftigt haben. Dreißig Jahre nach der im Text erwähnten Arbeit von Rawlinson4 hat der amerikanische Psychologe Keith Rayner5 2006 herausgefunden, dass Wörter mit verdrehten Buchstaben zwar langsamer gelesen, aber meist gut verstanden werden. Wie gut das im Einzelfall funktioniert, hängt vom Vertauschungsgrad, von der Bekanntheit der Worte und von der Stabilität des ersten und des letzten Buchstabens ab.

Offensichtlich gelingt es uns, ein Wort zu lesen, das an dieser Stelle nicht steht. Für diesen Sachverhalt liefert der von uns im Grundlagenkapitel vorgestellte Hypothesengenerator nach Gregory zusammen mit den ebenfalls dort beschriebenen Merkmalen der menschlichen Wahrnehmung eine plausible Grundlage: Die Bandbreite an Informationen, die über die Sensoren, in diesem Fall das Auge, in den Wahrnehmungsapparat gelangen können, ist sehr begrenzt. Um effektiv wahrnehmen zu können, muss eine Selektion erfolgen, indem unser Wahrnehmungssystem auf der Grundlage des Gesehenen und früherer Erfahrungen Hypothesen darüber aufstellt, welche Reize für das Erkennen maßgeblich sind. Bestätigen sich die jeweils aufgestellten Hypothesen, verdeutlicht dies, dass die ausgeblendeten Informationen nicht erforderlich sind. Wir gewinnen Schnelligkeit durch Informationsverlust.

Beim Lesen verhält es sich ebenso: Ein erfahrener Lesender nimmt nur einzelne Punkte eines Textes wahr und bildet unter Zuhilfenahme früherer Erfahrungen Hypothesen darüber, was dort stehen könnte. Nur wenn sich keine Hypothese bilden lässt oder wenn die Hypothese sich im Leseverlauf als falsch erweisen sollte, ist es nötig, sich die ausgelassenen Textbestandteile genauer anzusehen. Wenn wir das obige Textbeispiel halbwegs flüssig lesen können, sind die Hypothesen unseres Wahrnehmungssystems korrekt, obwohl die gelesenen Worte faktisch falsch (geschrieben) sind.

Augenbewegungen beim Lesen eines Textes – Quelle: Radach, Ralph; Günther, Thomas und Huestegge, Lynn: Blickbewegungen beim Lesen, Leseentwicklung und Legasthenie. Lernen und Lernstörungen (2012)
Augenbewegungen beim Lesen eines Textes – Quelle: Radach, Ralph; Günther, Thomas und Huestegge, Lynn: Blickbewegungen beim Lesen, Leseentwicklung und Legasthenie. Lernen und Lernstörungen (2012)

Diese Abbildung zeigt die Augenbewegung eines Kindes einer vierten Klasse beim Lesen eines anspruchsvollen Textes6. Man erkennt gut, dass der Text nicht Buchstabe für Buchstabe, sondern in viel gröberen Zügen erschlossen wird. Die roten Punkte stellen die Fixationen dar. Fixationen nehmen 90 % der Lesezeit ein. Während einer Fixation verweilt der Blick des Lesers auf einer Stelle und das grobe Wortbild wird wahrgenommen. Dieses grobe Bild bildet zusammen mit dem bisher Gelesenen und dem Wissen des Lesers die Grundlage für eine Hypothese über das, was dort geschrieben ist. Die Linien von Fixation zu Fixation sind Sakkadenbewegungen, also schnelle, ruckartige Bewegungen des Auges zum nächsten Fixationspunkt. Zwar erfolgen diese Bewegungen ohne bewusste Steuerung, doch sind sie nicht willkürlich, sondern folgen ebenfalls einer Erfahrung, einer Hypothese des Wahrnehmungssystems, nämlich dass sich der Text bis zum Zeilenende fortsetzt und am Anfang der nächsten Zeile weitergeht.

Es kommt vor, dass bei einer Fixation keine Hypothese gebildet werden kann, das Wortbild also im Kontext nicht erkannt werden kann. Auch kann sich eine Hypothese beim weiteren Lesen als falsch erweisen. Wenn dies passiert, entsteht ein zusätzlicher Aufwand, weil ein Wort in kleineren Schritten erschlossen werden muss oder weil ein Rücksprung zu einer bereits gelesenen Stelle erforderlich ist. Es kommt zu Regressionen, also Sakkadenbewegungen entgegen der Leserichtung. Dies ist etwa in der dritten Zeile der Abbildung zu sehen. Das für das Kind ungewohnte Wort „Korkgewebe“ ist von ihm recht mühselig in insgesamt acht Fixationen in zwei Lesedurchgängen erschlossen worden.

Um einen gut lesbaren Text am Bildschirm zu erzeugen, gilt es eine Vielzahl von Aspekten der Schriftgestaltung zu beachten. Es reicht nicht aus, lediglich gut lesbare Einzelbuchstaben zu gestalten. Zu bedenken und zu beachten ist vielmehr auch die Eignung einer Schriftart, ein prägnantes Wortbild zu bilden, um gute Hypothesen über das gelesene Wort aufstellen zu können. Ebenso wichtig ist die Gestaltung eines Schriftzugs auf eine Art und Weise, die das Auge beim Folgen einer Zeile und beim Finden des Zeilenanfangs unterstützen kann.

Schriftfamilien und Schrifttypen

Schriftgestaltung für Nutzungsschnittstellen erfordert neben der Formatierung (fett, kursiv etc.) vor allem die Auswahl einer Schriftart (auch im Deutschen oft Font genannt). Das Gestalten einer eigenen Schriftart erfordert dagegen umfangreiches Wissen, ausreichend praktische Erfahrung und gestalterische Kompetenzen, weshalb wir davon abraten, ohne diese Voraussetzungen ein solches Unterfangen zu beginnen. Wir konzentrieren uns deshalb auf bereits bekannte Schriftarten.

Heutige Textverarbeitungsprogramme offerieren eine sehr große Anzahl verschiedener Schriften. Es gibt jedoch Möglichkeiten, durch die Einordnung in „Schriftartenfamilien“ Ordnung zu schaffen. Allerdings gibt es für diese Einsortierungen verschiedene Vorschläge, hinter denen unterschiedliche Interessen stecken. Die DIN 16518, das „Klassifizierungssystem für Schriftarten“ unterscheidet insgesamt elf Familien. Wir machen es für unsere Zwecke einfacher und betrachten in erster Linie nur zwei Familien, fügen eine Sonderklasse hinzu und lassen viele andere Schriftarten außen vor, weil sie für den Texteinsatz in der Nutzungsschnittstelle nicht brauchbar sind.

Zu den für uns nicht betrachteten Schriften gehören Symbolschriftarten wie Wingdings. Sie dienen nur der Darstellung von Symbolen und enthalten nicht die üblichen Buchstaben. Das Gleiche gilt für die im Webdesign verbreiteten Icon-Fonts7. Auch Nachbildungen menschlicher Schreibschriften sind für uns nicht brauchbar. Sie eignen sich eventuell als Überschrift für einen Text oder zum Verfassen einer Speisekarte, können in der Nutzungsschnittstelle aber nicht sinnvoll eingesetzt werden. Ebenso sind Frakturschriften, also alte deutsche Schriften, ausgeschlossen. Selbst im Druck sind sie heutzutage selten geworden. Man findet sie gelegentlich noch in Zeitungstiteln oder auf dem Schild vor dem Restaurant „Zum röhrenden Hirschen“, um einen historischen Eindruck zu erwecken. Schließlich gehören auch Zier- und Spaßschriften, die zum Beispiel die Beschriftung eines Western-Saloons oder Darstellungen aus Science-Fiction-Serien nachahmen, in die Kategorie der für Nutzungsschnittstellen ungeeigneten Schriften.

Befreit von all diesen Schriftarten, die ihre Berechtigung nur außerhalb der Nutzungsschnittstelle haben, bleiben vor allem zwei große Schriftfamilien übrig. Sie unterscheiden sich vor allem durch das Vorhandensein oder Fehlen von Serifen und durch unterschiedliche Strichstärken.

Oben zu sehen ist die Schriftart „Liberation Serif“. Es handelt sich um eine sogenannte „Serifenschrift“8. Wie der Name sagt, verfügt diese Schrift über sogenannte „Serifen“. Am Großbuchstaben T kann man sie gut erkennen.

Im Prinzip besteht ein großes T nur aus zwei einfachen Strichen. Verwendet man eine Serifenschrift, hängen jedoch an den Enden des Querbalkens kleine Haken und der Buchstabe als Ganzes hat, ähnlich einer Stehlampe, unten einen Fuß, auf dem er ruht. Eine zweite charakteristische Eigenschaft typischer Serifenschriften sind augenfällige Variationen in der Strichstärke. Man erkennt dies im obigen Beispiel am deutlichsten am Buchstaben x. Der Abstrich, also der Strich von links oben nach rechts unten, ist dicker als der Aufstrich von links unten nach rechts oben. Die Gestaltung mit unterschiedlichen Strichstärken lehnt sich an handgeschriebene Lettern an, bei denen eine breite Feder benutzt wird. Deshalb ist dieses Feature auch in kalligrafischen Schriften besonders prägnant.

Den Gegenpol zu den Serifenschriften bilden die serifenlosen Schriften9, oft „Sans-Serif-Schriften“ genannt. Zu sehen ist die Schriftart „Liberation Sans“. Betrachten wir wieder das T und das x: Beide Buchstaben bestechen durch ihre Einfachheit. Es gibt keine Serifen oder anderweitige Verzierungen an den Buchstaben. Auch unterschiedliche Strichstärken fallen nicht ins Auge. Tatsächlich gibt es sie an einigen Stellen aber doch, wenn auch in weitaus geringerem Maße. Beim Buchstaben a beispielsweise ist zu sehen, dass der „Bauch“ des Buchstabens sich zum Querstrich hin wieder verjüngt.

Der Typograph Hans-Peter Willberg10 stellt eine recht einfache Matrix für Schriften auf, in der er neben den Serifenschriften und den serifenlosen Schriften aber noch einige Zwischenklassen wie Antiqua-Varianten mit verschiedenen Strichstärken, aber ohne Serifen und Egyptienne-Schriften mit Serifen, aber gleichen Strichstärken beschreibt. Wir beschränken uns der Einfachheit halber auf die beiden großen Schriftfamilien, denn es sind die beiden wichtigsten Schriftfamilien, die bei der Darstellung von Texten in Nutzungsschnittstellen in Frage kommen. Für spezielle Einsatzzwecke müssen wir aber noch eine Sonderklasse von Schriften einführen, die nicht ins obige Schema passt und die eine spezielle Eigenschaft aufweist.

Hier zu sehen ist die Schriftart „Liberation Mono“, eine sogenannte „Monospace-Schrift“, auf Deutsch auch „dicktengleiche Schrift“ genannt. Monospace-Schriften sind Schriftarten, bei denen jeder Buchstabe über genau die gleiche Breite verfügt. In üblichen Druckschriften ist dies nicht der Fall. Ein kleines i ist viel schmaler als ein großes M. Schreibmaschinen und frühe Textterminals verwendeten Schriftarten mit gleichbleibender Zeichenbreite. Diese Schriftarten sind heute noch in der Programmierung weit verbreitet, weil sie es erlauben, Buchstaben in ein Raster zu schreiben. Dies ermöglicht eine einfache visuelle Strukturierung von Quellcode oder das einfache Erzeugen von Bildschirmmasken durch die Verwendung von Buchstaben und Sonderzeichen. Die Gestalter von Monospace-Schriften mussten das Problem lösen, verschiedene Buchstaben so in das gleiche Raster zu schreiben, dass sie die Breite ausfüllen, ohne dass es irgendwie verzerrt aussieht und ohne dass Lücken in einem Wort entstehen. Bei der „Liberation Mono“ wird die gleiche Zeichenbreite dadurch erzeugt, dass sehr breite Buchstaben wie das W und das M leicht zusammengestaucht werden. Bei sehr schmalen Buchstaben wie dem i bedient man sich im Gegenzug üppiger, ausladender Serifen, obwohl die Schrift im Großen und Ganzen serifenlos ist.

Monospace-Schriften haben ihre Berechtigung in einigen Nischen der Nutzungsschnittstellen. Als generelle, allgemeine Schrift sollte man sie nicht verwenden. Ob man hingegen eine Schrift mit oder ohne Serifen auswählt, ist in erster Linie eine Geschmacksfrage. Serifenlose Schriften werden oft als moderner, Serifenschriften hingegen als schicker angesehen. Gerade am Bildschirm gibt es jedoch noch mehr zu beachten als nur Geschmacksunterschiede. Wir werden sehen, dass es Anforderungen gibt, die eine bestimmte Schriftwahl nahelegen. Wie so oft bei unseren Gestaltungsfragen stehen die Forderungen an die Schriftgestaltung in Konflikt zueinander. Es wird also darum gehen, unter Berücksichtigung der Rahmenbedingungen die konfligierenden Forderungen auszutarieren.

Schriften am Bildschirm

Viele der Anforderungen an die Schriftauswahl hängen mit besonderen Gegebenheiten der Darstellung von Schrift am Bildschirm zusammen, denn in diesem Fall gibt es andere Herausforderungen als in traditionellen Druckverfahren. Beim Drucken werden fein gearbeitete Bleilettern auf Papier gedrückt. Es entsteht ein sehr sauberes, klares Schriftbild. Auf Computerbildschirmen konnte man ein solches Druckbild bis vor wenigen Jahren noch nicht erzeugen. Die Auflösung der Bildschirme war zu gering, mitunter traten Unschärfen auf und sie neigten zu starken Überstrahlungen, was bedeutet, dass helle Bereiche des Bildes in dunkle Bereiche hineinstrahlten. Moderne LCD- oder OLED-Bildschirme bringen viele dieser Probleme nicht mehr mit sich. In den letzten Jahren kommen zwar vermehrt Bildschirme mit sehr hohen Auflösungen zum Einsatz, doch ist es verfrüht, wenn überhaupt je gerechtfertigt, die Anforderungen an die Schriftdarstellung auf niedrig auflösenden Bildschirmen gänzlich aus dem Blick zu verlieren, denn noch findet man solche Bildschirme häufig im Einsatz an günstigen Computern. Zudem wird es auch künftig noch Geräte geben, bei denen die Darstellung nicht im Vordergrund steht, etwa bei Steuergeräten in Industrieanlagen, die deshalb mit einfachen Anzeigeelementen ausgestattet sind. Gerade auch bei solchen Geräten sollten die ergonomischen Forderungen erfüllt sein.

Bitmap-Fonts

Bei einem klassischen Terminal oder auch einem alten MS-DOS-System hat man keinen Einfluss auf die Schriftdarstellung. Es gibt genau eine Schriftart, die in die Grafikkarte des Computers „eingebaut“ worden ist. Eine MDA-Grafikkarte von IBM aus dem Jahr 1981 verfügt im ROM über eine Bitmap von 9 x 14 Pixeln für jedes einzelne darstellbare Zeichen. Ähnlich sieht es bei den damaligen EGA- und VGA-Grafikkarten aus. Sie enthalten einen festen Schriftsatz von 8 x 16 Punkten, der im ROM der Karte gespeichert ist. Es ist jedoch bereits möglich gewesen, diese Schrift-Bitmaps per Software zu überschreiben und somit das Aussehen der Buchstaben zu verändern. Bis zum heutigen Tage besteht jedoch die Einschränkung, dass im Textmodus nur Monospace-Schriften möglich sind.

Dies ändert sich erst mit dem Aufkommen grafischer Nutzungsschnittstellen. An einem Apple Macintosh etwa sind Schriften mit variablen Buchstabenbreiten eingesetzt worden. Das Schriftbild erscheint dadurch moderner und schicker. Was sich allerdings bei den frühen grafischen Nutzungsoberflächen noch nicht geändert hat, ist die Speicherung der Schrift als Bitmap. Jeder Buchstabe ist Pixel für Pixel als Bild gespeichert. Schriftarten dieser Art werden „Raster-Fonts“ genannt. Sie haben im Kontext der damaligen Systeme wichtige Vorteile gegenüber den heute üblichen Outline-Fonts gehabt:

  • Gerade bei der damals verbreiteten Ein-Bit-Darstellung, also nur weiß und schwarz, erfordert das Darstellen eines Buchstabens am Bildschirm bei Raster-Fonts nur das Kopieren der Buchstaben-Bitmap in den Grafikspeicher. Eine solche Operation ist sehr schnell und mit wenig Ressourceneinsatz verbunden.
  • Die Schriftarten sind an die monochrome Ein-Bit-Darstellung und die niedrige Auflösung gut angepasst gewesen. Dies sichert trotz der technischen Einschränkungen ein klares, am Bildschirm gut lesbares Schriftbild.

Diesen Vorteilen stehen folgende Nachteile gegenüber:

  • Da die Buchstaben als Pixelmatrix vorliegen, kann Text nur schwer in der Größe angepasst werden, ohne dass er bei Verkleinerung unleserlich oder bei Vergrößerung grobpixelig wird. Um die gleiche Schriftart in guter Qualität in mehreren Größen benutzen zu können, sind dafür verschiedene Schriftsätze erforderlich.
  • Die Bildschirmschriftarten eignen sich mit ihrer niedrigen Auflösung nicht zum Drucken auf hochauflösenden Druckern. Will man den Bildschirmtext drucken, muss man also entweder mit einem schlechten Druckbild leben oder zu jeder Bildschirmschriftart eine alternative Druckschriftart in der Hinterhand haben.

Aktuelle Betriebssysteme mit grafischen Nutzungsschnittstellen verwenden keine Raster-Fonts, sondern Outline-Fonts. „Outline“ bedeutet, dass der Linienzug eines Buchstabens als Vektorzug der äußeren Buchstabenbegrenzung gespeichert ist. Das Aussehen eines Buchstabens auf diese Art zu speichern wiegt alle Nachteile von Rasterschriftarten auf.

  • Die Schriften sind auf dem Bildschirm und im Druck verwendbar.
  • Die Schriften sind beliebig skalierbar und können damit insbesondere auch sehr groß dargestellt werden.
  • Die Schriften können algorithmisch manipuliert werden und so zum Beispiel automatisch fett, kursiv oder verbogen dargestellt werden. Die Ergebnisse solcher Manipulationen sind allerdings oft nicht erfreulich. Gute Schriftarten liefern deshalb Buchstaben für verschiedene Schriftstärken und einen separaten, kursiven Schriftsatz gleich mit.

Leider kehren sich auch die Vorteile der Rasterschriften ins Gegenteil um, wenn Outline-Fonts verwendet werden:

  • Um zu berechnen, welche Pixel auf dem Bildschirm zur Darstellung der Schrift eingefärbt werden müssen, muss eine einigermaßen komplexe Berechnung durchgeführt werden. Auf sehr einfachen oder sehr alten Geräten steht diese Rechenleistung eventuell nicht zur Verfügung.
  • Die Darstellung von Outline-Schriften ist gerade bei kleiner Größe der Darstellung und niedriger Auflösung des Bildschirms oft sehr schlecht lesbar, da die Schriftart nicht an die Bildschirmeigenschaften angepasst ist.

Anforderungen an die Schriftauswahl

Wir haben nun hinreichend vorüberlegt und vorsortiert, um, zusammen mit den Erkenntnissen des vorherigen Kapitels und vor allem des Kapitels Architektur der Wahrnehmung, uns nun den konkreten Forderungen an die Gestaltung von Schrift am Bildschirm zu widmen.

Die Grundvoraussetzung für das Erkennen von Objekten am Bildschirm ist ein hinreichender Kontrast zum Hintergrund. Wir haben dieses Thema bereits im vorherigen Kapitel im Zusammenhang mit der Erkennbarkeit behandelt. Bei der Schriftgestaltung kommt dem Kontrast jedoch nochmals eine besondere Aufmerksamkeit zu, da es sich bei Buchstaben zum einen um relativ kleine, grazile Objekte handelt und es zum anderen nicht nur darum geht, dass man Text überhaupt als Text erkennen kann, sondern dass man ihn auch lesen können muss.

Einfluss auf die Lesbarkeit von Text und damit auch auf die Erkennbarkeit und den wahrgenommenen Kontrast hat die Frage, ob Schrift in der sogenannten Positivdarstellung – Schwarz auf Weiß – oder in Negativdarstellung – Weiß auf Schwarz – dargestellt werden sollte. Gerade letztere Gestaltungsoption ist momentan mit dem Aufkommen der sogenannten „Dark Modes“ wieder in Mode gekommen.

Positiv- und Negativdarstellung

Die Praxis der Gestaltung hatte die Frage der sogenannten „Darstellungspolarität“ lange Zeit für uns beantwortet. Mit dem Übergang von Kommandozeilen-Interfaces zu grafischen Nutzungsschnittstellen und der Desktop-Metapher vollzog sich auch ein Übergang von der Negativdarstellung mit heller Schrift auf dunklem Grund zur Positivdarstellung mit dunkler Schrift auf hellem, oft weißem Grund.

Die aktuelle Mode geht wieder in die andere Richtung. Zunächst waren es Programme zur Bild- und Videobearbeitung, die eine Negativdarstellung verwendeten. Dies lässt sich auch gut begründen, denn eine dunkle Nutzungsschnittstelle drängt sich gegenüber dem zu bearbeitenden Inhalt weniger in den Vordergrund und sorgt dafür, dass die Bild- und Videoinhalte intensiv in den Vordergrund treten. Auch in der Programmierung ist die Negativdarstellung wieder eingezogen. Viele Editoren und Programmierumgebungen verwenden seit einigen Jahren eine Negativdarstellung, erlauben aber meist auch das Umschalten auf eine Positivdarstellung. Welche Wahl die richtige ist, ist in diesem Feld umstritten und offenbar eine Frage der persönlichen Präferenz. Die besseren farblichen Gestaltungsmöglichkeiten bei einer Negativdarstellung – mehr dazu weiter unten – lassen diese Wahl sinnvoll erscheinen.

Unabhängig von diesen beiden speziellen Aufgabenfeldern wird die Negativdarstellung in den letzten Jahren verstärkt beworben. Betriebssysteme beispielsweise lassen sich inzwischen in einen Dark-Mode umschalten. Eine Motivation für diesen Trend könnte auch der geringere Energieverbrauch bei mobilen Geräten sein, die zudem bei der Nutzung in dunklen Umgebungen eine weniger störende Lichtquelle verkörpern.

Auch für die Positivdarstellung lassen sich einige Nachteile finden:

  • Bei der Positivdarstellung leuchtet ein großer Teil des Bildschirms. Die Umgebung des Bildschirms ist meist weniger hell beleuchtet, sodass es zu vielen Helligkeitsanpassungen des Auges kommt. Diese ständig geforderte Anpassungsleistung ist auf Dauer belastend und ermüdend.
  • Die grafischen Elemente einer Nutzungsschnittstelle treten bei einer Positivdarstellung stärker in den Vordergrund als bei einer dunklen Darstellung und können dadurch von den zu bearbeitenden Inhalten ablenken. Gerade bei Anwendungen, in denen das Aussehen der zu bearbeitenden Objekte im Vordergrund steht, etwa der der Bildbearbeitung, ist das von Nachteil und sollte entsprechend vermieden werden.
  • Die Darstellung von farblichem Text ist bei der Positivdarstellung stärker eingeschränkt als bei der Negativdarstellung. Im Unterkapitel Auszeichnung mit Farbe werden Sie sehen, dass es bei positiver Darstellung sehr schwer ist, Text so einzufärben, dass die Farbe einerseits gut erkennbar und andererseits unterscheidbar ist und der Text gleichzeitig lesbar bleibt.
  • Es gibt bestimmte Augenerkrankungen, etwa die Eintrübung des Kammerwassers im Auge, bei denen weißer Text auf schwarzem Grund besser wahrgenommen werden kann als schwarzer Text auf weißem Grund11.

Dem stehen aber auch große Nachteile der Negativdarstellung gegenüber:

  • Untersuchungen12 zeigen, dass für eine gleich gute Lesbarkeit bei Negativdarstellung ein höherer Kontrast nötig ist bzw. dass bei gleichem Kontrast die Lesbarkeit niedriger ist.
  • Ein zu hoher Kontrast führt bei Negativdarstellung aber zu Problemen, da sich die Pupille aufgrund der allgemein geringen Helligkeit weiter öffnen muss. Wenn nun helle, weiße Buchstaben verwendet werden, leuchten diese so stark, dass ein Effekt entsteht, als würde man direkt in eine Lampe blicken. Wendet man den Blick ab, erscheinen einige Zeit lang Nachbilder.
  • Etwa 50 % der Bevölkerung leiden unter einer mehr oder weniger starken Hornhautverkrümmung des Auges (Astigmatismus). Diese Verformung der Vorderseite des Auges sorgt dafür, dass Lichtstrahlen nicht gleichmäßig auf der Retina fokussiert werden. Ist die Pupille geschlossen, fällt das Licht nur durch einen kleinen Teil der Hornhaut, der recht gleichmäßig ist. Es entsteht ein scharfes Bild auf der Retina. Ist sie jedoch in einer dunklen Umgebung geöffnet, geraten Lichtstrahlen über verschiedene Bereiche der Hornhaut ins Auge, wo sie folglich an verschiedenen Stellen fokussieren. Helle Schrift auf dunklem Untergrund wird also bei vielen Personen unscharf wahrgenommen13.
  • Wenn die Umgebung des Bildschirms hell ist und das Auge häufig zwischen dem Bildschirm und der Umgebung hin- und herwechselt, muss es sich ständig den Helligkeitswechseln anpassen. Diese dauerhaft erforderliche Adaption ist eine Belastung für die Augen.

Ziehen wir aus der Abwägung dieser Nachteile die Konsequenzen: In der Regel werden Computersysteme in Büros, zu Hause und auf der Straße eher in hellen Umgebungen verwendet. Nimmt man die Nachteile der Negativdarstellung bei Hornhautverkrümmung hinzu, dürfte in den meisten Fällen die Positivdarstellung nach wie vor die bessere Darstellungsform sein. Negativdarstellung hat allerdings in den genannten Anwendungsfällen und bei der Verwendung in dunklen Umgebungen ihre Vorteile. Unabhängig davon sollte es möglich sein, bei einer standardmäßig voreingestellten Negativdarstellung in die Positivdarstellung umzuschalten.

Helligkeitskontrast

Egal, ob bei Positiv- oder bei Negativdarstellung: Der höchste Kontrast wird bei der Verwendung von Schwarz und Weiß erzielt. Auch wenn man nicht in die Extreme gehen muss, ist ein hoher Helligkeitskontrast zwischen Schrift und Hintergrund erforderlich. Eine Kombination von Dunkelblau und einer nur schwach gesättigten, hellen Hintergrundfarbe funktioniert zum Beispiel auch gut. Um die unangenehmen Nachbilder zu vermeiden, ist bei Negativdarstellung unbedingt darauf zu achten, dass die Darstellung entweder hardware- oder softwareseitig abgedunkelt werden kann. Bei der Positivdarstellung gibt es dieses Problem in der Regel nicht, denn das Auge sorgt selbst aufgrund der großen Helligkeit für die nötige Abdunkelung durch das Schließen der Pupille und die Hemmung der Zapfen.

In Gestaltungshinweisen für die Farbgestaltung im Druckbereich wird empfohlen, möglichst keinen rein weißen Hintergrund zu verwenden. Neben ästhetischen Gründen hat dies auch einen ergonomischen Grund. Wenn man bei Sonnenlicht einen weißen Zettel anschaut, wirkt das helle Weiß sehr grell und kann regelrecht blenden. Ein Ausdruck auf grauem Papier oder auch auf Recycling-Papier wirkt da viel angenehmer. Trotzdem ist die Empfehlung nicht auf den Bildschirm zu übertragen, denn am Bildschirm sieht die Sache anders aus. Er ist die Lichtquelle, nicht die Reflexion einer anderen Lichtquelle wie beim Blatt Papier. Ob ein Bildschirm blendet, liegt also nicht an der Umgebungshelligkeit, sondern an seinen Helligkeitseinstellungen. Umgekehrt leidet der Bildschirmkontrast bei hoher Umgebungshelligkeit. Das ist auch der Grund, warum bei hellem Sonnenschein das Display eines Smartphone kaum noch abzulesen ist, während es bei gleichen Einstellungen in einem dunkleren Raum problemlos erkennbar ist.

Anders ausgedrückt: Bei Druckwerken entscheidet die Wahl von Vordergrund- und Hintergrundfarbe über den wahrgenommenen Kontrast. Ändert sich die Umgebungsbeleuchtung, ändern sich zwar die absoluten Helligkeiten, aber der Kontrast zwischen Buchstabe und Papier bleibt immer gleich. Beim Bildschirm und viel mehr noch bei einer Projektion hängt er zu einem großen Teil von den Umgebungsbedingungen ab. Unsere Empfehlung lautet daher, den maximalen Kontrast anzubieten, um auch bei widrigen und ständig wechselnden Umständen eine möglichst ergonomische Gestaltung anzubieten.

Schriftgrößen

Gerade im Webdesign lässt sich beobachten, dass auch Schriftgrößen nicht durchgängig nach ergonomischen Kriterien festgelegt werden. Mal werden winzige Schriften verwendet, ein andermal besteht eine Tendenz zu sehr großen Textzügen. Die Gestaltung lesbarer Schriftgrößen ist indes keine Frage der Ästhetik oder des persönlichen Geschmacks, sondern sollte sich vor allem an den Gegebenheiten des menschlichen Auges orientieren. Zu kleine Schriften sind schlecht zu lesen, doch auch eine zu große Schrift beeinträchtigt die Lesbarkeit, denn dann ist es nicht mehr möglich, ein komplettes Wortbild zu erfassen. Schlimmstenfalls muss ein einzelner Buchstabe mit mehreren Fixationen erfasst werden.

Schriften bei gleicher Schriftgrößenangabe erscheinen nicht notwendigerweise gleich groß. In obiger Darstellung sind alle Buchstaben in der gleichen nominellen Schriftgröße, aber in verschiedenen Schriftarten gesetzt. Gerade am Beispiel des kleinen a sieht man gut, dass sich die tatsächlichen Schriftgrößen stark unterscheiden. Gegen ein a in „Arial“ wirkt der gleiche Buchstabe in „Baskerville“ regelrecht winzig. Wie kann das sein? Was beschreibt die angegebene Schriftgröße überhaupt?

Die Typographie arbeitet mit differenzierten Höhen und Abstandsangaben
Die Typographie arbeitet mit differenzierten Höhen und Abstandsangaben

Schriftgrößenangaben kommen aus dem Druckbereich. Sie beschreiben leider nicht die Höhe des sichtbaren Buchstabens, der Schriftbildhöhe, sondern die Höhe des Bleikegels, auf dem der Buchstabe aufgebracht ist. Wie Sie in der Abbildung sehen, enthält diese Kegelgröße auch das sogenannte „Fleisch“ oberhalb und unterhalb des sichtbaren Buchstabens. Verschiedene Schriften unterscheiden sich in den Proportionen. Bei der oben abgebildeten „Baskerville“ etwa liegt die Mittellänge, also die obere Begrenzung der kleinen Buchstaben viel tiefer, als dies etwa bei „Arial“ der Fall ist. Daher wirkt gerade das kleine a so winzig, während das T nicht viel kleiner ist als bei anderen Schriftarten. Wir müssen diese Ungleichheiten bei der Gestaltung mitbedenken. Als Daumenregel können wir uns merken, dass serifenlose Schriften in aller Regel größer erscheinen als Serifenschriften.

Bezüglich der Frage, ob eine Schriftgröße angemessen ist, kommt es nicht auf die absolute Größe der Buchstaben auf Papier oder auf dem Bildschirm an. Buchstaben auf einem Autobahnschild haben eine andere Größe als auf einem Plakat für eine Litfaßsäule oder auf einem Flugblatt. Die Größe dieser Buchstaben ist auf die Entfernung abgestimmt, aus der die Schilder betrachtet werden14.

Verhältnis von Betrachtung und Forderungen and die Darstellungsgrößen – Quelle: Microsoft Windows Design Guidelines
Verhältnis von Betrachtung und Forderungen and die Darstellungsgrößen – Quelle: Microsoft Windows Design Guidelines

Diese Darstellung aus den Design-Guidelines für Windows verdeutlicht, dass verschiedene absolute Darstellungsgrößen für entsprechend unterschiedliche Abstände gleich groß erscheinen. Viele technische Geräte werden typischerweise von verschiedenen Abständen aus betrachtet. Ein Mobiltelefon wird näher am Auge positioniert als ein Computermonitor. Der Abstand zu einem Fernseher ist wiederum größer und eine Leinwandprojekion wird angemessen aus noch größeren Abständen betrachtet. Während sich die absoluten Größen stark unterscheiden, ist der Winkel zwischen den Oberkanten und Unterkanten der Buchstaben zum Auge, der sogenannte Sehwinkel, stets konstant. Durch die Angabe dieses Winkels kann man also Hinweise zu optimalen Schriftgrößen unabhängig vom Abstand und der tatsächlichen Ausgabegröße angeben.

Solche Hinweise zur Schriftgröße finden sich zum Beispiel in der Norm ISO 9241. Die Schriftgröße sollte demnach mindestens einem Sehwinkel von 0,3 Grad, besser aber 0,5 Grad entsprechen. Mehr als 5 Grad sollten die Buchstaben nicht hoch sein. Zur Veranschaulichung helfen folgende Richtwerte: 0,5 Grad entspricht etwa der Größe des Mondes am Himmel. Die Breite des Daumens bei ausgestrecktem Arm entspricht etwa 2 Grad. So praktisch die Angabe von Schriftgrößen in Gradangaben auch sein mögen, für Sie ist sie in der Praxis wenig hilfreich, denn man kann bei handelsüblichen Computersystemen Schriftgrößen nicht in Grad angeben. In der Praxis sind verschiedene, eigentlich absolute Maße verbreitet, die aber heute nicht mehr absolut interpretiert werden. Die Schriftgrößen in Textverarbeitungssystemen wie Word sind sogenannte DTP-Punkte (DTP für Desktop Publishing). Ein solcher Punkt, der üblicherweise mit „pt“ abgekürzt wird, misst genau 1/72 Zoll, was 0,3528 Millimetern entspricht. Ein solcher Punkt hat eine feste Größe und ist damit grundsätzlich anders als ein Pixel, denn die Größe eines Pixels ist abhängig von der absoluten Auflösung eines Bildschirms. Bei einem niedrigauflösenden Bildschirm ist ein Pixel sehr groß, bei einem hochauflösenden Bildschirm hingegen klein.

Ein Kreis wird in quadratische Pixel „aufgelöst“
Ein Kreis wird in quadratische Pixel „aufgelöst“

Die vorstehende Abbildung zeigt, wie der links abgebildete Kreis an einem Bildschirm „aufgelöst“ wird. Im ersten Fall (mittleres Bild) ist die Auflösung sehr gering, der Kreis wird mit nur 4 x 4 Pixeln dargestellt. Die Auflösung ist derart gering, dass man die runde Charakteristik des Kreises nicht erkennen kann. Rechts sehen Sie den gleichen Kreis in einer viermal so hohen Auflösung von 8 x 8 Pixeln. Diese Auflösung ist schon viel besser geeignet, um den Kreis darzustellen. Ein Verringern oder Erhöhen der Auflösung ändert nichts an der dargestellten Größe der Elemente. Es befinden sich aber auf der gleichen Fläche mehr Pixel, sodass das Dargestellte feiner und genauer abgebildet werden kann. Die Auflösung wird in Pixel pro Zoll (abgekürzt PPI, manchmal auch DPI) angegeben.

Um Größen unabhängig von der Auflösung angeben zu können, haben sich neue Einheiten etabliert. Leider sind diese in verschiedenen Gestaltungsbereichen und unter verschiedenen Betriebssystemherstellern noch nicht einheitlich. Betrachten wir diese Einheiten am Beispiel einer typischen Schriftgrößenangabe:

Die Angabe 12 pt ist eine für traditionelle Druckerzeugnisse passende Schriftgröße. Gibt man 12 pt im CSS für eine Web-Anwendung an, rechnet der Browser pt in px im Verhältnis 3:4 um.

12 pt = 16 px

Die Einheit px steht für Pixel. Sie entspricht aber nur dann einem Pixel, wenn der Bildschirm eine Auflösung von 96 ppi hat, also ein für heutige Verhältnisse niedrig auflösender Monitor ist. Verwendet man einen höher auflösenden Bildschirm, werden diese px so in tatsächliche Pixel umgerechnet, dass letztlich ein gleich großer Buchstabe dargestellt wird. px ist dadurch zu einer auflösungsabhängigen Größe geworden. Es wird daher von einem „CSS-Pixel“ gesprochen. Microsoft verwendet die gleiche Umrechnung, nennt die Größeneinheit aber Device-Independent Pixel (DIP)15. Android verwendet eine ähnliche, relative Pixelgrößenangabe Density-Independent Pixels16. Im Gegensatz zu CSS besteht in diesem Fall die Gleichheit von logischen und physikalischen Pixeln bei 160 ppi.

1 dp = 1 Pixel bei 160 ppi

Zusammengefasst: 12 pt = 26,67 dp = 16 px = 16 DIP = 4,233 mm

Was bedeutet das für uns? Es ist in Sachen Einheiten alles verworren und kompliziert geworden, doch Scaler sorgen dafür, dass unser Gestaltungsalltag erleichtert wird. Größenangaben in pt, px, DIP und dp sind auflösungsabhängige Einheiten, die sich zwar teilweise auf Pixel beziehen, aber damit nur auf ihre Größe auf einem Referenzmonitor Bezug nehmen.

Auflösungskonforme Schriftwahl

Wenn es also darum geht, wie groß etwas dargestellt wird, brauchen wir die Auflösung eines Bildschirms in der Regel nicht mehr betrachten. Sie hat dagegen großen Einfluss darauf, welche Schriftart gut dargestellt und damit gut gelesen werden kann. Problematisch bei niedrigen Auflösungen sind vor allem Strukturen, die nicht rein senkrecht oder waagerecht verlaufen. Es entsteht dann ein sichtbarer Treppeneffekt, wie er bei der obigen Abbildung des Kreises bereits zu beobachten war. Speziell in der Auflösung 8 x 8 sieht man starke Stufen. Buchstaben mit feinen Strukturen, die kleiner sind als das Pixelraster, sind deshalb bei der Textdarstellung problematisch. Sie sind nicht ordentlich darstellbar und machen die Schrift unleserlich.

Oben ist eine vergrößerte Darstellung der Schriftarten „Times New Roman“ und „Arial“ unter Windows 95 in verschiedenen Schriftgrößen zu sehen. Das Schriftbild ist aufgrund der niedrigen Auflösung sehr unruhig. Vor allem bei „Times New Roman“ in den kleinen Schriftgrößen 5, 6 und 7 erscheint schnell ein regelrechter Pixel-Brei, der nicht mehr lesbar ist, aber auch die Schriftgrößen 8 und 9 haben kein sauberes Schriftbild. Die Darstellung der Schriftart „Arial“ (rechts) ist hingegen viel klarer, auch bei relativ kleinen Schriftgrößen. Auf der Abbildung unten rechts zu sehen ist, dass das Problem der schlecht lesbaren Schrift bei niedriger Auflösung sich nochmals verstärkt, wenn eine kursive Darstellung gewählt wird.

Die problematischen Schriftdarstellungen oben sind unter Windows 95 erzeugt worden. Windows 95 ist seinerzeit meist mit Grafikkarten verwendet worden, die nur 256 oder gar nur 16 Farben gleichzeitig darstellen können. Mit der allgemeinen Verfügbarkeit von Grafikkarten mit „True-Color“-Darstellung ist es möglich, der Treppenbildung in der Schriftdarstellung durch Glättung, dem sogenannten „Anti-Aliasing“, zu begegnen. Einfache Anti-Aliasing-Lösungen vermeiden zwar Treppeneffekte, sorgen aber für ein unscharfes Schriftbild.

Oben sehen Sie ein fortgeschrittenes Anti-Aliasing unter Windows XP, bei dem durch eine Vielzahl von Tricks wie „Font-Hinting“ und „Subpixel-Rendering“, deren Erläuterung an dieser Stelle zu weit führen würde, die Schrift geglättet wird, ohne dass sie zu unscharf gerät. Schriftglättungsfunktionen sind abhängig vom Betriebssystem und lassen sich somit bestenfalls systemweit konfigurieren. Auf vielen modernen Systemen mit hoher Pixeldichte, also mit hoher Auflösung, tritt das Problem der Darstellung kursiver Schriften und kleiner Strukturen von Serifenschriften ohnehin nicht mehr auf.

Wir fassen zusammen:

  • Bei geringer Auflösung und ohne Anti-Aliasing (etwa bei Monochrom-Darstellung auf einfachen Steuergeräten): serifenlose Schrift verwenden, kursive Darstellungen vermeiden.
  • Bei geringer Auflösung mit Anti-Aliasing-Techniken: serifenlose Schrift bevorzugen, weil sie weniger zu einer matschigen, unscharfen Darstellung neigt. Kursivdarstellungen können in Maßen eingesetzt werden, möglichst aber nicht bei kleinen Schriftgrößen.
  • Hohe Auflösung: Bezüglich der Auflösungs- und Schärfeaspekte gibt es keine Einschränkungen mehr. Gerade wenn Fließtexte gestaltet werden müssen, kann deshalb ohne Probleme auch eine Serifenschrift verwendet werden.

Prägnante Worthüllen erzeugen

Zu Beginn des Kapitels haben wir darauf hingewiesen, dass Lesen ein schnelles Erkennen von Wortbildern beinhaltet. Dabei geht es nicht um die einzelnen Buchstaben, sondern um die äußere Form, den Umriss des Worts, den wir „Worthülle“ nennen. Die Prägnanz einer solchen Worthülle speist sich vor allem aus dem oberen Teil des Geschriebenen.

Die Abbildung zeigt jeweils zweimal dasselbe Wort, einmal in gemischter Schreibweise (1. Zeile) und einmal ausschließlich in Großbuchstaben (2. Zeile). Links wird in beiden Fällen die obere Hälfte der Buchstaben verdeckt, sodass nur der untere Teil sichtbar ist. Sowohl das gemischt geschriebene als auch das groß geschriebene Wort sind schwer zu lesen. Auf der rechten Seite ist wieder das gleiche Wort abgebildet, nur ist dieses Mal die untere Hälfte abgedeckt. Es fällt auf, dass im Fall der gemischten Schreibweise das Wort „Wortbild“ relativ leicht zu lesen ist. Bei der ausschließlichen Nutzung von Großbuchstaben, in der Typographie „Versalien“ genannt, ist dies nicht so einfach möglich, obwohl flächenmäßig deutlich mehr von den Buchstaben zu sehen ist. Eine Darstellung in Versalien erfordert im Durchschnitt 35 % mehr Fläche, verringert aber die Lesbarkeit um 12 %. Es empfiehlt sich daher, auf reine Großschreibung zu verzichten und stattdessen eine gemischte Groß- und Kleinschreibung zu verwenden. Auch auf Kapitälchen, also die Verwendung von größeren Versalien für die großen Buchstaben und kleineren Versalien für die kleinen Buchstaben sollte man aus demselben Grund verzichten.

Leichtere Lesbarkeit bedeutet in erster Linie, dass der Prozess des Hypothesenbildens schneller erfolgen kann, doch beinhaltet jede Einschränkung der sichtbaren Anteile, dass die Gefahr falscher Hypothesen steigt. In unserem Beispiel könnte das erkannte Wortbild auch für das Wort „Wertbild“ stehen. Nur wenn die verwendete Schrift über hinreichend Oberlängen verfügt, bei denen die Höhen von Buchstaben wie einem kleinen o und einem kleinen f oder einem großen M genügend voneinander abweichen, kann sich der Vorteil einer gemischten Groß- und Kleinschreibung voll entfalten. Dies ist bei den üblichen am Bildschirm verwendeten Schriftarten gegeben.

Wenn nötig, Schriften mit eindeutigen Zeichen wählen

In den meisten Schriftarten gibt es Buchstaben oder Sonderzeichen, die sich ähneln oder gänzlich gleichen. Beim Lesen stört das in der Regel nicht, da das einzelne Zeichen ohnehin nicht im Vordergrund steht oder sich das Zeichen im Kontext erklärt. Es gibt jedoch Situationen, bei denen die genauere Unterscheidbarkeit einzelner Zeichen und Buchstaben wichtig ist, etwa wenn Sie eine Seriennummer oder eine kryptische Artikelnummer eintippen müssen. Auch in der Programmierung ist es wichtig, denn in diesem Bereich werden vielfach Zeichenkombinationen eingegeben, bei denen eine korrekte Schreibweise unverzichtbar ist. Eine mangelhafte Unterscheidbarkeit zwischen einem O und einer 0 oder auch zwischen einer l und einem I verursacht ein erhebliches Maß an erzwungener Sequenzialität, um Mehrdeutigkeiten aufzulösen und mögliche Fehler zu reduzieren.

Hier sind verbreitete Schriftarten abgebildet, die in dieser Hinsicht problematisch sind. Zu sehen ist jeweils die Abfolge „Großes Ih“, „Kleines Ell“, „Eins“, „Großes Oh“ und „Null“. In „Arial“ ist ein kleines „Ell“ von einem großen „Ih“ nicht zu unterscheiden. Die auch in Programmier-Editoren verbreitete Schrift „Courier New“ hat eine sehr ähnliche Darstellung des kleinen „Ell“ und der Zahl Eins, die vor allem bei kleiner Darstellung am Bildschirm kaum zu unterscheiden sind.

Bei diesen Schriften hingegen sind die Buchstaben und Zahlen gut zu unterscheiden. In Situationen, in denen Eindeutigkeit wichtig ist, sind sie daher vorzuziehen. Doch auch wenn ein O und eine 0 verschieden gestaltet sind, kann es in der Nutzung zu Problemen kommen, wenn die Zeichen nicht gleichzeitig zu sehen sind. Je feiner die Unterschiede, desto größer ist die Verwechslungsgefahr. Je mehr die Identität eines Zeichens nicht über den unmittelbaren Lesekontext bestimmbar ist, desto prägnanter sollten sich die verwendeten Zeichen unterscheiden, wenn eine sichere Erkennung entscheidend ist. Dazu ist die Konvention entwickelt worden, eine 0 mit einem zusätzlichen Schrägstrich zu versehen.

Ausrichtungen an Zeilen und Spalten

Nicht nur die Schriftwahl hat Einfluss auf die Lesbarkeit eines Textes. Ähnlich groß ist der Einfluss der Textausrichtung. Wichtig ist vor allem die linksbündige Ausrichtung. Sie hilft beim Lesen den Anfang der nächsten Zeile routiniert aufzufinden. Vor allem bei längeren Texten kann auch der rechte Rand ausgerichtet werden. Dann ist der Text im Blocksatz gesetzt.

Um diesen Blocksatz zu erzeugen, werden die Abstände zwischen den Worten und in geringerem Maße auch die Abstände zwischen den Buchstaben innerhalb der Worte vergrößert. Das funktioniert gut, wenn die einzelnen Zeilen nahezu die maximale Zeichenzahl enthalten. Bei kleinen Zeilenlängen und in Texten mit vielen langen Worten oder wenn eine Silbentrennung nicht möglich ist, kann es zu unterbesetzten Zeilen kommen. Die Folge ist eine Textdarstellung mit Löchern. Ein löchriger Text ist schlechter lesbar, denn Zwischenräume bzw. Abstände sind, wie wir im Abschnitt Anordnung noch zeigen, das wichtigste Mittel, Nicht-Zusammenhängendes voneinander abzusetzen. Die gespreizten Texte bringen durch die unnatürlichen und willkürlichen Abstände den Wahrnehmungsapparat gewissermaßen ins Stolpern und lenken dadurch von der eigentlichen Aufgabe ab.

Gestalten Sie also robust! Da bei der Wahl der Gestaltungsmittel für Text der eigentliche Textinhalt noch nicht durchgängig bekannt ist und auch nicht immer festgelegt werden kann, wie lang eine Zeile letztlich wird, empfiehlt es sich, auf Blocksatz zu verzichten und stattdessen linksbündigen Flattersatz zu verwenden.

Achtung: Auch wenn User Interface Builder, Stylesheet-Vorgaben oder auch Textverarbeitungs- und Präsentationsprogramme es ermöglichen, laufenden Text zentriert in eine Zeile zu setzen, gibt es dafür letztlich nur einen Einsatzzweck: die Darstellung eines Gedichts. Das ist aber eine kulturelle Konvention und nicht ergonomisch begründet. Eine aus ästhetischen Gründen gewählte Symmetrie läuft der Lese-Ergonomie entgegen. Die Folgezeile beginnt jeweils an einer anderer Stelle und es fehlt eine Fluchtlinie zur Orientierung.

Wenig bis keinen Einfluss hat man in der Regel auf die vertikale Ausrichtung des Textes. Es versteht sich von selbst, dass nicht einzelne Buchstaben oder Worte aus der Zeile tanzen sollten. Solche Elemente würden den Lesefluss unterbrechen. Das automatische Ausrichten der Buchstaben auf einer Grundlinie erzeugt für das Auge eine Fluchtlinie, der es beim Lesen folgen kann. Diese Unterstützung der Zeilenführung kann durch die Schriftwahl unterstützt werden.

Bei der Verwendung von Serifenschriften erzeugen die Serifen eine gut sichtbare Grundlinie (rechts). Serifenlose Schriften erzeugen diese sichtbare Grundlinie nicht oder nur in geringerem Maße (links). Bei kurzen Texten, die nur aus wenigen Worten bestehen (zum Beispiel Feld- oder Buttonbeschriftungen), spielt diese Unterstützung nur eine sehr kleine Rolle. Wenn längere Texte zum Lesen angeboten werden, kann der Einsatz einer Schriftart mit Serifen das Lesen vereinfachen, wenn die oben erläuterten Bedingungen gegeben sind.

Zeilenhöhen und Abstände

Gerade bei der Wahl der Zeilenabstände werden beim Webdesign oft Fehler gemacht. Der Zeilenabstand ist der Abstand zwischen der Grundlinie einer Zeile und der Grundlinie der Zeile darüber oder darunter. Der entstehende Platz zwischen den Zeilen wird „Durchschuss“ genannt. Zeilenabstände werden üblicherweise als Faktor der Schrifthöhe angegeben. Zu geringer Zeilenabstand macht den Text schwerer lesbar, da beim Suchen der nächsten Zeile schnell eine falsche ausgewählt wird. Ein zu großer Abstand dagegen sorgt dafür, dass die Zeilen als unzusammenhängend empfunden werden und dadurch nicht mehr der Eindruck eines Fließtextes entsteht. Der Standardfaktor für den Zeilenabstand ist 1,2. Wenn die Zeilen länger werden, kann man den Zeilenabstand bis auf etwa 1,5 erhöhen, um das Finden der nächsten Zeile zu erleichtern. Dieser Wert von 1,5 hat übrigens nichts mit dem „anderthalbfachen Zeilenabstand“ zu tun, der gelegentlich bei Gutachten, Qualifizierungsarbeiten oder Manuskripten verlangt wird und der vor allem dem leichteren Anbringen von Anmerkungen und Korrekturen dient. In diesem Fall ist nicht ein Zeilenabstand von 1,5, sondern das 1,5-fache des normalen Abstands gemeint, also etwa ein Zeilenabstand von 1,2*1,5=1,8.

Ligaturen vermeiden

In der Typographie gibt es zur Erhöhung der Lesbarkeit eine Vielzahl kleiner Kniffe, die jedoch ausgeprägte Kompetenzen im Schriftsetzen erfordern. Wie schon mehrfach erwähnt, spielt auch hier wieder eine Rolle, dass der anzuzeigende Text nutzungsabhängig ist und sich deshalb eine robuste Gestaltung empfiehlt, bei der potenziell weniger Komplikationen auftreten können. Zu den Besonderheiten, die in der Praxis der Textgestaltung jedoch zu bedenken sind, gehören die sogenannten „Unterschneidungen“ und, eng mit ihnen verbunden, die „Ligaturen“.

Ungleiche Abstände zwischen Buchstaben sorgen für eine Unterbrechung im Lesefluss. Die Buchstaben sollten also gleich weit voneinander entfernt sein. Betrachten Sie einmal die Buchstabenfolge AVE auf der linken Seite. Der Abstand zwischen A und V ist technisch genau so groß wie der zwischen V und E. Optisch scheint es aber einen übergroßen Abstand zu geben. Dieser Eindruck kommt daher, dass zwei Buchstaben ungeschickt aufeinandertreffen. Das A läuft unten nach rechts aus, das V oben nach links. In der Folge sind die beiden parallelen Linienzüge des A und des V sehr weit voneinander entfernt. Dieses Problem lässt sich durch Unterschneidung lösen, die bei der rechts stehenden Buchstabenfolge angewandt worden ist. Die linke Begrenzung des V befindet sich links von der rechten Begrenzung des A. In der Konsequenz rücken die Parallelen näher zueinander, der optische Buchstabenabstand ist ausgeglichen. Damit eine solche Unterschneidung funktioniert, müssen sowohl Betriebssystem bzw. Browser als auch die Schriftart selbst dies unterstützen. Das ist heute meist der Fall und in der Regel unproblematisch.

Auch in diesem Beispiel gibt es eine Unterschneidung. Das f reicht oben in den Bereich des r hinein. Dadurch wird verhindert, dass zwischen dem f und dem r eine optische Lücke erscheint.

Die Kombination fr ist unproblematisch, doch folgt auf das f ein Buchstabe wie i oder l, kommt es zu Überlappungen. Um das zu vermeiden, werden im Druck sogenannte Ligaturen (deutsch: Verbindungen) eingesetzt. Die Kombination aus f und l oder f und i wird jeweils zu einer Ligatur, also zu einem gemeinsamen Zeichen verschmolzen. Wie die nachfolgende Abbildung zeigt, gibt es jetzt keine unschönen Überlappungen mehr:

Am Bildschirm erweisen sich Ligaturen leider als Problem. Man kann den Computer die Ligaturen zwar automatisch einsetzen lassen, doch leider sind die Regeln für den Einsatz von Ligaturen, gerade im Deutschen, nicht einfach. Sie werden, mit wenigen Ausnahmen, nur dann gesetzt, wenn beide Buchstaben Teil der gleichen Silbe sind. Alle uns bekannten Textverarbeitungssysteme, Browser und Betriebssysteme, machen dies momentan falsch.

Hier sehen Sie das Problem: Beim Wort „Dachfirst“ ist die Ligatur richtig, bei „Kaufinteresse“ jedoch nicht, da das f und das i nicht zur gleichen Silbe gehören, denn es heißt ja nicht „Kau-Finteresse“. Ein guter Setzer würde statt der Ligatur die einzelnen Buchstaben setzen, aber auf die Unterschneidung verzichten, also dafür sorgen, dass sich f und i nicht berühren.

Um typographisch richtig zu schreiben, ist in diesem Fall also nicht nur Wissen über die Buchstaben und Zeichen, sondern auch über die Sprache erforderlich. Angesichts unvorhersehbarer Nutzungskonstellationen sind fehlerhafte Ligaturen kaum zu vermeiden und sollten daher im Sinne einer robusten Gestaltung nicht eingesetzt werden. Es gibt jedoch eine Ausnahme: Wenn man eine Schrift verwendet, in der keine Ligaturen benötigt werden.

In der gezeigten Schriftart „Liberation Serif“ sind keine Ligaturen nötig, da das f nur einen kleinen Bogen hat und nicht in den Bereich des folgenden Buchstabens hineinreicht. Auch die Kombination fi ist in dieser Schriftart unproblematisch, da der Bogen des f nicht in einem Tropfen, sondern in einer Serife endet. Diese Schrift eignet sich deshalb auch für den Einsatz am Bildschirm, beispielsweise wenn ein längerer Text in einer Serifenschrift angezeigt werden soll. Allgemein gute Kandidaten zur Vermeidung der genannten Probleme sind aber die serifenlosen Schriften, denn die meisten von ihnen verfügen nicht über Ligaturen. Aufgrund der fehlenden Serifen und Tropfen sind sie nicht notwendig.

Interessanterweise sind auch serifenlose Schriften entworfen worden, die Ligaturen enthalten. Das gilt zum Beispiel für die oben abgebildete Schriftart „Calibri“ von Microsoft. Zu sehen sind die Ligaturen bei fi, tt und fl. In der unteren Zeile sind diese Ligaturen ausgeschaltet, ohne dass es zu Beeinträchtigungen der Lesbarkeit kommt.

Zusammengefasst: Gestalten Sie robust! Um Irritationen durch überlappende Buchstaben oder durch falsche Ligaturen zu vermeiden, wählen Sie eine Schriftart, die aufgrund ihrer Gestaltung keine Ligaturen braucht. Mit serifenlosen Schriften sind Sie auf der sicheren Seite. Falls eine Schrift eingesetzt werden soll, die über Ligaturen verfügt, schalten Sie diese aus, falls eine solche Einstellung möglich ist.

Schriftwahl – Quintessenz

Ältere Ratgeber zur Schriftwahl am Bildschirm raten in der Regel zu serifenlosen Schriften, um den Treppeneffekt zu vermeiden und so die Lesbarkeit zu erhöhen. Dieser Effekt spielt aufgrund höherer Auflösungen und Farbtiefen heute an Computerbildschirmen keine so große Rolle mehr. Trotzdem empfehlen wir in den allermeisten Fällen aufgrund der nachfolgend aufgeführten Gründe die Verwendung serifenloser Schriften:

  • Auf niedrigauflösenden Bildschirmen ist auch mit Techniken wie Anti-Aliasing die Darstellung von serifenlosen Schriften nach wie vor klarer als die von Serifenschriften.
  • Serifenlose Schriften verursachen aufgrund des mit ihnen einhergehenden Verzichts auf dünne Linienführungen weniger Probleme mit Überstrahlungen. Dieser Effekt, bei dem helle Bereiche des Bildes in dunkle Bereiche hineinstrahlen, verliert zwar auch zunehmend an Bedeutung, tritt aber noch in vielen Fällen auf.
  • Die Vorteile von Serifenschriften entfalten erst bei längeren Texten ihre Wirkung, die in der Nutzungsschnittstelle kaum auftreten.
  • Bei serifenlosen Schriften sind weniger typographische Besonderheiten zu bedenken.

Nur in dem Fall, dass längere Texte dargestellt werden sollen und eine ausreichend hohe Auflösung sichergestellt werden kann, ist es auch am Bildschirm sinnvoll, eine Serifenschrift zu verwenden. In diesem Fall sollte allerdings ein Satzsystem im Hintergrund dafür sorgen, dass Ligaturen gegebenenfalls richtig angewandt werden.

Text auszeichnen

Im vorherigen Kapitel haben Sie erfahren, wie aus einer Vielzahl von Objekten einzelne herausgestellt werden können. Die dort vorgestellten Techniken dienten dazu, auf den Status von Objekten aufmerksam zu machen oder diese als markiert oder inaktiv darzustellen. Auch Text kann ausgezeichnet werden. Es gibt dazu eine Reihe von Techniken, von denen aber eine Vielzahl aus einer anderen Zeit stammt und mit anderen Technologien umgesetzt worden ist. Sie sollten am besten nicht oder nur sehr sparsam eingesetzt werden.

  • Text fett setzen: Diese Art der Auszeichnung eines Textes ist sehr effektiv und kann bei sparsamem und bedachtem Einsatz die Orientierung am Bildschirm sehr erleichtern. Um die allgemeine Ruhe des Textbildes nicht zu sehr zu stören, sollte die Deckkraft des Textes bei Fettschrift ein wenig herabgesetzt werden.
  • Text kursiv setzen: Kursiv gesetzter Text ist weniger aufdringlich. Üblicherweise wird solcher Text als Betonung interpretiert. Beachten Sie bei der Verwendung von kursivem Text die angesprochenen Einschränkungen bei geringer Bildschirmauflösung.
  • Text unterstreichen: Text zu unterstreichen ist heute veraltet. Es handelt sich um eine Technik aus der Schreibmaschinennutzung, bei der man die Schrift nicht anpassen konnte und somit eine Hervorhebung durch späteres händisches Unterstreichen vornahm. Achtung: Unterstrichene Texte werden heute allgemein als Hyperlinks interpretiert! Unterstreichen Sie auf keinen Fall Text, der kein Link ist!
  • Text sperren: Sperren bedeutet, den Abstand zwischen den Buchstaben zu erhöhen. Diese Technik, vor allem in ihrer einfachen Umsetzung durch das Einfügen von Leerzeichen zwischen den Buchstaben, ist ebenfalls eine Technik aus der Schreibmaschinenzeit. Gesperrter Text ist zwar auffällig, allerdings schwer zu lesen.
  • Text in Versalien oder Kapitälchen: Bei der Verwendung von Versalien (Großbuchstaben) oder Kapitälchen (kleinere Großbuchstaben anstelle der Kleinbuchstaben) verschenken Sie das Potenzial einer prägnanten Worthülle. Die Lesbarkeit sinkt also. Kapitälchen können als Titel gut aussehen, eine Schreibung komplett in Großbuchstaben wirkt jedoch sehr aufdringlich.
  • Abgewandelte Schriftgrößen: Auf keinen Fall sollten Sie innerhalb des Fließtextes die Schriftgröße ändern. Das Schriftbild wird dadurch unruhig und schwer lesbar. Auch die Zeilenabstände sind dann ungleich. Die Verwendung verschiedener Schriftgrößen ist aber eine gute Möglichkeit zur Verdeutlichung von Hierarchieebenen, etwa in Überschriften.
  • Abgewandelte Schriftarten: Einen Schriftartenwechsel im Fließtext sollten Sie unbedingt vermeiden. Generell sollten Sie sich bei der Anzahl der Schriftarten in der Nutzungsschnittstelle sehr zurückhalten.

Farbe zur Textauszeichnung

Wirkung von Textfarb- und Hintergrund-Kombinationen
Wirkung von Textfarb- und Hintergrund-Kombinationen

Farbe haben Sie im vorherigen Kapitel bereits als gutes Gestaltungsmittel zur Auszeichnung kennengelernt. Farbe kann auch genutzt werden, um Text auszuzeichnen. Schwierig ist aber – vor allem bei Positivdarstellung – Buchstaben einzufärben. Dies zeigt sich auf obiger Abbildung vor allem in Spalte 2. Dunkle Farben wie dunkelblau und dunkelgrün sind gut lesbar, allerdings sind sie in ihrer Farbigkeit nicht mehr gut zu unterscheiden, vor allem nicht bei schnellem Hinsehen. Hellere Farben sind auffälliger, jedoch leidet die Lesbarkeit des Textes. Eine Ausnahme ist das voll gesättigte Rot, das Sie aber nur im Notfall einsetzen sollten.

In Spalte 3 wurden genau die gleichen Farben wie in Spalte 2 genutzt. Allerdings wurde diesmal der Hintergrund des Textes eingefärbt. In diesem Fall gibt es keine Probleme mehr, die Farbigkeit zu erkennen. Es tritt jedoch der Wahrnehmungseffekt ein, dass farbige Flächen erheblich stärker gesättigt wirken als kleine farbliche Strukturen. Sie können das ausgleichen, indem Sie die Sättigung der Farben, wie in Spalte 4, stark reduzieren und somit den Ablenkungscharakter mindern, ohne dass die Erkennbarkeit der farblichen Auszeichnung leiden würde.

Wenn Text farblich ausgezeichnet werden soll und eine Auszeichnung des Hintergrunds nicht in Frage kommt, wie zum Beispiel beim „Syntax Highlighting“ in der Programmierung, kann die Negativdarstellung wie in Spalte 1 eine gute Lösung verkörpern. Die Einfärbung des Textes ist in einer Negativdarstellung deutlich besser umsetzbar. Hellgrün, orange und hellblau sind sowohl gut erkennbar als auch gut lesbar. Dabei sollten jedoch die zu Beginn diskutierten Nachteile einer Negativdarstellung berücksichtigt werden, wie zum Beispiel die unterschiedliche Fokussierung bei Astigmatismus, die immerhin 50 % aller Menschen betrifft.

Nicht vergessen werden sollten schließlich unsere Hinweise zu Farbfehlsichtigkeiten. Die Nutzbarkeit einer Schnittstelle sollte nie nur von der Einfärbung eines Textes abhängig sein, sondern auch weitere Auszeichnungsarten vorsehen. Zu erwägen wäre auch, ein Möglichkeit vorzusehen, das gewählte Farbschema zur Nutzungszeit verändern zu können.

Icon-Gestaltung

Wie wir im Abschnitt Potenziale interaktiver Nutzungsschnittstellen beschrieben haben, vollzog sich der Übergang von rein textuellen zu grafischen Nutzungsoberflächen über die Verräumlichung der Nutzungsschnittstellen17. Das betrifft zum einen die Möglichkeit, eine Schreibmarke zu positionieren, und zum anderen die Fähigkeit, eine „Textschlange“ in Objekte zu zergliedern. Durch diese Möglichkeit der räumlichen Repräsentation werden Objekte zu manipulierbaren Einheiten der Nutzungsoberfläche, die insbesondere positioniert und bewegt werden können. Allerdings ist die Ausnutzung des Raums dabei noch stark durch den Medientyp Text eingeschränkt. Die durch die festgelegte Leseflussrichtung bei Lautschriften bedingte Sequenzialität verhindert, dass sich semantische Zusammenhänge durchgängig räumlich-visuell in Text abbilden lassen. Dies ändert sich mit der Einführung von Icons als einzelne unabhängig voneinander platzierbare und manipulierbare visuelle Objekte einer Nutzungsoberfläche. Diese Bildchen, die für Objekte oder Funktionen stehen, sind allgegenwärtig. Allein schon aufgrund der schieren Masse ist bei ihrer Gestaltung und Auswahl Sorgfalt geboten.

Von der Wortbedeutung her verweist Icon, oder deutsch Ikon, genau wie das manchmal auch verwendete Wort „Piktogramm“ auf bildhafte Darstellungen, die eine Ähnlichkeit zu dem aufweisen, wofür sie stehen. Das klingt zunächst plausibel, doch die Sache ist nicht so einfach. Man verwendet zum Beispiel ein Bild einer Diskette, um damit den Vorgang des Speicherns auszudrücken. Doch hat das Bild der Diskette eine Ähnlichkeit mit dem Vorgang des Speicherns? Wie könnte es das, denn das Speichern bzw. den Vorgang selbst kann man ja nicht unmittelbar sehen, also in diesem engen Sinne auch nicht abbilden.

„Icons“, die keine Abbildungen sind
„Icons“, die keine Abbildungen sind

Zudem sind viele Icons keine Abbilder, sondern frei gestaltete Grafiken. Icons wie die obigen haben keine Ähnlichkeit mit Objekten, die für einen Vorgang stehen könnten. Dennoch ist es üblich, auch wenn nicht im Wortsinn korrekt, diese Bildchen Icons zu nennen. Wir werden solche Icons weiter unten als „gegenstandslose Icons“ beschreiben.

Vor- und Nachteile von Icons

Mit Icons sind eine Vielzahl von Fehlannahmen verbunden. Eine davon ist, dass gut gewählte Icons selbsterklärend seien. Mit nur einem Blick habe man sie erfasst und wisse dadurch besser als bei einer textuellen Benennung, wofür sie stünden. Leider ist es nicht so einfach, denn die Bedeutung von Icons muss immer erlernt werden, während es Text in Grenzen ermöglicht, seine Bedeutung selbst zu erklären. Zusätzlich zur angeblichen Selbsterklärungsfähigkeit von Icons kommt die Erwartung, dass sie im Gegensatz zu Text international verständlich seien. In der Tat ist es so, dass es viele Symbole gibt, die international verbreitet sind und gleichermaßen verstanden werden. Denken Sie zum Beispiel an die Piktogramme auf Flughäfen für Ankunft, Abflug oder auch für Aufzüge oder Toiletten. Diese Bilder sind jedoch nicht deshalb international verständlich, weil es Bilder sind, sondern weil man sich international auf die Verwendung eben dieser Bilder geeinigt hat. Es ist eine Konvention, dass international die Darstellung einer Tasse für die Cafeteria steht und dass man zum Beispiel auch in Seoul das Zeichen mit Messer und Gabel als Zeichen für „Restaurant“ versteht, auch wenn Messer und Gabel dort nicht die üblichen Esswerkzeuge sind. Wenn Sie diese Icons verstehen, liegt es also nicht daran, dass sie das Abgebildete erkennen, sondern dass Sie die dahinterstehende Konvention entweder explizit erlernt oder aber sich über die mehrfache Nutzung implizit erschlossen haben (also durch Hypothesenbildung).

Icons aus dem nordamerikanischen Kulturraum sind international Gebräuchlich
Icons aus dem nordamerikanischen Kulturraum sind international Gebräuchlich

So ist es zu erklären, dass Sie auch diese Objekte verstehen, die in Deutschland eher unüblich sind. Sie sind zwar nicht gänzlich unbekannt, treten aber eher seltener auf. Statt des amerikanischen Folders verwenden wir eher einen stehenden Leitz-Ordner. Auch Mülltonnen aus Metall gibt es bei uns selten. Wir kennen sie aber aus amerikanischen Filmen und Serien (zum Beispiel Oscar aus der Tonne bei der „Sesamstraße“). Notizblöcke sehen bei uns üblicherweise nicht so aus, wie auf diesem Icon abgebildet, und Klemmbretter sind bei uns weniger verbreitet als in den USA18.

Dennoch gibt es eine ganze Reihe von nicht textuellen Icons gegenüber Text:

  • Bilder haben einen größeren Gestaltungsfreiraum, um einzelne Objekte prägnant und unterschiedlich zu gestalten. Die Wortbilder von Text (mehr hierzu im Abschnitt Lesen als Hypothesenbildung im Kapitel Typographie) lassen sich nicht frei gestalten und unterscheiden sich oft äußerlich kaum voneinander19.
  • Ein kleines Bild wie ein Icon kann ganzheitlich, also mit einem Blick erfasst werden. Bei Text ist das nicht so. Er muss in einem sequenziellen Prozess gelesen werden.
  • Da Bilder räumlich sind, ist es in Bildern leichter möglich, räumliche Verhältnisse auszudrücken. Im Text ist die räumliche Relation nicht immer gewährleistet. Beispiel: In der Wortfolge „Der Apfel ist rechts von der Birne“ etwa widersprechen sich die beschriebene Anordnung der Objekte und die Positionen der Worte im Satz.
  • Bilder sind nicht an eine Sprache gebunden. Eine Darstellung einer Birne etwa mag individuell unterschiedlich sein, ist aber nicht davon abhängig, ob man Deutsch, Spanisch oder Chinesisch spricht. Doch Vorsicht: Diese Internationalität gilt nicht für die inhaltliche Bedeutung von Bildern. (Mehr hierzu unter Internationale Icons)
  • Bilder sind auch für Personen mit eingeschränkten Lesefähigkeiten zugänglich, wenn sie erlernt haben, wofür sie stehen.
  • Bilder können in ihrer Funktion als Abbilder ein konstruktives Potenzial für mentale Prozesse entfalten. Sieht man etwa eine Feder oder eine Diskette, kann dies die Assoziation zum Bearbeiten und Speichern wecken. Die Texte „Bearbeiten“ und „Speichern“ tun das nicht so direkt. Ein Wort muss erst gelesen und verstanden werden, bevor die Assoziation zur damit verbundenen Operation rekonstruiert werden kann. Beim Bild ist dieser Umweg nicht notwendig. Diese Aspekte behandeln wir aufgrund ihrer besonderen Bedeutung für die Gestaltung weiter unten im Abschnitt „Von abbildhaften und nicht abbildhaften Zeichen“.

Auf der anderen Seite hat aber auch Text eine Vielzahl von Vorteilen auf seiner Seite:

  • Text ist potenziell eindeutig. Der Text „Datenträgerimage herunterladen“ auf einem Button beschreibt zum Beispiel sehr präzise, was beim Klicken passiert. Ein Bild ist hingegen immer mehrdeutig. Das Bild einer Diskette kann für „Datenträgerimage herunterladen“ stehen, doch es kann auch für „Speichern“ stehen und die Interpretation, dass eine Diskette für „Laden“ stehen könnte, widerspricht zwar üblichen Konventionen, wäre aber allein vom Bild her ebenso denkbar. Ein bekanntes Beispiel für die Mehrdeutigkeit ist das Bild einer Lupe, das für zwei etablierte Funktionen steht, nämlich für das Zoomen (etwa in der Bildbearbeitung) und für das Suchen (wie auf vielen Websites).
  • Bei einem Text lässt sich leicht Konkretes und Allgemeines unterscheiden, etwa „Mein Hund Bello“, „Hunde an sich“ oder die abstrakte Kategorie „Haustiere“. Bilder zeigen immer etwas Konkretes, also etwa einen konkreten Hund, stehen aber in der Verwendung oft für etwas Allgemeines.
  • Durch Text lassen sich auch gleichartige, also gleich aussehende Objekte eindeutig unterscheiden.
  • Eine weitere Konsequenz der begrenzten Ausdrucksmöglichkeiten des Medientyps Bild ist die Tatsache, dass sich Bilder nicht bzw. nur unter Verstärkung der gerade angesprochenen Defizite konstruktiv kombinieren lassen, so wie man z. B. Worte zu Sätzen oder Aussagen zusammensetzt.
  • Durch Text sind Temporal- und Kausalzusammenhänge direkt beschreibbar. „Erst speichern, dann ausschalten“ oder „Wenn nicht gespeichert, dann Datenverlust“ sind Beispiele dafür. In einem Bild ist das nicht direkt ausdrückbar. Selbstverständlich kann man mehrere Abbildungen in einer Reihe arrangieren, doch benötigt dies für die Interpretation Regeln, die angeben, wie die beiden Bilder zu „lesen“ sind. Dies würde wiederum über die reine Abbildung hinausgehen.
  • Im Text ist eine Negation, zum Beispiel „Nicht speichern“, oder der Ausdruck von etwas nicht Existentem, etwa „Kein Datenträger eingelegt“, möglich. Beides können Sie nicht durch eine Abbildung ausdrücken.
Die Menüleiste der Software Keynote
Die Menüleiste der Software Keynote

Nimmt man diese Vor- und Nachteile zusammen, muss man konstatieren, dass sich Text und Bild weder einander ausschließen noch der eine durch das andere ersetzbar ist. Vielmehr ergänzen sich Text und Bild gut und sollten daher gemeinsam verwendet werden. Die Menüleiste von Keynote von Apple zeigt unter jedem Icon auch einen Text bestehend aus ein bis zwei Worten, der die Funktion textuell beschreibt. Dies macht es einfacher, die Icons zu erlernen und sich im Zweifelsfalle rückzuversichern, wenn ein Icon nicht wiedererkannt werden konnte.

Ein Designkonflikt und seine Lösung
Ribbons in Microsoft Word unter Windows 10
Ribbons in Microsoft Word unter Windows 10

Dieser Screenshot zeigt die Icons in den sogenannten „Ribbons“ von Microsoft Word unter Windows 10. Er verdeutlicht das Problem, das sich ergeben kann, wenn Text und Bild gemeinsam verwendet werden. Die Kombination braucht recht viel Platz. Bei der von Microsoft gewählten Lösung sind bereits einige der Texte so dicht aneinander geschrieben, dass eigentlich mehr Platz spendiert werden müsste. Platz steht aber nicht unbegrenzt zur Verfügung. Er wird eingeschränkt von der Bildschirmgröße an sich, dem Platzbedarf für eine übersichtliche Darstellung, aber auch durch die Abwägung der Platzaufteilung zwischen Nutzungsschnittstelle und dem Inhaltsbereich der jeweiligen Anwendung. Steht zu wenig Platz zur Verfügung, um alle Funktionen in Text und Bild darzustellen, gilt es einen Design-Konflikt auszutarieren. Wir müssen dazu an dieser Stelle etwas vorgreifen und zwei Forderungen erwähnen, die wir erst in späteren Kapiteln intensiver besprechen.

Ohne zu weit vorzugreifen, wollen wir kurz erläutern, was diese Forderungen konkret bedeuten, denn nur dann können wir uns Gedanken über eine angemessene Lösung des Konflikts machen. Bei der Erschließbarkeit geht es darum, dass am Bildschirm schnell erfasst werden kann, welche Objekte vorhanden sind, welche manipuliert werden können und dass es erkennbare Hinweise darauf gibt, wie Funktionen und Inhalte erreicht werden können, die aktuell nicht sichtbar sind. In der Konsequenz erfordert das, nicht ausschließlich Icons anzuzeigen, denn das Erschließen wird erschwert, wenn ein Icon unbekannt ist oder vergessen wurde, wofür es steht. Übersichtlichkeit auf der anderen Seite verlangt, dass die Objekte eines Bildschirms schnell und strukturiert erschlossen werden können. Neben der Begrenzung der Anzahl der Objekte braucht es dazu auch zusätzlichen Platz, um Objekte voneinander absetzen bzw. gruppieren zu können.

Tooltip im Browser Edge
Tooltip im Browser Edge

Der Design-Konflikt zwischen Erschließbarkeit (kein Icon ohne Text) und Übersichtlichkeit (möglichst gut strukturierter Bildschirmaufbau) ist jeweils im Kontext auszutarieren. Im Edge-Browser von Windows 10, wie in vieler heute üblicher Software auch, hat man sich für die Maximierung des Inhaltsbereichs, also des Darstellungsbereichs der Websites, entschieden und dafür auf die dauerhafte Anzeige von Button-Beschriftungen verzichtet. Dies ist in diesem Fall auch verschmerzbar, da die Anzahl der Buttons sehr gering ist und diese Buttons zudem sehr verbreitet sind. Wird nun doch eine textuelle Beschreibung gebraucht, weil ein Icon nicht wiedererkannt werden konnte, ist sie durch einen Tooltip verfügbar und erscheint, wenn der Mauszeiger über dem Icon verweilt.

Ein Tooltip ist eine technische Auflösung des Design-Konflikts „Übersichtlichkeit versus Erschließbarkeit“. Anhand dieser Technik lässt sich gut vor Augen führen, wie sehr verschiedene Aspekte der Gestaltung und Forderungen an die Gestaltung zusammenhängen und wie sehr die Anwendung einer solchen Technik abhängig vom konkreten Einsatzfall ist, denn durch die Nutzung von Tooltips werden zwar Übersichtlichkeit und Erschließbarkeit in gewisser Weise versöhnt. Mit dieser Versöhnung gehen aber Nachteile in Form neuer erzwungener Sequenzialitäten einher:

  • Tooltips erfordern einen Zwischenschritt und widersprechen damit der Forderung nach Eingabeminimalität, die wir im Kapitel Eingaben genauer besprechen.
  • Damit Tooltips beim Überfahren von Objekten mit der Maus nicht stören, erscheinen sie zeitverzögert. Dies widerspricht der Forderung nach Unmittelbarkeit, die wir im Kapitel Rückmeldung besprechen werden.
  • Man muss wissen, dass es die Tooltips gibt. Wenn man das nicht weiß und per Zufall einen Tooltip auslöst, entgeht einem die erklärende Beschreibung. Dieser Aspekt ist fast ironisch, widerspricht er doch genau der Forderung nach Erschließbarkeit, die ja durch den Tooltip gelöst werden sollte.
  • Von diesen Schwierigkeiten abgesehen gibt es heute das Problem, dass Tooltips in erster Linie eine Maus-Technologie sind, da sie auf dem Verweilen über einem Icon basieren. Die Touch-Umsetzungen sind in aktuellen Mobil-Betriebssystemen sehr uneinheitlich und nicht sehr praktikabel.
In diesem Beispiel wäre genug Platz für Iconbeschriftungen vorhanden
In diesem Beispiel wäre genug Platz für Iconbeschriftungen vorhanden

Tooltips sollten also keinesfalls immer verwendet werden, denn die Nachteile überwiegen in vielen Fällen die Vorteile. Das verdeutlicht auch obiger Screenshot aus einer Lernplattform. Auf der rechten Seite befinden sich winzig kleine Bearbeitungs-Icons. Diese sind nicht nur aufgrund ihrer geringen Größe schlecht erkenn- und handhabbar, sie sind zudem auch noch unbeschriftet. Es sind zwar Tooltips vorhanden, das heißt, die Icons können über diesen Weg erschlossen werden, doch überwiegen in diesem Beispiel die Nachteile der Tooltips. Zur Beschriftung wäre genügend Platz für zusätzlichen Text vorhanden, was die Nutzung deutlich erleichtern würde20, weil unnötige Zusatzschritte, also unnötige Sequenzialität, vermieden werden.

Tooltip zusätzlich zur Beschriftung von Icons
Tooltip zusätzlich zur Beschriftung von Icons

Eine Icon-Beschriftung und Tooltips schließen sich übrigens nicht aus. In obiger Abbildung haben die Icons eine kurze Beschriftung. Durch Verweilen auf dem Icon oder der Beschriftung erscheint eine zusätzliche, längere Beschreibung der Funktion. Man erhält eine differenziertere Beschreibung der Funktion und kann sich erschließen, welche Funktionalitäten zur Verfügung stehen (siehe Thema Erschließbarkeit).

Von abbildhaften und nicht abbildhaften Zeichen

Rauchverbotszeichen
Rauchverbotszeichen

Icons sind meist mehr oder weniger detaillierte Abbildungen von realweltlichen Objekten. Sie haben jedoch schon Beispiele für Icons gesehen, die keine solchen Objekte darstellen. Oftmals werden in der Praxis Abbildungen und willkürlich gewählte Elemente miteinander verbunden. Schauen Sie sich zur Verdeutlichung das rechts abgebildete Schild für „Rauchen verboten“ an. Bei diesem Schild ist eine Zigarette abgebildet. Die weiteren Bildanteile des Icons – der rote Kreis mit dem Balken – sind nicht abbildhaft, sondern sind ein willkürliches Zeichen, von dem Sie einmal gelernt haben, dass es für „verboten“ steht. Ein im Computerbereich typisches Beispiel für die Mischung von abbildhaften und willkürlichen Elementen ist ein Icon zum Hinzufügen von Personen, zum Beispiel bei der Vergabe von Zugriffsrechten, das etwa aus einem stilisierten Torso eines Menschen (abbildhaft) und einem Plus-Zeichen (nicht abbildhaft) bestehen könnte.

Wir nennen ein Icon dann „abbildhaft“21, wenn es ein wahrnehmbares Objekt abbildet. In aller Regel hat das abgebildete Objekt etwas mit dem zu tun, wofür das Icon steht. Wenn das so ist, gibt das Icon einen Hinweis auf die Funktion, das Objekt oder den Vorgang, für den es steht. Wird zum Beispiel ein Icon für die Funktion „Zugreservierung“ gesucht, könnte man zum Beispiel eine stilisierte Sitzreihe abbilden. Die Sitzreihe an sich ist zwar offen für verschiedene Interpretationen, hat jedoch im jeweiligen Kontext hinreichend viel mit der Reservierung von Plätzen in einem Zug zu tun, sodass diese Beziehung als konstruktiver Anlass für eine plausible Spekulation als Zugreservierung dienen kann. Zwar kann man ohne Vorkenntnisse solche Spekulationen nicht in Wissen verwandeln, wenn aber die Bedeutung einmal etabliert worden ist, kann man sich leichter wieder daran erinnern, weil es entsprechende Hinweisreize gibt und damit das Gedächtnis entlastet wird.

Wofür stehen diese Zeichen?
Wofür stehen diese Zeichen?

Man kann bei der Wahl von Zeichen auch solche wählen, die überhaupt nicht abbildhaft sind. Wenn Sie schon mal in Polen waren, haben Sie sich vielleicht über die dort üblichen Hinweisschilder auf Toiletten gewundert (rechts abgebildet). Im Gegensatz zum bei uns üblichen Zeichen mit einem Mann und einer Frau und einer Begrenzung dazwischen (auch dieses Zeichen bildet nicht Toiletten oder das, was man dort tut, ab), werden in Polen zwei willkürliche Zeichen verwendet: Ein Kreis steht an einer Toilettentür für „weiblich“, ein auf der Spitze stehendes Dreieck für „männlich“. Die Kombination der beiden Zeichen auf einem Schild weist auf eine öffentliche Toilette hin.

Wir nennen Zeichen wie die polnischen Toilettenzeichen arbiträr, da ihr Aussehen keinerlei abbildende Funktion hat. Das Wort „arbiträr“ bedeutet „willkürlich“, was in diesem Fall heißt, dass die Zeichen beliebig gestaltet werden können, unabhängig davon, wofür sie stehen. Insbesondere eröffnet das die Möglichkeit, sie sehr einfach zu gestalten. Einfachheit reduziert den Erkennungsaufwand, weshalb solche Icons gerne verwendet werden. Zu den arbiträren Zeichen gehören auch Buchstaben, Ziffern und die meisten Sonderzeichen.

Verkehrsschilder „Vorsicht!“, „Vorfahrt“ und „Vorfahrt beachten“
Verkehrsschilder „Vorsicht!“, „Vorfahrt“ und „Vorfahrt beachten“

Auch viele Verkehrszeichen, wie die oben abgebildeten, sind rein arbiträr. Eine Raute zeigt kein Objekt und verkörpert auch keine Visualisierung des Konzepts Vorfahrt. Auch das Dreieck und das Ausrufezeichen sind keine Abbildungen, sondern arbiträre Zeichen. Dass diese Zeichen willkürlich sind, heißt aber nicht, dass die Formen zwangsläufig ohne Bedacht ausgesucht worden wären. Bei Verkehrszeichen ist es etwa wichtig, dass sie schnell wahrgenommen und von der Umgebung unterschieden werden können. Wichtige Verkehrszeichen sind daher zum einen sehr einfach, etwa nur ein Dreieck oder nur ein Kreis, oder verfügen über Formen wie eine Raute oder ein auf der Spitze stehendes Dreieck, die in Land und Stadt typischerweise nicht vorkommen.

Warnschilder für Bahnübergang und „Einfahrt verboten“ jeweils als Kombination aus abbildhaften und nicht abbildhaften Elementen
Warnschilder für Bahnübergang und „Einfahrt verboten“ jeweils als Kombination aus abbildhaften und nicht abbildhaften Elementen

Manche Verkehrszeichen bestehen aus Kombinationen von abbildhaften und nicht abbildhaften Elementen. Beim Warnschild für den Bahnübergang (links) ist das offensichtlich. Das rote Dreieck ist ein arbiträres Zeichen, der Zug ist eine abbildhafte Darstellung. Auch das Einfahrt-verboten-Schild rechts besteht aus einem nicht abbildhaften Element, dem Kreis, und einem abbildhaften Element, dem Balken, der entfernt an das Aussehen einer Straßensperrung erinnert. Diese Darstellung ist allerdings bereits stark abstrahiert.

Die Abbildhaftigkeit von Icons – Quellen: Erdbeere: Smultron, Notizblock: Notepad, Diskette: Ahkâm auf www.freeiconspng.com, Pylon: VLC Media Player
Die Abbildhaftigkeit von Icons – Quellen: Erdbeere: Smultron, Notizblock: Notepad, Diskette: Ahkâm auf www.freeiconspng.com, Pylon: VLC Media Player

Die Beispiele legen nahe, dass Arbitrarität und Abbildhaftigkeit zwei Pole eines Kontinuums bilden. Doch leider ist es nicht so einfach. Die abgebildete Skala verdeutlicht verschiedene Grade der Abbildhaftigkeit. Die Icons links bilden nichts ab und sind daher nicht abbildhaft. Die Icons rechts bilden ein Objekt ab und haben daher eine hohe Abbildhaftigkeit. Etwas weniger abbildhaft sind die beiden Icons, die Sie wahrscheinlich als Lupe und Briefumschlag erkennen. Sie sind zwar abbildhaft, jedoch nicht in dem Maße, wie die nahezu fotorealistischen Darstellungen am rechten Ende der Skala. Die Zeichen auf der linken Seite sind allesamt nicht abbildhaft, aber nicht alle von ihnen sind arbiträr. Es gibt Zeichen, die zwar nicht abbildhaft, aber dennoch nicht komplett willkürlich sind. Betrachten Sie zum Beispiel den nach Links zeigenden Pfeil und nehmen an, es bedeute „Element aus der rechten Auswahl in die linke Auswahl verschieben“. Außerdem haben Sie das Zeichen, das wie ein auf der Seite liegendes Y aussieht, in der Bedeutung „Fallunterscheidung einführen“. Könnte man nun ohne Weiteres sinnvoll dieses Icons für das Verschieben nach links und den Pfeil nach Links für die Fallunterscheidung nehmen? Wenn die Icons arbiträr, also willkürlich wären, müsste das gehen. Das ist jedoch nicht der Fall. Die Zeichen referieren zwar auf kein Objekt, aber sie visualisieren durch ihr Aussehen das abstrakte Konzept zur Unterstützung der Orientierung und des Bewegens in einem Raum. Dieses Phänomen des Verräumlichens abstrakter Konzepte finden wir auch in sprachlichen Metaphern wie z. B. tiefes Nachdenken oder hohe Abstraktion.22. Sie helfen, das Nicht-Sichtbare in einen räumlichen Zusammenhang zu setzen und damit begreifbarer machen. Wir unterscheiden deshalb bei nicht abbildhaften Icons zwischen „konzeptuellen Icons“ und „arbiträren Icons“.

Die Bedeutung steckt nicht im Zeichen

An den Verkehrszeichen bzw. an ihren abbildhaften Elementen lässt sich gut verdeutlichen, dass eine bildliche Darstellung, obwohl sie etwas Realweltliches abbildet, nicht in sich trägt, wofür diese Abbildung steht. Sie gibt nur einen Hinweis auf die entsprechende Bedeutung.

Zeichen aus § 39 StVO
Zeichen aus § 39 StVO

Dieses Zeichen ist Teil vieler deutscher Verkehrsschilder. Dargestellt ist ein Lkw. Gemeint ist aber nicht ein Lkw, der genau so aussieht wie dieser. Die Darstellung steht stellvertretend für etwas Allgemeineres, nämlich eine ganze Klasse von Fahrzeugen. Gleichzeitig steht das Zeichen aber auch für etwas Konkreteres, das nicht direkt zu sehen ist. Laut Straßenverkehrsordnung bedeutet dieses „Sinnbild“ nämlich „Kraftfahrzeuge mit einer zulässigen Gesamtmasse über 3,5 t, einschließlich ihrer Anhänger und Zugmaschinen, ausgenommen Personenkraftwagen und Kraftomnibusse“. Diese präzise Definition kann nicht in einer Grafik dargestellt werden. Wofür dieses Sinnbild steht, ist nur klar, wenn man es erlernt hat. Eine andere Frage ist, was das Bild bedeutet, denn das wird in diesem Falle nur im Zusammenhang mit dem Rest des Schildes, von dem es ein Teil ist, erschließbar.

Ähnliche Zeichen,  unterschiedliche Bedeutungen
Ähnliche Zeichen, unterschiedliche Bedeutungen

Diese beiden Zeichen belegen, dass man aus dem Aussehen nicht die Bedeutung ablesen kann. Das linke Zeichen stammt von einem Schild aus Großbritannien, das rechte ist Teil eines Straßenschilds aus Spanien. Zu sehen ist auf beiden Bildern eine recht altmodische Kamera mit Balgen. Beide Zeichen bilden das gleiche, oder zumindest ein sehr ähnliches, Objekt ab. Die jeweiligen Bedeutungen sind aber sehr verschieden. Das linke Zeichen weist die Fahrer auf Radarkontrollen hin, das rechte auf interessante Fotomotive am Straßenrand.

Lupe aus Photoshop und Firefox, Pinsel aus Photoshop und Word, Weltkugel aus Windows 95 und Windows 7, Schlüssel aus MacOS
Lupe aus Photoshop und Firefox, Pinsel aus Photoshop und Word, Weltkugel aus Windows 95 und Windows 7, Schlüssel aus MacOS

Dass das gleiche Zeichen in verschiedenen Kontexten unterschiedliche Bedeutungen hat, zeigt sich auch in Nutzungsschnittstellen. In der Abbildung oben sehen Sie abbildhafte Darstellungen. Es ist leicht erkennbar, was sie abbilden, doch ist allein vom Zeichen her nicht klar, wofür sie stehen. Die Lupe steht in Photoshop für die Vergrößerung des Bildes, in Firefox für die Suche, der Pinsel steht in Photoshop für das Zeichnen auf dem Bild und in Word für das Übertragen von Formatierungseigenschaften und die Weltkugel stand in den Systemeinstellungen von Windows 95 noch für die internationalen Einstellungen (Sprache, Währung, Maße etc.), während sie in Windows 7 nun für Internetverbindung steht. Bleibt schlussendlich noch ein Schlüssel. Dieses Icon könnte für alles Mögliche stehen, etwa für das Verschlüsseln einer Datei. Das konkrete Exemplar stammt aus einem Einstellungsfenster des Macintosh, in dem ein Anmeldepasswort vergeben werden kann. Es steht dort für die Funktion, ein Passwort automatisch zu generieren.

Fassen wir zusammen: Auch wenn man erkennt, was auf einem Icon abgebildet ist, kann man allein aus dem Zeichen nicht ableiten, für was es im jeweiligen Kontext steht. Das Abgebildete zu erkennen ist nicht das Gleiche wie seine Bedeutung zu verstehen. Die Bedeutung erschließt sich immer erst durch einen Lernprozess, in dem durch Handeln im jeweiligen Kontext eine Zuordnung etabliert wird, wie ein Zeichen zu nutzen bzw. zu verstehen ist. Icons sind also nicht selbsterklärend, aber sie können unterstützende Hinweise für die Wiedererkennung liefern.

Obschon es wichtig ist zu verstehen, dass Icons nie selbsterklärend sind und man nicht lediglich aus dem Anblick eines Icons ableiten kann, wofür es steht, muss man doch die konstruktiven Eigenschaften herausstellen, die gute abbildhafte Icons mit starkem Hinweischarakter mit sich bringen. Verwendet man etwa eine Feder für einen Editor und eine Schreibmaschine für die Druckfunktion und hat man diese Zuordnung einmal erlernt, dann ist das Wiedererkennen eben dieser Objekte bei späterer Betrachtung ein guter Hinweis auf diese Funktionen, oder, um es mit dem Vokabular aus dem Kapitel Differenzerfahrung zu sagen, eine gute Unterstützung bei der Bildung von Hypothesen darüber, welche Funktionen welchem Element der Nutzungsschnittstelle zugeordnet sind.

Anforderungen an die Icon-Gestaltung

Wir haben festgestellt, dass Icons und Text einander gut ergänzen. Wenn ein geeignetes Icon gewählt wurde, verkörpert dies eine Entlastung beim Wiedererkennen und Erinnern seiner Bedeutung, ohne die Beschriftungstexte explizit lesen zu müssen. Tägliche Erfahrung lehrt uns jedoch auch, dass es sehr auf die Auswahl und Gestaltung der Icons ankommt, denn schlecht gestalte oder ungeschickt ausgewählte Icons können auch mehr irritieren als unterstützen oder Fehlbedienungen provozieren. Basierend auf den Erkenntnissen über die menschliche Wahrnehmung und unseren Überlegungen zu arbiträren, abbildhaften und konzeptuellen Icons leiten wir eine Reihe grundlegender Forderungen an die Icon-Gestaltung ab.

Doch zuvor noch ein Hinweis: Auch wenn wir von „Icon-Gestaltung“ sprechen, wollen wir – wie schon bei den Schriftarten – nicht nahelegen, Icons ohne eine entsprechende Grafikausbildung zu gestalten. Meist ist das Zeichnen von Icons auch nicht erforderlich, weil es viele gute sowohl kostenfreie als auch kommerzielle Icon-Sätze gibt. Das Wissen, das wir vermitteln wollen, ist gleichwohl erforderlich, um eine angemessene und begründete Auswahl einzelner Icons oder ganzer Icon-Sätze treffen zu können. Unsere Betrachtungen dazu orientieren sich an den vier bereits bekannten Forderungen: Wiedererkennbarkeit, Unterscheidbarkeit, Einfachheit und Ablenkungsfreiheit.

Wiedererkennbarkeit durch Abbildhaftigkeit

Wir haben gesehen, dass es nicht möglich ist, aus dem Aussehen eines Icons abzuleiten, wofür es steht. Wenn ein Icon etwas abbildet, das man wiedererkennen kann, kann dieses Wiedererkannte bei späteren Betrachtungen aber ein guter Hinweis auf die Bedeutung sein. Ein solches Icon erleichtert den Prozess und kann gewissermaßen als Abkürzung zum Zuordnen der vorher erlernten Bedeutung betrachtet werden, weil weniger Alternativen beim Hypothesenbilden bedacht werden müssen.

Briefmarke und Foto-Kamera-Kombination: Apple, Notizblock: Microsoft
Briefmarke und Foto-Kamera-Kombination: Apple, Notizblock: Microsoft

Abbildhafte Darstellungen knüpfen an vertraute Wahrnehmungen an und fördern die Wiedererkennbarkeit bzw. entlasten das Gedächtnis. Wiedererkennbarkeit bedeutet daher bei der Icon-Gestaltung, abbildhafte Icons zu verwenden.

Das Potenzial, dass abbildhafte Icons einen Hinweis auf eine vorher erlernte Bedeutung des Icons beinhalten können, kann sich jedoch nur dann entfalten, wenn das Dargestellte mit dieser Bedeutung auch etwas zu tun hat. Dies ist bei den obigen Icons der Fall. Eine Briefmarke kann daran erinnern, dass das Icon für „E-Mail“ steht, ein Block kann an die Funktionalität eines Editors erinnern und Foto und Kamera sind jeweils gute Hinweise auf Funktionen zur Bilderverwaltung oder zur Bildbearbeitung.

Icons mit wachsendem Hinweischarakter
Icons mit wachsendem Hinweischarakter

Es gibt leider auch Icons, die abbildhaft sind, deren Abbildung aber keinen Hinweischarakter hat. Eine Erdbeere ist beispielsweise kein Hinweis auf einen Editor und ein Pylon ist kein Hinweis auf einen Mediaplayer. Wenn wir im Folgenden von „Abbildhaftigkeit“ sprechen, gehen wir jeweils davon aus, dass ein Bild mit Hinweischarakter verwendet wird. Bezugslose Bild-Icons wie ein grinsendes Gesicht für den Dateimanager Finder beim Apple Macintosh oder ein Pylon für den VLC-Mediaplayer können aufgrund ihrer Besonderheit sehr auffällig sein, die Argumentation an dieser Stelle ist aber nicht von Interesse.

Zu stark abstrahierte Darstellungen verlieren ihren Hinweischarakter
Zu stark abstrahierte Darstellungen verlieren ihren Hinweischarakter

Voraussetzung für die Wiedererkennbarkeit durch Abbildhaftigkeit ist eine hinreichend detaillierte und auf die übliche Art und Weise dargestellte Repräsentation. Reduziert man die Details zu sehr oder verwendet eigenartige Darstellungsweisen und Perspektiven, besteht die Gefahr, dass die Qualität des Hinweischarakters sinkt. Die rechts abgebildeten Icons sind zwar abbildhaft, doch eher als problematisch zu betrachten. Das linke Bild steht in der Vorschau-Anwendung von MacOS für „Bearbeiten“. Abgebildet ist die Spitze eines Filzstiftes. Gerade durch die Kombination mit dem Kreis ist dies aber schwer zu erkennen. Das rechte Icon wird häufiger als Icon für das Versenden einer Nachricht gesehen. Aber was stellt es dar? Es handelt sich tatsächlich um die abbildhafte Darstellung eines Papierfliegers, jedoch in einer eigenartigen Perspektive direkt von oben.

Unterscheidbarkeit

Um ein Objekt schnell unter vielen anderen herauszufinden zu können, müssen sich diese Objekte optisch gut voneinander unterscheiden. Je geringer bzw. feiner die Unterschiede sind, desto aufwändiger gestaltet sich der Wahrnehmungsprozess, desto mehr Sequenzialität gibt es also. Es gilt daher, unterscheidbare Icons zu verwenden, um unnötigen Erschließungsaufwand und Fehler zu vermeiden.

Mangelnde Unterscheidbarkeit bei Icons im Internet Download Manager 6.3 (links) und im Total Commander (rechts)
Mangelnde Unterscheidbarkeit bei Icons im Internet Download Manager 6.3 (links) und im Total Commander (rechts)

Diese Icons oben können das Problem mangelnder Unterscheidbarkeit gut verdeutlichen: Sie unterscheiden sich jeweils nur in einem kaum sichtbaren Detail. „Stopp“ und „Alle stoppen“ auf der linken Seite unterscheiden sich außer in der Beschriftung nur in der Anzahl der scheinbar um die Weltkugel herumfliegenden Ordner. Ansonsten sind die recht komplexen Icons identisch. In solchen Fällen gerät das Erkennen schnell zu einem Suchspiel (finde die fünf Unterschiede). Alternativ müsste auch der Text jedes Mal gelesen werden; in diesem Fall wäre das Icon auch verzichtbar.

Einfachheit

Jedes Bildschirmobjekt muss zunächst durch den Wahrnehmungsapparat erschlossen und dann in seiner Gesamtheit erfasst werden. Wenn das dargestellte Gebilde einfach ist, bedeutet das weniger Aufwand für den Wahrnehmungsapparat, als wenn es viele Details wahrzunehmen gilt.

Nutzung möglichst einfacher geometrischer Formen (und Farben) bei wichtigen Verkehrszeichen
Nutzung möglichst einfacher geometrischer Formen (und Farben) bei wichtigen Verkehrszeichen

Pure geometrische Formen wie diese Verkehrszeichen sind immer einfach. Sie können schnell und ohne näheres Hinsehen wahrgenommen werden. Bei Verkehrszeichen ist das besonders wichtig, denn sie müssen auch in schnell fließendem Verkehr verlässlich wahrgenommen werden, ohne dass sie die Aufmerksamkeit zu stark binden. Ein Autofahrer sollte nicht damit beschäftigt werden, die Verkehrszeichen erst zu enträtseln bzw. zu entziffern. Die Gestaltungsfreiheit bei der Nutzung arbiträrer Zeichen wird jedoch mit einer mangelhaften Gedächtnisentlastung erkauft.

Arbiträre Zeichen können einfach gestaltet sein, müssen es aber nicht. Da es sich um willkürliche Zeichen handelt, können sie auch beliebig komplex sein. Solche Icons treten jedoch selten auf, denn sie würden eher ein Hindernis als eine angemessene Unterstützung verkörpern. Willkürliche Zeichen bieten aber einen hohen Gestaltungsspielraum, um verschiedene sich teils widersprechende Anforderungen austarieren zu können.

Ablenkungsfreiheit durch Gleichförmigkeit

Im Kapitel Architektur der Wahrnehmung haben wir erläutert, wie sehr einzelne, von der Masse abweichende Objekte präattentiv wahrgenommen werden, also die Aufmerksamkeit auf sich ziehen. In einem Arrangement von Icons will man das im Regelfall nicht, denn kein Objekt soll so gestaltet sein, dass es ablenkt. Es gilt also, die Icons ablenkungsfrei zu gestalten bzw. sie entsprechend auszuwählen.

Systemsteuerung unter Windows 8 mit aufmerksamkeitleitendem Icon (Flash Player)
Systemsteuerung unter Windows 8 mit aufmerksamkeitleitendem Icon (Flash Player)

Damit Icons ablenkungsfrei sind, müssen sie gleichförmig gestaltet werden. Nicht gleichförmig gestaltete Icons werden präattentiv vorausgewählt und werden damit zu optischen Schreihälsen. Oben sehen Sie eine Ansicht der Systemsteuerung von Windows 8. Unter den vielen Icons befindet sich eines, das des Flash-Players, das so auffällig anders als alle anderen gestaltet ist, dass es unweigerlich die Aufmerksamkeit auf sich zieht. Bei der Nutzung der Systemsteuerung muss man jeweils gegen diesen visuellen Schreihals ankämpfen. Das Problem ist nicht nur die rote Farbe, sondern auch, dass es als einziges Icon die komplette Fläche ausfüllt und dadurch größer und präsenter wirkt als die anderen Elemente im Fenster. Das Problem mit diesem auffälligen Icon ist übrigens nicht etwa Microsoft zuzuschieben, denn das Icon des Flash-Players stammt ja nicht von Microsoft, sondern vom Flash-Hersteller Adobe. Die Icons der Windows-8-Systemsteuerung mögen nicht unbedingt ideal sein, aber sie enthalten von Haus aus keine derart ablenkenden Elemente.

Icons aus der Schülerverwaltungs-Software Schild-NRW
Icons aus der Schülerverwaltungs-Software Schild-NRW

Auch die abgebildeten Icons in der Software „Schild-NRW“, die in Schulen in NRW zur Schülerverwaltung eingesetzt wird, sind uneinheitlich. Daher fallen einzelne Icons besonders auf. Die ersten beiden sind im Windows-XP-Stil gehalten, während die anderen einen noch älteren Stil aufweisen. Einige Icons sind überdurchschnittlich bunt, wie zum Beispiel das Icon mit den drei Männchen in grün, rot und blau. Das Fernglas hingegen hat einen überdurchschnittlich hohen Schwarz-Anteil und ist dadurch viel dunkler als die übrigen Icons und damit auch auffälliger.

Der Effekt stark ablenkender Objekte tritt schnell auf, wenn Icons aus verschiedenen Sammlungen kombiniert werden, sei es im Prozess der Gestaltung oder wenn das Icon-Arrangement während der Nutzung an die jeweiligen Bedürfnisse angepasst wird. In solchen Fällen ist es schwierig, robust zu gestalten, wäre aber durch Vorgaben und technische Einschränkungen möglich, etwa der Art, dass die Sättigung von Icons automatisch reduziert wird oder nur monochrome Icons verwendet werden können.

Gestaltungskonsequenz: Reduzierte Icons

Wir haben vier Forderungen zur Gestaltung oder der Auswahl von Icons aufgestellt: Sie sollen einfach, ablenkungsfrei (also gleichförmig), abbildhaft (also wiedererkennbar) und unterscheidbar sein. Es ist nicht einfach, alle unter einen Hut zu bringen. Maximiert man die Wiedererkennbarkeit durch die Verwendung sehr detaillierter Bilder oder Fotos, ist die Darstellung sehr detailreich und erfüllt nicht mehr das Kriterium der Einfachheit. Maximiert man die Gleichförmigkeit, sind alle Icons nahezu identisch, wodurch der Ablenkungseffekt minimiert wird. Unterscheidbarkeit ist dann jedoch nicht mehr erfüllt. Es liegen bei der Icon-Gestaltung also zwei grundlegende Design-Konflikte vor.

Einfachheit versus Wiedererkennbarkeit (oder auch direkt auf Icons bezogen: Einfachheit versus Abbildhaftigkeit)

Einfachheit und Abbildhaftigkeit stehen in einem Widerspruch zueinander. Man kann sich diesen Widerspruch verdeutlichen, indem man ihn systematisch aufschreibt.

  • Einfachheit ist gefordert, damit Icons schnell erfasst werden können. Einfachheit bedeutet, dass Icons wenig detailreich sind.
  • Wiedererkennbarkeit ist gefordert, um das Abkürzungspotenzial von Icons auszunutzen. Wiedererkennbarkeit wird durch Abbildhaftigkeit realisiert. Abbildhafte Icons sind detailreich.
  • Icons müssen beiden Forderungen entsprechend, also zugleich, sehr detailreich und wenig detailreich sein. Das heißt, Einfachheit und Wiedererkennbarkeit stehen über dem Aspekt des Detailreichtums in einem Konflikt zueinander.
Ablenkungsfreiheit versus Unterscheidbarkeit (oder auch direkt auf Icons bezogen: Gleichförmigkeit versus Unterscheidbarkeit)

Auch Ablenkungsfreiheit und Unterscheidbarkeit stehen in einem Konflikt zueinander und auch in diesem Fall lässt sich der Konflikt auf die gleiche Art und Weise aufschreiben:

  • Ablenkungsfreiheit ist gefordert, um zu vermeiden, dass ein Element die Aufmerksamkeit grundlos auf sich zieht. Bei Icons erreicht man Ablenkungsfreiheit durch die Gleichförmigkeit, was heißt, dass die Icons wenige Unterschiede untereinander aufweisen sollen.
  • Unterscheidbarkeit ist gefordert, damit ein gesuchtes Icon schnell und sicher ausgewählt werden kann. Damit Icons voneinander unterschieden werden können, müssen sie hinreichende optische Unterschiede zueinander aufweisen.
  • Icons müssen beiden Forderungen entsprechend, also gleichzeitig, wenige Unterschiede und viele Unterschiede zueinander aufweisen. Das heißt, Ablenkungsfreiheit und Unterscheidbarkeit stehen über dem Aspekt der Menge der optischen Unterschiede in einem Konflikt zueinander.

Die Anforderungen müssen also austariert werden. Wie schwierig das sein kann und wie begrenzt möglicherweise die mit vertretbarem Aufwand erzielbaren Ergebnisse sein können, zeigen wir im nachfolgenden Abschnitt. Dazu gehen wir einmal etwas ausführlicher auf experimentelle Untersuchungen ein, um zu verdeutlichen, dass es wichtig ist, Gestaltungsvorschläge so weit wie möglich zu überprüfen und experimentell abzusichern. Zum anderen zeigt dieses Beispiel auch, dass der damit verbundene Aufwand zum einen sehr hoch ist und zum anderen zeigt, dass es in einem konfligierenden Gestaltungsfeld nicht möglich ist, in kontrollierten Experimenten alle Gestaltungsvariablen isoliert zu untersuchen und, vor allem aufgrund der Designkonflikte, nicht alle Konstellationen des Zusammenspiels der verschiedenen Faktoren unabhängig vom jeweiligen Gestaltungskontext erschöpfend und abschließend zu untersuchen. Eine nur auf experimentellen Befunden basierende Gestaltung ist somit nicht möglich. Entscheidend dafür ist, dass zum Beispiel Fragen nach der Gesamtzahl von Icons im Untersuchungsfeld oder spezifische Fragen nach der Abbildbarkeit anwendungsspezifischer Sachverhalte sowie die Probleme einer robusten Gestaltung bei der Kombination verschiedener Icon-Sätze oder ihrer Anpassung zur Nutzungszeit immer wieder spezifische Gestaltungslösungen erfordern, da sich damit auch die Anforderungen an die Austarierung der Gestaltungskonflikte verändert.

Die für uns gute Nachricht ist jedoch, dass die im Exkurs vorgestellten empirischen Untersuchungen und die Interpretation der entsprechenden Ergebnisse grundsätzlich die von uns vorgestellte Sichtweise bestätigen. Je mehr es also im Prozess der Gestaltung gelingt, die vorgestellten Gestaltungskonflikte auszutarieren, desto eher wird das Ergebnis ergonomisch auch zufriedenstellend ausfallen, solange sie nicht experimentellen Befunden widersprechen.

Untersuchung von Gestaltungsalternativen

Die vier aufgeführten Forderungen auszutarieren ist keinesfalls trivial. Das Austarieren von Gestaltungskonflikten beinhaltet notwendigerweise Prioritäten zu setzen, also festzustellen, ob und bis zu welchem Grad die unterschiedlichen Forderungen jeweils erfüllt bzw. verletzt werden sollten, also in welcher Situation beispielsweise die Abbildhaftigkeit wichtiger ist als die Einfachheit. Dies lässt sich nicht aus isolierten Laborexperimenten ableiten. Man könnte auch sagen, Gestaltung ist im Gegensatz zur reinen Experimentalwissenschaft ein schmutziges Geschäft.

Wir betrachten in der Folge eine Reihe von Untersuchungen des Psychologen Jens Wandmacher und seiner Forschungsgruppe aus der Frühzeit der Gestaltung von Nutzungsschnittstellen Anfang der 1980er Jahre. Zu dieser Zeit war die Verwendung von Icons noch neu, sodass die Ergebnisse nicht von Konventionen und Vorerfahrungen geprägt waren und eine Vielzahl von Gestaltungsalternativen in Betracht gezogen wurde. Die Untersuchungen und Abwägungen münden in das Konzept der reduzierten Icons, das wir zum Ende dieses Kapitels vorstellen.

In ihren experimentellen Untersuchungen ging es zunächst um die Frage, ob Icons grundsätzliche Vorteile gegenüber Textkommandos haben und inwiefern die Gestaltung eines Icons für seine performante Nutzung eine Rolle spielt. Dazu haben sie eine Reihe von Experimenten durchgeführt.

Aufbau des Experiments von Wandmacher und Müller (1987)
Aufbau des Experiments von Wandmacher und Müller (1987)
Resultate des Experiments
Resultate des Experiments

Im ersten Experiment, das wir uns anschauen wollen23, ging es darum, zwei Darstellungen eines Kommandosatzes, bei dem einer aus geschriebenen Worten und der andere aus Icons bestand, miteinander zu vergleichen. Der Einfluss von Vorkenntnissen wurde dadurch ausgeschlossen, dass durch Training gleiche Voraussetzungen geschaffen wurden. Der Kommandosatz und die Bilder waren den Versuchspersonen vor dem Beginn des Experiments bereits bekannt. Im Experiment wurde ihnen dann beispielsweise die Aufgabe präsentiert: „Sie wollen ein Dokument drucken“. Im Anschluss daran bekamen sie entweder ein Textmenü oder einen Icon-Satz zu sehen. Um die Aufgabe zu lösen, mussten sie die Nummer des entsprechenden Elements auf einer Nummerntastatur eingeben24.

Die Abbildung oben zeigt die Ergebnisse des Experiments. Zweierlei fällt auf: Zum einen schneiden die Icons im Experiment durchweg besser ab als die Wortkommandos. Zum anderen gibt es sehr große Unterschiede bei der Performanz der einzelnen Icons, während die Wortkommandos alle recht nahe beieinander liegen. Betrachtet man die entsprechenden Icons im Einzelnen, lässt sich eine Hypothese formulieren:

Kann es sein, dass das Icon für „Graphik“ so schlecht abschneidet, weil es so komplex ist, und die Icons für „Löschen“ und „Schreiben“ so gut, weil sie so einfach sind? Weitere Untersuchungen waren angesagt.

Einfache Formen trotz Abbildhaftigkeit

In einem weiteren Experiment verglichen Arend und Wandmacher25 verschiedene Arten von Icons miteinander. Die Wortkommandos kennen Sie teilweise aus dem vorherigen Experiment. Die abbildhaften Icons zeigen sehr detaillierte Zeichnungen von Büroobjekten. Die arbiträren Icons bestehen aus einfachen geometrischen Figuren, die keinen abbildhaften Charakter aufweisen, also kein Objekt abbilden. Am interessantesten für uns sind die oben rechts abgebildeten Icons, die auf ihre globalen Eigenschaften reduziert worden sind. Globale Eigenschaften haben nichts mit Internationalität zu tun. Gemeint ist vielmehr, dass das jeweilige Icon lediglich die „groben“ Eigenschaften wie die allgemeine Form und Lage eines Objekts darstellt und nicht „kleine“ Eigenschaften wie die Oberflächentextur oder spezifische Details.

Verschiedene Icon-Typen der Untersuchung von Arend und Wandmacher aus dem Jahr 1989, Begrifflichkeiten an unsere Begriffswahl angepasst
Verschiedene Icon-Typen der Untersuchung von Arend und Wandmacher aus dem Jahr 1989, Begrifflichkeiten an unsere Begriffswahl angepasst
Ergebnisse des Experiements
Ergebnisse des Experiements

Im Experiment wurden nun diese Icon-Formen miteinander verglichen. Der Aufbau des Experiments war ähnlich wie beim zuvor beschriebenen Versuch. Zu bewältigen waren eine einfache Such- und Auswahlaufgabe und eine komplexere Dreifachaufgabe, bei der drei Elemente in bestimmter Reihenfolge auszuwählen waren. Gemessen wurden wieder die Zeiten bis zur Eingabe der korrekten Ziffer. Wenn nun die Abbildhaftigkeit für die Performanz eines Icons ausschlaggebend wäre, müssten die detailreichen abbildhaften Icons am besten abschneiden. Wenn es die Einfachheit wäre, müssten die arbiträren und die reduzierten Icons gleichermaßen gut abschneiden, denn beide zeigen einfache Formen.

Das Resultat des Experiments zeigt, dass die komplexen, detailreichen, abbildhaften Icons mit großem Abstand am schlechtesten, sogar schlechter als die Wortkommandos, abschneiden. Der Nachteil ihres Detailreichtums ist offenbar so groß, dass sie den erhofften Abkürzungscharakter von Icons gänzlich verspielen oder gar ins Gegenteil verkehren. Erlernte arbiträre Icons schneiden im Test besser ab, als man vermuten sollte. Die für uns wichtigste Folgerung aus dem Experiment ist aber, dass die auf ihre globalen Eigenschaften reduzierten Icons offenbar ein idealer Kompromiss zwischen der Einfachheit der arbiträren Icons und der Detailliertheit der abbildhaften Darstellungen sind. Sie sind wiedererkennbar genug, um das Gedächtnis zu entlasten bzw. die Erinnerung zu unterstützen, und einfach genug, um nicht zu viel Erkennungsaufwand einzufordern.

Unterscheidungen im Globalen statt im Lokalen

Die globalen Eigenschaften von Icons standen auch in der nächsten Untersuchung im Mittelpunkt des Interesses. Untersucht wurden Icons, die sich in ihren globalen Eigenschaften von solchen abgrenzten, die nur Unterschiede in ihren lokalen Eigenschaften, also in Details, aufwiesen.

Datenbank-Icons mit nur geringfügigen optischen Unterschieden – Quelle: https://www.drweb.de/10-vermeidbare-fehler-im-icon-design/
Datenbank-Icons mit nur geringfügigen optischen Unterschieden – Quelle: https://www.drweb.de/10-vermeidbare-fehler-im-icon-design/

Diese Abbildung zeigt einen typischen Icon-Satz, bei dem sich die Icons nur in einer lokalen Eigenschaft unterscheiden. Global, also auf ihre Grundform reduziert, zeigen alle fünf Icons die gleiche Form, nämlich einen Zylinder, eine konventionalisierte Darstellung für eine Datenbank.

Vergleich von Icons mit lokalen und globalen Unterschieden. Quelle: Arend, Muthig und Wandmacher 1987
Vergleich von Icons mit lokalen und globalen Unterschieden. Quelle: Arend, Muthig und Wandmacher 1987

Diese Untersuchung wurde an Icons für die Textverarbeitung durchgeführt. Die Unterscheidung zwischen rein abbildhaften und rein arbiträren Icons spielte in diesem Falle keine Rolle, da die Icons für typische Textmanipulationen sich teils nur sehr schwer rein abbildhaft darstellen lassen. Neben abbildhaften Elementen müssen also auch konzeptuelle Elemente wie Pfeile und bekannte arbiträre Zeichen wie das Durchstreichen genutzt werden. Die entstandenen Icons sind laut Arend, Muthig und Wandmacher „definitely not self-explanatory“. Sie müssen auf jeden Fall erlernt werden. Dafür geben sie aber, wenn man sie kennt, einen optischen Hinweis auf die Funktion und unterstützen damit die Wiedererkennung.

Ergebnisse des Experiements
Ergebnisse des Experiements

Der Experimentalaufbau des Versuchs ist wieder vergleichbar mit den vorherigen Untersuchungen26. Die Versuchspersonen saßen vor einem Tastenfeld, das den Positionen der Icons entsprach, und hatten wiederum eine Such- und Auswahlaufgabe durchzuführen. Das Ergebnis der Untersuchung zeigt ein eindeutiges Bild. Die reduzierten Icons, die sich in ihren globalen Eigenschaften unterscheiden, schnitten erheblich besser ab als die abbildhafteren Icons, bei denen die Unterschiede nur in lokalen Merkmalen bestehen. Letztere sind optisch so komplex und die jeweiligen Unterschiede so gering, dass ihre Performanz jener der Wortkommandos sehr nahekommt. Schaut man sich die gefundenen Ergebnisse im Detail genauer an, stellt man bei den reduzierten Icons eine große Bandbreite fest.

Unter den reduzierten Icons hat „Wort suchen“ bei Weitem am besten abgeschnitten. Es ist laut Wandmacher das „unterschiedlichste“ von allen, denn es enthält als einziges einen Kreis. Die hohe Unterscheidbarkeit dieses Icons könnte also sehr gut den Ausschlag für sein gutes Abschneiden im Test gegeben haben.

Rangfolge der Schnelligkeit der Wiedererkennung
Rangfolge der Schnelligkeit der Wiedererkennung

Um Unterscheidbarkeit zu gewährleisten, ist diesen Ergebnissen folgend darauf zu achten, dass sich die gewählten Icons in ihren globalen Eigenschaften unterscheiden. Das kann problematisch sein, wenn es eine Vielzahl von Funktionen gibt, die an einem komplexen Objekt jeweils ein Detail manipulieren. Die Textverarbeitungs-Icons sind ein gutes Beispiel. Alle Funktionen beziehen sich auf das Textdokument. Reduzierte Icons können somit nicht erzeugt werden, indem man die detaillierten Icons auf ihre globalen Eigenschaften reduziert, denn dann wären sie nahezu identisch und jeglicher Hinweis auf die spezifische Funktionalität wäre dahin. Bei der Gestaltung der optimierten Icons wurde daher die Granularitätsebene gewechselt. Statt das Objekt „Textdokument“ darzustellen, beschränkte man sich auf die Teilobjekte, auf die sich die Bearbeitung jeweils bezieht, also eine Zeile oder ein Wort.

Zwar kann man den Icons nicht mehr ansehen, auf welches Gesamtobjekt sie sich beziehen, denn dieses Objekt ist nicht in den Icons präsent, doch ist dies bei der Textverarbeitung nicht problematisch. Im gegebenen Fall ist der Kontext aller Icons derselbe. Es gibt daher keine Notwendigkeit, das Dokument in jedem Icon abzubilden. Das ist nicht immer der Fall. Eine Software könnte über eine Reihe von Icons verfügen, die sich auf ein Dokument und andere, die sich etwa auf eine Zitatdatenbank beziehen. In so einem Fall könnte man das Problem lösen, indem verschiedene Elemente miteinander kombiniert werden.

Kombination von Bildelementen
Kombination von Bildelementen

Gibt es in einer Anwendung nur einen einzigen Objekttyp, so reicht ein simples +, um ein neues Objekt zu erstellen. Kann aber eine Vielzahl von Objekten hinzugefügt werden, reicht das Plus-Zeichen nicht mehr aus. In den obigen Android-Icons ist das Plus-Zeichen jeweils mit einem anderen Zeichen kombiniert worden. Wichtig dabei ist, dass keines der beiden Elemente zu einem Detail des anderen wird, beide also gut und schnell erkennbar bleiben, um die Unterscheidbarkeit zu gewährleisten.

Fazit: Auf globale Eigenschaften reduzierte Icons

Die vorgestellten experimentellen Untersuchungen untermauern unseren hypothesengeleiteten Ansatz zum Austarieren von Konflikten und geben nützliche Anregungen, wie die angesprochenen Design-Konflikte aufgelöst werden können. Das Ziel der Icon-Gestaltung und der Icon-Auswahl muss demnach sein, reduzierte Icons zu finden, die einen ausreichenden Hinweischarakter auf ihre Funktionalität beinhalten, sich aber untereinander hinreichend unterscheiden. In der Praxis erfordert dies, Details so zu reduzieren, dass am Ende eine recht einfache geometrische Form übrig bleibt, die aber immer noch detailliert genug ist, um das dargestellte Objekt erkennen zu können. Wo es erforderlich ist, sollten diese noch durch etablierte arbiträre und konzeptuelle Zeichen komplettiert werden.

Auf globale Eigenschaften reduzierte Icons
Auf globale Eigenschaften reduzierte Icons

Die Abbildung zeigt drei Icons, die diesen Ansprüchen genügen. Die durch die Icons abgebildeten Objekte sind ohne Weiteres zu erkennen, wobie die Darstellung so vereinfacht worden ist, dass keine komplexen Details wahrgenommen werden müssen.

Die Übersicht unten zeigt die verschiedenen, von uns beschriebenen Icon-Arten, eingeteilt nach dem Grad ihrer Abbildhaftigkeit und ihres Hinweischarakters. Die nicht abbildhaften Icons haben wir als „Gegenstandslose Icons“ zusammengefasst. Unter ihnen gibt es die „Arbiträren Icons“ und die „Konzeptuellen Icons“. Bei den abbildhaften Icons unterscheiden wir echte „Bild-Icons“ und die „Bezugslosen Bild-Icons“. Die letzteren sind für uns in der Ergonomie nicht interessant. Ihre Gestaltung fällt eher in den Bereich der Markengestaltung. Bei den „Bild-Icons“ können wir die detailreichen „Fotorealistischen Icons“ von den „Reduzierten Icons“ abgrenzen. Da letztere nur die globalen Eigenschaften eines Objekts darstellen, sind sie etwas weniger abbildhaft, aber immer noch abbildhaft genug, um ihren hohen Hinweischarakter zu erhalten. Sie stellen also einen idealen Kompromiss zwischen Abbildhaftigkeit und Wiedererkennbarkeit dar.

Icon-Klassen im Überblick
Icon-Klassen im Überblick

Anordnung

Bislang haben wir uns Gedanken darüber gemacht, wie Bildschirmobjekte aussehen. Wo sie auf dem Bildschirmen erscheinen und wie sie mit anderen Objekten zusammenhängen, haben wir allenfalls am Rande betrachtet. In diesem Kapitel holen wir das nach und betrachten die Forderungen an eine ergonomische Anordnung von Bildschirmobjekten. Bezüglich des Aussehens von Objekten haben wir mehrere Forderungen an die Gestaltung herausgearbeitet: von der Erkennbarkeit über die Einfachheit, die Unterscheidbarkeit, die Ablenkungsfreiheit bis hin zur Wiedererkennbarkeit. Für die Anordnung haben wir nur zwei Forderungen. Das bedeutet aber nicht, dass das Anordnungsproblem einfach wäre. Vielmehr lassen sich aus diesen zwei Forderungen in Kombination mit anderen bereits bekannten und mit ein paar vorausschauenden Blicken in nachfolgende Kapitel viele wichtige Design-Konflikte identifizieren und Gestaltungshinweise ableiten.

Man kann sich Übersichtlichkeit kaum ohne Strukturiertheit vorstellen. Beide gehen Hand in Hand, sind aber nicht identisch. Sie können sich das mit dem Aufräumen einer Wohnung veranschaulichen. In einer übersichtlichen Wohnung liegt nichts einfach herum, sondern viele Dinge sind ausgerichtet bzw. aneinandergereiht oder auch gestapelt. Eine übersichtliche Wohnung muss aber nicht gut strukturiert sein. Übertragen auf das Aufräumbeispiel bedeutet Strukturiertheit, dass die Dinge, die zusammengehören bzw. etwas miteinander zu tun haben, in der Wohnung auch räumlich zueinander angeordnet sind. Tassen und Teller stehen etwa im gleichen Schrank und im Regal gibt es abgegrenzte Bereiche beispielsweise für Fachbücher zur Softwaregestaltung und für Romane. Diese Ordnung kann auch übersichtlich gestaltet sein, dann stehen die Bücher nicht nur beisammen, sondern sind auch ausgerichtet und geordnet.

Die Entscheidung, welche Objekte am Bildschirm zusammengehören und daher wie gruppiert oder in eine Hierarchie eingeordnet werden sollten, ist abhängig von der Aufgabe, die mit der Software erledigt werden soll, und somit Gegenstand der Gebrauchstauglichkeit. Dies liegt jenseits unserer ergonomischen Überlegungen, denn unser Thema ist, wie vorhandene inhaltliche Zusammenhänge in der Nutzungsschnittstelle präsentiert werden sollen, nicht wie man zu solchen Gruppierungen und Hierarchien kommt.

Die Gestaltungshinweise zur Übersichtlichkeit und zur Strukturiertheit, die wir in diesem Kapitel vorstellen, fußen direkt auf den Erkenntnissen aus den Kapiteln Architektur der Wahrnehmung und Differenzerfahrung und Wissen. Es geht zum einen darum, Strukturen zu schaffen, die den Einschränkungen unseres Wahrnehmungssystems, also der Selektivität der Wahrnehmung angepasst sind (Übersichtlichkeit), und zum anderen darum, die Möglichkeiten der räumlichen Anordnung zu nutzen, damit zusammengehörige Objekte auch als zusammengehörig wahrgenommen und gemeinsam bedacht werden können (Strukturiertheit).

Anzahl der Bildschirmelemente verringern

Der erste Hinweis, der für mehr Übersichtlichkeit am Bildschirm sorgt, ist so einfach wie einleuchtend, wird aber leider oft nicht beherzigt. Dabei kann man mit seiner Hilfe bei der Überarbeitung einer unübersichtlichen Maske bereits viel erreichen. Das Ziel besteht darin, die Anzahl der Elemente auf dem Bildschirm zu verringern, denn alles, was zu sehen ist, fordert Aktivitäten zur Erschließung heraus: Was gibt es noch, ist es wichtig, etc.? Zwar ist unsere Wahrnehmung selektiv, weshalb nie alles Wahrnehmbare auch betrachtet wird, doch ändert das nichts daran, dass der Aufwand zur Erschließung steigt, weil auch nicht relevante Objekte erstmal wahrgenommen und als solche identifiziert werden müssen. Prinzipiell können alle wahrnehmbaren Differenzen als Grundlage für eine Hypothesenbildung fungieren. Den entstehenden Aufwand kann man nur verkleinern, indem man Objekte übersichtlich gestaltet (siehe etwa Einfachheit im Kapitel Icon-Gestaltung) und die Anzahl der Objekte verringert. Es gilt also visuelle Schnittstellen mit möglichst wenigen, gut sichtbaren und gut voneinander abgesetzten Objekten zu gestalten.

Das heißt nicht, nur sehr einfache Strukturen mit simplen Funktionen zu erstellen, denn das Ziel ist nicht, die Funktionalität einzuschränken oder für die Erledigung der Aufgabe nötige und sinnvolle Elemente nicht anzuzeigen. Beides würde zwar zu übersichtlichen Bildschirmaufbauten führen, jedoch zugleich der Gebrauchstauglichkeit zuwiderlaufen. Entscheidend ist das Vermeiden überflüssiger visueller Bildschirmelemente, die in der jeweiligen Situation keinem Zweck dienen, also weder die Bildschirmseite strukturieren, eine Funktion auslösen, über den Zustand der Anwendung informieren oder die ein relevantes Objekt der Anwendungswelt sind.

Überflüssige und fehlplatzierte Linien führen zu einem unübersichtlichen Design
Überflüssige und fehlplatzierte Linien führen zu einem unübersichtlichen Design

Betrachten wir dazu einen Ressourcenmonitor für Windows 95 und Windows NT. Dieses ältere Beispiel erkennt man auf den ersten Blick als Anwendung der damaligen Zeit. Sie wurde vermutlich mit GUI-Builder erzeugt und besteht aus den Standard-Elementen von Windows. Ergonomisch ließe sich in diesem Beispiel Vieles verbessern. Wir werden später im Kapitel Navigation sehen, dass die verwendete Darstellung von Karteireitern ergonomisch nicht optimal ist. Das soll uns vorerst aber nicht stören. Wir betrachten zunächst nur die Inhalte der Reiter. Da gibt es überflüssige Elemente, die weggelassen werden könnten, um die Übersichtlichkeit zu erhöhen. Fangen wir von unten an:

  • Das Icon unten rechts ist ein Aktivitätsanzeiger. Während das Programm die Menge des freien Speichers berechnet, wird die Anzeige animiert und die Lupe rotiert über dem stilisierten Computer. Abgesehen von der unnötigen Komplexität des Icons erfüllt dieses keinen Zweck mehr, sobald die Ergebnisse vorliegen. Es könnte dann also ausgeblendet werden.
  • Aus der Abbildung des Programms ist leider nicht ersichtlich, was die mit „Frei“ und „Ändern“ beschrifteten Elemente bedeuten oder was ein Klick bewirkt27. Daher kann über das mögliche Weglassen nichts gesagt werden. Auffällig ist aber in jedem Fall der übermäßig ausgeprägte 3D-Effekt bei „Frei“. Dieser sollte abgeschwächt werden.
  • Über ebenso starke 3D-Effekte verfügen die Elemente, in denen die Kapazitäten und die Mengen des freien Speichers angezeigt werden. Auch die Füllstandsanzeigen verfügen über eine 3D-Umrahmung. Gerade auch bei den Zahlenwerten sind diese Umrahmungen gänzlich überflüssig, denn es handelt sich nicht um Eingabefelder, sondern um vom System ausgegebene Werte. Bei der Füllstandsanzeige ist eine Umrahmung insofern gerechtfertigt, als man ohne sie nicht einschätzen könnte, wie viele Elemente es geben könnte.
  • Sehr dominant ist die Darstellung der Spalten „Laufwerke“, „Frei“ und „Kapazität“. Sie sind mit einer schwarzen Linie umrandet. Eine zusätzliche innen laufende weiße Linie sorgt dafür, dass die schwarze Umrahmung noch auffälliger erscheint. Wir werden im Verlaufe dieses Kapitels unter anderem noch zeigen, dass man Umrahmungen durch einfache Linienzüge vermeiden und auf andere Gestaltungsmittel zurückgreifen sollte. Bei unserem Beispiel ist die Gestaltung noch einfacher, da die Umrahmung ohne Weiteres weggelassen werden kann. Die Bildschirmseite erscheint dann aufgeräumter.
  • Die Umrahmung ist in diesem Fall auch nicht sinnvoll, um die Strukturiertheit zu verbessern. Was wäre denn das Zusammengehörige, das gruppiert werden soll? Welches Ziel sollte es haben, alle Frei-Werte zu gruppieren? Wenn es eines Rahmens bedurft hätte, dann hätten es die einzelnen Zeilen gewesen sein müssen, die durch einen Rahmen unterstützt werden, jedoch nicht die Spalten.
Verbesserte Version der vorhergehenden Beispiels
Verbesserte Version der vorhergehenden Beispiels

Die Abbildung zeigt eine Überarbeitung der Nutzungsschnittstelle:

  • Das Status-Icon ist entfernt worden.
  • Auch die Umrahmungen um die Ausgabefelder sind entfernt worden.
  • Die Füllstandsanzeige ist um graue Elemente ergänzt worden, die einerseits für eine gleichmäßigere Darstellung sorgen und andererseits die Notwendigkeit einer Umrahmung beseitigen, weil jetzt auch ohne Umrahmung deutlich wird, wie breit diese Anzeige ist.
  • Fehlformatierungen in den Kapazitätsfeldern sind ebenfalls beseitigt worden. Die Software kam wohl nicht richtig mit Laufwerksgrößen klar, die mehr als 1000 MB groß waren.
  • Die Spaltenbeschriftungen sind so ausgerichtet worden wie die Spalten-Inhalte, das heißt „Laufwerke“ linksbündig, „Frei“ und „Kapazität“ jeweils rechtsbündig.
  • Bei den übrig gebliebenen Elementen mit 3D-Effekten sind diese zwar beibehalten worden, aber nun weniger auffällig gestaltet.

Ein Tipp: Wir haben vor allem Linien und Umrahmungen weggelassen. In der Tat erweisen sich diese immer als gute Kandidaten, die daraufhin untersucht werden sollten, ob man sie nicht weglassen oder durch eine zurückhaltendere Gestaltung ersetzen kann. Nicht jede Linie ist überflüssig, aber viele sind es.

Immer noch zu viele Objekte auf dem Bildschirm?

Haben Sie alle überflüssigen Bildschirmobjekte bereits entfernt und immer noch zu viele, die Sie unterbringen müssen, sind Sie im Design-Konflikt „Erschließbarkeit versus Übersichtlichkeit“ gelandet. Für die Übersichtlichkeit möchten wir möglichst wenige Bildschirmobjekte haben. Unter der Forderung nach Erschließbarkeit im Kapitel Übergänge hingegen verlangen wir, dass alle Funktionalitäten und Inhalte zumindest indirekt erreichbar sind. Im Idealfall bedeutet das, alles anzuzeigen. Das ist jedoch nur selten möglich.

Man kann versuchen, die Objekte zu verkleinern und den Platz zwischen den Objekten zu verringern oder Strukturierungstechniken einzusetzen, die nicht so viel Platz verbrauchen – dazu weiter unten mehr –, aber irgendwann ist die Grenze überschritten, bei der die Forderungen nach Erkennbarkeit, Unterscheidbarkeit oder Handhabbarkeit (im Kapitel Eingaben) verletzt werden. Jetzt hilft nur noch, die Objekte auszulagern und bei Bedarf sichtbar zu machen. Weiteres hierzu, etwa zur Technik des Aufdeckens bei Bedarf, erfahren Sie im Kapitel Übergänge.

Reduzierung von Fluchtlinien durch Alignieren

Die Übersichtlichkeit von Anzeigen am Bildschirm lässt sich leicht durch Ausrichten der Objekte an einigen wenigen Fluchtlinien verbessern. Solche Fluchtlinien sind keine explizit sichtbaren Bildschirmobjekte. Sie bilden sich vielmehr entlang der Begrenzungen der am Bildschirm angezeigten Objekte. Die Ausrichtung dieser Objekte entlang möglichst weniger Fluchtlinien vermindert die optische Unruhe und erleichtert die visuelle Suche nach einem Objekt. Sie kennen das Ausrichtungs-Thema schon aus der Typographie. Text wird üblicherweise linksbündig dargestellt, wodurch eine Fluchtlinie entsteht. Auch horizontal gibt es bei gedrucktem Text Fluchtlinien. Alle Buchstaben sind so angeordnet, dass ihre Grundlinie auf dieser Fluchtlinie liegt. Tanzen Buchstaben oder Worte aus der Reihe oder sind Zeilen etwas nach links oder rechts verschoben, hat das Folgen:

  • Die Gestaltung wirkt uneinheitlich und damit unprofessionell.
  • Das Auge stolpert über solche Unregelmäßigkeiten, wird also bei seiner eigentlichen Tätigkeit gestört.
  • Abweichungen in der Gestaltung verleiten dazu, sie inhaltlich zu interpretieren und können dadurch zur unangemessenen Bildung von Hypothesen führen. Das ist nicht der Fall, wenn tatsächlich ein nachvollziehbarer inhaltlicher Grund besteht. Diese Aufzählung ist beispielsweise eingerückt und weicht damit von der Fluchtlinie des Haupttextes ab. Dies ist sinnvoll, wenn man Zusammengehöriges von anderem absetzen will. Ohne einen solchen Anlass kann eine Hypothese nicht korrekt gebildet werden. Das Aufstellen und Überprüfen der Hypothese ist vertane Zeit und damit erzwungene Sequenzialität. Es kann darüber hinaus zu Fehlhandlungen führen und eine sichere Nutzung gefährden.

Die Erkenntnisse aus dem Bereich der Textgestaltung können wir auch auf die Anordnung von Objekten auf einer Bildschirmseite übertragen. Wir sprechen vom Ausrichten oder auch Alignieren von Bildschirmobjekten. „Alignieren“ bedeutet, die Anzahl der Fluchtlinien auf einer Bildschirmseite zu verringern. Das vermeidet visuelle Unruhe und entlastet das Auge beim Ansteuern des jeweils nächsten Aufsetzpunktes. Die Nachteile nicht alignierter Bildschirmelemente sind letztlich die gleichen wie bei nicht richtig ausgerichtetem Text.

Fehlerhafte Alignierung in einem Online-Banking-System
Fehlerhafte Alignierung in einem Online-Banking-System

Bereits ein kurzer Blick auf diese Eingabemaske eines Online-Banking-Systems vermittelt den Eindruck, dass etwas „schief“ ist. Dieser Eindruck lässt sich leicht durch die Verringerung der Fluchtlinien durch Ausrichten vermeiden.

Schlechte Alignierung einer Backup-Utility-Maske
Schlechte Alignierung einer Backup-Utility-Maske

Bei dieser Software ist die Ausrichtung der Eingabefelder ebenfalls nicht bedacht worden. Da jedes Eingabefeld auf der linken Seite an einer anderen Position beginnt, ist das Gesamtbild entsprechend unruhig.

Bei beiden Beispielen liegt das Problem der schlechten Alignierung vor allem daran, dass eine Ausrichtung nicht angestrebt worden ist, obwohl genügend Platz vorhanden wäre. Die Eingabefelder erscheinen jeweils dort, wo die vorhergehende Feldbeschreibung endet.

Es gibt jedoch auch Fälle, bei denen die Elemente zwar explizit ausgerichtet worden sind, aber dennoch zu viele Fluchtlinien entstehen.

Vielzahl von Fluchtlinien sorgt für unruhige Bildschirmarrangements (rechts verbessert).
Vielzahl von Fluchtlinien sorgt für unruhige Bildschirmarrangements (rechts verbessert).

Auf der linken Seite dieser Abbildung aus OpenOffice sind die Fluchtlinien eingezeichnet, die sich aus den linken Begrenzungen der Objekte ergeben28. In solchen Situationen können die vielen nah beieinander liegenden Fluchtlinien zusammengefasst werden, um die visuelle Unruhe zu reduzieren. Die rechts abgebildete Überarbeitung zeigt das Ergebnis mit angeglichenen Fluchtlinien. Dabei sind auch die rechten Ränder ausgerichtet, also in eine Flucht gebracht worden, um das Gesamtbild noch ruhiger zu gestalten.

Horizontale Fluchtlinien
Horizontale Fluchtlinien
Horizontale Fluchtlinien

Auch in der Horizontalen ist es erforderlich, dem Auge klare Fluchtlinien anzubieten. Die unteren Kanten der Bildschirmelemente sollten sich (zeilenweise) in einer Flucht befinden. Besonderes Augenmerk ist erforderlich, wenn Bildschirmelemente ihrerseits über Textinhalte verfügen, wie es oben zu sehen ist. In diesem Fall ist nicht nur die Begrenzung des Elements selbst, dargestellt durch die grüne Fluchtlinie, sondern auch die Grundlinie des enthaltenen Textes (dargestellt durch die rote Fluchtlinie) wichtig. Im Beispiel sind nicht nur Button und Eingabefeld, sondern auch die entsprechenden Textinhalte und Beschriftungen korrekt zueinander ausgerichtet.

Mangehalhafte horizontale Ausrichtung einer Schaltfläche in einer Eingabe-Maske eines Online-Banking-Systems
Mangehalhafte horizontale Ausrichtung einer Schaltfläche in einer Eingabe-Maske eines Online-Banking-Systems

Im Beispiel des Online-Bankings ist diese Alignierung an horizontalen Fluchtlinien nicht realisiert. Der Text „Kreditlinie bearbeiten“, der ja auch inhaltlich der Ausgabezeile mit der Kreditlinie zuzuordnen ist, ist nach unten versetzt. Die Schaltfläche scheint regelrecht „zwischen den Zeilen“ zu stehen.

„Objekt einfügen“ aus WordPad
„Objekt einfügen“ aus WordPad

Dieses Fenster, das beim Einfügen eines Objekts in Microsoft WordPad erscheint, ist in vielerlei Hinsicht eigenartig. Unter anderem ist irreführend, dass die wählbaren Optionen in dem Dialog nicht dauerhaft sichtbar beschrieben werden. Erst nach dem zunächst willkürlichen Anklicken kann man im unten angegebenen „Ergebnis“-Feld erfahren, was diese Auswahl bedeutet. Betrachten wir das Fenster nur unter dem Gesichtspunkt der Anordnung der Elemente, fallen weitere Probleme auf. Der Knopf „Durchsuchen“ ist ohne erkennbaren Grund nach rechts verschoben. Auch seine Positionierung ist inhaltlich unsinnig, denn das Durchsuchen ist eine Funktion, die sich auf den angegebenen Dateipfad bezieht. Sinnvollerweise müsste dieser Button also in der Nähe der Pfadangabe, idealerweise dahinter untergebracht werden. Dies entspricht auch den Zuordnungstechniken, auf die wir im weiteren Verlauf des Kapitels zu sprechen kommen.

Horizontale Fluchtlinien des WordPad-Beispiels
Horizontale Fluchtlinien des WordPad-Beispiels

Spätestens beim Einzeichnen der horizontalen Fluchtlinien offenbart sich die chaotische Gestaltung. Zu sehen sind in Blau die unteren horizontalen Fluchtlinien der grafischen Elemente, in Rot die der Texte. Der Hauptgrund für dieses Chaos ist die Positionierung der beiden Buttons „OK“ und „Abbrechen“. Anstatt diese in einer Zeile im unteren Bereich des Fenster unterzubringen, erscheinen sie in einer Art zweiten Spalte, wobei der „OK“-Button zudem das oberste aller Elemente in diesem Fenster ist. Das führt ebenfalls zu erzwungener Sequenzialität, da aufgrund der Leseflussrichtung das Auge zunächst den Button erfassen könnte, ohne dass klar ist, auf was genau sich das „OK“ bezieht. Das Auge muss also, nachdem es beim Lesen im unteren Bereich des Fensters angekommen ist, wieder nach oben springen, um die entsprechende Operation auszulösen. Außerdem bilden die Buttons mit einem Teil der Einstellungen zur Dateiauswahl eine Spalte, ohne dass eine Gemeinsamkeit vorliegt.

Orientierung an Grundlinien des Textes wurde verletzt.
Orientierung an Grundlinien des Textes wurde verletzt.

Lassen wir die Buttons jetzt mal außer Acht und betrachten nur die Text-Grundlinien im linken Bereich. Die Grundlinien zwischen „Aus Datei erstellen“ und dem angegebenen Pfad sind zueinander verschoben, wodurch zwei Fluchtlinien entstehen, die ein unruhiges Bild vermitteln. Auffällig ist auch die Beschriftung „Datei:“. Sie scheint zwischen den Zeilen zu stehen, denn sie grenzt genau an die Grundlinie des oberen Punkts „Neu erstellen“.

Mockup einer überarbeiteten Version des vorherigen Beispiels
Mockup einer überarbeiteten Version des vorherigen Beispiels

Wir haben für dieses Fenster ein Mockup, also eine Art Vorführmodell für eine verbesserte Gestaltung erzeugt, bei dem wir folgende Änderungen vorgenommen haben:

  • Ein einleitender Text beschreibt die in diesem Fenster durchzuführende Aufgabe. Ein solcher Text fehlt im Original und erschwert die Nutzung für Personen, die mit dieser Station noch nicht vertraut sind.
  • Die vertikalen, linken Fluchtlinien haben wir auf 3 reduziert. Zusätzlich gibt es eine Fluchtlinie rechts, über die kein Element hinausragt. Im ursprünglichen Fenster ragt „Als Symbol anzeigen“ über die rechte Fluchtlinie der Buttons hinaus.
  • Die Beschriftung „Datei:“, das Dateinamen-Feld und der Durchsuchen-Knopf befinden sich nun in einer Zeile. Dabei sind sowohl das Feld und der Button als auch die enthaltenen Texte horizontal ausgerichtet.
  • Die Buttons sind im unteren Bereich des Fensters angeordnet. Den Button für den Handlungsabschluss habe wir von „OK“ in „Einfügen“ umbenannt und unseren kulturellen Konventionen entsprechend unten rechts angeordnet. Der „Abbrechen“-Knopf ist nun abgesetzt und entsprechend der linken Fluchtlinie angeordnet.
Fluchtlinien im Überblick
Fluchtlinien eines Auswahlfeldes. Besonders wichtig sind die linken und unteren Fluchtlinien.
Fluchtlinien eines Auswahlfeldes. Besonders wichtig sind die linken und unteren Fluchtlinien.

Für die Alignierung sind die linken und unteren Fluchtlinien am wichtigsten. Es können aber auch weitere Begrenzungen der Bildschirmobjekte betrachtet und in eine Flucht gebracht werden. Insgesamt gilt es, fünf besonders relevante Fluchtlinien zu beachten. Besonders wichtig sind linke Fluchtlinien (rot), die unbedingt reduziert werden sollten. In Grün ist eine rechte Fluchtlinie eingezeichnet. Bei blockartigen Elementen, wie in diesem Fall, sollten auch diese angeglichen werden. Bei Textelementen wie den Beschriftungen spielen rechte Fluchtlinien hingegen keine Rolle. Horizontal sind sowohl die Grundlinie der Objekte (blau), die Grundlinie des Textes (schwarz) und die Oberkanten der Objekte zu bedenken.

Alignierungsprobleme bei zusammengesetzten Nutzungsschnittstellen
Druck-Konfiguration einer älteren Version von MacOS
Druck-Konfiguration einer älteren Version von MacOS

Die vorgestellten Beispiele für nicht alignierte Objektanordnungen erwecken den Eindruck einer nachlässigen Gestaltung. Es gibt in der Praxis aber auch technische Gründe für eine unzureichende Alignierung, beispielsweise wenn Nutzungsschnittstellen aus mehreren Teilen dynamisch zusammengesetzt werden. Dabei kommen Gestaltungselemente zusammen, die zu verschiedenen Zeiten und ohne Bezug aufeinander gestaltet worden sind. Auch in diesem Fall gilt es, unsere Grundforderung nach Robustheit im Blick zu behalten, damit es nicht zu einer Vielzahl von Gestaltungsproblemen eben auch mit der Forderung nach Übersichtlichkeit kommt.

In diesem Beispiel aus der Druckfunktion von MacOS wird der untere Bereich „Layout“ in die vorhandene Maske eingeblendet und ist daher unabhängig von dessen Formatierung. Insofern ist es nicht überraschend, dass sich die vier Konfigurationsmöglichkeiten mit der Fluchtlinie der obigen Elemente brechen. Eine Möglichkeit, dieses Problem zu vermeiden, wäre etwa, die Breite der Elemente und Beschriftungen jeweils vorzugeben und somit für eine Vereinheitlichung zu sorgen. Das mag aber nicht immer praktisch sein. Eine weitere Möglichkeit wäre, den Bruch weniger störend zu gestalten, indem der eingeblendete Bereich stärker als eigenständige Region dargestellt wird und damit die Fluchtlinien innerhalb dieses Bereichs weniger mit denen außerhalb in Zusammenhang gebracht werden.

Streitpunkt: Ausrichtung von Beschriftungen

Bezüglich der Ausrichtung von Feldbeschriftungen gibt es in der einschlägigen Literatur verschiedene, sich zum Teil widersprechende Empfehlungen. Dahinter steckt wiederum ein Designkonflikt. Im oben abgebildeten Druckdialog von MacOS sind die Beschriftungen der einzelnen Eingabefelder rechtsbündig angeordnet. Damit befindet sich Apple in Übereinstimmung mit vielen Ratgebern. So empfiehlt die ISO-Norm 9241, im Regelfall die Beschriftungen rechtsbündig anzuordnen, damit kein großer Abstand zwischen der Beschriftung und dem eigentlichen Feld entsteht.

Rechtsbündige Beschriftung der Eingabefelder
Rechtsbündige Beschriftung der Eingabefelder

Wir sehen diese Lösung jedoch kritisch, denn eine solche Anordnung erzeugt viele linke Fluchtlinien. Zwar wirkt die Lösung nicht ungeordnet oder unprofessionell, jedoch wird dadurch ein schnelles Überfliegen der Beschriftungen erschwert, um ein bestimmtes Feld zu finden. Ist dies notwendig, wird auch in der ISO-Norm eine linksbündige Ausrichtung der Beschriftungen empfohlen.

Linksbündige Beschriftung der Eingabefelder
Linksbündige Beschriftung der Eingabefelder

Durch die Links-Ausrichtung der Beschriftung können unschöne große Abstände zwischen Beschriftung und Eingabefeld entstehen. In komplexeren Beispielen kann es dazu führen, dass die Zuordnung zwischen Beschriftung und Eingabefeld erschwert wird. Wir empfehlen dennoch, grundsätzlich linksbündig anzuordnen und somit die Fluchtlinien zu reduzieren. Um das Problem der großen Abstände zwischen Eingabefeld und Beschriftung zu vermindern, sollten dann aber die Längen der Beschriftungen angepasst werden. Im folgenden Beispiel ist das durch die Abkürzung des langen Wortes „Abitur-Durchschnitt“ zu „Abi-Schnitt“ gelungen.

Angepasste Längen der Beschriftungen
Angepasste Längen der Beschriftungen

Sind Abkürzungen nicht möglich oder nicht erwünscht, empfiehlt sich als alternative Technik, die Beschriftungen nicht vor den Eingabefeldern zu platzieren, sondern darüber. Dabei sollte jedoch darauf geachtet werden, dass jeweils der Abstand zwischen Beschriftung und Eingabefeld deutlich geringer ist als der zwischen dem Eingabefeld und der nachfolgenden Beschriftung des nächsten Eingabefeldes, damit eine klare Zuordnung gegeben ist.

Beschriftungen in Zeilen
Beschriftungen in Zeilen

Insgesamt lässt sich durch das Weglassen überflüssiger Objekte, der Aufteilung in mehrere Bereiche und der Technik der Ausrichtung eine Nutzungsschnittstelle übersichtlicher gestalten. Dies kann jedoch nicht sicherstellen, dass sie auch strukturiert ist, also anhand der Anordnung der Objekte zueinander erkennbar ist, was zusammengehört und was nicht. Dazu müssen wir die Zuordnung und Gruppierung von Bildschirmobjekten betrachten.

 

Zuordnung aufeinander bezogener Elemente

Objekte in Nutzungsschnittstellen haben oft einen direkten Bezug zueinander. Ein typisches Beispiel ist ein Eingabefeld und seine zugehörige Beschriftung. Ist diese Zuordnung nicht offensichtlich gestaltet, kommt es zwangsläufig zu erzwungener Sequenzialität.

Nehmen wir einmal an, Sie haben in Ihrer Wohnung ein Zimmer mit genau einer Tür, einem einzigen Lichtschalter und einer einzigen Lampe unter der Decke. Der Lichtschalter und die Lampe sind direkt aufeinander bezogen. Dieser eine Schalter schaltet diese eine Lampe ein und aus. Üblicherweise ist der Lichtschalter in der Nähe der Tür untergebracht, was praktisch ist, denn es vermeidet, dass man erst durch den dunklen Raum laufen muss, um den Schalter zu finden und dann betätigen zu können. Der Schalter und die zugehörige Lampe sind naturgemäß weiter voneinander entfernt. Dass ist nicht problematisch, weil es keine alternativen Zuordnungen gibt. Problematischer wird die Angelegenheit jedoch, wenn die Räume größer werden. In einer Fabrikhalle beispielsweise sind meist viele Lampen vorhanden, die aber nicht notwendigerweise nur über einen einzigen zentralen Schalter angesteuert werden. Vielmehr bietet es sich an, das Licht für einzelne Lampen oder Arbeitsbereiche separat ein- und ausschalten zu können. Die Zuordnung eines Lichtschalters zu den jeweiligen Lampen bzw. Lampengruppen ist in diesem Fall nicht mehr ohne Zusatzinformationen ersichtlich. Die Zusatzinformation kann indirekt über Konventionen oder explizit durch Beschriftung oder zusätzliche visuelle Elemente erfolgen.

Auch auf der Abbildung unten gibt es ein Zuordnungsproblem. Zu sehen ist ein Parkscheinautomat, wie man ihn in vielen Städten findet. Quer über das Bedienfeld verteilt befinden sich Elemente, die der Eingabe oder der Ausgabe dienen: die Karteneingabe, eine Münzeingabe, die Geldrückgabe, die Parkscheinausgabe, Knöpfe für ein Tagesticket, die Parkscheinanforderung, das Abbrechen des Vorgangs sowie bei Kartenzahlung Knöpfe zur Einstellung des abzubuchenden Betrags. Hinzu kommt noch eine Textanzeige in Form eines LC-Displays, auf dem die aktuelle Uhrzeit und Informationen über die gewählte Parkdauer angezeigt werden. Vielleicht haben Sie auch schon mal vor so einem Automaten gestanden und kamen sich etwas verloren vor. Warum ist das so?

Zuordnung von Interaktionselementen und Beschriftungen
Zuordnung von Interaktionselementen und Beschriftungen

Problematisch ist zunächst, dass die Anordnung der Elemente keinem erkennbaren System zu folgen scheint. Es stehen weder die Objekte beieinander, die funktional zusammengehören, noch sind die Elemente entsprechend der Nutzungsreihenfolge angeordnet. Die Anordnung von Objekten entsprechend der zu erwartenden Nutzungsreihenfolge besprechen wir, auch an diesem Beispiel, im Kapitel Konventionen. Beschäftigen wir uns zunächst einmal mit dem grundlegenden Problem der Zuordnung. Elemente mit einem klaren Bezug zueinander wie die Knöpfe, ihre Beschriftung und ihre Beschreibung lassen sich visuell kaum zuordnen. In der Darstellung haben wir die Zuordnungen von Beschriftungen, Beschreibungen und Interaktionselementen durch Pfeile visualisiert. Das Problem bei diesem Automaten ist, dass die Knöpfe nicht direkt beschriftet sind, sondern sie über Zahlen und Buchstaben erschlossen werden müssen. Die jeweiligen Beschriftungstexte und Beschreibungen befinden sich an anderen Stellen als die Objekte, auf die sie sich beziehen. Wie man am Durcheinander der Pfeile erkennt, stehen sie weder in räumlicher Nähe zueinander noch entsprechen sie sich in der Reihenfolge. Ein erhebliches Maß an erzwungener Sequenzialität ist die Konsequenz.

Möglichkeiten der räumlichen Zuordnung

Zuordnungsprobleme sind in der Psychologie intensiv behandelt worden. Ein Beispiel dafür ist die Zuordnung von Drehreglern zu Herdplatten oder allgemeiner von Stellgliedern zu Anzeigeelementen. Es lassen sich verschiedene Lösungsvarianten untersuchen.

Das grundsätzliche Problem ist links abgebildet29. Vier Herdplatten sollen durch vier Drehregler geschaltet werden, doch wie kann man wissen, welcher Knopf für welche Platte zuständig ist? Als explizite Lösung für die benötigte Zusatzinformation könnten sowohl die Platten als auch die Stellglieder mit Etiketten versehen werden, etwa durch gleiche Beschriftung, eine farbliche Kodierung oder ein visuelles Zeichen bzw. Icon. Wir beschränken uns an dieser Stelle jedoch auf die Möglichkeiten der räumlichen Anordnung, also einer impliziten Lösung. Die Schwierigkeit ist, dass es keine Anordnung gibt, die eindeutig ist und damit ohne vorherigen Lernprozess verlässlich erschließbar wäre.

Problematische Zuordnungen – Abbildung nach Chapanis und Lindenbaum
Problematische Zuordnungen – Abbildung nach Chapanis und Lindenbaum

Die obige Abbildung zeigt für verschiedene Zuordnungsvarianten die Fehlerraten, die trotz eines zuvor erfolgten intensiven Trainings bei der Nutzung noch auftreten. Selbst im besten Fall passieren noch etliche Fehlhandlungen. Durch minimale Änderungen an der Anordnung lässt sich die Fehlerrate jedoch auf null senken.

Kongruente Anordnung von Platten und Stellgliedern – Abbildung nach Chapanis und Lindenbaum
Kongruente Anordnung von Platten und Stellgliedern – Abbildung nach Chapanis und Lindenbaum

Bei diesem Herd, der zugegebenermaßen ein wenig seltsam anmutet, treten keine Zuordnungsfehler mehr auf. Wieso ist das so? Es sind lediglich die oberen beiden Platten ein wenig nach links, die unteren beiden ein wenig nach rechts angeordnet. Diese kleinen Verschiebungen verkörpern eine Zusatzinformation, mithilfe derer sich eine eindeutige Zuordnung ergibt. Diese Abweichung von der Symmetrie bringt die Platten in eine definierte Reihenfolge, die der Anordnung der Stellglieder entspricht.

Wir nennen diese Art der Zuordnung kongruent. Das Wort „kongruent“ bedeutet „ähnlich“. Die Plattenanordnung ist also ähnlich zur Anordnung der Stellglieder. Anders formuliert: Es ist möglich, anhand der Reihenfolge in der einen Anordnung die Reihenfolgen in der anderen Anordnung vorherzusagen. Kongruente Anordnungen bieten sich immer dann an, wenn Stellglieder oder Schalter an einem Ort entfernt vom Geschalteten oder Gesteuerten zusammengefasst werden sollen oder müssen. Die eingangs genannte Industriehalle mit verschiedenen Beleuchtungsgruppen verkörpert eine solche Situation. Die Lichtschalter sollen sich an einem gemeinsamen Ort, dem Eingang, befinden. Sind die Lampengruppen in einer räumlichen Sequenz angeordnet, bietet es sich an, durch eine kongruente Anordnung der Schalter die Zuordnung zu verdeutlichen. Eine sequentielle Anordnung ist aber nicht die einzige Form, um Kongruenz herzustellen.

Verschiedene Möglichkeiten der Zuordnung – Darstellung nach Hollands and Wickens (2000)
Verschiedene Möglichkeiten der Zuordnung – Darstellung nach Hollands and Wickens (2000)

Auch auf dieser Abbildung sehen Sie links eine Umsetzung der Kongruenz. In diesem Falle sind nicht die Platten so angeordnet, dass sie der „Leserichtung“ der Knöpfe entsprechen, sondern die Knöpfe sind jetzt räumlich so angeordnet, dass die Zusatzinformation vorne/hinten in Bezug auf die Blickrichtung eine eindeutige Zuordnung ermöglicht.

Kongruenz ist nur eine Möglichkeit der räumlichen Zuordnung30. Eine weitere, vor allem auch für uns in der Gestaltung von Nutzungsschnittstellen sehr wichtige Möglichkeit ist die Kollokation. In der Abbildung sehen Sie beim mittleren Bild, dass die Stellglieder in direkter Nähe zu den jeweiligen Herdplatten angebracht sind. Es kommt jetzt nicht mehr zu Fehlbedienungen. In Bezug auf das Beleuchtungsbeispiel in einer Fabrikhalle bedeutet Kollokation, dass in jedem einzeln zu beleuchtenden Hallenbereich ein eigener Lichtschalter angebracht ist. Dieser wäre dann jeweils in der Nähe der zu schaltenden Lampen. Bei Kollokation fällt die Zuordnung auf jeden Fall leicht. Zwar verringert sich dadurch die Gefahr, einen falschen Schalter zu drücken, doch erkauft man sich diesen Vorteil durch Nachteile an anderer Stelle. So wird beispielsweise der Aufwand größer, wenn man dieselbe Operation auf alle Anzeigeelemente anwenden will. Im Lichtschalter-Beispiel wären das zusätzliche Wege, bei digitalen Nutzungsschnittstellen könnte es die Selektion aller Elemente mithilfe eines digitalen Gummibands sein.

Bei der Kopplung als einem weiteren Lösungsansatz wird zwischen dem Stellglied und der Herdplatte eine sichtbare Verbindung in Form einer Linie hergestellt. In diesem Fall wird dem Auge als Zusatzinformation gewissermaßen eine Leitspur angeboten, um von einem Element zum anderen zu kommen. Im rechten Teil der Abbildung ist gut zu sehen, dass man die Techniken auch kombiniert einsetzen kann, indem die sichtbare Verbindung beispielsweise mit der Platzierung in räumlicher Nähe kombiniert wird. Das kann insbesondere helfen, Verbindungen möglichst übersichtlich und kreuzungsfrei zu gestalten. Abgesehen davon ist festzuhalten, dass diese Techniken bei komplexeren Beispielen schnell an ihre Grenzen stoßen. In diesen Fällen sind weitere Konzepte erforderlich, die in das Gebiet der Visualisierung fallen, das wir nicht behandeln.

Zuordnung in grafischen Nutzungsschnittstellen

Grundsätzlich sollte man versuchen, in grafischen Nutzungsschnittstellen eine Kollokation von zusammengehörigen Objekten vorzunehmen. Die Begründung für diese Designentscheidung liegt in den Eigenschaften des menschlichen Sehsinns, die wir im Kapitel Architektur der Wahrnehmung skizziert haben. Wenn zwei zusammengehörige Objekte weit auseinander liegen, dann kann zu einem Zeitpunkt nur jeweils eines im Zentrum der Wahrnehmung liegen, also scharf wahrgenommen werden. Das andere zugeordnete Objekt muss dann durch Blickbewegungen gesucht werden. Auch das kostet Aufwand und verkörpert erzwungene Sequenzialität; schlimmstenfalls kann es unentdeckt bleiben oder zu Fehlhandlungen verleiten.

Seitenrandeinstellung bei Microsoft Word
Seitenrandeinstellung bei Microsoft Word

Diese Abbildung zeigt einen Ausschnitt aus einem Einstellungsfenster aus Microsoft Word, das unter anderem erlaubt, die Seitenränder anzupassen. Rechts im Fernster wird in einer Vorschau verdeutlicht, was links – weit entfernt – eingestellt wird. Ein erster Schritt zur Kollokation wäre, das große Nichts in der Mitte zu überbrücken und die Darstellung und die Eingabefelder näher zusammenzurücken.

Verbesserung durch Kollokation
Verbesserung durch Kollokation

Die Kollokation kann aber noch weiter gehen, denn die eingestellten Werte können einem auf der Darstellung verdeutlichten Rand oben, unten, rechts oder links zugeordnet werden. Naheliegend wäre also, die umgesetzte Darstellung der Eingabefelder direkt an den von ihnen jeweils beeinflussten Rändern zu positionieren.

Der Ansatz der Kopplung kommt im Design von Nutzungsschnittstellen relativ selten vor. Das ist auch gut so, weil eine Zuordnung durch Kollokation in der Regel vorzuziehen ist. Auf Kollokation zu verzichten und stattdessen eine Kopplung durch eine Linie oder einen Pfeil herzustellen, sollte daher die begründete Ausnahme bleiben. Die Technik der Kopplung bietet sich jedoch an, wenn bestimmte Elemente beieinanderbleiben sollen, aber dennoch eine räumliche Zuordnung unterstützt werden soll.

Gekoppelte Fehlermeldung in OpenWindows von Sun Microsystems
Gekoppelte Fehlermeldung in OpenWindows von Sun Microsystems

Die Grafik zeigt einen Anwendungsfall für die Kopplung. Die Zuordnung von Objekten durch Verbindungslinien ist bei der Einblendung von zusätzlichen Elementen eine gute Technik, um zu verdeutlichen, worauf sich die Einblendung bezieht. Das Beispiel oben stammt aus der Mitte der 1990er Jahre. Das eingesetzte Mailprogramm eines damaligen Unix-Systems hat ein interessantes Nutzungsschnittstellen-Feature. Es zeigt bei einer Fehlermeldung, hier im Fall einer ungültigen Mailadresse, durch einen dreidimensional anmutenden Pfeil, worauf sich die Meldung bezieht.

Generische Buttons schaffen Zuordnungsprobleme

Ein Zuordnungsproblem tritt auf jeden Fall dann auf, wenn Buttons mit einem generischen Text wie „Okay“, „Ja“ oder „Nein“ beschriftet werden. Wenn Buttons so beschriftet sind, sieht man nur, dass etwas passiert, aber nicht, was genau passiert. Der Text, der diese Information enthält, befindet sich an einer anderen Stelle auf dem Bildschirm.

Unten sehen Sie eine Dateiauswahl auf einem Atari ST aus den 1980er Jahren. Die Dateiauswahlboxen des Betriebssystems TOS sind in vielerlei Hinsicht nicht gut. Besonders problematisch in Zusammenhang mit der Zuordnung ist, dass die eigentliche Auswahlbox immer gleich gestaltet und die Buttons immer mit „OK“ und „Abbrechen“ betitelt sind, unabhängig davon, ob man eine Datei öffnen, speichern oder, wie in diesem Fall abgebildet, löschen will. Wofür das „OK“ in obiger Abbildung steht, findet sich auch auf dem Bildschirm; die erste Zeile des Bildschirms ist dafür vorgesehen.

Mangelhafte Zuordnung bei der Dateiauswahl auf einem Atari ST
Mangelhafte Zuordnung bei der Dateiauswahl auf einem Atari ST

Stellen Sie sich folgendes Szenario vor: Sie haben eine Datei bearbeitet und sind damit fertig. Sie wollen mit etwas anderem fortfahren und dafür eine andere Textdatei öffnen. Doch zunächst müssen Sie den gerade bearbeiteten Text noch abspeichern. Sie wählen also „Speichern unter“ aus. Jetzt klingelt das Telefon. Sie sprechen einige Zeit und kehren zum Computer zurück. Was wollten Sie gerade noch machen? Klar, Sie wollten eine Datei öffnen. Also den Dateinamen links anklicken und auf OK klicken. Die anschließende Frage, ob Sie die Datei wirklich überschreiben wollen, ist im Eifer schnell weggeklickt und schon haben Sie wertvolle Arbeit zerstört. Fehlhandlungen lassen sich nicht vom System aus ausschließen. Doch wenn der Button nicht mit „OK“, sondern „Speichern“ beschriftet ist, wird man durch diese zusätzliche Information am Ort der Aufmerksamkeit unterstützt, weil es jetzt sehr viel unwahrscheinlicher ist, dass man diese Information übersieht. Eine zusätzliche Information im aktuellen Aufmerksamkeitsbereich kann eine Differenzerfahrung auslösen, eine außerhalb davon jedoch nicht.

Spezifische Buttons in Windows 1.0
Spezifische Buttons in Windows 1.0

In der viel gescholtenen Windows-Version 1.0 aus der gleichen Zeit gibt es dieses Problem übrigens nicht. Zwar ist auch diese Dateiauswahl nicht ideal, aber zumindest sind die Buttons spezifisch beschriftet. Diesem frühen Beispiel sollte man folgen!31, denn die relevanten, zur sicheren Handlungsausführung notwendigen Informationen sollten an der Stelle stehen, an der die Handlung ausgelöst wird, also auf dem Button selbst.

Generische Buttons wie „OK“, „Ja“ und „Nein“ sind grundsätzlich zu vermeiden, da sich die Beschreibung der Button-Funktion zwangsläufig an einem anderen Ort befinden muss und damit ein Zuordnungsproblem besteht.

Generische Buttons in einer App
Generische Buttons in einer App

Das Phänomen generischer Buttons ist zwar alt, gehört aber leider nicht der Vergangenheit an. Bei dieser „Erinnerung an Parkzeitende“ einer aktuellen Handy-App für bargeldloses Parken muss erst sehr aufwändig der komplette Text gelesen werden. Ärgerlicherweise ist diese Meldung auch noch irreführend, denn man kann geneigt sein, die Erinnerung an das Ende der Parkzeit mit „OK“ im Sinne von „Danke, ich habe verstanden“ zu bestätigen, weil man ohnehin gerade auf dem Rückweg ist. Damit stimmt man dann aber der Parkzeitverlängerung zu. Die muss man zwar nochmals bestätigen, doch verkörpert das in diesem Fall eine überflüssige Zusatzhandlung.

Welche Konsequenzen hat die Wahl von „Nein“?
Welche Konsequenzen hat die Wahl von „Nein“?

In dieser Meldung der Karten-App von Windows 10 muss auf eine Frage mit „Ja“ oder „Nein“ geantwortet werden. Dabei gibt es gleich zwei Probleme. Das erste ist, dass es sich wiederum um einen generischen Knopf handelt und dass folglich die Information, was der Knopf bedeutet, an anderer Stelle steht. Hinzu kommt, dass diese andere Stelle eine Frage ist. Das heißt, es steht eigentlich nirgends genau, was passiert, wenn man „Nein“ drückt. Man muss die Frage interpretieren, um zu wissen, dass „Nein“ das Gegenteil von dem in der Frage Angesprochenen bedeuten muss. Das gewählte Design ist also gleich doppelt kompliziert.

Mehr dazu, warum es nicht sinnvoll ist, in der Nutzungsschnittstelle einen Pseudodialog zu führen, finden Sie in unserem Exkurs-Kapitel zum Mensch-Computer-Dialog. Pseudodialoge wie zum Beispiel Fragen als Interaktionstechnik sollten generell vermieden werden, weil es darum geht, eine Auswahl aus den Alternativen anzubieten, die von der Software vorgegeben werden. Es geht somit um bekannte und feststehende Angebote, bei denen die Aufforderung eine Wahl zu treffen direkter ist, als dies hinter einer Frage zu verstecken. Umso schlimmer wird es, wenn auch noch Befindlichkeiten (Sind sie sicher?) oder Selbsteinschätzungen abgefragt werden. Wenn in einer Gestaltungssituation Fragen unverzichtbar sein sollten, sollten zumindest keine generische Button-Beschriftungen eingesetzt werden. Die zur Verfügung stehenden Optionen sollten immer direkt mit spezifisch beschrifteten Buttons angeboten werden.

Lange Beschreibungen sind kein Ersatz für spezifische Buttonbeschriftungen
Lange Beschreibungen sind kein Ersatz für spezifische Buttonbeschriftungen

Dass die Interpretation von „Ja“ und „Nein“ in Bezug auf eine Frage nicht immer einfach ist, ist zwar schon länger bekannt. Um diese Schwierigkeit zu vermeiden, hilft es auch nicht, statt einer Veränderung der Buttons lediglich umfangreichere Beschreibungen anzufertigen. Meldungsfenster, bei denen das der Fall ist, finden sich heute noch, auch in vielen Standardanwendungen. Geradezu klassisch ist in diesem Zusammenhang diese Meldung von Excel. Hier stellen „Ja“ und „Nein“ tatsächlich Antworten auf eine Frage dar. Diese ist aber zunächst einmal nicht zu finden, denn oben in fetter Schrift steht nicht die Frage, sondern eine Beschreibung des Problems. Unabhängig davon ist die Frage ohne Zusatzwissen nicht beantwortbar, denn es fehlen klare Angaben, was „Ja“ im System bewirkt. Dies erfährt man erst weiter unten, wo zu jedem Knopf beschrieben steht, was er bewirkt. Diese Meldung stellt in ihrer Komplexität vor allem für Neulinge eine große Herausforderung dar.

Generische Auswahlmöglichkeiten im TOR-Browser
Generische Auswahlmöglichkeiten im TOR-Browser

„Okay“ (oder „OK“), „Ja“ und „Nein“ sind die häufigsten Fälle von generischen Beschriftungen. Es gibt aber noch weitaus mehr generische Texte in Buttons und Menüs. Diese Auswahl im TOR-Browser zeigt „Niemals für diese Internetseite“ und „Jetzt nicht“ als Optionen an. Auch diese Angaben sind letztlich generisch, denn man muss ebenfalls an anderer Stelle lesen, worum es eigentlich geht. Ein gelegentlich genutztes Argument für ein solches Design ist, dass es dazu führe, dass der erläuternde Text tatsächlich gelesen werde. Dieses Argument ist jedoch zweifelhaft. Wenn man auf den Erläuterungstext aufmerksam machen will, gibt es die Möglichkeiten der Auszeichnung durch äußere Merkmale wie z. B. Farbe oder Schrift).

Generischer Button "Weiter..." in Apple Keynote
Generischer Button “Weiter…” in Apple Keynote

Auch dieses Fenster zum Exportieren einer Präsentation in Apple Keynote zeigt das Problem generischer Knöpfe. Was passiert bei „Weiter…“? Es steht nicht an dieser Stelle, sondern verteilt; zum einen in der Kopfzeile des Fensters („Exportiere deine Präsentation“) und zum anderen in der Auswahl des Feldes „PDF“. „PDF exportieren…“ wäre daher eine passende Beschriftung für den Button an dieser Stelle.

Grenzfall „Abbrechen“

Ein Grenzfall, was das Vermeiden generischer Beschriftungen angeht, ist die Beschriftung eines Buttons mit „Abbrechen“. Grundsätzlich ist „Abbrechen“ generisch, denn es sagt nicht, was denn da eigentlich abgebrochen wird. Dennoch würden wir nicht unbedingt empfehlen, in jedem Fall etwas Ausführliches zu schreiben. Unten sehen Sie ein Datei-Kopier-Meldungsfenster. Wir werden später im Kapitel Prozesse besprechen, dass es immer eine Möglichkeit geben muss, einen solchen Vorgang abzubrechen. Sie können in diesem Fall den Knopf mit „Abbrechen“ beschriften, denn der Kopierdialog beschreibt eindeutig, um welchen Prozess es sich handelt, und um den Prozess informiert abbrechen zu können, müssen Sie sich diese Informationen ohnehin vorher ansehen. Eine längere Beschriftung hätte dann keine Zusatzinformationen und wäre damit im Grunde genommen erzwungene Sequenzialität, denn sie muss ja zusätzlich gelesen werden.

Links besteht ein eindeutiger Bezug zwischen laufender Handlung und der Abbruchoption, rechts ist das Abbrechen des Abbrechens unverständlich.
Links besteht ein eindeutiger Bezug zwischen laufender Handlung und der Abbruchoption, rechts ist das Abbrechen des Abbrechens unverständlich.
Die Kaufbestätigung für PDF Expert for Mac zeigt den zu Zahlenden Betrag am Ort der Handlung als Beschriftung des Buttons
Die Kaufbestätigung für PDF Expert for Mac zeigt den zu Zahlenden Betrag am Ort der Handlung als Beschriftung des Buttons

In anderen Fällen sollten Sie „Abbrechen“ aber durch etwas Spezifischeres ersetzen. Dies gilt vor allem dann, wenn die abzubrechende Aktion selbst ein Beenden oder Abbrechen ist. Bleiben wir bei obigem Beispiel. Ein Klick auf „Abbrechen“ sollte eine Bestätigung erfordern, die erläutert, was die Folgen eines Abbruchs zu diesem Zeitpunkt sind. (Siehe Differenziertheit im Kapitel Rückmeldungen und Beeinflussbarkeit im Kapitel Prozesse.) Die Bestätigungsmeldung sollte dann aber auf keinen Fall wiederum einen „Abbrechen“-Knopf enthalten. Es ist kaum nachvollziehbar, dass die Aktion, die dann abgebrochen wird, das Abbrechen ist, dass man also das Abbrechen abbrechen muss, um mit dem Kopieren fortzufahren.

Schließen wir diesen Aspekt mit einem positiven Beispiel ab. Beim dargestellten Eingabefeld für Zahlungsdaten, mit dem ein Kaufvertrag abgeschlossen wird, hat man sich viel Mühe gegeben, einen nicht generischen Button zu präsentieren. Wäre der orangefarbene Button unten mit „Okay“ oder „Weiter“ beschriftet, wäre es eindeutig ein zu bemängelnder generischer Button. Eine Beschriftung mit „Zahlen“ oder „Jetzt bezahlen“ wäre schon zufriedenstellend. In diesem Fall ist man sogar noch einen Schritt weitergegangen und gibt auch den zu zahlenden Betrag nochmals an. Unbedingt notwendig ist das vielleicht nicht, doch ist es eine zusätzliche Information, die eine Rückversicherung liefert und daher sehr zu begrüßen.

Zusammenfassung: Vermeiden Sie generische Beschriftungen in der Nutzungsschnittstelle, denn sie verkörpern immer ein Zuordnungsproblem. Beschreiben Sie stattdessen im Rahmen des zur Verfügung stehenden Platzes kurz und knapp, aber möglichst spezifisch, welche Aktion durch einen Button oder Menüeintrag ausgelöst wird. Im Zweifelsfall gilt es, immer spezifisch zu formulieren und Abweichungen nur in begründeten Ausnahmefällen zuzulassen.

 

Gruppieren und Absetzen durch Anordnung

Die beschriebenen Zuordnungstechniken dienen dazu, Objekte, die eine inhaltliche Einheit bilden, grafisch-räumlich zuzuordnen. Es geht um die Zuordnung eines Buttons zu seiner Beschriftung oder einer Feldbeschriftung zu ihrem Eingabefeld. Die Techniken geben jedoch keine Hinweise hinsichtlich der Anordnung von Objekten, die zwar zusammengehören, einander aber nicht eins zu eins zugeordnet sind. Wir sprechen in einem solchen Fall nicht von „Zuordnung“, sondern von „Gruppierung“. Stellen Sie sich ein Eingabeformular auf einer Website vor. Unter vielen Angaben geben Sie in diesem Formular auch Ihre Adresse an. Die einzelnen Teile der Adresse, also Straße, Hausnummer, Postleitzahl, Ort etc. sind nicht einander zugeordnet in dem Sinne, wie es eine Beschriftung und ein Eingabefeld wären. Sie gehören aber zusammen und bilden eine Gruppe. Diese Gruppierung sollte sich in der Anordnung der Objekte zueinander widerspiegeln. Welche Elemente jeweils gruppiert werden, ist abhängig von der Arbeitsaufgabe und gehört entsprechend in den Bereich Gebrauchstauglichkeit.

Literaturverwaltung von LibreOffice
Literaturverwaltung von LibreOffice

Die Voraussetzung für die Visualisierung von Gruppenzugehörigkeiten ist das räumliche Gruppieren, also das Positionieren und Arrangieren von zusammengehörigen Objekten dergestalt, dass die Elemente einer Gruppe räumlich nahe beieinanderstehen und Gruppen untereinander deutlich voneinander abgesetzt sind. Idealerweise – das werden wir in den Beispielen sehen – findet dieses Absetzen durch das Ausnutzen von Platz statt.

Die Abbildung oben zeigt eine Eingabemaske der Literaturverwaltung von LibreOffice. Zwar ist diese Maske gut aligniert und sieht damit ordentlich aus, aber geordnet in dem Sinne, dass inhaltliche Gruppen sichtbar dargestellt wären, ist diese Maske nicht. Eines der Hauptprobleme ist, dass alle Felder ständig sichtbar sind. Mit der im Kapitel Übergänge vorgestellten Technik des Aufdeckens bei Bedarf wäre es möglich, die Anzahl der Felder je nach Wahl im Feld „Typ“ stark einzuschränken. Dazu später mehr.

Effektive Gruppierung beinhaltet immer auch eine Form des Absetzens. Es reicht also nicht, die Elemente, die zusammengehören, nur in räumliche Nähe zu bringen. Die Elemente einer Gruppe müssen sich vielmehr von denen einer anderen Gruppe wahrnehmbar absetzen.

Die Abbildung unten zeigt einen Ausschnitt aus einer Maske des Programms „Schild-NRW“, eines Programms zur Verwaltung von Schülerdaten. Es wird an den Schulen in Nordrhein-Westfalen eingesetzt. Sie haben das Programm schon als Beispiel im Kapitel Icon-Gestaltung kennen gelernt. Das Programm ermöglicht unter anderem auch das Drucken von Zeugnissen und viele andere typische Verwaltungstätigkeiten.

Eingabemaske aus dem Programm Schild-NRW
Eingabemaske aus dem Programm Schild-NRW

Schon auf den ersten Blick wirkt diese Maske überladen. Jedes freie Fleckchen Bildschirm wird genutzt, um weitere Objekte darzustellen. Dabei bleiben die Grundlagen der Gruppierung unberücksichtigt. Geburtsname und Geburtsort werden nicht mit dem Geburtsdatum gruppiert. Selbst wenn es in diesem Fall Gründe dafür geben sollte, scheint die Nähe des Feldes „Geburtsname“ zum Feld „E-Mail“ willkürlich gewählt. Es ist anzunehmen, dass diese Felder schlicht dort untergebracht worden sind, wo noch Platz vorhanden war. Auch andere Gruppierungen sind zweifelhaft. Warum stehen zum Beispiel die Konfession und die Einstellung „Konfession auf Zeugnis“ nicht beieinander? Es mag auch dafür Gründe geben, aber es gibt nichts in der Anordnung der Elemente der Maske, das auf diese Gründe hinweisen könnte. Auch für die Positionierung „Datensatz ist Duplikat“ bei den Angaben zu Konfession und Staatsangehörigkeit fällt uns als mögliche Begründung nur ein: „Da war halt Platz!“.

Versuchen wir uns daran, die Felder umzusortieren und die Gruppen durch das Ausnutzen von Platz voneinander abzusetzen. Platz scheint es auf dieser Maske erst einmal nicht zu geben. Das täuscht jedoch. Zum einen ist das Fenster recht klein. Übliche Bildschirme in Schulverwaltungen können heute sicher mehr Bildschirmobjekte gleichzeitig darstellen, als zu sehen ist. Aber auch wenn man bei diesem kleinen Fenster bleibt, können wir uns etwas Platz verschaffen. Schauen Sie sich einmal die untere Kante der Abbildung an. Warum gibt es dort so viele Linien? Zu welchem Zweck dient überhaupt die Umrahmung des kompletten oberen Bereichs? Ein erster Ansatz ist, zunächst einmal sämtliche Umrahmungen mit Ausnahme der Umrandungen der Eingabefelder zu entfernen. Weiteres Potenzial für Platzeinsparungen findet sich vor allem im unteren Bereich der Maske. Dort steht „Schulbesuchsjahre“ in einer Zeile, die ansonsten leer bleibt. Außerdem sind sehr breite Auswahlfelder für „Gliederung“, „Org.-Form“ und „Prüfungsordnung“ vorgesehen. Auch in diesem Fall lässt sich Platz einsparen. Schlussendlich gibt es ein wenig Potenzial durch das Zusammenfassen von Elementen. So wird wohl nur ein Schulkind, das mit dem Bus zur Schule kommt, auch die Angabe einer Haltestelle benötigen. Diese beiden Felder können also zu einem einzigen verschmolzen werden.

Verbesserte Version des vorhergehenden Beispiels
Verbesserte Version des vorhergehenden Beispiels

Unter Berücksichtigung des Einsparpotenzials lässt sich der Platz zum Absetzen von Gruppen finden. Das Ergebnis dieser schnellen Umsortierung und Umgruppierung ist vielleicht nicht sehr ästhetisch, aber es ist zumindest erheblich strukturierter und übersichtlicher als die überladene Maske zuvor. Die sichtbaren Gruppen sind nun Abbildungen der inhaltlichen Zusammenhänge. Auf zusätzliches Zierwerk wurde im Sinne der Übersichtlichkeit aber auch zum Vorteil der Strukturiertheit verzichtet.

Ein weiteres Beispiel für eine Nutzungsschnittstelle, bei der die Gruppierung nicht hinreichend durch die Anordnung unterstützt wird, illustriert die Abbildung unten. Auf der linken Seite ist eine Fernbedienung für einen digitalen Bilderrahmen abgebildet. Es handelt sich also nicht um eine digitale Nutzungsoberfläche, sondern um einen realweltlichen Gegenstand, was aber für unsere Überlegungen unerheblich ist. Das Beispiel verdeutlicht, dass ein rein geometrisches Anordnen, also das Ausrichten an einem Raster, nicht selten zu gut nutzbaren Oberflächen führt. Ausrichtungen an Rändern und Symmetrien sind kein Ersatz für sinnvolle Gruppierungen, denn sie lassen die inhaltlichen Zusammenhänge außer Acht.

Durch räumliches Absetzen können Funktionsbereiche verdeutlicht werden.
Durch räumliches Absetzen können Funktionsbereiche verdeutlicht werden.

Betrachtet man die Anordnung genau, zeigt sich, dass es eine Gruppierung gibt und sich diese auch in gewisser Weise räumlich niederschlägt. Man kann zum Beispiel ein Steuerkreuz mit Pfeilen in alle Richtungen und „Enter“ in der Mitte ausmachen, und auch die typischen vom CD-Spieler bekannten Funktionen zum Spulen und Springen befinden sich in räumlicher Nähe zueinander in der vorletzten Knopfreihe. Woran es aber fehlt, ist eine Unterstützung dieser Gruppierungen durch eine räumliche Strukturierung des Wahrnehmungsfeldes. Auf der rechten Seite ist ein Vorschlag zur Anordnung der Elemente der Fernbedienung abgebildet dergestalt, dass die Gruppierungen zwar sichtbar werden, es aber trotzdem eine einigermaßen platzsparende, fernbedienungstypische Anordnung gibt.

Die Beispiele dieses Kapitels zeigen, wie Gruppen von Elementen durch räumliches Absetzen voneinander getrennt werden können. Dieses räumliche Absetzen ist eine entscheidende Voraussetzung, um inhaltliche Zusammenhänge visuell abbilden zu können: Was inhaltlich zusammenhängend ist, steht auch nah beieinander, was nicht zusammenhängend ist, ist durch einen Abstand getrennt.

Das Absetzen gleichartiger Elemente

Grundsätzlich sollten Sie Objekte nur dann absetzen, wenn es einen inhaltlichen Grund gibt. Für diese Regel gibt es aber eine Ausnahme, denn es kann sehr wohl sinnvoll sein, gleichartige Objekte voneinander abzusetzen, obwohl es keine inhaltliche, wohl aber eine optische Notwendigkeit dafür gibt.

Betrachten Sie einmal die Zeichenfolge DE74476501301010037693. Es handelt sich um eine international normierte Kontonummer (IBAN). Sie ist recht lang und schwer zu lesen, denn bei einer langen gleichförmigen Reihe von Zeichen kommt man schnell durcheinander, wenn man eine solche Nummer lesen oder händisch eingeben muss. Dies wird verstärkt, wenn die Zeichenkette unbekannt oder nur selten bearbeitet wird. Tatsächlich ist es deutlich einfacher, wenn die gleiche Zeichenkette in separate Teilstücke aufgeteilt wird, beispielsweise in der Form DE74 4765 0130 1010 0376 93. Die IBAN ist durch das Einfügen von Zwischenräumen aufgeteilt worden. Diese Zusatzinformation ist für die Bestimmung des Wertes unerheblich und dient nur dazu, das visuelle Erkennen zu unterstützen. Durch die optische Unterteilung entstehen neue Einheiten, die in der Psychologie als „Chunks“ bezeichnet werden. Wie sehr ein solches Absetzen bei der Wahrnehmung hilft, verdeutlicht das folgende Beispiel:

Dies ist die Darstellung einer Zahl. Jeder einzelne Strich steht für eine Eins. Sie müssen also nur die Striche zählen, um zu sehen, welche Zahl kodiert wurde. Können Sie auf die Schnelle erkennen, wie viele Striche vorhanden sind? Sie müssten sie abzählen und jede Überprüfung würde den Aufwand mindestens verdoppeln, da der gesamte Zählvorgang erneut durchgeführt und zuvor noch das jeweilige Ergebnis gemerkt oder aufgeschrieben werden müsste.

Die gleiche Zahl kann man auch anders darstellen. Trauen Sie es sich jetzt zu, die Striche zu zählen? Ähnlich der IBAN sind jetzt mehrere Einsen zu – in diesem Fall – Fünferblöcken zusammengefasst32.

Wenden wir die gleiche Technik des „chunking“ nochmal an, wird es noch einfacher. Jeweils vier Fünfergruppen bilden eine Zwanzigergruppe. Wir haben also 20+20+20+20+5+3. Es sind 88 Striche. Voilà!

Warum ist das so? Wir haben schon beim Thema Typographie gesehen, dass Wortbilder entscheidend sind, um einen Text effizient zu erfassen. Sobald diese wegfallen, indem beispielsweise alle Leerzeichen und Satzzeichen gestrichen werden, ist man gezwungen, Zeichen für Zeichen zu lesen. Dadurch wird es schwieriger, bei unterbrochenem Lesen – wie es zum Beispiel beim Übertragen von längeren Zeichenketten auftritt – den Aufsetzpunkt wiederzufinden. Insgesamt wird auch der Freiraum massiv eingeschränkt, durch versiertes Lesen die Abstände zwischen den Fixationspunkten zu variieren und damit den individuellen Prozess des Hypothesenbildens zu unterstützen. Wie wir bereits im Kapitel Architektur der Wahrnehmungverdeutlicht haben, beinhaltet Zählen im Vergleich zur direkten Wahrnehmung erheblich mehr erzwungene Sequenzialität, wobei jedoch festzuhalten ist, dass durch direkte Wahrnehmung nur eine sehr geringe Anzahl (etwa 4 bis 6) optisch gleichartiger Objekte bestimmt werden kann.

Das Aufteilen einer großen Menge von Objekten bzw. das Zusammenfassen gleichartiger Objekte lediglich nach dem formalen Kriterium der Anzahl der Elemente ist der Architektur unseres Wahrnehmungssystems geschuldet und somit unabhängig davon, wofür die Elemente inhaltlich stehen. Es ist daher geboten, auch ohne einen inhaltlichen Unterschied, räumlich abzusetzen. Dies gilt insbesondere auch beim wiederholten Einsetzen der Technik des Gruppierens, wodurch Hierarchien entstehen, die weitere optische Gestaltungsforderungen stellen.

Alternative und ergänzende Absetzungstechniken

In den bisherigen Beispielen haben wir zum räumlichen Absetzen Platz genutzt. Absetzen durch das Schaffen von Platz ist, wenn genügend davon vorhanden ist, immer geboten. Platz ist aber bei der Gestaltung nicht im Überfluss vorhanden. Glücklicherweise gibt es ein paar weitere Techniken, die genutzt werden können, um trotzdem die Gruppierung durch optische Hinweise zu unterstützen.

Weitere Absetzungsmöglichkeiten durch Einfärbungen (links) und Hintergrundgestaltung (rechts)
Weitere Absetzungsmöglichkeiten durch Einfärbungen (links) und Hintergrundgestaltung (rechts)

Diese Abbildung zeigt zwei andere Möglichkeiten, Objekte voneinander abzusetzen. Auf der linken Seite sind dazu die Knöpfe eingefärbt, auf der rechten werden sie mit einer gemeinsamen Fläche hinterlegt. Hier ist jedoch Vorsicht geboten, denn das Einfärben kann nicht das räumliche Gruppieren ersetzen, sondern nur zusätzlich betonen. Prinzipiell können zwar auch räumlich verteilte Objekte über eine Farbkodierung als zusammengehörig ausgezeichnet werden, doch erfordert dies aufgrund der selektiven Aufmerksamkeit unseres Wahrnehmungssystems einen erheblichen mentalen Zusatzaufwand. Die Konsequenz ist, dass räumlich verstreute Elemente nicht ungeordnet auf eine Oberfläche gesetzt werden sollten, sondern die zusammenhängenden Objekte stets zunächst in räumliche Nähe zueinander gebracht werden müssen. Das Verwenden verschiedenfarbiger Elemente oder das Schaffen verschiedenartiger Hintergrundflächen kann dann das räumliche Absetzen teilweise ersetzen, kann es aber auch effektiv ergänzen, wobei zwischen zusätzlicher Prägnanz in der Gruppenbildung und der Forderung, überflüssige Elemente zu vermeiden, abzuwägen ist.

Die Handlungsschritte zum Schaffen einer sinnvollen Gruppierung sind zusammengefasst:

  1. Das räumliche Gruppieren zusammengehöriger Elemente durch Platzierung in unmittelbarer Nähe,
  2. wenn möglich, das Absetzen der Gruppen durch das Schaffen von räumlichem Abstand zwischen ihnen und
  3. gegebenenfalls zusätzlich – oder bei Platzmangel alternativ – die Unterstützung der Gruppierung durch Schattierungen, Einfärben oder Flächenunterschiede.

Stapeln statt Umrahmen

Die Techniken zur Gruppierung haben letztlich den Zweck, die Zusammengehörigkeit von Objekten als Gruppe und damit die Abgrenzung dieser Gruppe von anderen Objekten darzustellen. Neben der Verwendung von Platz, dem Einfärben der Objekte oder der Platzierung auf erkennbaren Hintergrundstrukturen ist die Umrahmung eine häufig gewählte Technik. Sie wird oft von GUI-Buildern vorgegeben und entspricht zum Beispiel auch der Standarddarstellung im World Wide Web, wenn das Fieldset-Tag verwendet wird. Ein Vorteil der Umrahmung gegenüber dem Absetzen ist, dass sie auch eine Struktur mit mehreren Hierarchieebenen, also Gruppen innerhalb von Gruppen, auf einfache Art ermöglicht. Wir haben die Umrahmung bislang jedoch nicht besprochen, weil sie der Forderung nach Übersichtlichkeit zuwiderläuft.

Umrahmungen zur Absetzung verschiedener Bereiche
Umrahmungen zur Absetzung verschiedener Bereiche

Auch in diesem Fall ist die Architektur der Wahrnehmung der entscheidende Punkt. Das menschliche Auge sieht bei einer Fixation nur einen sehr kleinen Teil des Wahrnehmungsfeldes scharf und damit auch bewusst. Das Auge kann folglich bei einer Gestaltung wie der obigen jeweils nur einen Bruchteil jeder Umrandung erfassen (blauer Kreis). Die Information in diesem kleinen Teil ist durch die Verwendung einfacher Linien nicht besonders spezifisch, weil sie keinerlei Hinweise auf die Schließung der Figur gibt. Das Bilden von Hypothesen, wo die Schließung einer Figur zu erwarten ist, wird nicht unterstützt, weil am Ort der Fixation nicht entscheidbar ist, ob eine Kante eine linke oder rechte bzw. eine obere oder untere Kante verkörpert. Das Wahrnehmungssystem muss also die Struktur in vielen Fixationen abwandern.

Wo beginnt oder endet eine Fläche?
Wo beginnt oder endet eine Fläche?

Nehmen wir zur Illustration eine einfachere Struktur. Sie besteht aus zwei abgeteilten Flächen, wobei in der linken Fläche wiederum eine weitere Fläche enthalten ist. Die Abtrennung ist jeweils durch eine Umrahmung dargestellt. Der eingezeichnete Kreis zeigt in etwa, wie groß der Wahrnehmungsbereich zum Fixationszeitpunkt ist. Nur mit den darin enthaltenen Unterschieden muss das Wahrnehmungssystem entscheiden, in welcher Richtung es den nächsten Fixationspunkt setzt, um die Hypothese zu überprüfen.

Die Abbildung rechts zeigt den Bereich des Kreises im Ausschnitt, der lediglich drei parallele Linien enthält. Für keine der Linien kann das Wahrnehmungssystem entscheiden, ob hier eine Fläche beginnt oder endet bzw. auf welcher Seite der Kante sich die Gruppe fortsetzt. Viele Interpretationen wären möglich. Dieses Problem lässt sich beheben, wenn zur Gruppierung nicht nur einfache Linien eingesetzt werden, sondern der Eindruck aufeinander gestapelter Flächen erzeugt wird, denn in natürlichen Umgebungen liefert das Licht, das zum Wahrnehmen erforderlich ist, bei gestapelten Objekten wahrnehmbare Hinweise auf ihre Lage zueinander und damit auch auf ihre Gruppierung. Es geht also in der Konsequenz darum, zusammengehörige Bereiche nicht zu umrahmen, sondern visuell zu stapeln. Die Techniken, mit denen diese Stapelung erreicht werden kann, kennen Sie schon. Es sind im Prinzip die gleichen wie die zur plastischen Darstellung von Buttons, die wir Ihnen im Kapitel Bildschirmobjekte bereits vorgestellt haben.

Stapelung durch Reliefbildung
Stapelung durch Reliefbildung

In den beiden Abbildungen ist die bei Weitem einfachste Technik des Stapelns zu sehen, die ohne große grafische Finessen auskommt. Statt die Flächen durch eine einheitliche Linie zu umrahmen, wurden die linken und oberen Kanten hell, die untere und rechte Kante dunkel eingefärbt. Mit der Annahme einer oben links befindlichen Lichtquelle gibt die Zusatzinformation helle oder dunkle Kante für das Wahrnehmungssystem einen sichtbaren Hinweis darauf, in welche Richtung sich die Figur bzw. die jeweilige Fläche schließt. Das Auge kann zwar am Fixationspunkt immer noch nicht die gesamte Figur wahrnehmen, doch ermöglicht die Zusatzinformation das Bilden einer begründeten Hypothese, in welche Richtung die nächsten Fixationspunkte gesetzt werden sollten, um die Schließung der Figur zu erreichen bzw. zu bestätigen. Dies spart weitere explorierende Augenbewegungen, um zu einer angemessenen Hypothese zu gelangen.

Stapelung durch Simulation eines Schlagschattens
Stapelung durch Simulation eines Schlagschattens

Dies kann für jede Blickposition auch durch das Simulieren eines Schlagschattens erreicht werden. Der Effekt ist jedoch für sich genommen nicht so prägnant wie der Effekt der Reliefkanten. Dafür funktioniert die Schlagschatten-Methode jedoch auch auf weißem Hintergrund. Bei der Kantentechnik klappt das nicht, denn das würde ja erfordern, eine Kante zu erzeugen, die heller ist als der weiße Hintergrund.

Zusätzliche Plastizität durch Helligkeitsstaffelung
Zusätzliche Plastizität durch Helligkeitsstaffelung

Die Unterstützung der Gruppenbildung durch ihre plastische Darstellung kann noch durch weitere optische Hinweise unterstützt werden. Im obigen Beispiel wurde zusätzlich zu den Schlagschatten eine Helligkeitsstaffelung gewählt.

Abbildungen von Reihenfolgen

Bis hierher haben wir den Bildschirm aufgeräumt, die Objekte ausgerichtet, einander zugeordnet und zusammengehörige Objekte gruppiert. All diese Verbesserungen beziehen sich auf Eigenschaften der Anordnung der Objekte zueinander, sind aber nicht abschließend. Warum etwa befinden sich die Elemente zum Schließen eines Fensters oben im Fenster? Warum gibt man bei Adressen den Ort erst nach der Postleitzahl ein? Für beide Fragen und viele weitere lässt sich keine ergonomisch begründete Antwort geben. Es handelt sich schlichtweg um Konventionen, die wir in einem späteren Kapitel behandeln.

Aber nicht alle Handlungsfolgen sind lediglich Konventionen. Anders ausgedrückt: Es lassen sich Hinweise formulieren, die die Anordnung von Bildschirmobjekten so verbessern, dass die Notwendigkeit zu langwierigen Erkundungen der Nutzungsoberfläche verringert wird. Dies ist immer dann der Fall, wenn inhärente Bearbeitungsreihenfolgen vorliegen.

Schwer durchschaubare Abfolge der Handlungsschritte an einem Parkautomaten
Schwer durchschaubare Abfolge der Handlungsschritte an einem Parkautomaten

Die Abbildung zeigt erneut den schon vorgestellten Parkautomaten. Die Pfeile deuten an, in welcher Reihenfolge die Elemente gedrückt werden müssen, um zu einem Parkschein zu kommen. Dass diese Pfeile so wirr wirken, ist kein gutes Zeichen, denn es bedeutet ja, dass zum Erhalt eines Parkscheins die gesamte Nutzungsoberfläche bei jedem Schritt erneut exploriert werden muss. Es gibt keine entlastenden Orientierungshinweise, da die Anordnung der Elemente auf dem Parkautomaten nicht der aus der Aufgabe ableitbaren Handlungsfolge entspricht.

Verbesserte Nutungsschnittstelle des Parkautomaten
Verbesserte Nutungsschnittstelle des Parkautomaten

In dieser Überarbeitung wurde die Anordnung verbessert33. In der neuen Fassung des Parkautomaten sind die Schritte zum Lösen eines Parkscheins klar zu sehen. Es braucht keinen gesonderten Erklärungsbereich mehr, da die entsprechenden Hinweise sich jetzt dort befinden, wo die Ein- und Ausgabeelemente untergebracht sind. Diesen Aspekt hatten wir unter dem Stichwort Zuordnung bereits besprochen. Die Anordnung dieser Elemente wurde an die Bearbeitungsreihenfolge angepasst: Im ersten Schritt ist zu entscheiden, ob es um eine Tageskarte geht. In Schritt 2 wird durch das Bezahlen die Parkzeitlänge festgelegt. In Schritt 3 wird schließlich der Parkschein angefordert und entnommen.

Nutzungsschnittstelle der Prüfungsorganisation einer universitären Lernplattform
Nutzungsschnittstelle der Prüfungsorganisation einer universitären Lernplattform

Dies ist ein weiteres Beispiel aus einer digitalen Nutzungsschnittstelle der Prüfungsorganisation einer universitären Lernplattform, an dem wir den gleichen Grundsatz anwenden. Statt alle eine einzelne Person betreffenden Aspekte zu gruppieren, sind jetzt die Phasen der Prüfungsorganisation zugrunde gelegt. Die Schnittstelle ist in die Bereiche „Vor der Prüfung“, „Für die Prüfung“, „Nach der Korrektur“ und „Nach der Prüfung“ eingeteilt, die üblicherweise in dieser Reihenfolge auch durchlaufen werden.

Die hinter diesen Beispielen steckende Idee, die Anordnung der Elemente an die typische Reihenfolge der Abarbeitung zu koppeln, kann auf eine Vielzahl von Anwendungen übertragen werden. Dort, wo sich eine typische Reihenfolge finden lässt, ist sie einer Gruppierung nach Datenklassen vorzuziehen. Doch auch eine solche Gestaltung generiert weitere Designkonflikte. Die Abbildung von Abfolgen und Reihenfolgen auf räumliche Anordnungen kann sehr viel Platz benötigen, der eher selten in ausreichendem Maß zur Verfügung steht. Ist er nicht vorhanden, müsste man Elemente verkleinern, was Probleme mit der Erkennbarkeit hervorrufen könnte. Falls es sich um ein Eingabeelement handelt, würden auch Konflikte mit allen Forderungen auftreten, die wir im folgenden Kapitel unter Handhabbarkeit zusammenfassen werden. Eine Interaktion mit zu kleinen Elementen, die aufgrund von Platzproblemen zu nah beieinander liegen, ist unsicher, langsam oder ungenau. Abhilfe lässt sich schaffen, indem nicht alle Elemente gleichzeitig angezeigt, sondern diese bei Bedarf angefordert oder gleich mehrere Bildschirmseiten oder Fenster verwendet werden. Allerdings sorgen auch diese Techniken wiederum für Designkonflikte. Wir werden sie im Kapitel Übergänge eingehender behandeln.

Positionierung von Elementen zum Handlungsabschluss

Ein besonderer und zugleich sehr häufiger Fall der Abbildung von Bearbeitungsreihenfolgen auf räumliche Anordnungen ist die Positionierung von Elementen, die dem Abschluss der jeweils aktuellen Handlung dienen. Entsprechend der Leserichtung von oben links nach unten rechts gehören die Elemente, die die Handlung abschließen bzw. zum nächsten Schritt weiterleiten, nach unten rechts.

Anmeldungsfenster für eine universitäre Veranstaltungskritik
Anmeldungsfenster für eine universitäre Veranstaltungskritik

Oben sehen Sie ein Formular für die Anmeldung zur Lehrveranstaltungskritik einer Universität. Der Button für den nächsten Schritt ist nicht ohne Weiteres zu finden. Er befindet sich unten links. Dass man den Button nicht gut erkennen kann, hat mehrere Gründe. Zum einen ist er sehr klein und fällt schon von seiner Größe her nicht auf. Zum anderen hat er keinen Abstand zum Rest des Formulars und befindet sich an einer Stelle, die mit sehr vielen überflüssigen Linien aufwartet. All dies wäre schon ein geringeres Problem, wenn der Knopf entsprechend der Leserichtung nach unten rechts verschoben würde.

"Abbrechen" steht an der Stelle des Handlungsabschlusses
“Abbrechen” steht an der Stelle des Handlungsabschlusses

Noch problematischer ist die Situation, wenn an der Position unten rechts etwas anderes untergebracht wird als das Objekt, das zum Abschluss der aktuellen Handlung führt. Am Beispiel des obigen Screenshots lässt sich illustrieren, welche Probleme entstehen können. Entsprechend der Leserichtung wird an der Spitze der Handlungsabschluss erwartet. Hier wurde nun aber das „Abbrechen“ untergebracht. Ein Autor dieses Buchs kann aus eigener Erfahrung berichten, schon des Öfteren alle Daten oben eingegeben und dann voller Tatendrang „Abbrechen“ geklickt zu haben.

Abbildungssystematiken müssen erkennbar sein!

Hinter jeder Abbildung von Reihenfolgen und Abfolgen auf räumliche Anordnungen steckt eine Abbildungssystematik. In den obigen Beispielen ist diese sehr einfach. Beim überarbeiteten Parkautomaten und bei der Prüfungsorganisation sind semantisch zusammengehörige Bearbeitungsschritte in eine lineare Anordnung überführt worden. Auch hinter der Positionierung von Elementen zum Handlungsabschluss steckt eine einfache Abbildung. Doch nicht jede Abbildungssystematik ist so einfach bzw. eindeutig. Unabhängig davon, wie komplex eine Abbildung ist, gilt es festzuhalten, dass Abbildungssystematiken nur dann Handlungsfolgen verkürzen und der Orientierung dienen können, wenn sie auch erkennbar sind.

Welche Logik steckt hinter dieser Anordnung?
Welche Logik steckt hinter dieser Anordnung?

Ein Beispiel für eine Systematik, die nicht erkennbar ist, sehen Sie auf obiger Abbildung. Es handelt sich um die Knöpfe im Aufzug eines Universitätsgebäudes. Die Reihenfolge der Stockwerke mutet eigenartig an. 1, 2, U, 0 ergibt keinen Sinn und auch in Spalten gelesen – 1, U, 2, 0 – wird es nicht besser. Haben die Fahrstuhlbauer die reine Willkür walten lassen?

Systematik der Anordnung der Knöpfe in einem Aufzug
Systematik der Anordnung der Knöpfe in einem Aufzug

Haben sie nicht. In der Tat liegt der Gestaltung eine Systematik zugrunde, die jedoch in diesem Fall nicht erkennbar und daher auch nicht handlungsunterstützend ist. Erst wenn der Fahrstuhl mit der gleichen Systematik in einem Gebäude mit noch mehr Stockwerken seine Funktion erfüllen würde, wird die Systematik offensichtlich. Nehmen wir mal an, das Gebäude habe zwanzig Stockwerke. Die insgesamt zwanzig Knöpfe für die Stockwerke untereinander zu platzieren wäre sehr unpraktisch. Man müsste sich für die unteren Stockwerke bücken oder für die oberen recken, damit man die Knöpfe erreichen kann. Statt einer großen Spalte verwendet man daher zwei halb so lange Spalten. In die eine Spalte kommen die geraden und in die anderen die ungeraden Stockwerke. Es bleiben noch U und 0, wobei die 0 kurzerhand zu einer geraden Zahl erklärt und das überbleibende U bei den ungeraden Zahlen einsortiert wird. In Fahrstühlen mit vielen Stockwerken ist diese Systematik offensichtlich und hilfreich, im kleinen Gebäude mit nur zwei Stockwerken verwirrt sie jedoch.

Zusammenfassendes Beispiel: Gestaltung einer Bildschirmmaske

Lassen Sie uns zum Abschluss einen Großteil der in diesem Kapitel erarbeiteten Gestaltungshinweise an einem realistischen Beispiel zusammenfassen. Unsere Aufgabe ist es, eine Eingabemaske für einen Eintrag in eine Personendatenbank zu gestalten. Als Felder für die Datenbank sind (etwas willkürlich) Vorname, Nachname, Firma, Straße, Ort, Postleitzahl, Land, Anredeform(Siezen/Duzen), Relation, Telefon, Handy, Fax, Titel, E-Mail-Adresse, Facebook-Name, Kontoinhaber, IBAN, Bank und PayPal-Account vorgesehen. Ferner braucht unsere Maske je einen Button zum Übernehmen und Verwerfen der Daten.

Zunächst gilt es, Datenklassen als Grundlage der Gruppierung zu bilden. In unserem Beispiel können wir diese Gruppen ausmachen:

  • Adresse: Titel, Vorname, Nachname, Firma, Straße, Ort, Postleitzahl, Land
  • Verhältnis: Anredeform(Siezen/Duzen), Relation
  • Kontakt Telefon: Festnetz, Mobil
  • Kontakt elektronisch: Fax, E-Mail-Adresse, Facebook-Name
  • Bankverbindung: Kontoinhaber, IBAN, Bank, PayPal-Account
  • Buttons: Übernehmen, Verwerfen

Als nächstes gilt es, die Reihenfolgen entsprechend der Konventionen und Abarbeitungsreihenfolgen anzupassen. In unserem Beispiel betrifft das die Postleitzahl und den Ort, die gegenüber der Problembeschreibung, der Konvention entsprechend, vertauscht werden. Außerdem wird die Reihenfolge der Buttons vertauscht, damit der Handlungsabschluss, also das Übernehmen am Ende unten rechts stehen kann.

Im nächsten Schritt können wir Datenfelder anlegen. Dabei gilt es, das Datenformat zu beachten. In unserem Fall deklarieren wir „Titel“ und „Relation“ zu Auswahlfeldern und „Siezen/Duzen“ zu einer binären Auswahl (Checkbox). Weitere Einschränkungen der Feldtypen sind optisch nicht sichtbar, sollten aber in der Praxis gleichwohl vorgenommen werden. So kann die Postleitzahl etwa auf Ziffern beschränkt werden (siehe Eingabeminimalität).

Bevor die Felder ausgerichtet werden können, sollten wir die Länge der Feldbeschriftungen durch Abkürzen angleichen. Wir fassen die Postleitzahl mit dem Ort zu einer gemeinsamen Beschriftung „PLZ/Ort“ zusammen, streichen bei „E-Mail“ das Wort „Adresse“, bei „Facebook“ das Wort „Name“ und bei „PayPal“ das Wort „Account“. Der einzig schwierige Fall ist das Wort „Kontoinhaber“, das wir mit „Kto-Inh.“ abkürzen. Eine bessere Lösung wäre möglich, wenn wir die Gruppen unserer Eingabemaske, wie in der nachfolgenden Abbildung zu sehen, mit einem Titel versehen würden. Dann könnten wir das Wort „Kontodaten“ absetzen und das Feld einfach mit „Inhaber“ betiteln.

Mit den angeglichenen Beschriftungslängen können wir die Felder und Beschriftungen nun ausrichten und dadurch die Anzahl der Fluchtlinien auf ein Minimum reduzieren.

Links: Version mit durchgeführter Ausrichtung, Rechts: Zusätzliche Unterstützung durch Stapelung
Links: Version mit durchgeführter Ausrichtung, Rechts: Zusätzliche Unterstützung durch Stapelung

Damit ist die Maske einsatzbereit und kann so verwendet werden. Der Einsatz einer Stapelungstechnik ist nicht unbedingt notwendig. Absetzen durch Platz reicht aus. Trotzdem haben wir im rechten Teil der Grafik abgebildet, wie das aussehen könnte. Mit Hilfe von Helligkeitsabstufungen und Schlagschatten haben wir vier auf den ersten Blick sichtbare Gruppen erzeugt, wobei die Gruppe „Kontakt“ sich nochmal in zwei Untergruppen aufteilt. Die Gruppen und die Maske als Ganzes haben ferner einen Titel bekommen. Den Empfehlungen aus dem Kapitel Typographie entsprechend haben wir die Titel mit einer reduzierten Deckung gesetzt, sodass sie trotz der fett gesetzten Schrift nicht allzu aufdringlich wirken. Es handelt sich um eine Hintergrundinformation, die bei routinierter Nutzung nicht mehr benötigt wird.

Interaktion

In unseren bisherigen Ausführungen haben wir ergonomische Forderungen für die Präsentation von Objekten am Bildschirm vorgestellt, also vor allem wie sie aussehen und wie sie angeordnet werden sollten. Bei vielen Gestaltungshinweisen haben wir zumindest am Rande bereits angedeutet, dass die am Bildschirm sichtbaren Objekte auch Gegenstand physischer Operationen sind. Nutzungsschnittstellen sind keine statischen Arrangements am Bildschirm, sondern verkörpern eine Welt, in der man virtuelle Objekte erzeugen und mit ihnen interagieren kann.

Interaktion ist eine wechselseitige Folge von Eingabe und Rückmeldung. Sie beginnt damit, Eingaben zu tätigen. Unter Eingaben verstehen wir nicht nur das Eintippen von Buchstaben auf der Tastatur, sondern zum Beispiel auch das Verschieben eines Icons oder jede andere Objektmanipulation. Diese Verarbeitung nennen wir Prozess. Als Resultat eines Prozesses ändern sich Eigenschaften der Bildschirmobjekte oder auch des Objektarrangements. Diese Veränderungen nennen wir Rückmeldung. Auch für diese Bereiche der Interaktivität gilt es, erzwungene Sequenzialitäten zu vermeiden. Entsprechende Forderungen werden wir in den kommenden Kapiteln herausarbeiten.

Eingaben

Interaktivität wird in der Regel damit verbunden, dass ein Computersystem innerhalb kürzester Zeit auf Eingaben reagiert. Bevor wir uns jedoch im nachfolgenden Kapitel Rückmeldungen damit befassen, welche Forderungen daran zu stellen sind, untersuchen wir zunächt einmal, welche Forderungen an die Eingaben selbst zu stellen sind.

Eingaben sind vielfältiger Natur. Es können Zahlen, Namen oder auch Passwörter sein oder auch die Bestätigung einer Systemmeldung. Aus technischer Sicht sind alle Handlungen an einem Computer, die er bearbeiten kann, Eingaben. Wenn eine auf dem Tisch liegende Maus durch einen Stups bewegt wird und deshalb der Mauszeiger um einige Pixel seine Position ändert, dann ist das eine Eingabe in das System, auf das dieses mit einer Rückmeldung reagiert: der Mauszeiger wird an einer anderen Stelle auf den Bildschirm gezeichnet. Jede Mausbewegung ist eine Eingabe, jeder Tastenanschlag ist eine Eingabe ebenso wie jedes Berühren eines sensitiven Smartphone-Bildschirms.

In grafischen Nutzungsschnittstellen sind Eingaben in aller Regel mit expliziten räumlichen Eingabeelementen verbunden1. Deshalb lassen sich die im vorherigen Kapitel angestellten Überlegungen zur Kopplung von Reihenfolgen und Abfolgen auf die Anordnung der Eingabeelemente übertragen. Insbesondere die Betrachtungen zum Handlungsabschluss sind ein gutes Beispiel dafür. Dasselbe gilt für typische Navigationselemente. Buttons zum Blättern, wie zum Beispiel „Weiter“, sollten rechts, unten oder rechts unten platziert werden. Entsprechend gilt für das Zurückblättern die Anordnung links, oben oder links oben.

Ein eigenartiger Konflikt entsteht bei Nutzungsschnittstellen, die so aufgebaut sind, dass alle aktuellen Elemente zuoberst angezeigt werden. Dies trifft zum Beispiel oft auf Verlagswebseiten zu, bei denen die jeweils aktuellen Meldungen bezogen auf die Leserichtung zuerst und damit räumlich oben erscheinen. Das gleiche gilt auch für Blogs. Das Einfügen zu Beginn bedeutet, dass die weiteren Seiten frühere Inhalte anzeigen. Wo bringt man nun das Weiterblättern unter? Es entsteht eine inhärente Inkonsistenz. Da es sich um frühere Inhalte handelt, lässt sich eine Positionierung links rechtfertigen, Weiterblättern jedoch legt eine Positionierung rechts nahe. Der Konflikt ist schwer zu lösen. Vermeiden sollten Sie auf jeden Fall, auf der linken Seite „weiterblättern“ und auf der rechten Seite „zurückblättern“ zu schreiben. Wenn Sie sich für diese Aufteilung entscheiden, verwenden Sie „frühere Inhalte“ und „neuere Inhalte“. Letztere beziehen sich auf die zeitliche Reigenfolge der Inhalte und nicht auf ihre räumliche Platzierung und charakterisieren daher besser den intendierten Handlungsabschluss.

Auch das Prinzip der räumlichen Zuordnung lässt sich auf inhärent räumliche Eingaben übertragen, also Eingaben, bei denen Elemente im Raum bewegt oder anderweitig manipuliert werden. Das damit verbundene Problem der Kopplung translatorischer Bewegungsformen zu Lage- und Zustandsänderungen ist auch schon in der klassischen Ergonomie untersucht worden: Was passiert bzw. welche Erwartungen sind damit verbunden, wenn ein Schieber nach rechts oder links, nach oben oder unten oder auch nach hinten oder vorne geschoben wird?

Kopplung translatorischer Bewegungsformen zu Lage- und Zustandsänderungen – Grafik: Bullinger, Hans-Jörg: Ergonomie: Produkt- und Arbeitsplatzgestaltung. Stuttgart: B. G. Teubner. 1994. S. 355.
Kopplung translatorischer Bewegungsformen zu Lage- und Zustandsänderungen – Grafik: Bullinger, Hans-Jörg: Ergonomie: Produkt- und Arbeitsplatzgestaltung. Stuttgart: B. G. Teubner. 1994. S. 355.

Manche Erkenntnisse aus diesen Untersuchungen können wir auf Slider und Anzeigeelemente in grafischen Nutzungsschnittstellen übertragen: Rechts wird stets mit mehr (größer, später, lauter, heller, …), links entsprechend mit weniger (kleiner, früher, leiser, dunkler, …) verbunden. Ebenso entspricht eine Bewegung nach oben einem „Mehr“ und nach unten einem „Weniger“. Diese Erkenntnis hilft uns bei der Gestaltung von Scrollbars und Einstellfeldern für Lautstärken und Helligkeiten, ebenso wie bei der schon angesprochenen Positionierung von Elementen zum Blättern.

Eingabenotwendigkeiten verringern

Da Eingaben allgegenwärtig sind, birgt eine ungeschickte Gestaltung ein großes Potenzial an erzwungener Sequenzialität. Wenn zum Erreichen eines Ziels Eingaben vom System gefordert werden, die für die Zielerreichung nicht notwendig sind, verkörpern diese erzwungene Sequenzialität. Doch wann ist eine Eingabe nicht notwendig? Bei einem Programm zur Addition zweier Zahlen wird man nicht umhinkommen, diese Zahlen zuvor einzugeben. Handlungsspielraum besteht aber sehr wohl bei den zusätzlichen Eingaben, die das Programm verlangt. Betrachten wir dazu zwei alternative, fiktive Gestaltungen. Die erste Variante erzwingt das Drücken eines Buttons, um den Vorgang zu starten. Dann erscheint ein Fenster, in das die erste Zahl einzugeben ist. Sobald dies geschehen ist, muss durch Drücken des Buttons „Fertig“ ein weiteres Eingabefeld für die Eingabe des zweiten Operanden geöffnet werden. Nachdem auch dieser Vorgang mit „Fertig“ abgeschlossen worden ist, erscheint ein Meldungsfenster, das die beiden Werte und das Ergebnis anzeigt. Für die Addition der zwei Zahlen 55 und 44 wäre die Eingabesequenz in dieser Design-Variante: Startbutton + Taste 5 + Taste 5 + Fertigbutton + Taste 4 + Taste 4 + Fertigbutton.

Nun eine alternative Gestaltung: Beide Eingabefelder und das Ausgabefeld sind direkt nach dem Programmstart zu sehen. Das erste Eingabefeld ist vorausgewählt, sodass unmittelbar ein Operand eingetippt werden kann. Um den zweiten Operanden eingeben zu können, kann entweder mit der Maus auf das zweite Eingabefeld geklickt oder durch das Drücken der Tabulator- oder Return-Taste ins zweite Feld gewechselt werden. Dort wird nun die zweite Zahl eingegeben2. Schon während der Eingabe wird ständig die Addition durchgeführt und in der Ausgabezeile darunter angezeigt. Die Eingabesequenz für die gleiche Addition sieht in diesem Programm wie folgt aus: Taste 5 + Taste 5 + Wechseloperation + Taste 4 + Taste 4.

Die Handlungssequenz in dieser zweiten Gestaltungsvariante ist kürzer, die Anzahl der von der Nutzungsschnittstelle notwendigerweise verlangten Eingabeschritte ist so weit reduziert worden, dass nur noch die der Aufgabe inhärente Sequenzialität verbleibt. Wir nennen dies „eingabeminimal“. Entsprechend ist für eine ergonomische Gestaltung die Forderung nach Eingabeminimalität zu erfüllen:

Im obigen Fall haben wir die Eingabeminimalität erfüllt. In den meisten Softwareprodukten wird das nicht so ohne weiteres gelingen, da nicht immer präzise und ausreichend umrissen werden kann, welche verschiedenen Nutzungsmöglichkeiten vorhanden sind und welche Eingaben jeweils dafür erforderlich sind. Eingabeminimalität zielt daher darauf ab, möglichst viele Eingaben zu identifizieren, die ohne Einschränkungen der Funktionalität oder der Handlungsmöglichkeiten reduziert werden können. Ob das Minimum jeweils erreicht wird, ist in der Regel nicht festzustellen und hängt nicht zuletzt auch von Innovationen und technischen Randbedingungen ab. Je mehr Eingaben aber reduziert werden können, desto besser die ergonomische Qualität.

Um Eingabeminimalität in diesem Sinne zu erreichen, gilt es, hilfreiche Techniken wie zum Beispiel inkrementelle Rückmeldung anzuwenden. Sie sorgt im obigen Beispiel dafür, dass das Ergebnis ständig neu berechnet wird und daher am Ende der Eingabe der Schritt zum Start der Berechnung gespart werden kann. Außerdem gilt es, eine Reihe von typischen Fehlern zu vermeiden, die in jedem Falle für übermäßig lange Eingabesequenzen sorgen.

Informationslose Eingaben vermeiden!

Eine vom System geforderte Eingabe sollte immer eine zusätzliche Information anfordern, um einen Sachverhalt genauer zu spezifizieren, etwas zu vervollständigen oder für eine Statusänderung an einem Objekt zu sorgen. Die Nutzungsschnittstellen-Handlungen, die dieses Kriterium nicht erfüllen, sind überflüssig und ein guter Kandidat, um entfernt zu werden.

Bestätigung von Optionsauswahl vermeiden!

Eine typischer Fall, in dem eine Eingabe minimiert werden kann, ist das Entfernen eines expliziten Bestätigungs-Buttons aus einer Auswahl von Optionen. Typisch sind solche Bestätigungs-Buttons etwa in Einstellungsfenstern, wo mehrere Änderungen zusammen mit einem Button übernommen und mit einem anderen verworfen werden können. Bei Fenstern, in denen komplexe oder umfangreiche Einstellungen vorgenommen werden können, geht das auch in Ordnung, denn es ermöglicht es, zunächst alle Einstellungen im Zusammenhang vorzunehmen, bevor sie jeweils bestätigt werden müssen.

Unnötige Bestätigung der Optionsauswahl in Microsoft Word
Unnötige Bestätigung der Optionsauswahl in Microsoft Word

Eine Bestätigung dieser Art ist aber dann überflüssig, wenn es sich um die exklusive Auswahl eines einzigen Elements oder einer einzigen Option handelt. Ein schönes Beispiel für eine derart überflüssige Bestätigung einer exklusiven Auswahl findet sich in Microsoft Word. Das abgebildete Meldungsfenster erscheint, wenn das Inhaltsverzeichnis eines Dokuments aktualisiert werden soll. Es fordert dazu auf sich zu entscheiden, ob das gesamte Verzeichnis neu erzeugt werden soll oder nur die Seitenzahlen aktualisiert werden müssen. Die Entscheidung wird durch die Auswahl einer der beiden Optionen getroffen. Diese beiden Optionen sind exklusiv, schließen einander also aus. Man kann nur das eine oder das andere tun, nicht beides. Nachdem man sich entschieden hat, muss die Auswahl nochmal durch einen Klick auf „OK“ bestätigt werden. Diese Bestätigung trägt aber keinerlei neue Information bei. Sie ist ein nutzloser zusätzlicher Schritt, mit dem lediglich entschieden wird, ob die zuvor getätigte Auswahl auch angewandt werden soll.

Überarbeitete Variante mit direktem Angebot aller Alternativen
Überarbeitete Variante mit direktem Angebot aller Alternativen

Im Beispiel gibt es genau drei Möglichkeiten der Handlung: Man kann nichts tun (abbrechen), nur die Seitenzahlen anpassen oder das Inhaltsverzeichnis komplett aktualisieren. Diese Alternativen kann man direkt in Form von Buttons anbieten. Die Überarbeitung ist übersichtlicher als vorher, da weniger Elemente auf dem Bildschirm zu sehen sind. Sie ist direkt auf die Aktion ausgerichtet, also auch mental einfacher zu bewältigen, und sie spart im besten Fall einen Klick ein. Die ursprüngliche Meldung hat übrigens noch ein weiteres Problem, das wir an dieser Stelle gleich mitbehoben haben: Das von Microsoft gestaltete Auswahlfenster schweigt sich nämlich dazu aus, was es mit der Auswahl überhaupt auf sich hat, warum sie also erscheint. Dies verletzt unsere Forderung nach Differenziertheit, die wir im folgenden Kapitel besprechen werden.

Die Vermeidung der zusäzlichen Auswahlbestätigung in VirtualBox (links) erfordert eine zusätzliche Auswahlalternative; Rechts: Verbesserte Ausführung
Die Vermeidung der zusäzlichen Auswahlbestätigung in VirtualBox (links) erfordert eine zusätzliche Auswahlalternative; Rechts: Verbesserte Ausführung

Word steht mit der Einforderung einer unnötigen Auswahlbestätigung nicht alleine da. Die oben abgebildete Auswahl erscheint, wenn in VirtualBox eine virtuelle Maschine beendet wird. Sie offenbart mehr als ein ergonomisches Problem: Der einleitende Text beispielsweise ist sinnlos. Auch auf die Titelzeile „You want to:“ hätte man verzichten können, denn sie liefert keine Zusatzinformation und spekuliert über die Absichten der Person vor dem Bildschirm. Ob ihr die angebotenen Optionen erwünscht erscheinen, ist an dieser Stelle nicht relevant. Abgesehen von dieser Eigenartigkeit tritt auch in diesem Beispiel das Problem der notwendigen Bestätigung der exklusiven Auswahl auf: Es gibt eine Auswahl, die dann nochmal per „OK“ bestätigt werden muss. Auch in diesem Fall können die Alternativen direkt als Buttons angeboten werden.

Wahrscheinlichkeit für Eingabenotwendigkeit verringern

In den obigen Beispielen ist der Schritt der Eingabebestätigung in jedem Fall überflüssig. Es gibt keinen Grund, die Alternativen jemals mit diesem Zusatzschritt zu gestalten. Eine solche Eindeutigkeit ist aber selten. In vielen Situationen wird es nicht verlässlich möglich sein, Eingabesequenzen zu verkürzen, da nicht alle Nutzungskonstellationen vorhersehbar sind. Es gibt aber Möglichkeiten, das Auftreten einer unnützen Eingabe zu verringern.

Die Notwendigkeit von Eingaben lässt sich prinzipiell senken, wenn die Objekte am Bildschirm schon in einem gut passenden Zustand sind, wenn also dem Angezeigten nichts oder nur wenig hinzugefügt werden muss. Es gibt verschiedene Techniken, um dies zu erreichen.

Standardwerte

Gut gewählte Standardwerte verringern die Notwendigkeit einer Eingabe und damit auch erzwungene Sequenzialität, da ein Standardwert, wenn er gut gewählt ist, mit hoher Wahrscheinlichkeit nur bestätigt oder geringfügig angepasst werden muss. Standardwerte sind abhängig von den jeweiligen Aufgaben und müssen im Rahmen der Gebrauchstauglichkeit erarbeitet werden. Wenn es jedoch aufgrund von sehr heterogenen Nutzungsumgebungen nicht möglich sein sollte, für alle Situationen gleichermaßen passende Standardwerte zu ermitteln, gibt es noch einige Möglichkeiten, die Misere zu lindern.

  • Konfigurierbare Standardwerte: Standardwerte können anpassbar gestaltet werden, womit aber zugleich die Komplexität erhöht wird. Außerdem kann nicht vorausgesetzt werden, dass die Möglichkeiten zur Anpassung von Standardwerten bei der Nutzung bekannt sind. Wichtiger aber noch ist, dass verlässliches Wissen vorhanden ist, dass angemessene Anpassungen von der Software generiert werden können. Weiteres dazu findet sich in unseren Hinweisen zur Anpassbarkeit)
  • Zurückgreifen auf das zuletzt verwendete Objekt oder den zuletzt verwendeten Wert: In vielen Anwendungssituationen kann es schon eine große Erleichterung sein, wenn eine zuletzt gewählte Option direkt wieder zur Verfügung steht. Eine dynamischere Variante erlaubt eine Auswahl der zuletzt gewählten Eingaben (Verlaufsgeschichte). Zu bedenken ist, dass es bei gemeinsamer Computernutzung zu einem Datenschutzproblem oder einem Privatsphärenproblem kommen kann. Diese Art der Standardwertbestimmung sollte deshalb mit größter Zurückhaltung eingesetzt werden.
  • Zurückgreifen auf das am häufigsten verwendete Objekt oder den zuletzt verwendeten Wert: Dem letzten Punkt sehr ähnlich ist die Bestimmung eines Standardwerts gemäß der Häufigkeit der vorangegangenen Eingaben. In diesem Fall kommt aber hinzu, dass sich der Standardwert dann ohne direkte vorherige Handlung ändern kann, was unter Umständen schwer nachvollziehbar ist. (Siehe hierzu unsere Hinweise zur Adaptivität im Zusammenhang mit der Anpassbarkeit.)

Ein Standardwert und die mit ihm verbundene Reduzierung von Sequenzialität können übrigens auch zu einem Problem werden. Dies gilt beispielsweise beim Einsatz von medizinischen Geräten, wo durch eine Fehleinstellung von Werten gravierende Schäden verursacht werden können. Wo immer dies der Fall ist, sollten keine Standardwerte vorgegeben werden. Das erhöht zwar den Eingabeaufwand, der in diesen Fällen jedoch gerechtfertigt ist, weil er die Aufmerksamkeit auf den einzugebenden Wert lenkt.

Fill-By-Click

Standardwerte zu verwenden bedeutet, die Eingabewahrscheinlichkeit zu senken, indem auf eine frühere gespeicherte Eingabe referenziert wird. Auf ähnliche Art und Weise funktioniert die „Fill-By-Click“-Technik. Allerdings liegt die Referenz, aufgrund derer ein Feld ausgefüllt wird oder ein Objekt vorausgewählt wird, nicht in der weiteren Vergangenheit, sondern in einer gerade erst getätigten Eingabe. Ein typisches Beispiel für Fill-By-Click ist das Ausfüllen von Bestellformularen. Neben weiteren Daten muss auch eine Lieferadresse angegeben werden. Zusätzlich ist vor dem Abschluss der Bestellung die Rechnungsadresse gefragt. In vielen Fällen sind diese identisch. Fill-By-Click bedeutet, dass mit nur einem Klick die Lieferadresse als Rechnungsadresse übernommen werden kann, statt gezwungen zu sein, die gleichen Daten erneut einzugeben.

Fill-By-Click verdeutlicht auch, dass potenzielle Eingabeaufwände in verschiedenen Situationen gegeneinander abgewogen werden müssen. In der gerade geschilderten Implementierung verringert sich die erneute aufwändige Eingabe der Adresse bestenfalls auf einen Klick. Gesetzt den Fall, dass eine andere Adresse eingegeben werden soll, hilft das zwar nicht, doch entsteht auch kein Zusatzaufwand (lediglich etwas Platz für die Unterbringung der Klickbox). Würde die Adresse automatisch ohne den zusätzlichen Klick direkt übernommen, könnte im besten Fall zwar ein Klick mehr eingespart werden, aber der Eingabeaufwand für die abweichende Adresse wird deutlich größer und fehleranfälliger, weil auch der angezeigte nicht passende Text jetzt bearbeitet werden muss.

Voneinander abhängige Eingaben automatisieren

Die automatische Übernahme von Daten ist also nicht immer geboten. Es ist jedoch dann problemlos möglich und auch gefordert, wenn sich eine Eingabe direkt und zwangsläufig aus einer anderen Eingabe ableiten lässt.

Sobald das "Von"-Feld verlassen wird, wird der "bis"-Wert automatisch geändert.
Sobald das “Von”-Feld verlassen wird, wird der “bis”-Wert automatisch geändert.

Die Abbildung zeigt einen solchen Fall: die Einstellungen für eine Druckerausgabe. Interessant für uns sind die Felder „Von“ und „bis“. Im aktuellen Zustand stehen beide Werte auf 1. Setzen Sie bei „bis“ eine 5 ein, passiert nichts. Erhöhen Sie nun den „Von“-Wert auf 10, wird auch der „bis“-Wert auf 10 gesetzt. Ändern Sie dann „Von“ wieder auf 3, passiert wiederum nichts. Der „bis“-Wert wird in Abhängigkeit vom „Von“-Wert automatisch ausgefüllt, aber eben nur dann, wenn der „Von“-Wert über den bisherigen „bis“-Wert erhöht wird. Das Resultat ist, dass die Wahrscheinlichkeit für eine notwendige Eingabe sinkt und zugleich ungültige Angaben wie „Von 10 bis 3“ abgefangen werden. Somit wird auch der Aufwand für notwendige Fehlerkorrekturen verringert.

Ein anderes Beispiel tritt bei der Eingabe von Adress- oder Bankdaten auf, wenn bei der Eingabe einer IBAN oder einer Bankleitzahl zusätzlich noch der Name der Bank eingegeben werden muss. Da die IBAN bereits den Namen der Bank eindeutig festlegt, handelt sich zum einen um eine unnötige Eingabe. Zum anderen unterstützt das automatische Anzeigen des Banknamens das Erkennen einer nicht korrekten IBAN, denn in diesem Fall wird kein Bankname angezeigt. Die Einsicht, dass die IBAN in diesem Fall nicht stimmen kann, spart gegenüber einer erst später auftretenden Fehlerdiagnose zusätzliche Schritte beim Korrigieren ein. Die Reduzierung erzwungener Sequenzialität reduziert in solchen Fällen also nicht nur Schritte zur Eingabe von Daten, sondern reduziert durch die unmittelbare Auswertung der Eingabe auch den Zusatzaufwand, der zur Korrektur derselben zu einem späteren Zeitpunkt erforderlich würde.

Optionen einschränken

Standardwerte, Fill-By-Click und das automatische Ausfüllen sorgen dafür, dass Eingaben nicht gemacht werden müssen, weil sie vorausgewählt oder die entsprechenden Felder bereits mit Werten ausgefüllt sind, die mit großer Wahrscheinlichkeit nicht geändert werden müssen. Es gilt jedoch, die Flexibilität zu erhalten, denn jeder Wert kann immer noch geändert werden. In Fällen, in denen aufgrund der jeweiligen Anwendungssemantik bestimmte Eingaben nicht zulässig sind, verbessern diese Techniken nicht nur die Eingabeminimalität, sondern verringern auch die Wahrscheinlichkeit von Fehleingaben und den Aufwand zu ihrer späteren Korrektur.

Aufgabenspezifische Eingabebeschränkungen

Dieser Effekt lässt sich durch die Einschränkung der möglichen Eingaben verstärken. Ein typisches Beispiel dafür ist, eine Altersangabe nicht über ein Freitextfeld zu erfassen, sondern einen Feldtyp zu nutzen, in dem nur Zahlen eingegeben werden können. Auch durch die Nutzung eines Auswahlfeldes, in dem alle möglichen Eingaben angeboten werden, trägt zur Reduktion von Korrektureingaben bei, kann aber auch zu Designkonflikten führen, da der Aufwand zur Präsentation von mehr als hundert möglichen Geburtsjahren entsprechend Platz verbraucht und die Auswahloperation zusätzlichen Bewegungsaufwand verursacht. In diesen Fällen müssen im Rahmen der Gebrauchstauglichkeit entsprechende Prioritäten ermittelt werden.

Direkte Reaktion auf nicht akzeptierte Eingabe
Direkte Reaktion auf nicht akzeptierte Eingabe

Diese Abbildung zeigt ein gutes Beispiel für eine Eingabebeschränkung dieser Art. Bestimmte Zeichen sind in Dateinamen unter Windows, wie in den meisten Betriebssystemen, nicht zulässig. Windows nimmt die Eingabe eines der verbotenen Zeichen gar nicht erst an. Es kommt also nie dazu, dass der gerade angezeigte Dateiname ungültig ist. Stattdessen wird die Eingabe des nicht akzeptablen Zeichens verworfen und gleichzeitig direkt an Ort und Stelle eine Fehlermeldung eingeblendet, die über diesen Umstand informiert.

Beschränkte Eingabemöglichkeiten in einem Datei-Öffnungs-Dialog
Beschränkte Eingabemöglichkeiten in einem Datei-Öffnungs-Dialog

Eine weitere Möglichkeit zur Einschränkung von Fehleingaben zeigt dieses Fenster zum Öffnen von Dateien. Über den Datei-Öffnungs-Dialog werden alle Dateien wie im Dateimanager angezeigt und damit erreichbar, was die Orientierung unterstützt. Nur die Dateien, die von der Software auch geöffnet werden können, sind jedoch auswählbar. Alle anderen Elemente werden ausgegraut dargestellt und sind weder mit der Maus noch über die Tastatur anwählbar. Das verringert die Möglichkeit von Fehleingaben und, vor allem bei der Auswahl per Pfeiltasten, die Anzahl der Eingaben zum Erreichen eines Objekts, da alle ausgegrauten Einträge übersprungen werden.

Anschlusshandlungen erleichtern

Welche Handlungsschritte in welcher Abfolge durchgeführt werden, ist maßgeblich von der zu erledigenden Aufgabe anhängig, aber auch vom Wissen und von individuellen Vorlieben bei der Nutzung. Eine große Vielfalt von Alternativen hat zur Folge, dass manche Wege zum Ziel lang und nicht offensichtlich sind. Die daraus resultierenden Handlungsfolgen können verkürzt werden, indem einzelne Handlungsschritte, die mit hoher Wahrscheinlichkeit aufeinander folgen, so abgebildet werden, dass sie ohne großen Eingabeaufwand und ohne Sucherfordernisse direkt angeschlossen werden können.

Angebot häufig genutzter (Neben-)Handlungen

Eine Möglichkeit einer solchen Verkürzung ist das direkte Anbieten von Nebenhandlungen, die in einer bestimmten Situation bekanntermaßen häufig genutzt werden.

Speichern Windows 95 (rechts) bietet typische Nebenhandlungen wie das Umbenennen direkt an.
Speichern Windows 95 (rechts) bietet typische Nebenhandlungen wie das Umbenennen direkt an.

Diese Abbildungen zeigen eine Gegenüberstellung von typischen Datei-Speichern-Dialogen von Windows 3.1 und Windows 95. Die Variante in Windows 3.1 erfüllt ihren eigentlichen Zweck. Ein Verzeichnis zum Speichern kann ausgewählt und ein Dateiname eingegeben werden. Diese Funktionalität reicht aus, eine Datei in einem vorhandenen Ordner abzuspeichern. Die Windows-95-Variante bietet aber weitaus mehr Funktionen. Sie trägt dem Umstand Rechnung, dass oftmals erst beim Speichern deutlich wird, dass die Ordnerstruktur nicht optimal ist oder die zu speichernde Datei besser in einem neuen, noch nicht bestehenden Ordner abgelegt werden sollte. Es ist daher möglich, direkt innerhalb des Speichern-Dialogs einen neuen Ordner anzulegen, indem auf ein Icon in der Toolbar geklickt oder das Kontext-Menü per rechtem Mausklick geöffnet wird. Genauso einfach ist es möglich, Ordner und andere Dateien umzubenennen oder zu löschen. Im Fall von Windows 3.1 müsste man dazu die Speicherhandlung unterbrechen, das Programm wechseln, um im Dateimanager die Änderungen vorzunehmen, um dann wieder zurückzukehren und die eigentliche Speicherung vorzunehmen. Alternativ hätte man die Datei zunächst am unpassenden Speicherort ablegen und dann später die gewünschte Ordnerstruktur herstellen können. In beiden Fällen kann man das Ziel erreichen, nur ist der Aufwand im Windows-95-Fall erheblich geringer und erfordert inbesondere keinen Wechsel in ein anderes Programm.

Der Speichern-Dialog von Windows 95 bietet häufig erforderliche Dateisystemoperationen an Ort und Stelle an. Verallgemeinert kann man daraus schließen: Immer dann, wenn im Laufe einer Handlungsfolge bestimmte Nebenhandlungen sehr häufig ausgeführt werden müssen, sollten diese Nebenhandlungen auch direkt angeboten werden. Die Voraussetzung dafür ist, dass die Nebenhandlungen bekannt oder angemessen erhoben worden sind.

Direktes Angebot aller intendierten Handlungsoptionen

Eng verwandt mit dem Angebot häufig genutzter Nebenhandlungen ist das direkte Angebot aller durch die Software ermöglichten Handlungsoptionen. Dabei geht es nicht, wie oben, um das Anbieten von Nebenhandlungen, die nur lose mit der eigentlichen Handlung verbundenen sind, sondern um die Handlungsoperationen direkt anzubieten, die im Handlungsverlauf ohnehin notwendig sind. Das spart lästige Umwege.

Die Medienverwaltung iTunes beschreibt Alternativen, bietet sie aber nicht direkt an.
Die Medienverwaltung iTunes beschreibt Alternativen, bietet sie aber nicht direkt an.

Das Beispiel aus Apples Medienverwaltung iTunes verdeutlicht dieses Problem. Das Meldungsfenster informiert darüber, dass zunächst Objekte von einem angeschlossenen iPad übertragen werden sollten, bevor man fortfährt. Um dies zu tun, muss man zuerst auf „Abbrechen“ drücken, dann in der Anwendung die Übertragungsfunktion suchen und diese schließlich starten. Es wird präzise gesagt, was zu tun ist, ohne diese Möglichkeit direkt anzubieten. Wenn der folgende Schritt aber derart klar ist, ist es auf jeden Fall erzwungene Sequenzialität, ihn nicht anzubieten. Dies könnte direkt an Ort und Stelle innerhalb der Warnmeldung durch das Hinzufügen eines weiteren Buttons erfolgen.

Microsoft Word beschreibt, was getan werden kann, ermöglicht es aber nicht direkt.
Microsoft Word beschreibt, was getan werden kann, ermöglicht es aber nicht direkt.

Meldungen dieser Art gibt es erstaunlich oft. In dieser Meldung wird genau beschrieben, welche Menüpunkte anzuklicken sind, um das Dokument wie gewünscht mit Hilfe von „Speichern unter“ abzulegen. Auch hier sollte also die jeweilige Funktion direkt aufrufbar sein. Man könnte sogar noch einen Schritt weiter gehen und gleich an Ort und Stelle einen Dateinamen zur Speicherung erfragen.

Dieses unten abgebildete Beispiel von Ende der 1980er Jahre des Editors Tempus, der auf dem Atari ST lief, zeigt sehr schön, wie man es besser machen kann. Die Meldung erscheint, wenn mit der Funktion „Speichern unter“ ein bereits existierender Dateiname ausgewählt worden ist. In der Meldung werden die nun möglichen Handlungen nicht nur beschrieben, sondern auch direkt angeboten. „Abbrechen“ muss also in der Tat nur gedrückt werden, wenn man nicht speichern will. Etwas verwirrend ist allerdings die Option „Umbenennen“, aus der nicht hervorgeht, ob ein neuer Dateiname für die gerade zu speichernde Datei gewählt oder ob die bereits vorhandene Datei umbenannt werden soll.

Angebot vielfältiger Handlungsmöglichkeiten im Tempus-Editor
Angebot vielfältiger Handlungsmöglichkeiten im Tempus-Editor

Interaktive Potenziale nutzen

Im Grundlagenteil unseres Buchs haben wir die Potenziale interaktiver Nutzungsschnittstellen beschrieben und gezeigt, dass interaktive, digitale Systeme viele Einschränkungen analoger Medientechniken ebenso wie auch nicht interaktiver Datenverarbeitung überwinden können. Werden diese Potenziale nicht ausgeschöpft, können daraus ergonomische Probleme folgen, weil unnötige Eingaben erzwungen werden, um das zu erreichen, was auch ohne weitere Eingaben möglich wäre.

Flexible Granularität

Analoge Medien erzwingen grundsätzlich eine Entscheidung, ob ein Arrangement bearbeitbar ist oder ob es einen fixen, persistenten Charakter hat. Moderationstechniken beispielsweise nutzen kleine Karten zur individuellen Beschriftung, die dann in einem Gruppenprozess an Stelltafeln festgesteckt, gruppiert und annotiert werden. Will man das Ergebnis zu einem späteren Zeitpunkt oder an einem anderen Ort nutzen, kann man entweder versuchen, jeweils die Stelltafeln mit ihren Karten und Annotationen aufzubewahren bzw. zu transportieren oder man fotografiert das gesamte Arrangement. Im ersten Fall haben wir viele kleine Objekte in einem fragilen Arrangement, das auch weiterbearbeitet werden kann, im zweiten Fall nur ein monolithisches Objekt mit einer festen Anordnung der Elemente. Das Foto kann zwar einfach vervielfältigt und übertragen, jedoch nicht mehr verändert werden. Der damit verbundene Konflikt „Persistenz versus Bearbeitbarkeit“ kann in digitalen Systemen, angepasst an die Aufgabe und die Situation, flexibel aufgelöst werden.

Digitale Medien erlauben es, Objekte sowohl bearbeitbar als auch persistent zu halten. Sie ermöglichen auch, Objekte flexibel mal als Einzelobjekt und mal als Teil eines umfassenden Gesamtobjekts zu bearbeiten. Dieses Potenzial digitaler Medien ist die Voraussetzung dafür, dass die Objektgranularität nicht von vornherein festgelegt werden muss. Die flexible Granularität erweist sich beispielsweise bei der Gruppierung von Objekten in einer Präsentations-Software als besonders hilfreich. Die Folienobjekte können zeitweise zu einem einzigen Objekt verschmolzen, aber auch wieder auseinandergenommen und weiter einzeln bearbeitet werden. Diese Flexibilität stellt aber hohe Anforderungen an die Nutzungsschnittstelle, die für alle Operationen, die die Granularität verändern, entsprechende Funktionen bereithalten muss, die dann ihrerseits wieder Eingabeaufwand erzeugen.

Viel Eingabeaufwand beim Erstellen und Auflösen von Objektgruppen lässt sich sparen, wenn Objekte ohne granularitätsverändernde Operation sowohl als Teil eines Gesamtobjekts als auch als Einzelobjekt ansprechbar und bearbeitbar sind. Gelegentlich will man etwa Teilobjekte eines zusammengesetzten Objekts ändern, ohne dass sich die anderen Teile der Gruppe ändern. Wenn das nur möglich ist, indem zuvor die Gruppe aufgelöst wird, entsteht viel erzwungene Sequenzialität: das Gesamtobjekt auswählen, die Gruppierung aufheben, das Teilobjekt selektieren, die Änderung durchführen, alle durch die Aufhebung entstandenen Teilobjekte wieder auswählen und die Gruppe erneut erstellen. Abgesehen davon, dass dies aufwändig ist und dass sich beim Neuerstellen einer Gruppierung leicht Fehler einschleichen können, kommt noch hinzu, dass das ursprüngliche Gesamtobjekt ja zwischenzeitlich zerschlagen wird, sodass auch alle Attribute und Eigenschaften des Gesamtobjekts erneut hergestellt werden müssen. Das ist beispielsweise der Fall, wenn das Gesamtobjekt mit Animationsfeatures versehen ist.

In gängigen Präsentationsprogrammen ist der Aufwand zur Entgruppierung und Neugruppierung nicht mehr nötig, da für die Bearbeitung eines Teilobjekts nicht mehr die Auflösung der umfassenden Gruppe erforderlich ist. Die zusätzlich erforderliche Spezifikation, auf welches Objekt sich eine Selektion jeweils bezieht, ist gegenüber der eingesparten erzwungenen Sequenzialität vernachlässigbar klein. Es kann dafür eine Zusatzoperation wie zum Beispiel ein Dreifachklick, eine konsekutive Selektion, bei der zuerst das Gesamtobjekt und mit der anschließenden Selektion das Teilobjekt angesprochen wird, oder eine Modus-Taste festgelegt werden. Allerdings sind bezüglich des Einsatzes von Modi besondere Randbedingungen zu beachten, auf die wir im Kapitel Modusgestaltung eingehen.

Wiederverwendbare Ein- und Ausgaben

Eines der wichtigsten Potenziale interaktiver Schnittstellen ist, dass eine Ausgabe zu einer Eingabe werden kann. Dies war, wie wir schon beschrieben haben, ein essenzieller Punkt für die Entwicklung interaktiver Systeme. Es war das Ziel, den durch die organisatorische, räumliche und zeitliche Trennung von Ein- und Ausgaben bedingten Aufwand zu reduzieren, indem sowohl die Eingaben als auch die Ausgaben unmittelbar und direkt am Computer weiterverarbeitet werden können. Diese Art der Wiederverwendbarkeit erfordert, dass jede Eingabe und jede Ausgabe ein Objekt verkörpern, das an anderer Stelle und zu einem anderen Zeitpunkt weiterverwendet werden kann. Anders formuliert: Etwas, das schon einmal in den Computer eingegeben oder von ihm ausgegeben worden ist, muss nicht erneut eingegeben werden, unabhängig davon, um was für einen Typ (Text, Datei, Grafik usw.) es sich handelt.

Arbeit mit einer Kommandozeile
Arbeit mit einer Kommandozeile

Es gibt in der Praxis immer noch viele Fälle, in denen eine Ausgabe des Systems nicht direkt als Eingabe an anderer Stelle zur Verfügung steht, sondern neu getätigt werden muss. Wir beginnen mit dem Klassiker dieses Problems, das bei der Arbeit mit einer Kommandozeile auftritt. Die Ausgabe eines Befehls, also die Dateinamen, die mit dem ls-Befehl aufgelistet werden, stehen nicht als Objekt zur Verfügung. Sie müssen im nächsten Schritt erneut eingegeben werden. Mit Techniken moderner Nutzungsschnittstellen ist das nicht mehr erforderlich, denn es ist vom Grundsatz her möglich, eine händische Eingabe zu ersetzen, indem auf eine vorherige Eingabe oder eine vorherige Ausgabe verwiesen wird. Nehmen wir als Beispiel das Buchungssystem einer Bahngesellschaft. Wir suchen dort eine Verbindung durch die Eingabe von Start und Ziel. Das gewählte Ziel, beispielsweise Frankfurt, ist nicht eindeutig. Das System reagiert darauf, indem es mehrere Ziele, zum Beispiel Frankfurt an der Oder und Frankfurt am Main, zur Auswahl anbietet. Die auf dem Bildschirm befindliche Ausgabe kann nun automatisch durch Klicken auf „Frankfurt am Main Hbf“ in eine neue Eingabe verwandelt werden.

Bei der Wiederverwendung von Ein- und Ausgaben muss einschätzbar sein, welche Ausgaben und welche Eingaben potenziell wiederverwendet werden sollen. Innerhalb einer Anwendung, bei der man den Bearbeitungsprozess gut einschätzen kann, ist das noch relativ gut möglich. Problematisch wird es, wenn verschiedene Anwendungsprogramme zum Einsatz kommen. Um dann Wiederverwendbarkeit zu gewährleisten, müssten alle Anwendungsprogramme beliebige Ein- und Ausgaben in einer anderen Anwendung referenzieren können. Das wird so einfach nicht funktionieren, denn Anwendungsprogramme erzeugen durch ihre Programmierung eine eigene virtuelle Objektwelt, die oft nur in diesem Anwendungskontext existiert. Erst durch diese Programmierung werden Datenstrukturen innerhalb des Speichers zu Objekten, die wahrgenommen und manipuliert werden können. Wenn nun über Anwendungsgrenzen hinweg Ausgaben und vorherige Eingaben als neue Eingaben verwendet werden sollen, müssen die Anwendungsprogramme über eine kompatible Programmierung mit entsprechenden Datenstrukturen verfügen, denn nur dann ist das, was in einem Programm ein Objekt verkörpert, auch ein Objekt in anderen Programmen.

Diesem grundsätzlichen Problem kann nur mit übergreifenden Standards begegnet werden. Relevante Standards fangen schon bei so grundlegenden Aspekten wie der Zeichencodierung an. Nur dadurch, dass ein Editor eine gespeicherte Zahlenfolge auf gewisse Art und Weise interpretiert, entsteht ein Wort als manipulierbares Objekt am Bildschirm. Dieses Wort lässt sich je nach Blickwinkel als frühere Eingabe oder als Ausgabe interpretieren. Soll es in einem anderen Programm zur Eingabe werden, ist die Grundvoraussetzung, dass die gleiche Zeichencodierung verwendet oder zumindest als Eingabe akzeptiert werden kann. Glücklicherweise hat sich die Computerwelt in eine Richtung entwickelt, in der es viele Standardformate auf unterschiedlichen Ebenen gibt, angefangen bei Unicode über Containertechnologien wie Microsofts Object Linking and Embedding (OLE) bis hin zu einer jeweils systemweiten Zwischenablage. Diese Techniken ermöglichen es Objekten, die Anwendungsgrenzen relativ gut zu überwinden.

Klassische generische Lösung: Kopieren, Ausschneiden, Einfügen

Die Zwischenablage und die mit ihr verbundenen Funktionen Kopieren, Ausschneiden und Einfügen ermöglichen es, Objekte ziemlich flexibel sowohl innerhalb von Anwendungen als auch zwischen Anwendungen zu verschieben und zu kopieren. Kopieren und Ausschneiden sind in der Computernutzung so allgegenwärtig, dass aus dem Blickfeld gerät, dass es sich eigentlich oft um eine Rückfalllösung handelt, wenn es anders nicht möglich ist. Warum das so ist, wird an der bereits von uns vorgestellten Lösung des Fill-By-Click deutlich. Zur Erinnerung: In einem digitalen Formular, in das bereits eine Lieferanschrift eingegeben worden ist, kann diese durch einen Klick auf einen Button auch als Eingabe für die Rechnungsanschrift übernommen werden. Wir haben, als wir diese Technik vorstellt haben, noch nicht von „wiederverwendbaren Ein- und Ausgaben“ gesprochen, doch genau um solche handelt es sich. Die vorherige Eingabe der Adresse kann direkt wieder als Eingabe übernommen werden. Wäre diese Möglichkeit bei der Entwicklung nicht bedacht worden, könnte man immer noch die Neueingabe erheblich erleichtern, indem die Adresse Feld für Feld erst kopiert und dann an der neuen Stelle einfügt wird. Dieser Umweg über die Zwischenablage ist sehr hilfreich, aber doch immer noch ein Umweg, den man vermeiden kann.

Kopieren und Einfügen sind eine gute Lösung, wenn es nicht absehbar ist, wo und wie die Übernahme ablaufen wird. In diesem Fall spielt die Zwischenablage ihre große Stärke aus, prinzipiell generisch zu sein und potenziell alles mit allem verbinden zu können. Die klassische Implementierung der Zwischenablage hat übrigens das große Manko, dass immer nur das zuletzt in die Zwischenablage Kopierte zur Verfügung steht. Somit sind frühere Eingaben oder frühere Ausgaben, die in der Zwischenablage gelandet sind, oft nach kurzer Zeit wieder verloren, obwohl sie noch gebraucht werden könnten. Microsoft versucht momentan, ab Windows 10 diesem Manko durch die Einführung einer komplexeren Zwischenablage abzuhelfen.

Möglichst jede Eingabe und Ausgabe wiederverwendbar machen

Selektion von Texten in Systemmeldungen
Selektion von Texten in Systemmeldungen

Zur Erfüllung der Forderung, möglichst jede Ein- und Ausgabe wiederverwenden zu können, ist eine Zwischenablage zusammen mit den Funktionen Kopieren und Einfügen eine gute Technik. Allerdings müssen die Voraussetzungen innerhalb der Software geschaffen werden, dass sie auch anwendbar sind. Entsprechend müssen Ein- und Ausgaben so gestaltet sein, dass sie in die Zwischenablage kopiert werden können. In Bezug auf die Eingabe ist das in der Regel kein Problem, doch viele Ausgaben sind so gestaltet, dass sie nicht kopiert werden können. Dies betrifft zum Beispiel Fehlermeldungen in nativen Anwendungen. Der Text der Fehlermeldung kann oft weder komplett noch auszugsweise in die Zwischenablage kopiert werden. Doch auch eine Fehlermeldung ist eine Ausgabe des Systems, die an anderer Stelle zur Eingabe werden könnte, wenn sie beispielsweise in der schriftlichen Kommunikation für ein Hilfeersuchen benötigt wird.

Auch Fehleingaben erhalten!

Kopieren und Einfügen funktioniert so lange, wie die Inhalte, die wiederverwendet werden sollen, noch am Bildschirm verfügbar sind oder zumindest verfügbar gemacht werden können. Ein Problemfall, in dem das nicht mehr gegeben ist, sind Eingaben, die im Kontext der Software fehlerhaft gewesen sind. Diese werden von Nutzungsschnittstellen häufig direkt verworfen. Oft ist aber der Aufwand geringer, die Fehleingabe in eine richtige Eingabe umzuwandeln, als die Eingabe komplett zu wiederholen. Ein klassisches Beispiel ist eine Abfrage von Anmeldeinformationen. Werden diese nach Bestätigung vom System als falsch eingestuft, erscheint in mancher Software wieder eine leere Eingabemaske. Sämtliche Informationen müssen noch einmal eingegeben werden. Liegt zum Beispiel ein Tippfehler in einem Namen vor, ist das unnützer Eingabeaufwand, denn es wäre sicher einfacher, den Fehler zu korrigieren als die gesamte Eingabe zu wiederholen.

Ein ungültiger Dateiname führt zum Verwerfen der kompletten Eingabe
Ein ungültiger Dateiname führt zum Verwerfen der kompletten Eingabe

Auch in diesem Beispiel geht es um das Problem einer verworfenen Fehleingabe. Die Abbildung zeigt einen Verzeichnisinhalt im Finder von MacOS. Eine Datei, die zuvor noch „K96.pdf“ hieß, wird gerade umbenannt. Dazu ist ein sehr umfangreicher Dateiname gewählt worden, um schnell erkennen zu können, was der jeweilige Inhalt sein könnte. Leider enthält er mit dem Doppelpunkt ein Zeichen, das in Dateinamen am Mac nicht vorkommen darf. Bestätigt man den Dateinamen nun, gibt das Betriebssystem daher eine Fehlermeldung aus. Wird diese geschlossen, erscheint wieder der Name „K96.pdf“. Die komplette Eingabe, die ja nur in einem einzigen Zeichen hätte korrigiert werden müssen, ist verloren und muss wiederholt werden.

Weitergehende Beispiele: Screenshot und Farblupe

Eingabe einer Ausgabefarbe durch Verwendung einer Farblupe (in anderen Systemen häufig als Pipette bezeichnet)
Eingabe einer Ausgabefarbe durch Verwendung einer Farblupe (in anderen Systemen häufig als Pipette bezeichnet)

Die Forderung, Ein- und Ausgaben des Systems später wieder als Eingaben verwenden zu können, beschränkt sich nicht auf textuelle Inhalte oder Anwendungsobjekte, die mittels direkter Funktionalität oder über den Umweg Zwischenablage übertragen werden können. Auch das am Monitor angezeigte Bild selbst verkörpert eine Ausgabe des Systems. Es sollte vollständig oder in Teilen an anderer Stelle wieder zur Eingabe genutzt werden können. Eine Möglichkeit, dies umzusetzen, ist das Erstellen eines Screenshots. Das Buch, das Sie gerade lesen, lebt regelrecht davon, dass die Ausgaben eines Systems, nämlich die Nutzungsschnittstellen verschiedener Programme, zur Eingabe für den Buchinhalt werden konnten. Die Screenshots wurden in Dateien abgespeichert und in den Buchtext eingebunden.

Auf einer anderen Granularitätsebene können Sie jedes einzelne Bildschirmpixel als Ausgabe des Systems auffassen. Diese Ausgabe sollte wieder zur Eingabe werden können. Diese Anforderung mag zunächst etwas überspitzt klingen, doch der oben dargestellte Farbauswahldialog erlaubt genau das. Die aus vielen Grafikprogrammen bekannte Farbpipette, die dazu dient, von einer beliebigen Stelle in einem Bild die Farbwerte abzunehmen, funktioniert hier als Farblupe systemweit. Wenn die Lupe aktiviert wird, kann sie von einem beliebigen Punkt des Bildschirms eine Farbe abnehmen, unabhängig davon, ob sie zur gerade laufenden Anwendung gehört. Der Farbwert kann ermittelt und übertragen werden.

Inkrementelle Rückmeldung
Inkrementelle Rückmeldung des Hilfesystems von Windows 95
Inkrementelle Rückmeldung des Hilfesystems von Windows 95

Eine wichtige Möglichkeit zur Reduzierung der Anzahl notwendiger Eingaben ist die frühzeitige Rückmeldung. Sobald bereits nach der Eingabe der ersten Zeichen die Ausgabe angezeigt wird, sprechen wir von „inkrementeller Rückmeldung“. Dies wollen wir am Beispiel des Hilfesystems von Windows 95 illustrieren. Das System bietet unter anderem das Anwählen von Stichworten in einem Index an. Um die Anzahl der Elemente in einem Index zu beherrschen, können Suchergebnisse über Filter eingeschränkt werden. Das Beispiel zeigt, dass bereits nach einigen Buchstaben anhand der Ausgabe erkennbar ist, ob der Eintrag entweder nicht vorhanden ist oder ob er nach weiteren Eingaben noch prinzipiell auffindbar sein könnte. Im besten Fall zeigt das selektierte Ausgabefeld bereits den gewünschten Eintrag an. In allen drei Fällen können durch diese inkrementelle Rückmeldung etliche Eingaben eingespart werden, denn Stichwörter müssen nicht immer komplett eingegeben und Schreibfehler können frühzeitig erkannt und korrigiert werden. Das setzt allerdings voraus, dass der Index geordnet ist, also eine (meist textuelle) Eingabe mit ihrer Länge „inkrementiert“, das heißt spezifischer wird.

Der Minimierung der Eingabe durch inkrementelle Rückmeldung steht der Nachteil einer potenziellen Ablenkung gegenüber, denn wenn eine Eingabe schon ausgewertet wird, bevor sie abgeschlossen ist, ändert sich während der Eingabe das Objektarrangement am Bildschirm und schafft dadurch eine unruhige Atmosphäre, vor allem, wenn sich diese Änderungen im peripheren Wahrnehmungsfeld vollziehen. Es muss also die Eingabeminimalität gegen die Ablenkungsfreiheit austariert werden, indem man festlegt, wann und in welchem Umfang bereits während der Eingabe solche Auswertungen stattfinden.

Handlungen handhabbar machen

Die bisherigen Hinweise zur Eingabeminimalität zielten darauf ab, die Menge der notwendigen Eingaben zu verringern. Diese Art der Minimierung ist jedoch nur die halbe Miete, denn auch wenn die Eingabemenge selbst reduziert wird, kann es immer noch zu allerlei Problemen kommen, wenn eine Eingabe nicht hinreichend präzise durchgeführt werden kann, wenn die Eingabe so kleinteilig erfolgen muss, dass sie viel Zeit beansprucht, oder wenn die Eingabemöglichkeit so ungünstig gestaltet ist, dass es zu vielen Fehleingaben kommt. Es gilt also, Eingaben nicht nur zu vermeiden, sondern nötige Eingaben so zu gestalten, dass sie präzise und effizient durchgeführt werden können.

Die erste Forderung an diese Eingabemöglichkeiten ist die Eingabepräzision:

Die Erfüllung dieser Forderung verlangt, dass Handlungen zügig mit der für die Erledigung der Aufgabe erforderlichen Präzision durchgeführt werden können. Das erfordert auch, die Granularität der Eingabeoperationen der Granularität der zu lösenden Aufgabe anzupassen.

Für die präzise Steuerung eines langen Filmes ist die Eingabeform nicht feingranular genug.
Für die präzise Steuerung eines langen Filmes ist die Eingabeform nicht feingranular genug.

Dieses Beispiel zeigt eine Verletzung der Forderung nach Eingabepräzision. Zu sehen ist eine Fernsteuerungs-App auf dem iPhone, mit der man den auf einem Rechner installierten Medienplayer iTunes fernsteuern kann. Die Anzeige besagt, dass ein Film mit einer Länge von annähernd zwei Stunden abgespielt wird. Will man nun zu einer bestimmten Position springen, sagen wir zum Punkt 1:05:32, muss dazu der obere Slider an die entsprechende Position bewegt werden. Dies wird jedoch selbst bei einem vorsichtigen Vorgehen kaum gelingen, weil der Slider schlicht zu klein ist, um den Punkt präzise treffen zu können. Es fehlt an der notwendigen, technisch jedoch möglichen Eingabepräzision für diese Aufgabe3. Die räumliche Länge des Sliders lässt sich motorisch nicht präzise auf die zeitliche Länge des Films abbilden.

Eingabepräzision versus Platzbedarf (Übersichtlichkeit, Strukturiertheit)
Lokale Vergrößerung der Granularität durch lokale Vergrößerung der Eingabeskala (YouTube)
Lokale Vergrößerung der Granularität durch lokale Vergrößerung der Eingabeskala (YouTube)

Ein Slider, der ein präzises Springen im gesamten Film ermöglicht, müsste deutlich länger ausfallen. Dieser Platz ist aber in der Nutzungsschnittstelle eines Smartphones nicht vorhanden. Doch auch wenn er vorhanden wäre, sprechen unsere Forderungen nach Übersichtlichkeit und Strukturiertheit dagegen, derart große Eingabeelemente anzubieten. Für diese Art von Konflikten ist die Technik der lokalen Vergrößerung eine gute Lösung. Auf einige Spielarten dieser Technik kommen wir noch zu sprechen. Hier geht es erstmal um die Lösung für das Beispiel des Springens innerhalb des Films, die YouTube bei Filmen mit einer Laufzeit von mehr als einer Stunde anbietet.

Will man in dem Beispiel etwa auf die Position 38:33 springen, wählt man zunächst auf der groben Skala eine ungefähre Position und zieht die Positionsmarke dann nach oben. Dabei spreizt sich die Skala, sodass nun im Lokalen sehr genau die gewünschte Position gefunden werden kann. Die lokale Vergrößerung ermöglicht trotz des geringen Platzes ein hinreichend präzises Arbeiten. Erkauft wird die Möglichkeit durch eine zusätzliche Operation zur Aktivierung der Vergrößerung. Mangelnder Platzbedarf wird durch erzwungene Sequenzialität aufgelöst. Problematisch ist in diesem Zusammenhang auch, dass es keinerlei wahrnehmbaren Hinweis auf diese Vergrößerung gibt. Man muss die Funktionalität kennen oder aber sie zufällig entdecken. Derartige Probleme werden wir in der Forderung nach Erschließbarkeit in kommenden Kapiteln behandeln.

Schnelligkeit versus Sicherheit

Die Forderung nach Eingabepräzision offenbart noch einen weiteren Gestaltungskonflikt, denn es geht nicht nur um die Frage, ob eine Handlung zielgenau ausgeführt werden kann, sondern auch wie schnell. Anders ausgedrückt: Welcher Grad an bewusster Konzentration ist erforderlich bzw. wie routiniert kann eine Handlung ausgeführt werden, ohne dass die Wahrscheinlichkeit von Fehlhandlungen steigt? In der Softwareergonomie führen die Forderungen nach Schnelligkeit und Sicherheit von Eingaben meist zur Frage nach der Positionierung und Größe von Eingabeelementen auf dem Bildschirm zum Zwecke der räumlichen Positionierung per Maus, Stift- oder Berührungseingabe. Um diese Probleme lösen zu können, sind einige grundsätzliche Überlegungen nötig.

Motorische Handlungen lassen sich gut als Bewegung modellieren, bei denen von einem Startpunkt ausgehend ein kontinuierlicher Abgleich zwischen Ist-Position und Soll-Position stattfindet. Experimentelle Untersuchungen zeigen einige Besonderheiten solcher Handlungen auf, die, ebenso wie die Architektur der Wahrnehmung, bei der Gestaltung berücksichtigt werden müssen.

Experiment „Schnellstmögliches Zeichnen zwischen Linien“ – Quelle: Card, Stuart K.; Moran, Thomas P. and Newell, Allen: „The Psychology of Human-Computer Interaction“
Experiment „Schnellstmögliches Zeichnen zwischen Linien“ – Quelle: Card, Stuart K.; Moran, Thomas P. and Newell, Allen: „The Psychology of Human-Computer Interaction“

Die Abbildung zeigt eine Aufgabe aus einem wissenschaftlichen Experiment, bei der es darum ging, fünf Sekunden lang so schnell wie möglich zwischen geraden Grenzlinien hin und her zu zeichnen und dabei die Linien möglichst wenig zu überschreiten. Man erkennt in der Abbildung anhand der vielfach überschrittenen Linien, dass es kaum möglich ist, Geschwindigkeit und Genauigkeit gleichermaßen zu erreichen. Schaut man sich den Verlauf von links nach rechts etwas genauer an, stellt man fest, dass die Überschreitungen nicht gleichmäßig verteilt sind: Eine Versuchsperson zeichnet ein Zackenmuster und überschreitet an einigen Stellen die Begrenzungslinien. Nach einiger Zeit wird dies bemerkt und das Verhalten korrigiert. Die Zacken liegen nun wieder deutlicher innerhalb der Begrenzungslinien, teilweise deutlich darunter. Eine erneute Korrektur stand an. Doch warum gelingt es nicht, den Fehler schon mit dem Zeichnen der jeweils nächsten Zacke zu korrigieren? Offensichtlich gibt es eine Diskrepanz zwischen Erkennen und Handeln. Das Zusammenspiel aus Wahrnehmung und Motorik ist zu langsam, um Korrekturen schnell genug bewerkstelligen können. In der gezeigten Abbildung hat es die Versuchsperson geschafft, in fünf Sekunden 68 Zacken zu zeichnen. Das heißt, für jede Zacke hat sie nur 73,53 Millisekunden benötigt. In weiteren ähnlichen Experimenten konnte ermittelt werden, dass die Zeit, die für die visuelle Rückkopplung des Gezeichneten benötigt wird, etwa bei 240 Millisekunden liegt. Teilt man die 5 s durch 240 ms ergibt sich, dass ein Mensch in fünf Sekunden seine motorische Handlung etwa 21-mal korrigieren kann. Die Versuchsperson in unserem Beispiel liegt mit ihren 20 Korrekturen also gut im Durchschnitt.

Was lehrt uns dieses Experiment? Die Hand-Auge-Koordination erfolgt nicht synchron und deshalb auch nicht beliebig genau. Während ein Fehler wahrgenommen wird, geht die Handlung weiter. Bis er dann verarbeitet worden ist und in eine Korrektur einmündet, ist die Situation schon wieder eine andere.

Fitts‘s Law

Genau diese Erkenntnis steht auch im Zentrum des vielleicht bekanntesten Beitrags der Psychologie zur Ergonomie: das Gesetz von Fitts, meistens in seiner englischen Form als Fitts’s Law4 bezeichnet. Dieses „Gesetz“ geht auf die Untersuchungen des amerikanischen Psychologen Paul M. Fitts zurück. Fitts hat in der Psychologieabteilung des Air Force Research Laboratory gearbeitet. Seine Untersuchungen haben also, zumindest im weitesten Sinne, die Verbesserung der Flugsicherheit zum Ziel und werden deshalb als ergonomische Studien betrachtet. Die Untersuchung, deren Ergebnis heute „Fitts’s Law“ genannt wird, hat Fitts bereits im Jahre 19545 veröffentlicht. Dass seine Erkenntnisse Anfang der 1980er Jahre Eingang in die Softwareergonomie gefunden haben, hat er selbst nicht mehr erlebt. Aufgrund der besonderen Aufmerksamkeit, die diesem Gesetz zuteilgeworden ist, und der speziellen Schwierigkeiten, es anzuwenden, wollen wir es nachfolgend ausführlicher behandeln.

Fitts-Experimente – Quelle: Fitts, Paul M.: The information capacity of the human motor system in controlling the amplitude of movement. Journal of Experimental Psychology, Issue 47, No. 6, pp. 381-391. 1954.
Fitts-Experimente – Quelle: Fitts, Paul M.: The information capacity of the human motor system in controlling the amplitude of movement. Journal of Experimental Psychology, Issue 47, No. 6, pp. 381-391. 1954.

Die Veröffentlichung von Fitts beschreibt den Aufbau, die Durchführung und die Ergebnisse einer Reihe von Experimenten, von denen einige abgebildet sind. Im linken Experiment haben die Probanden vor sich zwei Strukturen, die jeweils einen inneren und einen äußeren Bereich haben. Mit dem Stift sollen sie nun möglichst schnell, aber auch möglichst ohne Fehler zu machen, abwechselnd jeweils in den linken und rechten inneren Bereich tippen. Tippen Sie daneben und geraten in den äußeren Bereich, wird ein Stromkreis geschlossen und ein Fehlerzähler erhöht. Beim mittleren Experiment geht es darum, auf einen Stift aufgesteckte Unterlegscheiben eine nach der anderen von einer Seite auf die andere Seite zu bringen. Ähnlich ist es beim rechten Experiment, bei dem Stifte aus einem Brett nacheinander in die Löcher des jeweils anderen Bretts gesteckt werden müssen.

Was aus Fitts‘ Überlegungen und seinen Ergebnissen abgeleitet werden kann, lässt sich auf verschiedene Weise ausdrücken und mathematisch formulieren. Die in der Mensch-Maschine-Interaktion übliche Interpretation, die man auch in der deutschen Wikipedia findet, lautet: „[Fitts’s Law] besagt, dass die benötigte Zeit, um eine Zielfläche zu erreichen, eine Funktion der Distanz zu dieser Fläche und deren Größe ist.“ Wenn man die Veröffentlichung von Fitts liest, findet man diese Aussage in der Form jedoch nicht. Fitts formuliert wie folgt:

If the amplitude and tolerance limits of a task are controlled by E6, and S7 is instructed to work at his maximum rate, then the average time per response will be directly proportional to the minimum average amount of information per response demanded by the particular conditions of amplitude and tolerance.

Fitts bezieht sich mit seinen ungewöhnlich klingenden Formulierungen auf die Konzepte der Shannon’schen Informationstheorie. Wir wollen diese Hypothese in verständlichere Ausdrücke übersetzen, auch wenn wir damit einen kleinen Verlust an Präzision in Kauf nehmen müssen. Nehmen wir als Beispiel einen Mauszeiger und ein Objekt auf dem Bildschirm. Das Ziel ist, das Zielobjekt mit dem Mauszeiger zu erreichen, um es beispielsweise anklicken zu können.

Wir wenden nun Fitts’s Law auf diese Situation an. Dafür können wir den Begriff „amplitude“ in Distanz vom Mauszeiger zum Ziel übersetzen, denn die Amplitude steht für die Bewegungsreichweite, die genau dieser Distanz entspricht. Die „tolerance limits“, von denen Fitts spricht, bezeichnen die mögliche Ungenauigkeit beim Zeigen. Beim Button entspricht das seiner Ausdehnung in der Bewegungsrichtung des Mauszeigers. Die „average time per response“ ist die durchschnittliche Zeit, um auf das Ziel zu zeigen. Die „minimum average amount of information per response“ bezeichnet Fitts an anderer Stelle selbst als „index of difficulty“, also Schwierigkeitsgrad. Er beziffert die Schwierigkeit, um auf das Ziel zu zeigen. Wenden wir das alles an, kommt Folgendes heraus:

Die durchschnittliche Zeit, um fehlerfrei auf ein Ziel zu zeigen, hängt direkt proportional von der Schwierigkeit ab, darauf zu zeigen. Diese Schwierigkeit wird bestimmt von der Entfernung zum Ziel und der Toleranz, darauf zu zeigen.

Das von uns hier hinzugefügte „fehlerfrei“ steckt in den Untersuchungen von Fitts in der Aufgabenstellung, bei der beim ersten Experiment etwa die Probanden aufgerufen waren, die Aufgabe möglichst schnell ohne Fehler durchzuführen. Die tatsächlich geringen Fehlerzahlen in den Experimenten interpretiert Fitts dementsprechend als Anpassung der Geschwindigkeit an die Schwierigkeit der Aufgabe seitens der Versuchspersonen.

Wenn man obige Definition auf einen typischen Button anwendet, entspricht die Interpretation jener, die bei Wikipedia zu finden ist. Dies ist aber nur ein sehr spezieller Fall. Wir möchten mit unserer Formulierung daher gerne den Blickwinkel auf zwei Konstrukte in der Argumentation lenken, zum einen dem Schwierigkeitsgrad und zum anderen dem allgemeineren Konzept der Zieltoleranz.

Fitts’s Law wird heute meist mit der Formel

MT = a + b * log2(D / W + 1)

angegeben. Ersetzen wir das konkrete W für die Objektgröße durch T für die Zieltoleranz, bleibt:

MT = a + b * log2(D / T + 1).

Der hintere Term ist der Schwierigkeitsindex in der sogenannten Shannon-Form8:

ID = log2(D / T + 1).

MT steht für die durchschnittliche Zeit, ID für den Schwierigkeitsgrad, D für die Objektentfernung und T für die Zieltoleranz. Die Konstanten a und b hängen vom individuellen Handelnden und den Umständen der Handlung ab und müssen separat ermittelt werden.

Die Aussage von Fitts’s Law kann nun auf vielfältige Art und Weise zu Aussagen umgeformt werden wie: „Soll es schneller gehen, muss entweder die Schwierigkeit sinken oder es muss von Fehlern ausgegangen werden.“ oder: „Ist eine schwierige Zeigeoperation notwendig, bedarf es mehr Zeit, sie durchzuführen.“ Zentral ist jeweils die Schwierigkeit. Diese gilt es im Sinne der Reduzierung erzwungener Sequenzialität zu verringern. Dies ist nach Fitts’s Law durch Änderung der Entfernung zum Ziel oder der Toleranz, das Ziel zu treffen, möglich. Wird die Entfernung zum Ziel verringert, wird es einfacher, ebenso wenn die Größe des Objekts zunimmt oder man das Ziel nicht genau treffen muss.

Wichtig ist der Logarithmus in der Formel. Es handelt sich bei der Schwierigkeit nicht um ein lineares Verhältnis zu den beeinflussenden Größen, sondern um ein logarithmisches: Die größte Steigerung hat der Logarithmus bei D/T nahe Null. Die niedrigsten Schwierigkeitsgrade erhalten wir also im Bereich der Verhältnisse kleiner D-Werte zu großen T-Werten. Folglich bringt die Verkleinerung bereits kurzer Distanzen im Verhältnis mehr ein als die Verkleinerung großer Distanzen. Noch wichtiger ist für uns aber die Erkenntnis bezüglich des T: Die Vergrößerung kleiner Toleranzen bringt im Verhältnis mehr ein als die Vergrößerung großer Toleranzen. In vielen Fällen hat man in der Gestaltungspraxis nicht die Freiheiten, beide Größen optimieren zu können. Wenn das T klein sein muss, weil zum Beispiel kleine Buttons genutzt werden müssen, da wenig Platz zur Verfügung steht, sollte für einen kleinen Schwierigkeitsgrad das D klein gehalten werden. Wenn D groß ist oder, wie wir sehen werden, nicht eingeschätzt werden kann und damit potenziell groß sein könnte, kann der Schwierigkeitsgrad nur dadurch verringert werden, dass eine große Toleranz gewählt wird.

Einschränkungen von Fitts’s Law für die Gestaltungspraxis

Nun gilt es genauer zu betrachten, inwieweit Fitts’s Law als Grundlage zum Austarieren von Design-Konflikten und daraus resultierenden Gestaltungsanforderungen geeignet ist. Aber nicht jeder Aspekt des Gesetzes ist für uns interessant. Da wir nicht daran interessiert sind auszurechnen, wie lange eine Zeigeoperation tatsächlich dauert, berücksichtigen wir die Konstanten a und b nicht weiter. Unser Interesse gilt nur dem Schwierigkeitsindex und seiner Minimierung. Fitts’s Law legt zwei Ansatzpunkte nahe, wobei die Erkenntisse bezüglich der Toleranz die wichtigeren sind, denn bezüglich der Verringerung des Abstands zur Beschleunigung der Zeigeoperation können wir kaum etwas erreichen, weil wir auf diesen Abstand oft keinen Einfluss haben.

Um das zu verdeutlichen, betrachten wir den Start-Button von Windows und stellen uns die Aufgabe, ihn durch die Optimierung der Entfernung zum Mauszeiger schneller erreichbar zu machen. Wie soll das gehen? Wir können schlichtweg nicht allgemein aussagen, wo sich der Mauszeiger auf dem Bildschirm gerade befindet, wenn die Entscheidung fällt, das Startmenü aufzurufen; die Distanz ist also eine Unbekannte.

Lokales Angebot der Handlungsoptionen verkürzt die Distanz in Fitts's Law (CKEditor 5)
Lokales Angebot der Handlungsoptionen verkürzt die Distanz in Fitts’s Law (CKEditor 5)

Es gibt Situationen, in denen bekannt oder mit hoher Wahrscheinlichkeit vermutet werden kann, wo sich der Mauszeiger befindet. Das kann der Fall sein, wenn es inhaltliche Abhängigkeiten zwischen den Objekten gibt oder die Arbeitsaufgabe eine Reihenfolge nahelegt. Der Webeditor CKEditor 5 etwa bietet die Manipulationsmöglichkeiten jeweils in direkter Nähe zum Objekt an. Durch diese Platzierung sind die Mauswege kurz und damit schnell. Fitts’s Law wird aber nicht benötigt, um die Nähe der Einblendung zur Textmarkierung zu begründen. Unsere Forderungen nach Strukturiertheit (aufeinander Bezogenes auch beieinander platzieren) und Lokalität (Rückmeldungen am Ort der Handlung) würden eine solche Gestaltung ohnehin bereits fordern.

Während die Entfernung für uns aus den genannten Gründen nicht im Fokus steht, können wir bei der Zieltoleranz gut ansetzen: Gerade durch die Vergrößerung sehr kleiner Objekte lässt sich eine gute Verringerung der Schwierigkeit bewirken und das unabhängig davon, wo eine Zeigeoperation startet.

Die Größe eines Objekts im Sinne von Fitts's Law ist abhängig von der Bewegungsrichtung
Die Größe eines Objekts im Sinne von Fitts’s Law ist abhängig von der Bewegungsrichtung

Entscheidend für den Toleranz- bzw. Größenaspekt ist die Toleranz oder Objektausdehnung in der Bewegungsrichtung. Sie sehen auf der Abbildung, dass der Button in den Fällen 1 und 3 gemäß Fitts’s Law erheblich kleiner ist als im Fall 2. Da aus den zuvor schon genannten Gründen nicht vorhersehbar ist, von welcher Position aus ein Objekt angesteuert wird, ist somit die kleinste mögliche Zielgröße für unsere Überlegung relevant. Bei rechteckigen Objekten, mit denen wir es am Bildschirm überwiegend zu tun haben, ist das also die kleinste Seite.

Menüelemente im Notepad-Editor von Windows 10 sind schwer zu treffen, da ihre Größe in Bezug auf die Bewegungsrichtung sehr gering ist.
Menüelemente im Notepad-Editor von Windows 10 sind schwer zu treffen, da ihre Größe in Bezug auf die Bewegungsrichtung sehr gering ist.

In der Praxis sind es meistens die Objekthöhen, die problematisch sind. Beim Editor Notepad von Windows 10 ist das zielgerichtete Anvisieren der Menüpunkte „Datei“, „Bearbeiten“ etc. einigermaßen schwierig und damit auch langsam und fehlerträchtig. Möglicherweise ist das einer der Gründe, warum dieses klassische Menü bei Windows momentan auf dem Rückzug ist und es immer mehr Anwendungen ohne diese Art von Menü gibt.

Folgerungen für die Gestaltung

Große Zielflächen

Wenn Sie bei der Gestaltung von Zeigeoperationen die Schwierigkeit senken und damit erzwungene Sequenzialität reduzieren wollen, müssen Sie die Zieltoleranz erhöhen. Am einfachsten erfolgt dies über die Vergrößerung der Zielobjekte. Große Objekte sind sowohl schneller als auch sicherer zu treffen.

Besonders wichtig ist das Vergrößern von Zielflächen beim Einsatz von Touch-Bildschirmen. Icons, Buttons und andere Elemente, die Sie bei Maus- oder Trackpad-Nutzung anklicken würden, werden beim Einsatz solcher Bildschirme nicht angeklickt, sondern angetippt. Der Unterschied in der Interaktion scheint auf den ersten Blick gering, ist aber tatsächlich sehr groß. Touch-Interaktion wird geschätzt, weil sie direkter ist als das Interagieren mit einem Eingabegerät und einem Mauszeiger. Das Anklicken per Zeiger hat aber den großen Vorteil, dass die Objektanwahl durch das Bewegen des Zeigers zum Zielort unabhängig von der Auslösung einer Funktion durch das Klicken geschieht. Selbst wenn man ungeschickt mit der Maus umgeht oder das Gerät nicht besonders gut funktioniert, ist die Handlung wenig fehleranfällig, weil die Ansteuerung durch zwei verschiedene Operationen erfolgt: Die Bewegung des Mauszeigers durch Schieben und das Auslösen der Funktion durch einen Klick sind voneinander entkoppelt. Erst wenn der Zeiger an die passende Position bewegt worden ist, wird durch einen Klick die Funktion ausgelöst. Dabei kann man das Anvisieren auch beliebig verlangsamen. Beim Touch-Bildschirm geht das nicht, da beide Operationen in einer Geste zusammenfallen. Die Positionierung muss also gleich beim ersten Mal passen, was die Gefahr einer versehentliche Fehleingabe stark erhöht, zumal beim Auslösen einer Funktion mit einem Finger das Zielobjekt teilweise verdeckt wird. Um das zu vermeiden, muss man, beispielsweise durch die Vergrößerung der Buttons, die Zieltoleranz erhöhen.

Große Zielflächen, kleineres dargestelltes Objekt
Große Zielflächen, kleineres dargestelltes Objekt

Sie können Zielflächen auch vergrößern, ohne sie optisch groß darzustellen. In diesen drei Beispielen ist die Zielfläche jeweils deutlich größer als das eigentlich dargestellte Objekt. Die Icons in der Menüleiste von LibreOffice (links) haben, wie an dem umrahmten Icon zu sehen ist, einen viel größeren Selektionsbereich als das eigentliche Bild. Bei der Drop-down-Liste in der Mitte kann die gesamte Fläche zum Aufklappen genutzt werden, nicht nur das eigentliche Aufklappfeld rechts. Bei den Radio-Buttons9 auf der rechten Seite ist der komplette Text, der zu einem Optionspunkt gehört, Teil der Zielfläche. Aktuelle Betriebssysteme besorgen diese Art von Eingabeerleichterungen selbst. Falls man aber, etwa in einer Webanwendung, diese Nutzungsschnittstellen-Elemente selbst gestalten muss, sollte die Vergrößerung der Zielflächen über die sichtbaren Interaktionselemente hinaus mitbedacht werden, wenn nicht ohnehin große Elemente erzeugt werden sollen.

Große Toleranzen für Zeigeoperationen zu implementieren führt zu Konflikten, da zwangsläufig die Anzahl der gleichzeitig selektierbaren Elemente sinkt, wenn die Zielflächen einander nicht überlappen. Es ist also notwendig, entweder die Anzahl der möglichen Optionen einer Software zu beschränken oder die Nutzungsschnittstelle auf mehrere Bildschirmseiten aufzuteilen. Im letzten Fall entstehen Probleme mit der Erschließbarkeit der Software, denn es ist jetzt aufwändiger, alle vorhandenen Möglichkeiten zu erfassen. Wir werden uns im Kapitel Orientierung eingehender mit diesem Problem beschäftigen.

Ausnutzen der Bildschirmränder

Bei Zeigeoperationen mit Maus oder Touchpad kommt den Bildschirmrändern und Bildschirmecken eine besondere Rolle zu. Im Gegensatz zum Finger bei einer Touch-Eingabe ist der Mauszeiger innerhalb des Bildschirms gefangen. Wenn man den Zeiger gegen den Bildschirmrand bewegt, kann man die Maus zwar darüber hinaus bewegen, der Zeiger bleibt jedoch stehen. Diese Eigenschaft können wir ausnutzen.

Konsequenzen der Objektpositionierung am Bildschirmrand
Konsequenzen der Objektpositionierung am Bildschirmrand

Diese Abbildung verdeutlicht die Konsequenz der Objektpositionierung am Bildschirmrand. Objekte, die so angeordnet sind, dass sie mit dem oberen Bildschirmrand abschließen, haben, wenn man sie gemäß Fitts’s Law interpretiert, eine unendliche Zieltoleranz in dieser Richtung. Bei einem Button würde das quasi einer unendlichen Ausdehnung entsprechen. Es ist also besonders schnell und vor allem auch besonders einfach, ihn in dieser Hinsicht zu treffen. Dies ist auch der Grund dafür, warum bei Apple schon seit der Veröffentlichung der Lisa10 im Jahr 1983 die Menüleiste am oberen Bildschirmrand angebracht ist. Ihre Objekte sind im Gegensatz zu den alten Windows-Menüleisten (siehe oben) einfacher zu treffen.

Der Effekt potenziert sich in den vier Ecken des Bildschirms. Diese sind schnell und sehr einfach zu erreichen. Jede Bewegung, die auch nur ansatzweise nach links und unten gerichtet ist, landet beispielsweise, wenn sie nur lange genug ausgeführt wird, zwangsläufig in der linken, unteren Ecke. Dies haben sich die Betriebssystemhersteller zunutze gemacht.

Ausschnitte aus den Taskleisten von Windows XP und Windows 7
Ausschnitte aus den Taskleisten von Windows XP und Windows 7

In den gezeigten Ausschnitten aus den Taskleisten von Windows XP oben und von Windows 7 unten wird die unendliche Zielfläche ausgenutzt. Sowohl der Startknopf unten links als auch die Fläche zum Anzeigen des Desktops unten rechts sind mit der Maus sehr einfach zu erreichen.

Leider wird man das Prinzip der unendlichen Zielflächen am Bildschirmrand nur selten in der Gestaltung eigener Software einsetzen können, denn das wäre nur möglich, wenn damit die Kontrolle des kompletten Bildschirms verbunden ist, also das Programm im Vollbild läuft. Dann sind die Plätze an den Bildschirmrändern und in den Bildschirmecken sehr wertvoll. Wenn aber eine Anwendung zu gestalten ist, die in einem Fenster läuft, würde ein Positionieren von Objekten am Fensterrand eher für Probleme sorgen, denn es besteht die Gefahr, dass beim Versuch, dort ein Element zu treffen, versehentlich am Fenster vorbei geklickt und dadurch ungewollt die Anwendung gewechselt wird. Eine Positionierung von Elementen am Rand würde somit der Eingabesicherheit stark widersprechen.

Positionierungshilfen

Räumliches Positionieren in grafischen Nutzungsoberflächen erlaubt eine sehr genaue Positionierung bis auf die Pixelebene. Eine so genaue Positionierung ist aber schwierig auszuführen und damit nach Fitts’s Law langsam bzw. fehlerträchtig. Zur Eingabeunterstützung bieten sich in solchen Fällen Positionierungshilfen wie Raster oder Magnetlinien an.

Positionierungshilfe im Präsentationsprogramm Keynote
Positionierungshilfe im Präsentationsprogramm Keynote

Die abgebildete Positionierungshilfe aus dem Präsentationsprogramm „Keynote“ von Apple trägt dem Umstand Rechnung, dass Objekte oft an anderen Objekten ausgerichtet werden. Ziel der räumlichen Manipulation dieses Textobjekts ist es, dieses auf die gleiche Höhe wie ein anderes, schon positioniertes Textobjekt zu bringen. Diese Höhe auf Anhieb ohne Unterstützung zu treffen ist sehr schwer, vor allem wenn die beiden auszurichtenden Objekte nicht direkt nebeneinander stehen. Die Positionierung wird durch die Positionierungshilfe dadurch erleichtert, dass das Textobjekt auf der passenden Höhe – ähnlich wie beim Bildschirmrand – quasi hängen bleibt. Die relative Ausrichtung wird durch die Einblendung einer Hilfslinie angezeigt. Man muss also nicht pixelgenau positionieren, sondern kann mit einer deutlich größeren Zieltoleranz besser arbeiten.

Positionierungshilfen dieser Art sind immer dann möglich und sinnvoll, wenn eine Positionierung in Relation zu einem Rand, einem Raster, einem anderen Objekt oder einem explizit angegebenen Bereich mit hoher Wahrscheinlichkeit angenommen werden kann. Ein Einrasten wie oben beschrieben macht es jedoch nahezu unmöglich, absichtlich eine leicht versetzte Positionierung zu erzeugen. In manchen Fällen, etwa bei einem Raster für Icons, ist das auch nicht notwendig, in anderen Fällen ist es wichtig, dass die Positionierungshilfen für diese Fälle ausschaltbar sind, etwa durch das Drücken einer Modifikatortaste wie ALT oder SHIFT während der Positionierung. Würden Sie nicht für diese Möglichkeit sorgen, hätten Sie durch Ihre gut gemeinte Verringerung der Zieltoleranz die Forderung nach Eingabegenauigkeit verletzt.

Lokale Vergrößerungen

In Gestaltungsprozessen schränken viele Vorgaben und Randbedingungen die Umsetzung ergonomischer Forderungen ein. So kann es sein, dass die Anzahl der anzuzeigenden Elemente, von denen eines auszuwählen ist, sehr groß sein muss. In anderen Situationen lässt sich die Größe der Bildschirmobjekte oder der Zielflächen frei gestalten, weil es sich zum Beispiel um Objekte handelt, die erst während der Nutzung erzeugt oder angezeigt werden oder weil es sich um Inhalte handelt, die ursprünglich für ein anderes Ausgabemedium gedacht waren.

Vergrößerung von Objekten im Dock eines Macs
Vergrößerung von Objekten im Dock eines Macs

In solchen Fällen kann eine lokale Vergrößerung helfen, wie das Beispiel eines Docks für Programme zeigt. Je mehr Elemente das Dock enthalten soll, desto kleiner müssen die Objekte werden, wenn sie vollzählig angezeigt werden sollen. Ab einer bestimmten Anzahl würde der Schwierigkeitsgrad, sie verlässlich zu treffen, zu groß. Das Dock kann aber so eingestellt werden, dass die Objekte in dem Bereich, in dem man sich mit dem Mauszeiger befindet, deutlich größer dargestellt werden als die umliegenden. Im vergrößerten Bereich ist es dadurch möglich, das jeweils gewünschte Objekt verlässlich anzuwählen.

Lokale Vergrößerung – Quelle: mobilexweb.com
Lokale Vergrößerung – Quelle: mobilexweb.com

Auch diese Nutzungsschnittstelle verwendet eine lokale Vergrößerung. In einem mobilen Browser wird eine Website dargestellt, die nicht für Mobilgeräte mit Touch-Bedienung angepasst worden ist. Die Links werden entsprechend sehr klein dargestellt und sind gerade dann, wenn sie nebeneinander angeordnet sind, schwer zu treffen. Chrome zeigt beim Tippen in die Region, in der sich diese Links befinden, ein „Link Disambiguation Pop-up“ an, das die Auswahl der Links vergrößert darstellt. Auf diese Weise wird eine präzise Auswahl ermöglicht11.

Behandlung von Überlappungen

Idealerweise ist die Auswahl durch das Klicken oder Tippen auf ein Objekt eindeutig. Die Objekte der Nutzungsschnittstelle sollten einander nicht überlappen, hinreichend groß und mit angemessenem Abstand zueinander gestaltet werden. Wenn jedoch zum Beispiel eine Anwendung das freie Positionieren von Icons ermöglicht, kann es passieren, dass sich die Icons überlappen. Dadurch kann das Auswählen eines Objekts zu einem Problem werden. Eine zufällige bzw. nicht nachvollziehbare Auswahl ist in solchen Fällen nicht hilfreich. Software sollte auch für diese Fälle robust gestaltet sein, indem Mechanismen angeboten werden, um Mehrdeutigkeiten aufzulösen, die durch die Nutzung entstehen können. Vielmehr sollte die Nutzungsschnittstelle es ermöglichen, die möglichen Alternativen zu durchlaufen und eine auszuwählen.

Lift-Off-Techniken

Die Genauigkeit bei der Interaktion mit Fingern auf Touch-Geräten scheint sehr gering zu sein. Im Gegensatz zu einem Stift ist ein Finger viel breiter, sodass er einerseits mehr Bildschirminhalte verdeckt und andererseits die rundliche Fingerkuppe im Vergleich zu einem spitzen Stift eine relativ große Auflagefläche besitzt, die zudem beim Landen auf der Oberfläche grundsätzlich verdeckt ist. Doch auch bei Fingereingaben auf Touch-Oberflächen kann man sehr wohl eine eindeutige Auswahl treffen oder eine Position präzise ansteuern. Wäre dem nicht so, wäre auch das Trackpad eines Laptops nicht brauchbar. Das Problem liegt nicht in der Eingabegenauigkeit, sondern in der Kopplung der Eingabehandlungen: Wie schon erwähnt, sind bei diesen Gesten die Bewegung und das Auslösen der Aktion nicht getrennt, sodass es keine Möglichkeit gibt, die Bewegung zum Zielobjekt und das Auslösen der Funktion zu entkoppeln. Dieses Problem lässt sich in vielen Fällen durch die Verwendung einer „Lift-Off“-Strategie mindern12.

Bei einer Lift-Off-Strategie wird ein Ereignis nicht beim Landen des Fingers auf der Touch-Oberfläche ausgelöst, sondern erst, wenn der Finger wieder abgehoben wird. Der Vorteil ist nun, dass mit dem Aufsetzen des Fingers eine Rückmeldung erfolgen kann, welches Objekt selektiert bzw. welche Funktion beim Abheben ausgelöst würde. Entspricht die angezeigte Wahl nicht dem Gewollten, besteht die Möglichkeit, durch Ziehen des Fingers den Selektionsbereich zu verlassen oder auch eine andere Selektion anzusteuern. In nahezu allen aktuellen Betriebssystemen funktionieren Buttons auf diese Art und Weise, und dies sowohl bei Touch- als auch bei Mausinteraktion. Beim schnellen Klicken oder Tippen in unkritischen Situationen ist dieser Unterschied kaum zu bemerken. Sind jedoch die Gefahren einer Fehleingabe hoch, etwa in einer Menüleiste, und ist diese eventuell noch mit gravierenden Konsequenzen verbunden, ermöglicht diese Technik, ein ungewolltes Auslösen zu verhindern, wenn man vorsichtig und langsam agiert. Voraussetzung dafür ist eine Rückmeldung während der Touchoperation. Ohne die zusätzliche Rückmeldung nach dem Aufsetzen fehlt die Differenzerfahrung, die erst die Selbstvergewisserung ermöglicht und damit das Ausprägen entsprechender Handlungsstrategien.

Technisch ist eine Lift-Off-Strategie bei einem Button leicht umzusetzen. In vielen Fällen übernimmt bereits das Betriebssystem diese Aufgabe. Wenn die Strategie jedoch erst noch implementiert werden muss, sollte man folgende Aspekte bedenken:

  • Beim Mausklick oder beim Aufsetzen des Fingers muss es eine erkennbare Rückmeldung geben. Der Button sollte dann etwa aufleuchten oder eingedrückt wirken.
  • Wird bei aufgesetztem Finger oder bei gedrückter Maustaste die Zielfläche des Buttons verlassen, ist die Aktion abgebrochen. Der Button muss wieder seine ursprüngliche Form annehmen.
  • Nur wenn dies nicht geschehen ist und der Finger wieder hochgenommen bzw. die Maustaste losgelassen wird, ist die Funktion auszulösen.

Lift-Off ist eine effektive Technik, aber in dieser Form in erster Linie nur bei Buttons und bei Positionierungsaufgaben anwendbar, denn sie ist mit anderen typischen Interaktionstechniken nicht kompatibel. Bei der Selektion eines Datei-Icons würde Lift-Off zum Beispiel nur funktionieren, wenn man auf die Möglichkeit des Drag and Drop verzichten würde. Lift-Off und Drag and Drop lassen sich nicht kombinieren, denn sie sind in Bezug auf die Eingabe nicht unterscheidbar.

Lift-Off-Strategien sind gerade bei Touch-Interaktionen besonders interessant, weil im Gegensatz zu reinen Tipp-Aktionen mit Lift-Off eine genaue Positionierung möglich ist. Wenn Sie mit Ihrem Finger auf den Bildschirm tippen, dann ist es nicht einfach, genau eine bestimmte Position zu treffen, aber wenn Ihr Finger auf der Touch-Oberfläche liegt, dann können Sie sehr feinfühlig eine Position auswählen.

Cursor-Positionierung in iOS mit Vergrößerung
Cursor-Positionierung in iOS mit Vergrößerung

Ein gutes Beispiel ist die Cursor-Positionierung von iOS. Wenn der Cursor an eine genaue Stelle zwischen den Buchstaben positioniert werden soll, ist dies durch Tippen auf die passende Stelle nur schwer zu erreichen. Sehr oft landet man um einen oder mehrere Buchstaben neben dem gewünschten Punkt. Wenn aber, nachdem der Finger gelandet ist, eine lokale Vergrößerung des unmittelbar umgebenden Bereichs angezeigt wird, kann man durch Ziehen oder schon durch Neigen des Fingers genau positionieren. Die vergrößerte Darstellung in einer Lupe dient in diesem Fall dazu, den Cursor sichtbar zu machen, der sich ja unterhalb des Fingers befindet.

Eingabesicherheit: Die Rolle der Abstände

Bei der Forderung nach Eingabeschnelligkeit und bei der Betrachtung von Fitts’s Law haben wir unterstellt, dass Eingaben korrekt durchgeführt werden, es also nicht zu Eingabefehlern aufgrund von Genauigkeits- oder Schnelligkeitsproblemen kommt. Diese Fehler stellen jedoch eine ebenfalls mögliche Interpretation von Fitts’s Law dar: Erfolgt eine Eingabe schnell und sind die Zieltoleranzen zugleich klein, resultiert dies in mehr Eingabefehlern. Gemäß der Forderung nach Eingabesicherheit gilt es die Nutzungsschnittstelle so zu gestalten, dass Eingabefehler aufgrund hoher Schnelligkeit und geringer Zieltoleranz nicht zu Problemen führen.

Nicht alle ungenauen Eingaben sind gleichermaßen kritisch. Befände sich auf einem leeren Bildschirm an einer beliebigen Position ein kleines Icon ohne vergrößerte Zielfläche, würde es bei schneller Bedienung leicht zu einem Eingabefehler kommen, indem das Icon verfehlt wird. Da man in diesem Fall auf die leere Hintergrundfläche klicken würde, hätte dies keinerlei Effekt. Gibt es dagegen zwei kleine Icons unmittelbar nebeneinander, wäre das schon kritischer, weil die dahinterstehenden unterschiedlichen Funktionen zu gravierenden Konsequenzen führen können.

Problematische Abstände bei Window-Controls in Windows 98
Problematische Abstände bei Window-Controls in Windows 98

Tatsächlich treten solche Fälle häufiger auf, als wir erwarten würden. Beispiele finden sich bei nahezu allen Betriebssystemherstellern. Abgebildet sind die sogenannten Window-Controls von Windows 98. Es handelt sich um sehr kleine Icons, die sehr nah zueinander positioniert sind. Wenn man diese Icons sicher treffen will, ist das mühselig und mit der Gefahr versehentlicher Fehleingaben verbunden. Solch eine Fehleingabe kann unangenehme Folgen haben. Nehmen wir an, wir sind in einem Browser mit einem Buchungsvorgang befasst und wollen, um das komplexe Formular besser sehen zu können, das Fenster vergrößern. Durch einen Fehlklick wird jedoch aus Versehen das Fenster geschlossen. Das Gleiche kann bei den aktuellen Versionen von MacOS übrigens auch passieren, denn Apple verwendet genauso drei kleine Elemente, um das Fenster zu steuern.

Window-Controls in Windows XP und Windows 7
Window-Controls in Windows XP und Windows 7

Bei Windows 95 ist der Schließen-Knopf von den anderen Controls um genau einen zsätzlichen Pixel abgesetzt. Dies dürfte wohl kaum versehentliche Fehleingaben verhindern. Wenn wir uns anschauen, wie sich die Gestaltung dieser Buttons in der Windows-Geschichte entwickelt hat, sehen wir von Version zu Version Verbesserungen. Im Design von Windows XP ist der Schließen-Knopf zwar gar nicht mehr abgesetzt, doch sind die Buttons nun erheblich größer. Unter Windows 10 wird eine Fehlbedienung nochmals unwahrscheinlicher, weil die Knöpfe nun erheblich weiter auseinander liegen. Sie versehentlich falsch zu treffen wird dadurch deutlich erschwert. Der Grund dafür dürfte in der Tatsache zu suchen sein, dass Windows 10 auch per Touch bedienbar sein soll. Hätte man die Mini-Buttons aus Windows 95 und 98 beibehalten, wären Fehlbedienungen kaum zu vermeiden.

Die Titelzeile eines Fensters von Windows 3.1 weist diese Probleme nicht auf.
Die Titelzeile eines Fensters von Windows 3.1 weist diese Probleme nicht auf.

Obwohl die Windows-10-Variante der Fenster-Operations-Knöpfe gelungen ist, zeigt uns ein Blick weiter zurück in die Geschichte, dass es schon mal eine bessere Lösung gab. Zu sehen ist die Titelzeile eines Fensters von Windows 3.1. Die Knöpfe sind recht groß, können also schon aus diesem Grund gut getroffen werden. Noch wichtiger aber ist das extreme Absetzen des Schließen-Buttons. Die Buttons zum Maximieren und Minimieren befinden sich auf der rechten Seite. Die Schließ-Operation befindet sich auf der anderen Seite des Fensters. Deshalb war es bei Windows 3.1 unmöglich, ein Fenster versehentlich zu schließen, statt es zu minimieren oder zu maximieren. Als zusätzliche Sicherheitsmaßnahme löste der Knopf auf der linken Seite nur bei einem Doppelklick das Schließen aus. Ein Einfachklick hingegen öffnete ein Menü.

Ob Microsoft diesen Knopf seinerzeit absichtlich deswegen abgesetzt hat, um Fehlbedienungen zu vermeiden, ist uns nicht bekannt. Dass sie es getan haben, war jedenfalls im Sinne unserer Forderung nach Eingabesicherheit eine gute Entscheidung.

Abgesetzung von Buttons mit potienziell problematischen Konsequenzen in MacOS
Abgesetzung von Buttons mit potienziell problematischen Konsequenzen in MacOS

Unsere Betrachtungen der Window-Controls lassen sich verallgemeinern. Es ist in jedem Fall im Sinne der Eingabesicherheit eine gute Empfehlung, Optionen abzusetzen, die bei versehentlichem Auslösen zu größeren Problemen wie einem Datenverlust führen können.

Die Abbildung zeigt die Umsetzung bei MacOS. Es gehört zu den Design-Vorgaben des Betriebssystems, dass Auslöser für Aktionen, die zu einem Datenverlust führen können, von den anderen abgesetzt sind. Im Beispiel ist der Button für das Löschen von den anderen beiden abgesetzt. Selbst wenn man aus Versehen „Abbrechen“ oder „Sichern“ verfehlen sollte, landet man wohl kaum beim gefährlichen „Löschen“.

Eingabetechnikoptimierte Selektionstechniken

Schließen wir dieses Kapitel mit einem Thema ab, das verschiedene Charakteristika unterschiedlicher Eingabetechniken zusammenfasst. Schon in unseren Überlegungen zu Zieltoleranzen haben wir betont, dass es gewichtige Unterschiede zwischen der Eingabe mit Maus oder Trackpad im Vergleich zu einer Touch-Eingabe etwa auf einem Tablet oder einem Smartphone gibt. Als Folge sollten bei der Touch-Eingabe größere Zielflächen vorgesehen werden. Dies ist aber nicht die einzige Form der räumlichen Eingabe, die bei Touch-Nutzung anders gelöst werden muss als bei der klassischen Eingabemethode. Vor allem die Gestaltung der Objektselektion muss anders gelöst werden.

Gegenüber der Eingabe mit Maus und Tastatur sind die Möglichkeiten bei Touch-Eingaben stark eingeschränkt, weil die Positionierung des Zeigers und die Auslösung der Funktion nicht mehr voneinander getrennte Aktionen sind. Das könnte durch den Einsatz eines Zeigers zwar kompensiert werden, doch verschwände dann der große Vorteil des direkten Zeigens. Bei Maus-Interaktionen ist es überdies leicht, verschiedene Eingaben für die Selektion und Ausführung, etwa das Öffnen der Date, vorzusehen. Üblich ist ein einfacher Klick für eine Selektion und ein Doppelklick für die Auslösung der Funktion. Möglich wäre auch ein Rechtsklick für die Selektion und ein Linksklick für die direkte Ausführung. In Touch-Oberflächen gibt es nur eine Operation, nämlich die des Tippens. Denkbar wären allenfalls noch eine Selektion durch längeres Gedrückthalten oder der Rückgriff auf komplexe Multi-Touch-Gesten, bei denen auch die Anzahl der möglichen Touch-Punkte oder der Zeitabstand zwischen zwei aufeinanderfolgenden Klicks eine Rolle spielen.

Auswahlmodus in einer Objektliste in iOS
Auswahlmodus in einer Objektliste in iOS

Noch komplexer gestaltet sich die Umsetzung der Mehrfachselektion, also der Auswahl mehrerer Dateien: Bei der klassischen Eingabetechnik können durch Klicken und Ziehen über einen Bereich mehrere Objekte zugleich selektiert werden. Theoretisch ist dies auch auf Touch-Oberflächen möglich. Es funktioniert zum Beispiel recht problemlos unter Windows 10, wenn man den Rechner im Desktop-Modus betreibt. Das Berühren des Bildschirms und das anschließende Bewegen löst jedoch auf den meisten Systemen (Android, iOS und auch Windows 10 im Tablet-Modus) ein Scrollen des Inhalts aus, sodass auf das Markieren per „Gummiband“ in diesen Fällen verzichtet werden muss. Auch die Markierung mehrerer Dateien, indem die SHIFT-Taste gedrückt wird, während mehrere Dateien nacheinander angeklickt werden, lässt sich nicht auf die Touch-Bedienung übertragen, weil es keine Zusatztasten gibt.

Selektion ist also bei Touch-Interaktion ein Problem. Zufriedenstellend lösen kann man es nur durch die Einführung eines expliziten Selektionsmodus. Die Abbildung zeigt eine Objektliste aus iOS. Beim Tippen auf ein Objekt wird dieses in der zugeordneten App geöffnet. Klickt man jedoch oben rechts auf „Auswählen“, wechselt das System in einen anderen Modus, in dem die Objekte markiert und anschließend Operationen wie zum Beispiel „Löschen“ ausgewählt werden können.

Das Markieren von Objekten ist in diesem Falle mit zusätzlichen Sequenzialitäten verbunden, die in der Eingabetechnologie begründet sind. Mit klassischen Eingabetechniken geht die Selektion schneller von der Hand und kommt ohne Zusatzmodus aus. Bemerkenswert ist aber, dass die Technik der Selektion per Zusatzmodus zwar aufwändiger, aber leichter erschließbar ist (siehe Erschließbarkeit im Abschnitt Orientierung). Der Knopf, um in den Auswahlmodus zu wechseln, ist nämlich stets sichtbar. In der klassischen Variante hingegen muss man wissen, dass es die Möglichkeit gibt, ein Gummiband aufzuziehen oder dass man die SHIFT-Taste drücken kann, um eine Mehrfachselektion zu machen. Die Nutzungsoberfläche selbst gibt keinen Hinweis darauf.

Rückmeldungen

Das Potenzial interaktiver Schnittstellen besteht darin, dass die Ausgabe eines Systems eng an die Eingabe gekoppelt sein kann. Wir sprechen in solchen Fällen von Rückmeldung. Das beginnt schon auf der untersten Ebene. Ein auf einer Tastatur gedrücktes Zeichen erscheint unmittelbar und genau an der Stelle, an der der Cursor steht. Zugleich bewegt sich dieser, sodass er die Position für das nächste einzugebende Zeichen markiert. Mit der Maus verhält es sich ebenso. Wird sie bewegt, verändert sich entsprechend der Mauszeiger am Bildschirm. Gleitet er über einen Link, ändert sich sein Aussehen und zeigt damit neben möglichen weiteren Informationen an, dass es sich um ein klickbares Objekt handelt. Dieses Kapitel behandelt die ergonomischen Forderungen an dieses Wechselspiel von Ein- und Ausgaben. Insbesondere geht es darum, wann, wo und wie differenziert Rückmeldungen gestaltet werden sollten.

Dazu wollen wir noch einmal kurz auf das Grundlagenthema Differenzerfahrung zurückblicken. Dort haben wir Differenzerfahrung als das Überprüfen von Annahmen durch Wahrnehmen und Handeln in unserer natürlichen Umwelt charakterisiert. Eine entscheidende Voraussetzung für Differenzerfahrung ist, dass die Wahrnehmung unabhängig von den Intentionen und Wünschen der wahrnehmenden Person ist. Durch systematisches Variieren der Umwelt und die Analyse der jeweiligen Wahrnehmungsänderungen können wir über komplexe oder unsichtbare Phänomene Hypothesen anstellen und Theorien aufstellen. Ohne Differenzerfahrung können wir kein Wissen über die Umwelt erlangen und, als Konsequenz daraus, auch nicht wissen, ob eine Handlung, die wir durchführen, das intendierte Ziel erreicht oder nicht.

Nutzungsschnittstellen sind ebenso Teil unserer natürlichen Umwelt. Um über ein Programm etwas erfahren und wahrnehmen zu können, ob eine Handlung innerhalb der Objektwelt der Nutzungsschnittstelle erfolgreich ist, müssen wir Differenzerfahrungen machen können. Das erfordert, dass auf eine Eingabe eine wahrnehmbare Reaktion des Systems dergestalt erfolgt, dass anhand dieser Rückmeldung die möglicherweise vielfältigen Konsequenzen der jeweiligen Handlung erschließbar sind. Nur wenn aus dem, was als Folge einer Handlung wahrgenommen wird, auch etwas geschlossen werden kann, kann Differenzerfahrung gelingen. Eine Rückmeldung muss also genügend differenziert sein, damit sie nützlich ist:

Damit Rückmeldungen des Systems den Anspruch erfüllen, Differenzerfahrung ohne unnötige Umwege, also ohne erzwungene Sequenzialität, zu ermöglichen, muss eine Reihe weiterer Forderungen erfüllt sein, die sich aus den Eigenschaften der menschlichen Wahrnehmung ableiten lassen:

Im Kapitel Architektur der Wahrnehmung haben wir die Wahrnehmung des Menschen als selektiv beschrieben. Der Bereich des scharfen Sehens ist eingeschränkt. Dieses Manko wird durch eine hohe Bewegungsempfindlichkeit im peripheren Sichtbereich ausgeglichen. Eine Reaktion auf eine Handlung muss also, damit sie verlässlich wahrgenommen werden kann, entweder dort erfolgen, wo die Handlung stattfindet, oder die Aufmerksamkeit auf sich zieht. Letzteres behandeln wir im Kapitel „Ereignisbehandlung“. Aus der ersten Alternative leiten wir die Notwendigkeit nach der Lokalität der Rückmeldung ab:

Neben dem räumlichen Aspekt kommt der zeitlichen Dimension eine besondere Bedeutung zu. Wir tendieren dazu, eine Kopplung zwischen zwei Ereignissen herzustellen, wenn sie nahezu zeitgleich erfolgen. Wenn Sie eine Türklinke anfassen, sich im gleichen Augenblick das Licht im Raum einschaltet oder wenn Sie auf den Knopf an einer Fußgängerampel drücken und direkt danach ein Auto hupt, dann haben diese Ereignisse in der Regel nichts miteinander zu tun. Durch ihre enge zeitliche Abfolge erscheinen sie uns aber auf den ersten Blick als Ursache und Wirkung. Umgekehrt nehmen wir eine Änderung in der Umwelt nur dann als kausal mit einer Handlung zusammenhängend wahr, wenn diese innerhalb eines kurzen Zeitraums erfolgt. Überschreitet dieser Zeitraum eine gewisse Schwelle, wird eine Veränderung nicht mehr direkt als Folge der Handlung wahrgenommen. Aus dieser Beobachtung können wir die Forderung nach Unmittelbarkeit der Rückmeldung ableiten:

Unmittelbarkeit, Differenziertheit und Lokalität der Rückmeldung sind als Grundforderungen an jede Form von Rückmeldung zu stellen.

Differenziertheit: Feed-Back und Feed-Forward

Eine differenzierte Rückmeldung hat in unserer Denkweise immer zwei Komponenten: Das Wort „Rückmeldung“ an sich deutet an, dass sie in die Vergangenheit gerichtet ist. Eine gute Rückmeldung sollte aber möglichst auch einen Aspekt haben, der in die Zukunft, also nach vorne gerichtet ist. Eine nach vorne gerichtete Rückmeldung zeigt mögliche Anschlusshandlungen auf und beschreibt im Fehlerfall Ursachen und was zur Korrektur getan werden kann. Wir stellen dem Begriff der Rückmeldung im engeren Sinne, also dem „Feed-Back“, deshalb den Begriff „Feed-Forward“ an die Seite. Im Gegensatz zu einem Feed-Back, das die Folgen einer Handlung widerspiegelt, beschreibt ein Feed-Forward die aktuelle Situation und welche Operationen möglich sind13.

Die Situation, in der differenziertes Feed-Back und Feed-Forward gefordert ist, muss übrigens keine Fehlersituation sein und ist es in den meisten Fällen auch nicht. Ein gutes Beispiel für Feed-Forward haben Sie in der Einleitung zu diesem Kapitel schon kennengelernt. Ein sich ändernder Mauszeiger beim Überfahren eines Elements auf dem Bildschirm ist der nach vorne gerichtete Teil der Rückmeldung. Die Zeigeränderung zeigt an, dass ein selektierbares Objekt vorliegt und – bei entsprechender Differenziertheit – auch, was im Falle eines Klicks passieren wird.

Die drei Forderungen Differenziertheit, Unmittelbarkeit und Lokalität sind gleichermaßen unverzichtbar, auch wenn es je nach Nutzungskonstellation im Einzelfall unterschiedliche Priorisierungen geben mag. Erfolgt eine Rückmeldung an ungünstiger Stelle oder verzögert, kann das Irritationen und unnötige Fehlbedienungen zur Folge haben. Ist eine Rückmeldung nicht differenziert, weiß man unter Umständen nicht, was geschehen ist oder noch geschehen kann. Auch das kann zu Irritationen und Fehlhandlungen führen. Noch wichtiger ist uns aber, dass ein System ohne differenzierte Rückmeldung bei der Nutzung nicht erschließbar ist. Entweder müssen alle möglichen Konstellationen zuvor erlernt worden sein oder es ist kommunikativer Zusatzaufwand bzw. entsprechender Rechercheaufwand erforderlich, um die unterbrochene Aufgabe fortsetzen zu können. Etwas pathetischer ausgedrückt: Mängel in der Differenziertheit der Rückmeldung entmündigen die Person vor dem Bildschirm!

Beispielsweise würden Sie im Fehlerfall statt einer aussagekräftigen Fehlermeldung nur einen allgemeinen Hinweis der Art erhalten: „Es ist etwas passiert!“ Dieses Feed-Back ist nicht hilfreich, da es keinerlei Anhaltspunkte dafür bietet, was passiert ist und was getan werden kann. Das gilt auch für nicht differenziertes Feed-Forward. Stellen Sie sich eine Bildschirmmaske vor, die Sie darüber informiert, dass ein Datenträger nicht lesbar ist. Als mögliche Operation wird Ihnen neben „Abbrechen“ nur die Option „Beheben“ angeboten. Aber was passiert, wenn man auf „Beheben“ klickt? Wird der Datenträger repariert oder formatiert? Das eine ermöglicht den erneuten Zugriff auf die gespeicherten Dateien, das andere löscht alle Daten und gestattet das Schreiben einer neuen Datei. „Beheben“ ist nicht differenziert genug, um angemessene Handlungsstrategien entwickeln zu können.

Differenziertes Feed-Back bedeutet also, nicht nur zu beschreiben, dass etwas passiert ist, sondern auch was passiert ist und gegebenenfalls, warum es passiert ist. Erst ein solches Feed-Back ermöglicht Differenzerfahrungen, indem der aktuelle Zustand des Systems eingeschätzt und in Beziehung zu den jeweiligen Handlungszielen gesetzt werden kann. Differenziertes Feed-Forward beinhaltet darüber hinaus, dass alle Optionen für Anschlusshandlungen aussagekräftig beschrieben sind.

Gestaltung von Meldungsboxen

Ein wichtiger Bereich unter den unzähligen Formen von Rückmeldungen sind textuelle Meldungen, in denen Handlungsoptionen dargelegt und angeboten werden. Die klassische Form solcher Meldungen erscheint in Meldungsfenstern. Ihr Inhalt umfasst nicht nur Fehlermeldungen im eigentlichen Sinne, sondern auch Hinweise oder Bestätigungsanforderungen. Diese Arten von Meldungen und Interaktionen müssen nicht unbedingt in eigenen Fenstern angezeigt werden. Gerade in modernen Anwendungen und in Web-Anwendungen werden diese Elemente oft anders dargeboten als in den klassischen Boxen. Der Übersichtlichkeit halber beschränken wir uns auf Meldungsboxen, um die grundlegenden Prinzipien zu veranschaulichen.

Wie auch immer eine Meldung grafisch gestaltet wird, ihr Inhalt, allem voran der Meldungstext, muss differenziert sein. Dies betrifft sowohl den Feed-Back-Teil als auch den Feed-Forward-Teil. Eine Meldung, die nur Feed-Back, aber kein Feed-Forward beinhaltet, kann in Ausnahmefällen sinnvoll sein, etwa bei der Bestätigung einer abgeschlossenen Operation wie „Export abgeschlossen“.

Undifferenziertes Feed-Back
Undifferenziertes Feed-Back

Diese Meldung erscheint, nachdem ein Programm geöffnet werden sollte. Außer dem Fehlercode wird keinerlei Hinweis darauf gegeben, was die Ursache des Fehlers ist. Im Internet finden sich in Support-Dokumenten Listen, in denen diese Codes aufgeschlüsselt sind. Die „36“ bedeutet in diesem Fall „Daten können nicht geschrieben werden“. Es bleibt schleierhaft, warum in der Meldung statt der Nummer nicht dieser Text geschrieben steht. Doch auch dies wäre nicht besonders hilfreich, denn er grenzt zwar den Bereich möglicher technischer Ursachen ein, ist aber weder aussagekräftig noch situationsspezifisch. Welche Daten können denn beim Anwenden der Anwendung nicht geöffnet werden und warum? Noch schlechter sieht es in der Meldung mit dem Feed-Forward aus, denn es werden keine Anschlusshandlungen oder alternative Handlungsoptionen aufgeführt.

Ansatzweise differenziertes Feed-Back
Ansatzweise differenziertes Feed-Back

Bei dieser Meldung ist es schon besser. Der fett geschriebene Text gibt ein recht differenziertes Feed-Back und informiert darüber, dass der gewählte Dateiname nicht verwendet werden kann. Leider erfährt man nicht, dass das in diesem Fall am Doppelpunkt liegt, der in Dateinamen nicht zulässig ist. Immerhin wird ein Feed-Forward gegeben, das empfiehlt, keine Satzzeichen zu verwenden oder den Namen zu verkürzen. Die spezifischere Rückmeldung, dass ein Doppelpunkt das Problem darstellt, würde bezüglich der Änderung des Dateinamens deutlich mehr Optionen lassen. Diese genauere Analyse des Problems würde zudem auch ein direktes Handlungsangebot mit Buttons zum direkten Beheben des Fehlers ermöglichen.

Kombination von Feed-Back und Feed-Foward
Kombination von Feed-Back und Feed-Foward

Gutes Feed-Back und Feed-Forward bereitzustellen, ist leider nicht so einfach. Das Meldungsfenster erscheint, nachdem die Anwendung, mit der ein Text bearbeitet worden ist, geschlossen werden soll, ohne dass die Änderungen zuvor gespeichert worden sind. Da dies zu Datenverlust führen kann, verlangt das System eine Bestätigung der Operation. Die abgebildete Meldungsbox ist klar eingeteilt. Die erste Textzeile ist das Feed-Back, alles Weitere danach ist Feed-Forward14.

In ihrem Feed-Back-Teil enthält die Meldungsbox einen typischen Fehler, der nur deshalb nicht auffällt, weil man sich an ihn gewöhnt hat. Dort steht: „The text has been edited.“ Das mag so sein, ist aber nicht das Problem, denn die Bearbeitung des Textes entspricht ja der auszuführenden Aufgabe. Der wirkliche Anlass liegt in der Tatsache begründet, dass die zu diesem Zeitpunkt aktuelle Textfassung bislang noch nicht abgespeichert worden ist.

„Aber das eine folgt aus dem anderen, oder?“

Das eine folgt aus dem anderen nur dann zwangsläufig, wenn Sie die Eigenarten aktueller Nutzungsschnittstellen kennen. So muss man wissen, dass man beim Laden einer Datei eine Kopie des Textes öffnet, die dann bearbeitet wird, nicht jedoch der Inhalt der Datei. Will man die Kopie der geladenen Textdatei mit ihren Änderungen dauerhaft sichern, muss man sie explizit speichern. Eine ergonomisch gestaltete Nutzungsoberfläche sollte solcherart implizites Wissen nicht voraussetzen, sondern explizit beschreiben, da es insbesondere in der anfänglichen Nutzung nicht vorausgesetzt werden kann. Die Tatsache, dass wir gelernt haben, mit einer Vielzahl schlechter Designentscheidungen zu leben, ist keine Ausrede für eine ergonomisch unzureichende Gestaltung.

„Aber man kann doch nicht immer einen kompletten Roman hinschreiben, nur weil ein Anfänger vielleicht etwas nicht wissen könnte!“

Das ist auch nicht nötig. Würde dort stattdessen stehen „The edited text has not been saved yet“, gäbe es kein Problem mehr, weil die Ursache und damit der Auslöser für diese Meldung jetzt präzise angegeben ist. Eine einfache Regel hilft in solchen Fällen weiter: Das Feed-Back muss Aufschluss über den Aspekt des System- oder Objektzustands geben, auf dessen Grundlage die Meldung angezeigt wird. Ist dies nur indirekt der Fall, hat man einen Ansatzpunkt, die Meldung zu verbessern.

Unverständliche Fehlermeldung
Unverständliche Fehlermeldung

Zur Illustration des Gesagten versuchen wir, eine zugegebenermaßen sehr schlechte Meldung zu verbessern. Es handelt sich um eine Software, die automatisch Web-Content generiert und diesen auf einen Web-Server hochzuladen versucht15. Wenn die unter „Homepage“ eingetragene Netzwerkadresse ungültig ist, tritt ein Fehler auf. Die Software ist aber so robust gebaut, dass sie in diesem Fall die Daten nicht verwirft, sondern lokal speichert.

So weit so gut; doch die dann erscheinende Fehlermeldung gibt Rätsel auf. Zum einen enthält sie kein direktes Feed-Forward. Es wird weder gesagt, was zu tun ist, noch was getan werden kann. Auch das Feed-Back ist verbesserungswürdig. Das beginnt schon bei der Titelzeile „Nicht erlaubt / Fehlende Eingabe …“. Kann sich das System nicht für eine Alternative entscheiden? Und was bedeutet „nicht erlaubt“? Und warum ist es nicht erlaubt? Nach dieser kryptischen Überschrift folgt der eigentümliche Text „Die angegebene Homepage existiert nicht. Dokument wird gespeichert“. Schon im ersten Satz gibt es wieder ein sprachliches Problem. Die Homepage existiert nicht? Unsinn! Unter der angegebenen Adresse konnte keine Homepage gefunden oder es konnte keine Verbindung hergestellt werden. Wir neigen umgangssprachlich dazu, Daten gleichzusetzen mit dem, worauf sie sich beziehen. Statt bei einer Personendatenbank „Datensatz löschen“ oder „Karteieintrag löschen“ zu sagen, heißt es „Person löschen“. Auch in einer Literaturdatenbank werden nicht Bücher angelegt oder gelöscht, sondern bibliographische Angaben. Das eigentliche Buch hat mit der Datenbank nichts zu tun, denn es wird durch den Eintrag weder erschaffen noch zerstört. Wie eigenartig diese Sprechweise ist, merkt man, wenn man sie auf andere Bereiche überträgt, etwa auf das Telefonieren. Der Logik dieser Meldung folgend müssten wir, wenn wir beim Telefonieren eine falsche Nummer gewählt haben, statt der Ansage, dass die Rufnummer nicht vergeben sei, die Meldung erhalten „Ihr Gesprächspartner existiert nicht!“ zu hören bekommen.

Sehen wir einmal von kafkaesken Bürokratien ab, wo eine nicht vorhandene Personalnummer als gleichbedeutend mit der Aussage scheint, dass es diese Person nicht gibt, erzwingt eine ergonomische Gestaltung eine präzise Sprache, vor allem, wenn es um das Verständnis technischer Vorgänge geht. Diese werden zur Entwicklungszeit festgelegt und sollten immer, unabhängig von den vielfältigen Nutzungskonstellationen, die ihnen zugrunde gelegte Designrationalität widerspiegeln. Solange es nicht zu bürokratisch wird, gilt es also, den inhaltlichen Vorgang möglichst präzise zu beschreiben. Falls diese Beschreibungen zu lang werden sollten, kann man sich gegebenenfalls mit „Eintrag löschen“ behelfen. Auch der zweite Satz dieses Beispiels ist nicht besser, denn er scheint in keinem Zusammenhang mit dem ersten Satz zu stehen und ihm noch zu widersprechen. Das liegt daran, dass er so unspezifisch ist. Man kann ihm nicht entnehmen, dass die Daten lokal statt auf dem Server gespeichert werden.

Verbesserte Fassung der vorhergehenden Fehlermeldung
Verbesserte Fassung der vorhergehenden Fehlermeldung

Hier sehen Sie eine verbesserte Fassung dieser Fehlermeldung. Schon der Titel benennt, wenn auch noch recht allgemein, als Ursache des Problems, dass die Daten nicht hochgeladen werden können. Der fett geschriebene Text innerhalb der Meldung beschreibt dies genauer. Anschließend könnte ein Text folgen wie „Ihre Daten wurden daher lokal gespeichert. Bitte überprüfen und korrigieren Sie den angegebenen Netzwerkpfad und versuchen Sie es erneut“. Das wäre ein differenziertes Feed-Forward. In dieser Überarbeitung gehen wir noch einen Schritt weiter und bieten im Sinne der Eingabeminimalität drei Alternativen für eine Anschlusshandlung an: es dabei zu belassen und die Daten lokal zu speichern, zurückzukehren, um den Fehler zu korrigieren, oder die Änderungen zu verwerfen.

Klassischer Aufbau eines Meldungsfensters
Klassischer Aufbau eines Meldungsfensters

Diese Abbildung zeigt das klassische Schema für Meldungsfenster. Je nach System und Fehlerklasse können Meldungsboxen dieser Art über folgende Teilelemente verfügen. Wenn es eine Titelzeile gibt, sollte sie dafür genutzt werden, den Anlass der Meldung kurz zusammenzufassen, zum Beispiel „Datei mit diesem Dateinamen existiert bereits“. Im Meldungstext folgt dann als Erstes eine ausführliche Erläuterung der Ursache. Wenn die Meldungsfenster im System, für das Sie gestalten, keine Titelzeilen vorsehen, schreiben Sie die Kurzzusammenfassung als erste abgesetzte Zeile mit in den eigentlichen Meldungstext. Verzichten Sie nicht auf ihn! Die Kurzcharakterisierung, zusammen mit aussagekräftigen, konkret beschrifteten Buttons, ist bei routinierter Nutzung ausreichend, denn aufgrund der Vertrautheit mit dem System erkennt man die Situation wieder, ohne den restlichen Meldungstext lesen zu müssen.

Wenn jedoch der Anlass für die Meldung selten auftritt oder die Software nur gelegentlich genutzt wird, kommt der Rest des Meldungstextes ins Spiel. Neben der ausführlicheren Beschreibung des Anlasses enthält dieser eine ausführliche Darstellung der Handlungsoptionen und Konsequenzen. Wenn eine Meldung eine Vielzahl von Handlungsoptionen direkt anbietet, müssen diese beschrieben werden ebenso in den Fällen, in denen die Anschlusshandlungen komplexere manuelle Operationen nach sich ziehen.

Unser Meldungstext enthält keine Frage. Bereits im Kapitel Strukturiertheit haben wir dargelegt, warum das Stellen von Fragen wenig hilfreich ist. Wenn auf eine Frage generische Antworten wie „Ja“, „Nein“ oder „Okay“ folgen, erhöht sich der Zusatzaufwand, denn die Inschrift auf dem Button muss auf die Frage bezogen und interpretiert werden, welche Änderungen im System mit der jeweiligen Antwort einhergehen. In empirischen Untersuchungen haben wir herausgefunden16, dass bei generischen Buttons Fragen dann kaum einen Nachteil haben, wenn die Buttons spezifisch beschriftet sind. Wir raten dennoch davon ab, eine Frage zu stellen, denn die Frage wird entweder sehr generischer Natur sein, wie „Was wollen Sie tun?“ oder die Beschreibung der Handlungsoptionen muss zur Frage umformuliert werden, was auch bei der Entwicklung mehr Aufwand verursacht, der aber keinen ergonomischen Vorteil verspricht.

Gängige Icons zur Klassifizierung von „Fehler“, „Warnung“ und „Information“
Gängige Icons zur Klassifizierung von „Fehler“, „Warnung“ und „Information“

Unsere Meldung enthält neben dem eigentlichen Text auf der linken Seite ein Icon. Dieses Icon kann dazu genutzt werden, Meldungen zu klassifizieren. Microsoft definiert für seine Betriebssysteme eine Einteilung in drei Stufen mit absteigender Dringlichkeit: „Fehler“, „Warnung“ und „Information“. Eine von uns durchgeführte Auswertung der Blickdaten bei der Nutzung von Meldungsboxen17 hat ergeben, dass diese Icons kaum betrachtet werden. Unsere Hypothese ist, dass diese Zusatzinformationen nicht mehr registriert werden, weil jede Meldung über ein solches Icon verfügt. Würde ein Icon wie das doch sehr auffällige Kreuz auf rotem Grund nur dann verwendet, wenn wirklich etwas von herausragender Wichtigkeit angezeigt wird, wäre die Wirkung wahrscheinlich höher. Wir empfehlen deshalb, es nur in den Fällen einzusetzen, in denen Datenverlust oder ähnlich fatale Konsequenzen drohen. In diesen Situationen rechtfertigt sich auch der Einsatz einer Signalfarbe, um zusätzlich die Aufmerksamkeit auf das Problem zu lenken.

Verbesserung: Button und Beschreibung kolokieren

Wenn man spezifisch beschriftete Buttons einsetzt, kann man in vielen einfachen Fällen bei Meldungen auf einen umfangreichen Erklärungstext verzichten. Sind die Operationen komplex genug, dass sie einer zusätzlichen Erklärung bedürfen, ist der im obigen Beispiel gepflegte Meldungsstil nicht ideal, denn die Buttons, die die Funktionen auslösen, und die Erklärungstexte, die die Funktionen beschreiben, sind einander nicht klar zugeordnet.

Meldungsfenster unter Ausnutzung der Kolokation
Meldungsfenster unter Ausnutzung der Kolokation

Die Abbildung zeigt ein verbessertes Meldungsfenster mit umfangreichen Erläuterungstexten, bei dem zusätzlich die im Kapitel Anordnung beschriebene Zuordnungstechnik der Kolokation umgesetzt worden ist. Die Zuordnung der Buttons und ihrer Erläuterungen bildet sich somit auch in der sichtbaren Anordnung der Elemente am Bildschirm ab.

Differenzierte Rückmeldung bei unerwarteten Handlungen

Meldung über Unmöglichkeit von Eingaben
Meldung über Unmöglichkeit von Eingaben

Ein Spezialfall der Behandlung von unerwarteten Eingaben ist der Umgang mit Eingaben zu Zeitpunkten, an denen keine Eingaben getätigt werden können. Dieser Screenshot eines älteren Mail-Programms auf dem Macintosh zeigt, was beim Tippen in einer solchen Situation passiert. Sie ist zum einen besonders gut, weil sie beschreibt, warum die Eingabe, die gerade erfolgt, nirgendwo erscheint. Zum anderen ist sie nicht ideal, da sie einen zusätzlichen Schritt zum Quittieren der Meldung erzwingt. Ob ein Zusatzschritt, der den Arbeitsfluss unterbrechen würde, gerechtfertigt ist, lässt sich schwer feststellen. Es könnte auch ein Hinweis darauf sein, dass aus Versehen ein Gegenstand auf die Tastatur geraten ist. Tatsächlich sollte von einem System nicht nur jede korrekte Eingabe richtig verarbeitet werden, sondern auch jede nicht korrekte. Das Meldungsfenster verkörpert eine ergonomische Zusatzinformation, die signalisiert, dass unnütze Eingaben passieren. Erst auf Basis dieser Information kann man während der Nutzung über die möglichen Ursachen nachdenken und Strategien zur zukünftigen Vermeidung überlegen.

Differenziertheit jenseits des Textes

Gekoppelte Fehlermeldung
Gekoppelte Fehlermeldung

Differenziertheit bedeutet nicht in jedem Fall, dass es einen sehr ausführlichen Text geben muss oder dass die Rückmeldung nur aus Text bestehen sollte.

Bei der oben abgebildeten Fehlermeldung wurde die aus dem Kapitel Anordnung bekannte Technik der Kopplung angewandt, um zu verdeutlichen, auf welches Objekt am Bildschirm sich die Fehlermeldung bezieht. Es wird im wahrsten Sinne des Wortes „aufgezeigt“, dass „selke“ keine gültige E-Mail-Adresse ist. Auch dieser räumliche Hinweis verkörpert eine Zusatzinformation in Form eines differenzierteren Feed-Backs.

Auch in der in MacOS systemweit eingebauten Funktion, innerhalb der zentralen Menüleiste nach Elementen suchen zu können, gibt es eine räumliche Form der Differenziertheit. Wenn man im Suchergebnis einen Eintrag selektiert, wird das entsprechende Menü geöffnet und auf den Menüeintrag selbst per Zeiger hingewiesen. Es gibt also zusätzlich zur textuellen Rückmeldung auch ein räumliches Feed-Forward, das darüber informiert, wo die Funktion zu finden ist.

Räumliches Feed-Forward in MacOS
Räumliches Feed-Forward in MacOS

Unmittelbarkeit

Damit eine Rückmeldung gut funktioniert, muss sie immer unmittelbar, also ohne nennenswerten zeitlichen Versatz erfolgen. Erfolgt eine Reaktion nicht unmittelbar, stockt nicht nur der Handlungsablauf, sondern es kommt auch zu Irritationen und Fehlhandlungen.

Idealerweise werden Eingabe und Rückmeldung als gleichzeitig wahrgenommen. Tatsächlich erfolgt zwischen der Eingabe und der zugehörigen Ausgabe eine Verarbeitung, die ebenfalls Zeit benötigt. Gleichzeitigkeit in einem strengen Sinn ist auch nicht gefordert, denn wenn die Verarbeitungszeit unter einem Schwellwert von 20 bis 30 Millisekunden bleibt, haben wir den Eindruck, dass etwas gleichzeitig geschieht. Die verstrichene Zeit ist nicht bewusstseinspflichtig und kann sich folglich auch nicht störend auswirken. Der Hörsinn ist empfindlicher. Schon ab 3 Millisekunden Versatz hören wir zwei Töne nicht mehr gleichzeitig. Bei so einem kurzen Abstand ist es jedoch dem Wahrnehmungsapparat nicht möglich zu bestimmen, welcher Ton als erster und welcher als zweiter zu hören war.

Experimente zur Genauigkeit von Zeichenhandlungen bei verzögerter Wahrnehmung – Quelle: Gregory, Richard L.: Auge und Gehirn. Psychologie des Sehens. Rowohlt Taschenbuch Verlag: Reinbek bei Hamburg. 2001. S. 183 ff.
Experimente zur Genauigkeit von Zeichenhandlungen bei verzögerter Wahrnehmung – Quelle: Gregory, Richard L.: Auge und Gehirn. Psychologie des Sehens. Rowohlt Taschenbuch Verlag: Reinbek bei Hamburg. 2001. S. 183 ff.

Die Grafik illustriert ein Experiment, das der Psychologe Richard Gregory18 beschreibt, um die Konsequenzen von Störungen im Handlungsfluss zu untersuchen. Die Versuchspersonen haben die Aufgabe, Sterne mit einem Stift nachzuzeichnen und einige Worte zu schreiben. Zunächst tun sie das wie üblich mit Stift und Papier, wobei die Augen das Geschehen beobachten. Bei den nächsten beiden Versionen der experimentellen Anordnung wird die Sicht auf das Blatt Papier und die eigene Hand blockiert. Stattdessen sehen die Versuchspersonen jetzt diese Szene über einem Monitor, wie links in der Abbildung dargestellt. Wie Sie in der mittleren Spalte im rechten Teil der Grafik sehen, gelingt das Zeichnen und Schreiben zwar nicht mehr so präzise wie bei direkter Betrachtung der Szene (linke Spalte), aber immer noch passabel. Problematisch wird es jedoch, wenn die Wahrnehmung dessen, was man mit der Hand auf das Papier zeichnet, technisch verzögert19 wird. Das Ergebnis sehen Sie in der rechten Spalte. Das Schreiben funktioniert noch erstaunlich gut, vermutlich, weil Schreibbewegungen stark automatisiert und größtenteils ohne Hinsehen durchführbar sind. Das Nachzeichnen des Sterns kann jedoch nur als Desaster bezeichnet werden.

Das gleiche Problem wie beim Zeichnen des Sterns passiert auch, wenn Rückmeldungen, die direkt an die physischen Eingaben gekoppelt sind, verzögert erfolgen. Gibt es zum Beispiel eine merkliche Verzögerung bei der Rückmeldung auf Mausbewegungen, ist man nicht mehr in der Lage, den Mauszeiger ordentlich zu positionieren.

„Einen Cappuccino, bitte ...“ – Nutzungsschnittstelle eines Kaffeeautomaten
„Einen Cappuccino, bitte …“ – Nutzungsschnittstelle eines Kaffeeautomaten

Nicht alle Rückmeldungen am Computer müssen aber derart schnell erfolgen. Denn auch wenn etwas nicht gleichzeitig erscheint, werden Handlung und Reaktion doch als Ursache und Wirkung interpretiert, wenn der Zeitabstand nicht zu groß wird. Die Schwelle, ab der zwei Ereignisse nicht mehr als Ursache-Wirkung angesehen werden, hängt von den individuellen und situativen Gegebenheiten ab. Sie liegt aber in jedem Falle bei wenigen Sekunden. In der Abbildung oben ist ein moderner Kaffeeautomat zu sehen. Wie viele andere moderne Geräte verfügt die Maschine über ein Touch-Display. Die Bedienung dieser Maschine ist allerdings sehr träge, vor allem, wenn sie schon länger gelaufen ist. Wenn man auf „Cappuccino“ drückt, passiert zunächst nichts. Was macht man, wenn man irgendwo draufdrückt und nichts passiert? Aus der Fehlerforschung und eigener Erfahrung wissen wir, dass man bei unerwarteten Diskrepanzen die letzte Handlung wiederholt; man drückt noch einmal. Dies führt hier dazu, dass, sobald die Maschine wieder „ansprechbar“ ist, ein weiteres Tipp-Ereignis an der angetippten Stelle ausgelöst wird. Allerdings ist diese Stelle nun mit „Abbrechen“ beschriftet. Dass für den Bruchteil einer Sekunde ein zweiter Bildschirm erscheint, nur um dann gleich wieder die Startseite anzuzeigen, ist bei der Nutzung sehr irritierend. Einmal abgesehen von der nicht nachvollziehbaren Verzögerung gibt es keine unmittelbare Rückmeldung, dass eine Eingabe registriert worden ist.

Rückmeldungen haben somit zwei Komponenten, die beide unabhängig voneinander in der Nutzungsschnittstelle auftreten sollten. Unmittelbarkeit muss immer eingehalten werden. Damit dies auch dann geschehen kann, wenn noch keine Ergebnisse vorliegen, muss direkt nach einer Eingabe zumindest dieser Umstand, dass diese erkannt und nun verarbeitet wird, an der Nutzungsschnittstelle signalisiert werden evtl. mit dem Hinweis, dass Wartezeiten auftreten können. Beträgt die Wartezeit mehr als ein paar Sekunden wie bei der Kaffeemaschine, sollte fortlaufend der jeweils aktuelle Stand angezeigt werden.

Fortlaufende Rückmeldung

Insbesondere bei der Verarbeitung großer Datenmengen benötigen Verarbeitungsprozesse am Computer so viel Zeit, dass bis zur Ergebnismeldung die Wahrnehmungsschwelle deutlich überschritten wird: Sie müssen warten. Warten, ohne etwas tun zu können, ist eine sehr belastende Aktivität, die gerade in hektischen Zeiten viel Stress erzeugt. Wenn wir auf die Verarbeitungsgeschwindigkeit keinen Einfluss haben, wird es umso wichtiger, durch fortlaufende Rückmeldung Handlungsoptionen zu eröffnen.

Wenn also eine zeitlich unmittelbare Rückmeldung des Ergebnisses nicht möglich ist, muss der Prozess selbst zum Gegenstand der Rückmeldung werden und der Fortschritt fortlaufend differenziert angezeigt werden.

Fortschrittsanzeige beim Kopieren
Fortschrittsanzeige beim Kopieren

Fortschrittsanzeigen wie die obige entlasten, weil sie es gestatten, alternative Handlungsstrategien zu entwickeln. Wenn man nicht weiß, wie schnell oder langsam ein Prozess ist, und man keine Zeit verlieren darf, muss man kontinuierlich den Bildschirm beobachten, um den Zeitpunkt nicht zu verpassen, wenn das Resultat vorliegt. Bei einem halbwegs gleichförmigen Verarbeitungsprozess gestattet es eine Fortschrittsanzeige schon nach kurzer Beobachtungsdauer abzuschätzen, wie viel Zeit noch bis zum Erreichen des Ergebnisses verstreichen wird (Monitoring). Aufgrund der auch zeitlich differenzierten Rückmeldung, die auch eine Abschätzung der ungefähren Restdauer enthalten sollte, kann die Dauer des Prozesses eingeschätzt werden. Diese Befreiung vom Monitoring ermöglicht es, andere Aktivitäten auszuführen oder auch eine Pause einzulegen. Ein akustisches Signal und gegebenenfalls eine Meldung darüber, dass der Prozess fertig ist, erlauben es, passend zum Prozessende die Aktivitäten fortzuführen. Mehr dazu im folgenden Kapitel in unseren Hinweisen zu Ereignissen.

Das Problem der wahrgenommenen Zeit

Zeit ist ein sehr subjektives Gefühl. Der Eindruck variiert stark mit unserem inneren Zustand und unseren Erwartungen. Der Microsoft-Forscher Steven Seow hat dazu einige Untersuchungen durchgeführt20. Nach Seow sollte es bei der Gestaltung von Abläufen in der Nutzungsschnittstelle immer das Ziel sein, dass die wahrgenommene, gefühlte Zeit stets kürzer erscheint als die tatsächliche Zeit. Zumindest sollte die wahrgenommene Zeit nicht länger als die tatsächlich vergangene Zeit erscheinen. Seow identifiziert einige Situationen und Gestaltungsoptionen, die die wahrgenommene Zeit länger erscheinen lassen, als sie tatsächlich ist.

  • Bei sehr großen Mengenangaben, die man nicht einschätzen kann, beispielsweise wenn bei einer Installation „Noch 43.538 Elemente“ angezeigt wird, sollte man in so einem Fall auf die Anzahl von Restmengen verzichten.
  • Wenn es keine Informationen über den zu erwartenden Zeitaufwand gibt, sollte immer eine geschätzte Restzeit angezeigt werden. Idealerweise sollte man bei langen Vorgängen schon vor dem Start eine geschätzte Restzeit angeben, um die Chance zu eröffnen, diese Operation aufgrund von Zeitmangel eventuell zu verschieben.
  • Besonders ärgerlich ist es, wenn die Restzeit im Laufe des Prozesses wieder ansteigt oder die letzten paar Sekunden ewig zu dauern scheinen. Um solchen Ärgernissen vorzubeugen, sollte de Restzeit eher über- als unterschätzt werden.
  • Fortschrittsanzeigen, die sich lange nicht zu bewegen scheinen, sollten vermieden werden. Eine Möglichkeit besteht darin, sie nicht linear zu gestalten (dazu weiter unten mehr).
  • Für den Fall, dass eine Fortschrittsanzeige bis zum Ende durchläuft und dann die nächste Fortschrittsanzeige für den folgenden Prozessschritt beginnt, lautet die Empfehlung, mehrere Progress-Bars zu verwenden, von denen eine den Vorgang des aktuellen Schrittes und eine den Vorgang des Gesamtprozesses anzeigt.
  • Zwar gibt es Ausnahmen, in denen die vergangene Zeit am Ende eines Prozesses wichtig ist, doch ist in den meisten Fällen die Vergangenheit nicht interessant. Schlimmer noch – so paradox es klingt – kann die gefühlte Zeit durch die Angabe der bereits vergangenen Zeit länger erscheinen.

Neben diesen Gestaltungshinweisen, die Zeit nicht länger erscheinen zu lassen als sie ist, gibt es eine Reihe von Tricks, wie man es schafft, dass die wahrgenommene Zeit kürzer erscheint, als sie eigentlich ist. Seow beschreibt zum Beispiel, dass bei einem Installationsvorgang das Kopieren von Dateien schon beginnen kann, während noch Konfigurationseinstellungen abgefragt werden. Die Zeit, in der Eingaben getätigt werden, wird nicht als Wartezeit empfunden, sodass der Installationsvorgang kürzer erscheint.

Auch bei der Gestaltung der Fortschrittsanzeigen kann man einige Tricks anwenden. Seow beschreibt nicht lineare Fortschrittsanzeigen mit einem logarithmischen Verlauf, wie dies in der Abbildung dargestellt ist.

Ein Prinzip nicht-linearer Fortschrittsanzeigen – Quelle: Seow, Steven C.: Designing and Engineering Time. The Psychology of Time Perception in Software. Addison Wesley: Boston, 2008.
Ein Prinzip nicht-linearer Fortschrittsanzeigen – Quelle: Seow, Steven C.: Designing and Engineering Time. The Psychology of Time Perception in Software. Addison Wesley: Boston, 2008.

Dazu ein Beispiel: Nehmen Sie an, Sie wollten tausend Bilder über eine recht langsame Netzwerkverbindung verschicken. Zur Fortschrittsanzeige dient Ihnen ein Fortschrittsbalken, der aus zehn Segmenten besteht. Bei einer linearen Fortschrittsanzeige würde alle hundert Bilder ein zusätzliches Segment erscheinen. Im nicht linearen Fall erscheint das erste Segment erst nach 230 Bildern, zwischen dem vorletzten und letzten Balken liegen hingegen nur noch dreißig Bilder. Eine solche Fortschrittsanzeige erweckt den Eindruck, dass der Prozess gerade am Ende, wenn die Aufmerksamkeit auf den Fortschritt besonders hoch ist, schnell vonstatten geht. In der Konsequenz wird der Prozess insgesamt als schneller empfunden.

Optische Erscheinungsbilder von Fortschrittsbalken – Quelle: Harrison, Chris; Yeo, Zhiquan and Hudson, Scott E.: Faster Progress Bars: Manipulating Perceived Duration with Visual Augmentations. In: Proceedings of the 28th Annual SIGCHI Conference on Human Factors in Computing Systems (Atlanta, Georgia, April 10-15, 2010).
Optische Erscheinungsbilder von Fortschrittsbalken – Quelle: Harrison, Chris; Yeo, Zhiquan and Hudson, Scott E.: Faster Progress Bars: Manipulating Perceived Duration with Visual Augmentations. In: Proceedings of the 28th Annual SIGCHI Conference on Human Factors in Computing Systems (Atlanta, Georgia, April 10-15, 2010).

Andere Tricks, die einen schnelleren Fortschritt suggerieren, beziehen sich auf das optische Erscheinungsbild des Fortschrittsbalkens. Studien von Chris Harrison et al.21 haben ergeben, dass Fortschrittsbalken, die nicht stets die gleiche Farbe haben, sondern die farblich pulsieren und bei denen sich die Frequenz des Pulsierens zum Ende hin erhöht, als schneller angesehen werden als gleichmäßig pulsierende oder nicht pulsierende Fortschrittsbalken. Ebenfalls werden Fortschrittsbalken, die ein sich nach links bewegendes Muster aufweisen, als schneller laufend wahrgenommen als statische Fortschrittsbalken.

Sind solche Tricks unethisch? Tatsächlich findet keine Täuschung in Bezug auf die abgelaufene Zeit statt. Beeinflusst wird lediglich die subjektive Zeitwahrnehmung. Insofern entstehen in der Nutzung keinerlei Nachteile. Umgekehrt jedoch kann die Maßnahme dazu beitragen, Stress zu reduzieren.

Lokalität

In Douglas Adams’ „Per Anhalter durch die Galaxis“ wird die Erde zerstört, weil sie der Trasse einer intergalaktischen Schnellstraße im Wege steht. Auf den Einwand hin, dass man dies doch nicht einfach so unangekündigt machen könne, wird entgegnet, dass die Pläne dafür schon lange auf Alpha Centauri ausgelegen hätten. Nun sind Entfernungen am Bildschirm nicht so groß, wie von der Erde zu Alpha Centauri, doch kann es auch bei der Gestaltung von Rückmeldungen am Bildschirm passieren, dass sie einfach nicht gesehen werden, weil sie zu weit weg sind. Bei der Nutzung ist die Aufmerksamkeit auf den Ort der Handlung gerichtet. Wenn an einer anderen Stelle des Bildschirms etwas passiert, wird es nur wahrgenommen, wenn über das periphere Sehfeld ein starker Reiz die Aufmerksamkeit auf sich zieht. Doch selbst dann wird zunächst nur registriert, dass sich etwas geändert hat, aber nicht was. Viel besser wäre es, wenn die Rückmeldung zur Handlung nicht auf Alpha Centauri erfolgen würde, sondern lokal angezeigt wird, also da, wo ohnehin gerade der Fokus der Aufmerksamkeit liegt.

Unten sehen Sie den schon schon bekannten Parkscheinautomaten. Die eingezeichneten Pfeile stellen die Beziehung zwischen dem Ort der Eingabe und dem Ort der dazugehörigen Ausgabe dar. Welcher Effekt durch das Drücken des Knopfes T (Tagesticket) eintritt, wird deutlich entfernt vom Ort der Handlung in der zentralen Anzeige des Automaten angezeigt. Solange man nicht mit dem Automaten und seinen gestalterischen Defiziten vertraut ist, gibt es eine hohe Wahrscheinlichkeit, dass man die angezeigte Rückmeldung nicht wahrnimmt bzw. erst nach ihr suchen muss, denn am Ort der Handlung, da wo man gerade den Knopf gedrückt hat, gibt es keinen Hinweis.

Der Ort der Eingabe ist nicht der Ort der Ausgabe
Der Ort der Eingabe ist nicht der Ort der Ausgabe
Bedienpanel eines Fahrgeschäfts mit Statusrückmeldungen direkt an den Schaltknöpfen – Quelle: Cory Doctorow von Flickr
Bedienpanel eines Fahrgeschäfts mit Statusrückmeldungen direkt an den Schaltknöpfen – Quelle: Cory Doctorow von Flickr

Einen solchen Hinweis sehen Sie auf diesem Foto der Steuerung eines Fahrgeschäfts in einem Freizeitpark. Wenn man einen der Knöpfe drückt und damit einen gewissen Zustand aktiviert, leuchtet der Knopf auf. Es leuchtet nicht an einer anderen Stelle ein Lämpchen, sondern der gedrückte Knopf selbst leuchtet auf, die Rückmeldung erfolgt also so lokal wie möglich.

Die bewusste Wahrnehmung beschränkt sich jeweils auf den kleinen Bereich des scharfen Sehens. Umgekehrt kann man sagen, dass alles, was bewusst wahrgenommen werden soll, in diesen Bereich gebracht werden muss. Das Auge erwandert die Umwelt als Teil des Verstehensprozesses. Zwar sind diese Wanderungsbewegungen des Auges bei Erwachsenen standardisierter als bei Kindern, doch ist zum Zeitpunkt der Entwicklung schwer abschätzbar, wo eine Person gerade hinsieht. Eine recht verlässliche Annahme ist jedoch, dass der Fokus der Aufmerksamkeit am Ort des Handelns liegt, es sei denn, es handelt sich um antrainierte Situationen, bei denen der Ort der Rückmeldung aus Effektivitäts- oder Sicherheitsgründen vom Ort des Handelns getrennt ist. Beispiele sind das Bewegen einer Maus oder das Blindschreiben auf einer Tatstatur bzw. das Schalten beim Autofahren. In allen anderen Fällen ist es möglich, erzwungene Sequenzialität zu reduzieren, indem die Rückmeldung am Ort der Handlung erfolgt, denn das ist zugleich der Ort der Wahrnehmung. Bei den antrainierten entkoppelten Handlungen gibt es jedoch auch einen besonderen Punkt am Bildschirm, der einen Aufmerksamkeitsfokus verkörpert. Beim Blindschreiben ist das beispielsweise der Eingabecursor, der die Position für die jeweiligen Anschlusshandlungen markiert.

Noch stärker als beim Eingabecursor ist diese Kopplung beim Mauszeiger. Immer dann, wenn er bewegt wird, soll ja ein bestimmter Zielpunkt auf dem Bildschirm angesteuert werden, wozu der mehr oder weniger kontinuierliche Abgleich zwischen der aktuellen Position des Mauszeigers und des Zielpunkts erforderlich ist. Dadurch steht der Mauszeiger im Fokus der Aufmerksamkeit, sodass Rückmeldungen, die an anderer Stelle angezeigt werden, meist unbemerkt bleiben.

Rückmeldung außerhalb des an die Handlung (Selektion des Bildes) gekoppelten Wahrnehmungsbereichs
Rückmeldung außerhalb des an die Handlung (Selektion des Bildes) gekoppelten Wahrnehmungsbereichs

Diese beiden Screenshots verdeutlichen solch eine Situation. Auf dem rechten ist das in den Text eingebettete Bild selektiert, auf dem linken jedoch nicht. Die Selektion ist aufgrund eines Mausklicks erfolgt. Rückmeldungen in der Nähe des Mauszeigers werden mit hoher Wahrscheinlichkeit wahrgenommen. Die um das Bild herum erscheinenden Punkte, mit denen die Bildgröße geändert werden kann, verkörpern eine solche Rückmeldung. Es gibt aber noch eine weitere Rückmeldung auf die Selektionshandlung, die an anderer Stelle erfolgt ist und deshalb vermutlich übersehen wird. Die Icons in der Menüleiste haben sich geändert. Die Elemente zur Schriftmanipulation, die in dieser Situation keine Bedeutung haben, sind verschwunden und haben anderen Icons Platz gemacht, die Funktionen zur Manipulation des Bildes anbieten, etwa der Positionierung auf der Seite.

Kopplung und Kollokation im CKEditor
Kopplung und Kollokation im CKEditor

Eine in dieser Hinsicht bessere Lösung ist im abgebildeten CKEditor gewählt worden. Auch in diesem Fall erscheinen die Bearbeitungsmöglichkeiten automatisch erst dann, wenn ein Text markiert worden ist. Die Anzeige erfolgt lokal am Ort des Handelns und hat eine sichtbare Zuordnung zu dem Objekt, auf das es sich bezieht. Diese Art der lokalen Einblendung funktioniert jedoch nur gut, wenn die Menge der erscheinenden Objekte überschaubar ist.

Lokale Rückmeldung in Microsofts Outlook
Lokale Rückmeldung in Microsofts Outlook

Dieser Screenshot zeigt eine vorbildliche lokale Rückmeldung in Microsofts Webmail-Lösung Outlook.com. Abgebildet ist ein Ausschnitt des Menüs, mit dessen Hilfe sich eine geöffnete Mail einer Kategorie zuordnen lässt. Klickt man dort auf „New category“, erscheint direkt an Ort und Stelle das Eingabefeld für den Namen der neuen Kategorie, nicht etwa, wie in vielen anderen Fällen, in einem Extrafenster in der Bildschirmmitte.

Mauszeiger als Mittel der lokalen und differenzierten Rückmeldung

Immer dann, wenn der Mauszeiger absichtlich bewegt wird, können man davon ausgehen, dass die Aufmerksamkeit auf ihn gerichtet ist. Zusätzliche Informationen zur aktuellen Handlung sollten daher an der Mausposition dargestellt werden. Am einfachsten geht das, indem der Mauszeiger selbst verändert wird.

Möglichkeiten der Differenzierung des Mauszeigers in Windows– Quelle: freecodecamp.org
Möglichkeiten der Differenzierung des Mauszeigers in Windows– Quelle: freecodecamp.org

Diese Abbildung zeigt ein klassisches Ensemble von Mauszeigern. Doch nicht nur die Zeigerform selbst eignet sich für eine Rückmeldung. Wenn beispielsweise ein Datei-Icon verschoben wird, ist es üblich, dass das Icon zusätzlich am Mauszeiger hängt. Diese Rückmeldung signalisiert die gerade stattfindende Aktion. Das Potenzial einer solchen lokalen Rückmeldung eröffnet noch weitere Formen der Gestaltung.

Verschieben einer Datei unter Windows 7
Verschieben einer Datei unter Windows 7

Die Abbildung zeigt das Verschieben einer Datei unter Windows 7. Man sieht an der Mauszeigerposition nicht nur das Objekt, das gerade verschoben wird, sondern auch einen informativen Text. Die komplette an den Mauszeiger gekoppelte Ausgabe ist nicht nur lokal am Ort der Wahrnehmung, sondern auch sehr differenziert, denn man sieht genau, welches Objekt ausgewählt worden ist (Feed-Back), und erhält zudem präzise Angaben darüber, was passiert, wenn die Maustaste losgelassen wird; in diesem Fall „Nach Desktop verschieben“ (Feed-Forward). Auf die gleiche Weise wird auch angezeigt, wo ein „Fallen lassen“ gar nicht möglich ist.

Kopierpinsel in der Bildbearbeitungssoftware Pixelmator mit Rückmeldung am Ort der Handlung
Kopierpinsel in der Bildbearbeitungssoftware Pixelmator mit Rückmeldung am Ort der Handlung

Auch in der Bildbearbeitung Pixelmator ist ausgenutzt worden, dass der Mauszeiger der Ort der Wahrnehmung ist. In der obigen Situation ist ein Kopierpinsel ausgewählt. Für die Durchführung ist jedoch zunächst die Angabe erforderlich, von wo kopiert werden soll. Dies wird direkt am Mauszeiger in Klartext mitgeteilt.

Hinweise direkt am Mauszeiger werden leider viel zu selten praktiziert. Diese Technik ist jedoch sehr nützlich, denn sie erfolgt nicht nur am Ort der Wahrnehmung, sondern spart außerdem noch Platz, da die Rückmeldung sonst an einer anderen Stelle des Bildschirms untergebracht werden müsste, beispielsweise in einer zusätzlichen Statusleiste, auf die man jetzt verzichten kann.

Prozesse

Nicht jede Interaktion mit dem Computer ist so feingranular, dass auf einen Tastenanschlag, einen Mausklick oder einen Tipp auf einen Touchscreen die ausgelöste Aktion so schnell beendet werden kann, dass das System unmittelbar danach für weitere Eingaben zur Verfügung steht. Im vorherigen Kapitel Rückmeldungen klang bereits an, dass Abläufe im Computer auch länger dauern können. Zudem lassen sich die zu erledigenden Aufgaben nur selten auf eine einzelne Eingabe mit entsprechender Rückmeldung reduzieren. Stattdessen bestehen sie aus zusammengesetzten Einheiten, etwa während eines Bestellvorgangs im Internet oder wenn eine Datei per Drag and Drop von einem Fenster in ein anderes geschoben werden soll.

Es gibt wohl kaum Situationen, in denen das Gefühl von erzwungenen Sequenzialitäten ähnlich stark ausgeprägt ist wie bei langlaufenden Prozessen, während derer eine weitere Nutzung blockiert ist. Die im vorherigen Kapitel vorgestellten fortlaufenden Rückmeldung geben zumindest Informationen über den Fortschritt des Prozesses und, im Falle automatischer Abläufe, über die voraussichtliche Laufzeit. Wenn solche Rückmeldungen früh genug erfolgen, ermöglichen sie es, alternative Handlungsstrategien zu entwickeln, also einen Prozess nur in Gang zu setzen, wenn es gerade passt, oder die noch verbleibende Zeit für eine Pause zu nutzen. Es können sich aber viele Probleme ergeben, die zu einem Gefühl des Gefangen- oder Fremdgesteuert-Seins führen können:

  1. Es kommt vor, dass beim Anstoßen eines Prozesses nicht absehbar ist, wie lange er tatsächlich dauern wird.
  2. Insbesondere kann ein Prozess auch versehentlich oder mit falschen Parametern gestartet worden sein, indem beispielsweise statt einer gleich hundert Dateien geöffnet werden.
  3. Auch bei einer angenommenen langen Dauer können weitere zusätzliche Problem auftreten.
  4. Die Entscheidung, bei einem langlaufenden automatischen Prozess parallele Aktivitäten zu starten, erfordert trotzdem den gelegentlichen Blick auf den Bildschirm, um zu sehen, ob der Prozess mittlerweile beendet worden ist.

In all diesen Fällen entstehen erzwungene Sequenzialitäten, denn man kann nicht so weitermachen, wie man es möchte, ist sich nicht darüber bewusst, dass man mit einer bestimmten Aufgabe weitermachen könnte und wartet daher unnütz oder man sieht sich genötigt, ständig zu überprüfen, in welchem Zustand sich das Softwaresystem gerade befindet. Diesen Problemen begegnen wir in diesem Kapitel mit den Anforderungen nach Attentionalität und Beeinflussbarkeit.

Ereignisbehandlungen

Um die Notwendigkeit, ständig überprüfen zu müssen, ob sich ein bedeutsamer Objekt- oder der Systemzustand geändert hat, stellen wir den Rückmeldungen aus dem vorherigen Kapitel Ereignisse an die Seite. Sie dienen dazu, auf solche Objekt- oder Systemzustandsänderungen hinzuweisen.

Im vorherigen Kapitel haben wir gefordert, dass ein digitales System auf eine Eingabe stets lokal, unmittelbar und differenziert mit einer Rückmeldung reagieren muss. Doch nicht jede dynamische Anzeige einer Software ist eine Rückmeldung im engeren Sinne. In vielen Fällen passieren Dinge, die von einer unmittelbar zuvor erfolgten Eingabe unabhängig sind. Wir bezeichnen solche Änderungen als „Ereignisse“. Beispiele für Ereignisse sind das Eintreffen einer neuen E-Mail im E-Mail-Programm, eine eingehende Textnachricht auf dem Smartphone, der Umstand, dass ein Videoexport fertig ist, oder die Mitteilung des Betriebssystems, dass die Kapazität der Festplatte nahezu ausgeschöpft ist. In diesen Ereignissituationen gilt es den Grund anzuzeigen, um angemessen darauf reagieren zu können.

Die Begriffe „Ereignis“ und „Ereignisbehandlung“ kennen Informatiker auch aus der Programmierung. Wie schon beim Objektbegriff, als es für uns nicht wichtig war, ob objektorientierte Programmierung eingesetzt wird, ist es irrelevant, ob in der Programmierung mit einem Ereignissystem und einem entsprechenden Listener-Konzept22 gearbeitet wird oder ob ein regelmäßiges Polling23 stattfindet. Relevant ist für uns das Ereignis auf der Ebene der Nutzungsschnittstelle.

Die Ereignisbehandlungen weisen Ähnlichkeiten mit Rückmeldungen auf. So gilt nach wie vor die Forderung nach Differenziertheit. Die Meldung, die auf Grundlage eines Ereignisses ausgegeben wird, muss also sowohl hinreichend Feed-Back- als auch Feed-Forward-Informationen bieten. Die weiteren Forderungen an Rückmeldungen, Unmittelbarkeit und Lokalität, lassen sich bei der Ereignisbehandlung indes nicht umsetzen, denn Ereignisse treten qua Definition nicht unmittelbar im Zusammenhang mit einer Eingabe auf. Damit entfällt auch die Lokalität als Gestaltungsmittel, denn die Annahme des aktuellen Ortes der Aufmerksamkeit haben wir an die Grundthese gekoppelt, dass der Ort der Eingabe auch der Ort der Aufmerksamkeit ist. Wenn es aber keinen direkten Zusammenhang zu einer Eingabe gibt, fehlt die Grundlage für die Umsetzung der Forderung nach Lokalität. Wir wissen bei Ereignissen noch nicht einmal, ob jemand gerade auf den Bildschirm schaut bzw. der Computer aktiv verwendet wird. An die Stelle von Lokalität und Unmittelbarkeit tritt bei Ereignissen deshalb die Forderung nach Attentionalität, also nach Aufmerksamkeitsleitung.

Einige Methoden zur Aufmerksamkeitsleitung haben wir bereits im Kapitel Architektur der Wahrnehmung kennengelernt. Dort haben wir zum Beispiel gesehen, dass Bewegungen im peripheren Wahrnehmungsbereich gut geeignet sind, die Aufmerksamkeit auf sich zu ziehen. Dies lässt sich auf die Gestaltung von Nutzungsschnittstellen übertragen. Bei MacOS beispielsweise springt ein Icon im Dock, wenn das dazugehörige Programm eine Meldung generiert, wenn es nicht das gerade verwendete Programm ist. Microsoft löst das Problem bei Windows ähnlich durch ein Blinken des entsprechenden Buttons in der Taskleiste. Auch in eigener Software kann man diese Technik nutzen und die Aufmerksamkeit durch Blinken oder Bewegungen auf Objekte lenken.

Bewegung im peripheren Sichtfeld erzeugt Aufmerksamkeit über den Sehsinn. Es hilft jedoch nichts, wenn der Bildschirm sich nicht im Wahrnehmungsbereich befindet. In diesem Fall müssen andere Sinne, das Gehör oder der Gefühlssinn, angesprochen werden. Klangausgaben und Vibrationen sind dazu gut geeignet. Der Klangausgabe kommt eine besondere Bedeutung zu, denn sie erlaubt als einzige eine Aufmerksamkeitsleitung auch in den Fällen, wo das Gerät, dass die Aufmerksamkeit auf sich lenken will, nicht Gegenstand der Wahrnehmung ist oder es sich nicht in sichtbarer Nähe befindet.

Das Aufmerksamkeitslenkungspotenzial von Tönen bringt jedoch auch Nachteile mit sich, denn es betrifft immer die gesamte Umgebung. Was für den einen eine erwünschte Aufmerksamkeitslenkung darstellt, ist für die andere eine unerwünschte Störung, denn im Gegensatz zu visuellen Reizen kann man nicht weghören. In der Konsequenz bedeutetet dies, alle Techniken zur Aufmerksamkeitsleitung so sparsam wie möglich einzusetzen, denn sie verkörpern optische, akustische und taktile Schreihälse. Es ist in Ordnung, wenn uns jemand laut „Vorsicht!“ zuruft, um zu vermeiden, dass es zu einem Unfall kommt, aber wenn wir ständig angeschrien würden, ständig jemand wild winken oder uns anstupsen würde, wären wir schnell genervt und würden uns dieses Benehmen verbitten. Werden vor allem Klänge und Vibrationen zu häufig eingesetzt, wächst die Wahrscheinlichkeit, dass sie abgeschaltet werden. Sind Klang und Vibration aber erst einmal ausgeschaltet, gibt es keine Möglichkeit mehr, im wirklichen „Notfall“ doch noch für Aufmerksamkeit zu sorgen.

Attentionalität ist relativ undifferenziert

Die von uns vorgestellten Techniken zur Aufmerksamkeitsleitung haben gemeinsam, dass sie sich nicht dazu eignen, differenziert auf einen Umstand hinzuweisen. Zwar wäre es grundsätzlich möglich, verschiedene Klänge, verschiedene Bewegungsarten oder verschiedene „Vibrationsmuster“ für unterschiedliche Ereignisse zu verwenden, doch sind diese Rückmeldungen in ihrer Aussagekraft eingeschränkt. Bei Tönen und Bewegungen kommt noch hinzu, dass diese in der Regel nur kurz auftreten. Da es in der Natur der Sache liegt, dass die Aufmerksamkeit zur Zeit des Eintritts des Ereignisses woanders liegt, kann man bei der Gestaltung eines Systems nicht davon ausgehen, dass der Ereigniston zugleich den Ereignisgrund signalisiert.

Da solche Attentionalitäts-Techniken nicht differenziert sind, bedarf es weiterer Design-Elemente, um der im vorherigen Kapitel besprochenen Forderung nach Differenziertheit entsprechen zu können. Dies kann zum Beispiel eine Einblendung oder auch eine Meldungsbox sein. Eine solche Meldung komplementiert eine Aufmerksamkeitsleitung durch ein Geräusch sehr gut, denn in ihr kann zum einen umfangreich beschrieben werden, worum es geht und sie bleibt in der Regel so lange sichtbar, wie es notwendig ist, also etwa bis ein Missstand abgestellt ist oder bis der Nutzer die Meldung quittiert.

Beeinflussbarkeit

Die Forderung nach Attentionalität sorgt dafür, dass wichtige Ereignisse, wenn sie eintreten oder wenn sie eingetreten sind, entsprechend signalisiert werden. Wenn sie gut umgesetzt wird, sorgt sie für eine erhebliche Aufwandsreduktion, da der Aufwand entfällt, sich kontinuierlich auf dem Laufenden zu halten. Auch bei der zweiten Forderung zur Gestaltung von Prozessen, der Beeinflussbarkeit, geht es darum, eine möglichst maximale Handlungsflexibilität zu ermöglichen.

Keine Möglichkeit der Einflussnahme auf den Kopierprozess
Keine Möglichkeit der Einflussnahme auf den Kopierprozess

In diesem Beispiel der Apple-Präsentationssoftware Keynote ist schon die basalste Form der Beeinflussbarkeit nicht gegeben. In diesem Beispiel sollen Folien aus dem rechten Fenster in das linke Fenster kopiert werden. Dabei ist nicht berücksichtigt worden, dass die Folien viele Videos enthalten und sich zudem auf Netzlaufwerken befinden. Diese ungünstige Konstellation führt dazu, dass an ein Weiterarbeiten nicht zu denken ist, das Kopieren sehr lange dauert und das Programm während des Übertragungsvorgangs das System blockiert. Die ins Stocken gekommene Statusanzeige lässt zudem nichts Gutes vermuten. Zwei Gestaltungsdefizite treten zutage. Zum einen ist die Rückmeldung in keiner Weise differenziert, eine Abschätzung der Zeitdauer folglich nicht möglich. Zum anderen gibt es keine Möglichkeit der Einflussnahme auf den Kopierprozess. Es hätte sich angeboten, entweder nicht pauschal alle Folien zu kopieren, sondern nur einige, oder aber die Folien vorher auf die lokale Festplatte zu kopieren. Dazu hätte man den aktuellen Vorgang abbrechen müssen. Ein Abbrechen ist aber nicht vorgesehen. Es ist nur eine erzwungene Beendigung des Programms mithilfe eines Taskmanagers möglich, wobei jedoch alle Änderungen, die bis zu diesem Zeitpunkt erfolgt sind, verloren gehen.

Abbrechbarkeit

Es gibt eine Vielzahl von Gründen, einen angestoßenen Prozess abbrechen zu wollen. Im obigen Beispiel ist vor Beginn nicht ersichtlich gewesen, dass der Vorgang übermäßig lange dauern würde. Auch kommt es immer wieder vor, dass Prozesse versehentlich oder mit den falschen Parametern gestartet werden.

Abbrechbarkeit langlaufender Prozesse
Abbrechbarkeit langlaufender Prozesse

Jede Rückmeldung zu einem Prozess, der mehr als wenige Sekunden dauert, braucht daher die Möglichkeit zum Abbrechen. Ob dies der Fall ist, muss im Sinne einer differenzierten Rückmeldung ja ohnehin berechnet bzw. abgeschätzt werden. Die Beschriftung des Buttons mit dem generischen Begriff „Abbrechen“ ist in diesen Fällen unproblematisch, da die Fortschrittsanzeige bei einer differenzierten Rückmeldung den Prozess und seinen momentanen Bearbeitungszustand ohnehin anzeigt.

Auch Prozesse, die aus vielen Prozessschritten bestehen, sollten abbrechbar sein. Wird beispielsweise in einer Textverarbeitung ein Briefassistent gestartet, muss man diesen abbrechen können, wenn man die gewünschten oder fehlenden Hinweise erhalten hat oder sie nicht mehr benötigt. Wenn man es mit einer Reihe von Bildschirmmasken zu tun hat, die nacheinander aufgerufen werden – beispielsweise bei einem Bestellvorgang im Internet – sollte man jedoch die Abbruch-Option nicht mit „Abbrechen“ bezeichnen, da nicht klar ist, ob nur ein Prozessschritt oder der gesamte Vorgang abgebrochen wird.

Der Abbruch einer Aktion hat immer Konsequenzen, über die Klarheit herrschen muss. Die offensichtlichste Konsequenz ist, dass „Abbrechen“ die gestartete Operation ungeschehen macht. Die Konsequenzen eines Abbruchs können auch anderer Art sein, etwa dass eine Web-Anwendung nicht genutzt werden kann, weil der Anmeldeprozess nicht zu Ende gebracht werden konnte, oder dass eine Festplatte nicht nutzbar ist, weil die Formatierung nicht bis zum Ende durchgeführt worden ist. Zu jedem Abbrechen gehört daher eine differenzierte Rückmeldung, die über die Konsequenzen informiert.

Grundsätzlich sollte das Abbrechen eines Prozesses den Zustand vor seinem Auslösen wiederherstellen. Das bedeutet zum Beispiel beim Verschieben von Dateien, dass beim Abbrechen die Dateien vollständig am Ursprungsort verbleiben oder wiederhergestellt werden und am vermeintlichen Zielort keine der Dateien auftaucht. Das kann schwierig werden, wenn zum Beispiel beim Verschieben Dateien am Zielort überschrieben werden. In so einem Fall gibt es zwei Reaktionsmöglichkeiten. Die erste wäre ein Hinweis während des Kopierens, dass überschriebene Dateien nicht wiederhergestellt werden können. Es gibt zwar eine differenzierte Rückmeldung, doch wird die Verantwortung für die Konsequenzen in die Nutzung verlegt. Die zweite – und dies wäre die weitaus bessere Variante – sorgt dafür, dass überschriebene Dateien zunächst in ein temporäres Verzeichnis verschoben werden und erst nach Beendigung des Prozesses gelöscht werden.

Es gibt einzelne Fälle, in denen ein Wiederherstellen des vorherigen Zustands nicht möglich ist, wie zum Beispiel beim Formatieren einer Festplatte. Ein Zurückkehren zum vorherigen Zustand würde bedeuten, dass der komplette vorherige Plattenzustand gespeichert und beim Abbrechen zurückgeschrieben werden müsste. Das wäre zwar grundsätzlich möglich, doch in den meisten Fällen nicht praktikabel. Weitere Beispiele von nicht oder nicht ohne Weiteres abbrechbaren Prozessen sind Betriebssystem-Updates oder das Patchen per USB angeschlossener Geräte. Ist ein Abbruch eines Prozesses nicht möglich, muss ein entsprechender Hinweis vor dem Beginn erscheinen, der die geschätzte Zeit für den Prozess im Vorfeld angibt.

Nicht abbrechbare Prozesse nie automatisch starten!

Nicht abbrechbare Operationen dürfen auf keinen Fall automatisch gestartet werden, wie das bei der Update-Funktion von Microsoft Windows der Fall war. Der Update-Prozess wurde unabhängig von der aktuellen Nutzungssituation gestartet. Welche Folgen das haben kann, zeigt die folgende Anekdote24 aus dem Jahr 2015:

Ein Basketballspiel der Finke Baskets Paderborn gegen die Niners Chemnitz in der zweiten Basketball-Bundesliga begann 25 Minuten zu spät. Der Grund dafür war, dass das Laptop, das die Anzeigetafel in der Paderborner Basketballhalle steuerte, nicht zur Verfügung stand, da es gerade ein automatisch initialisiertes Windows-Update installierte. Nachdem das Spiel schließlich gestartet war, gewann Paderborn mit 69:62. Chemnitz legte jedoch wegen des verzögerten Spielbeginns Protest gegen die Spielwertung ein. Am grünen Tisch ging das Spiel an Chemnitz; Paderborn wurde mit einem zusätzlichen Punktabzug bestraft. Diese Strafe hätte den Abstieg der Paderborner Mannschaft aus der zweiten Basketball-Bundesliga bedeutet. In einer Berufungsverhandlung konnte die zusätzliche Punktstrafe glücklicherweise noch abgewendet werden.

Auch wenn viele Alltagssituationen nicht so gravierende Konsequenzen mit sich bringen sollten, erfüllt das automatische Starten nicht abbrechbarer Prozesse gewissermaßen den Tatbestand der Nötigung.

Abbrechbarkeit von Eingabeoperationen

Auch in Bezug auf Eingaben ist Abbrechbarkeit ein wichtiger Aspekt. Das beginnt bei Texteingaben, die erst verarbeitet werden, wenn sie komplett abgeschlossen sind. Bei Kommandozeilen wird eine eingegebene Zeile erst ausgeführt, wenn sie durch Drücken der Return-Taste abgeschlossen wird. Die komplette Eingabe bis zu diesem Punkt kann daher als eine Eingabehandlung angesehen werden. In modernen Kommandozeilen-Interpretern kann sie abgebrochen werden, indem man STRG + c (oder am Macintosh Command + c) drückt. Damit wird die Eingabe abgebrochen und eine neue, leere Kommandozeile wird angezeigt.

Ebenfalls wichtig ist die Abbrechbarkeit bei grafisch-räumlichen Nutzungsschnittstellen. Die Eingabe eines gerade gedrückten Buttons etwa kann durch Wegziehen des Mauszeigers oder des Fingers vom Button abgebrochen werden. Hier kommen speziell die Lift-Off-Strategien, die wir im Kapitel Eingaben bereits angesprochen haben, wieder zum Tragen, denn Lift-Off ist die Technik, die dafür sorgt, dass es überhaupt einen Zeitraum gibt, in dem die Handlung noch abgebrochen werden kann. Würde ein Button gleich beim Herunterdrücken der Maustaste oder beim Aufsetzen des Fingers auslösen, wäre das nicht mehr möglich.

Ziehen und Verschieben (Drag and Drop) ist auch eine Lift-Off-Technik, denn auch hier wird erst am Ende der Handlung, wenn man den Finger wieder vom Touch-Display oder von der Maustaste nimmt, eine Funktion ausgelöst. Während der Drag-and-Drop-Handlung muss eine kontinuierlich differenzierte Rückmeldung erfolgen, die angibt, was jeweils im Falle des Fallenlassens am aktuellen Ort geschehen würde. Die Drag-and-Drop-Aktion startet mit dem Aufsetzen des Fingers oder dem Klicken der Maustaste. Sobald die Aktion gestartet ist, muss es eine unmittelbare und differenzierte Rückmeldung geben. Das Objekt wird etwa als markiert ausgezeichnet und dem Mauszeiger angeheftet. Während der kompletten Aktion muss der Zustand, der beim Beenden der Aktion zu diesem Zeitpunkt eintreten würde, kontinuierlich verdeutlicht werden. Der Mauszeiger ändert in Abhängigkeit vom unter dem Mauszeiger befindlichen Objekt seine Form, um jeweils konkret anzuzeigen, was passieren würde, wenn man das Objekt nun fallen ließe.

Dadurch, dass eine Drag-and-Drop-Aktion kontinuierliche Rückmeldung verlangt, zeigt sich, dass es sich bei ihr um einen längeren Prozess handelt, der entsprechende Mechanismen zur Steuerung während des Ablaufs anbieten muss. Auch in diesen Fällen ist die Möglichkeit des Abbruchs erforderlich, um die Notwendigkeit zusätzlicher oder auch unnützer Eingaben zu reduzieren, die zum Herstellen des gewünschten Zustands getätigt werden müssten.

Rücknehmbarkeit

Eng mit der Abbrechbarkeit verwandt ist die Rücknehmbarkeit. Gemäß der Forderung nach Abbrechbarkeit soll es jederzeit möglich sein, die aktuelle Bearbeitung zu beenden und zum Ausgangszustand zurückzukehren. Rücknehmbarkeit fordert das Gleiche, nur dass der Prozess, der rückabgewickelt werden soll, bereits abgelaufen ist. Es handelt sich also um eine Art „Abbrechen danach“. Die Möglichkeit, Prozesse sowohl abzubrechen als auch im Nachhinein zurücknehmen zu können, ermöglicht es, die Funktionalität einer Software zu explorieren. Interaktive Software, die die Anforderung nach Beeinflussbarkeit erfüllt, benötigt also eine „Rückgängig-Funktion“.

Die Umsetzung von Rückgängig-Funktionen beinhaltet viele komplexe Design-Entscheidungen. Dies beginnt mit der Granularität der Operationen. In LibreOffice beispielsweise ist beim Eingeben nicht jeder einzelne Buchstabe zurücknehmbar, sondern nur jedes Wort. In der Bildverwaltung und -bearbeitung Lightroom von Adobe wird schon das Wechseln zwischen zwei Bildern in der Ansicht als Aktion betrachtet, die zurückgenommen werden kann. Andere Gestaltungsmöglichkeiten beziehen sich darauf, wie viele Aktionen rückgängig gemacht werden können. Sehr simple Implementierungen erlauben nur ein einfaches „Undo“, also ein Rückgängigmachen der letzten Aktion. Das ist zwar besser als nichts, sorgt aber nicht für die beschriebene Sicherheit zum Explorieren, denn eine irrtümliche oder fehleingeschätzte Operation müsste unmittelbar nach der Aktion erkannt werden, um noch rückgängig gemacht werden zu können.

Zu einem Rückgängig, einem Undo, gehört auch das Gegenstück, das im Englischen „Redo“ genannt wird. Dies ermöglicht zum Beispiel ein Undo, das so weit zurück reicht, bis sich alles in einem Zustand befindet, der akzeptabel ist, um anschließend Schritt für Schritt im Redo die gemachten Operationen nachzuvollziehen. Im Deutschen wird die Redo-Operation oft mit „Wiederholen“ übersetzt. Diese Übersetzung ist irreführend, denn es wird ja keine Aktion ein weiteres Mal durchgeführt (im Sinne von „repeat“). „Wiederherstellen“ wäre eine bessere Übersetzung.

Generell ist ein Rückgängig-Machen in denselben Situationen schwierig, in denen auch ein Abbrechen schwer möglich ist. Sehr kompliziert wird das Rückgängig-Machen, wenn Objekte von mehreren Personen gleichzeitig bearbeitet werden. Was soll beispielsweise „Rückgängig“ bei einem kollaborativen Editor, wo mehrere Personen gleichzeitig schreiben können, bewirken? Werden nur die eigenen Aktionen oder auch die Aktionen anderer rückgängig gemacht? Wenn es nur die eigenen sind, diese Aktionen aber auf Grundlage der Handlungen anderer erfolgten, ist die Grundidee des Rückgängig-Machens, die Wiederherstellung des vorherigen Zustandes, nicht erfüllbar. Gilt ein Rückgängig für die Handlungen aller, entstehen andere Probleme. Um sie zu lösen, müsste es eine Art Änderungsprotokoll geben, in dem einzelne Operationen im Nachhinein entfernt werden können. Diese Art des Managements von Objektoperationen ist jedoch, ähnlich wie das Vorsehen mehrerer verschiedener Bearbeitungszustände in einer Bildverarbeitung, aufgabenabhängig und fällt damit in den Bereich der Gebrauchstauglichkeit.

Unterbrechbarkeit

In vielen Situationen ist eine Unterbrechung einem Abbruch vorzuziehen: zum Beispiel beim Kopieren großer Datenmengen von einem mobilen Gerät auf ein externes Speichermedium, wenn zwischenzeitlich das Gerät an einem anderen Ort genutzt werden soll.

Unterbrechen als Ergänzung des Abbrechens
Unterbrechen als Ergänzung des Abbrechens

In dem gezeigten Dialog ist das Kopieren eines großen Medienarchivs zu sehen. Es sind zwar schon dreißig Prozent kopiert, doch dauert der Prozess noch vier Stunden. Um die maximale Handlungsflexibilität in der Nutzung zu erhalten, ist die Möglichkeit einer Unterbrechung erforderlich, denn sonst müsste man den Prozess abbrechen und bei passender Gelegenheit von Neuem mit der Operation beginnen: eine Verschwendung von Zeit und Ressourcen bzw. gemäß unserer Leitlinie ein hohes Maß an erzwungener Sequenzialität.

Wenn eine Unterbrechung vorgesehen ist, gilt es, einige Punkte zu bedenken:

  • Unterbrechen bedeutet, dass die Operation angehalten wird und alle notwendigen Informationen zur Fortsetzung gespeichert werden müssen. Das kann auch beinhalten zu speichern, dass eine bestimmte Netzwerkressource wieder zur Verfügung stehen muss, bevor eine Operation fortgesetzt werden kann.
  • Durch das Unterbrechen wird die Operation, die unterbrochen worden ist, zu einem Objekt, das referenziert werden können muss. Es braucht also eine Erweiterung der Nutzungsschnittstelle, in der die unterbrochenen Prozesse zu sehen, wieder zu starten und abzubrechen sind.
  • Ein Unterbrechen einer Operation kann, ähnlich wie ein Abbrechen, Folgen haben. Diese können weitreichender sein als die Wiederherstellung des vorigen Zustands beim Abbrechen, denn eine nur teilweise kopierte Medienbibliothek könnte sich durch die Unterbrechung in einem Zustand befinden, in dem sie nicht nutzbar ist. Auf solche Situation ist vor dem Unterbrechen differenziert hinzuweisen.

Richtig kompliziert wird es, wenn sich die Grundlagen, auf denen der ursprüngliche, jetzt unterbrochene Prozess abläuft, ändern. Im Falle eines halb kopierten Medienarchivs könnten zwischenzeitlich Strukturen im Ziel geändert oder aber Elemente in das zu kopierende Archiv hinzugefügt oder aus ihm entfernt werden. Soweit möglich sollten deshalb bei Unterbrechungen Änderungen am Archiv blockiert werden. Andernfalls sind Mechanismen vorzusehen, wie mit gegebenenfalls entstandenen Inkonsistenzen umgegangen werden soll.

Unterbrechbarkeit bei länger laufenden Bearbeitungen

Die Forderung nach Unterbrechbarkeit kann nicht nur bei langlaufenden Operationen angewandt werden, sondern gilt ebenso für lange Interaktionsfolgen. Der schon zuvor erwähnte Bestellvorgang sollte nicht nur jederzeit abbrechbar, sondern auch unterbrechbar sein, falls ein Teil der einzugebenden Daten gerade nicht vorliegt. Ohne Unterbrechbarkeit würde dies die erneute Eingabe aller bis zu diesem Zeitpunkt erfolgten Bestelleingaben erfordern.

Die Unterbrechbarkeit von Verarbeitungsschritten, wie zum Beispiel komplexen Eingaben in eine Datenbank, erfordert, dass Datensätze unabhängig von einer separat und bei Bedarf anzustoßenden Konsistenzprüfung schon erfasst werden können. Auf diese Weise kann der Mehraufwand, der sonst bei Nutzungsunterbrechungen erforderlich wäre, reduziert werden. Was wann und in welcher Reihenfolge zu tun ist, sollte nutzungsgetrieben und nicht systemgetrieben erfolgen. Voraussetzung ist jedoch, dass dem keine Sicherheitsbedenken entgegenstehen oder die Systemintegrität nachhaltig verletzt wird.

Zusammenfassend lässt sich feststellen, dass wir uns mit der Behandlung technischer Prozesse in einem Übergangsfeld zwischen Ergonomie und Funktionalität bewegen. Wie beim Übergang zwischen Ergonomie und Gebrauchstauglichkeit gehen wir damit über den von uns gesetzten Bereich ergonomischer Gestaltungsmaßnahmen hinaus. Neue Funktionalitäten und technische Innovationen werden jedoch in erster Linie von anderen Entwicklungsfaktoren als der Ergonomie getrieben, auch wenn die technischen Verbesserungen hinsichtlich einer flexiblen Nutzung zur Verbesserung der Gebrauchstauglichkeit beitragen oder intendiert sind. In diesem Abschnitt haben wir versucht, einige Gestaltungskonzepte vorzustellen, die nicht anwendungs- oder plattformspezifisch sind und deshalb übergreifend zu speziellen Betriebssystemen, Plattformen und Standards betrachtet werden können. Doch ist auch deutlich geworden, dass die Umsetzung ohne die Berücksichtigung des spezifischen technischen Kontextes nicht möglich ist. Dies betrifft beispielsweise auch viele Aspekte, die mit dem technischen Konzept der Nebenläufigkeit auftreten. Auch für diesen Bereich ließen sich einige anwendungs- bzw. plattformunabhängige Aspekte beisteuern, doch würden diese weitgehend im Bereich der Entwicklung technischer Plattformen liegen, weniger in der Ausprägung und Gestaltung ergonomischer Nutzungsoberflächen.

Orientierung

Mit den in den Gestaltungsbereichen Präsentation und Interaktion vorgestellten Forderungen haben wir die Grundlagen gelegt, um Nutzungsschnittstellen zu gestalten, in denen Bildschirmobjekte ergonomisch gestaltet und übersichtlich angeordnet sind. Die Objekte ermöglichen Eingaben und Manipulationen und die Nutzungsoberfläche insgesamt bietet entsprechende Rückmeldungen und Möglichkeiten an, Prozesse zu beeinflussen und abzubrechen. Von wenigen Ausnahmen wie Meldungsfenstern abgesehen, haben wir uns aber bislang jeweils nur mit einem einzigen Bildschirmaufbau beschäftigt.

Zwar gibt es Systeme und Software-Produkte, die mit nur einem einzigen Bildschirmaufbau auskommen, doch stellen sie die große Ausnahme dar. In aller Regel können nicht alle Objekte gleichzeitig angezeigt und nicht alle Funktionen der Software gleichzeitig angeboten werden. Zu sehen ist immer nur ein Ausschnitt. Durch Interaktion mit der Software ändert sich dieser Ausschnitt fortwährend. Im ersten Unterkapitel unseres Gestaltungsbereichs Orientierung geht es zunächst darum, die Forderungen an die Gestaltung der zwangsläufig entstehenden Übergänge vorzustellen. Die beiden folgenden Kapitel beschäftigen sich jeweils mit wichtigen Teilaspekten der Gestaltung solcher Übergänge. Bei der Navigation geht es darum, eine große Menge an Objekten in einer Software strukturiert zugänglich zu machen. Im Kapitel Modusgestaltung setzen wir uns speziell mit Fragen des Umgangs mit einem sehr großen Funktionsumfangs und der Technik, verschiedene Modi zu nutzen, auseinander.

Übergänge

Sobald nicht mehr alle Objekte, alle Eingabemöglichkeiten und das komplette Funktionsangebot mit einem einzigen Bildschirmaufbau dargestellt werden können, sobald also Objekte dynamisch erzeugt werden, sich während der Programmnutzung ändern oder zwischen mehreren Bildschirmseiten1 gewechselt werden muss, braucht es zusätzliche Forderungen, die das Zurechtfinden im jeweiligen Angebot ermöglichen bzw. unterstützen. Zwischen einem Bildschirmaufbau und dem jeweils folgenden gibt es einen Übergang, dessen ergonomische Gestaltung uns an dieser Stelle interessiert.

Mockup einer Software zum Verwalten von Kursen
Mockup einer Software zum Verwalten von Kursen

Konstruieren wir ein einfaches Beispiel: Das abgebildete Mockup stellt eine Software zum Verwalten von Kursen dar. Sie sehen im unteren Bereich eine Reihe von bereits angelegten Kursobjekten in Form von Icons. Im oberen Teil bietet die Software eine Menüleiste mit Funktions-Icons zum Anzeigen eines Stundenplans, zum Erstellen eines neuen Kurses und zum Löschen eines oder mehrerer Kurse an. Wenn Sie nun zum Beispiel auf „Neuer Kurs“ klicken, müssen Sie auf eine andere Bildschirmseite wechseln, denn die Elemente zum Erstellen eines neuen Kurses, wahrscheinlich in Form eines Formulars, können nicht zusätzlich auf dieser Bildschirmseite untergebracht werden. Es gibt also einen Übergang von dem, was Sie gerade sehen, zu einer anderen Bildschirmseite, die erscheint, wenn das Icon geklickt wird.

Dieser Übergang kann recht ruppig sein, weil nach dem Klicken auf das „Neuer Kurs“-Icon das, was Sie gerade noch gesehen haben, verschwunden ist. Stattdessen sehen Sie eine Eingabemaske für die Kursdaten, die anders gestaltet ist als die zuvor betrachtete Übersichtsseite. Dieser unvermittelte Übergang von einer Bildschirmseite auf eine andere ebenso wie der große Unterschied zwischen diesen beiden Seiten hat einen negativen Einfluss auf die Orientierung. Wenn Sie die Software oft benutzen und das Icon nicht versehentlich anklicken, Sie also erwarten können, was passiert, können Sie damit sicher leben. Wenn sie jedoch die Software selten nutzen, die Funktionen noch ausprobieren wollen oder versehentlich auf das Icon geklickt haben, fehlt Ihnen jegliche Orientierungsunterstützung.

Dies kann ein Gefühl von Desorientierung auslösen. Ein derart unvermittelter Übergang ist in der „normalen“ Welt, für die unser kognitives System eingerichtet ist, kaum möglich. Es gibt zwar die Situation, dass man in den Keller geht und nicht mehr weiß, was man dort wollte (doorway effect), aber man fragt sich in der Regel nicht, wie man dort hingekommen ist, weil man nicht plötzlich und unvermittelt dort ist. Sieht man von künstlich geschaffenen Situationen und Unfällen einmal ab, geht jede Veränderung des Wahrnehmungsfeldes mit kontinuierlichen menschlichen Aktivitäten und ebenso kontinuierlich begleitenden sensorischen Rückmeldungen einher, d. h. Handlungs- und Wahrnehmungsraum sind durchgängig miteinander gekoppelt. Ohne die durch diese Kopplung ermöglichte Differenzerfahrung wären wir nicht imstande, uns zu orientieren und einen Punkt außerhalb des Wahrnehmungsbereichs gezielt anzusteuern. Das betrifft nicht nur die eigene Bewegung, sondern auch die Beobachtung von Veränderungen in der Umgebung. Objekte oder Personen erscheinen oder verschwinden nicht von Zauberhand, sondern kommen hinein und gehen hinaus. Selbst dann, wenn man die Aufmerksamkeit kurzzeitig auf etwas anderes richtet, bleibt die Umgebung als Ganzes relativ stabil. Zwar wird auch jeder Wechsel des Bildschirminhalts durch eine entsprechende Aktion ausgelöst, doch ist die Art der Auslösung in vielen Fällen motorisch entkoppelt. Ein Tastendruck kann lediglich lokale Änderungen bewirken oder massive Konsequenzen haben, indem der komplette Bildschirminhalt erneuert oder die jeweilige Software gewechselt wird. Unabhängig von der Schwierigkeit, sich mental im Rahmen der Nutzung eine komplette Karte aller möglichen Bildschirminhalte und ihrer Zusammenhänge aufzubauen, erfordert die Arbeit in einer solchen Umgebung höchste Konzentration sowie Unterbrechungs- und Ablenkungsfreiheit durch äußere Faktoren wie z. B. Telefonanrufe. Einmal unterbrochen, ist es kaum möglich, insbesondere bei gelegentlicher Nutzung, den Faden wieder aufzunehmen. Die Gedächtnisbelastung ist sehr hoch, weil zusätzliche Informationen fehlen, die es gestatten, sich das System zu erschließen und entsprechend den Faden wieder an der geeigneten Stelle aufzunehmen.

Deshalb müssen wir die zuvor besprochenen Eigenschaften der menschlichen Umwelt auch in die Welt der virtuellen Objekte übertragen. Dazu stellen wir in diesem Abschnitt entsprechende Forderungen auf und schauen uns Nutzungsschnittstellen-Techniken an, die der Kontinuität und Stabilität der natürlichen Umwelt entsprechen.

Erschließbarkeit von Inhalten und Optionen

Wir beginnen den Reigen der Forderungen an orientierungsunterstützende Software mit dem grundlegenden Problem der Erschließbarkeit aller Optionen und Inhalte.

Erschließbarkeit ist einer der Hauptvorteile einer grafisch-räumlichen Nutzungsschnittstelle gegenüber einer solchen mit Kommandozeile. Bei einem Computer, der mit einer Kommandozeile bedient wird, fällt es Ihnen schwer, die von ihm bereitgestellten Objekte und Funktionen zu erschließen, denn Sie sehen ja nur einen blinkenden Cursor. Bei einer grafisch-räumlichen Nutzungsschnittstelle hingegen sehen Sie die Objekte auf dem Bildschirm und auch die möglichen Operationen werden Ihnen direkt am Bildschirm, zum Beispiel in Form eines Menüs, angezeigt.

Erneut ist ein Vergleich mit der Orientierung in natürlichen Umgebungen sehr hilfreich. Nehmen wir an, Sie befinden sich in einem Büro, in dem Ihnen verschiedene Handlungsoptionen zur Verfügung. Sie können zum Beispiel einen Zettel vom Schreibtisch nehmen und in den Papierkorb werfen oder Sie nehmen einen Stift, um eine Anmerkung an einem Text anzubringen, der auf dem Schreibtisch liegt. Sie können auch das Büro verlassen, indem Sie die Tür öffnen und hindurchgehen. All diese Handlungsmöglichkeiten werden durch Objekte und wahrnehmbare Unterschiede verkörpert. Das Erkennen der Handlungsmöglichkeiten setzt zwar immer eine gewisse Erfahrung voraus, doch entscheidend ist, dass Sie sich diese Umwelt durch Wahrnehmen und Handeln erschließen können, was ohne die Kopplung von Handlungs- und Wahrnehmungsraum nicht möglich ist. Das Erkennen ähnlicher Gegenstände und ihrer Arrangements erlaubt es zudem, Erfahrungen aus anderen Umgebungen zu übertragen. Diese wichtige Eigenschaft der Erschließbarkeit der Umgebung durch die reflektierende Kopplung von Wahrnehmen und Handeln müssen wir auf die Gestaltung von Nutzungsschnittstellen übertragen.

Der Begriff „intuitiv“ wird sehr gerne und sehr inflationär verwendet. Es ist verblüffend, welch komplexe und komplizierte Software in ihrer Eigenwerbung als intuitiv bezeichnet wird. In dem Adjektiv steckt das Nomen „Intuition“. Wenn man etwas aus der Intuition heraus tut, so tut man es quasi aus einem Bauchgefühl heraus, ohne dass es eine Verstandeserklärung dafür bedürfte. Wenn jedoch jemand behauptet, dass eine Software intuitiv bedienbar sei, dann legt der- oder diejenige damit nahe, dass sich die Software eben rein aus der Intuition, also ohne nachzudenken, erschließt. Doch ist das plausibel? Das Etikett „intuitiv“ wird einer Software angeheftet, wenn jemand, der sie nicht kennt, sie bedienen kann, ohne ein Handbuch lesen oder eine Schulung machen zu müssen. Unserer Ansicht nach sind Differenziertheit der Rückmeldung und Erschließbarkeit die Forderungen, die man also an intuitive Software stellt, denn eine Software, die diesen Forderungen entspricht, ermöglicht durch ihre Nutzungsschnittstelle, alle Optionen und Inhalte zu erschließen. Im besten Fall werden im Handlungsablauf so differenzierte Rückmeldungen gegeben, dass der Nutzer durch die Interaktion erfahren kann, was geschehen ist und was noch geschehen kann. Dennoch gerät die Erschließbarkeit immer wieder in Gefahr. Das ist nachvollziehbar, denn Erschließbarkeit erfordert zusätzlichen Bildschirmplatz für die Anzeige der zur Verfügung stehenden Operationen und Optionen. Erschließbarkeit steht damit in Konflikt zu vielen anderen Forderungen an die ergonomische Gestaltung. Wie immer in Design-Konflikten gilt es, eine dem Nutzungskontext angemessene Lösung zu finden. #### Unsichtbare Handlungsmöglichkeiten

Viele Anwendungen verfügen über Funktionalitäten, ohne entsprechende Hinweise darauf zu geben. Ein gutes Beispiel ist die in allen gängigen Präsentationssystemen enthaltene Funktion, während einer laufenden Präsentation eine beliebige Folie anzuspringen, indem lediglich die Foliennummer eingegeben und diese Eingabe durch Enter abgeschlossen wird. Das ist enorm praktisch, da es das Blättern durch die Präsentation vermeidet. Sie ist aber oftmals nicht bekannt, denn es gibt keinerlei sichtbaren Hinweis auf sie.

Möglichkeiten zur Nicht-Deinstallation bzw. zum Nicht-Entfernen werden nicht optisch angeboten
Möglichkeiten zur Nicht-Deinstallation bzw. zum Nicht-Entfernen werden nicht optisch angeboten

In vielen heutigen Nutzungsoberflächen lässt sich beobachten, dass bei mehreren angegebenen Handlungsmöglichkeiten nicht alle Optionen als Button angeboten werden, sondern die ablehnende oder abbrechende Operation weggelassen wird. In den beiden abgebildeten Beispielen scheint eine Auswahl mit nur einer Option geboten zu werden. Die jeweilige zweite Option, die das „Abbrechen“ verkörpert, erreicht man durch ein Klicken oder Tippen in den freien Bereich. Es spricht nichts dagegen, eine solche Abkürzung für das Ablehnen vorzusehen. Eine versehentlich ausgelöste Funktion lässt sich damit einfacher „wegklicken“ als mit einem Button. Das Problem ist aber, dass es keinen Hinweis darauf gibt, wie man die Einblendung wieder loswerden kann. In beiden Beispielen wäre genug Platz, jeweils auch die zweite Option unterzubringen.

Funktionen nur per Doppelklick oder Rechts-Klick erreichbar?

In früheren Versionen von Windows, wie hier in Windows XP, können Sie Dateien dadurch öffnen, dass Sie sie markieren und im Menü „Datei“ den Befehl „Öffnen“ wählen. Am Macintosh funktioniert das seit der ersten Version des Betriebssystems. Frühe Handbücher des Macintosh erklären das Öffnen auf diese Weise und verweisen auf den heute üblichen Doppelklick nur als Abkürzung für Profis. Dieser ist zwar heute allgemein üblich, doch schadet es nicht, wenn eine Funktion, die per Doppelklick ausgelöst wird, in der Nutzungsschnittstelle auch sichtbar und damit erschließbar vorhanden ist. Dies ist auch für jene eine Erleichterung, die sich mit dem Doppelklick schwertun, verbessert also die Handhabbarkeit des Systems.

Das „Öffnen“ war unter Windows XP noch per Menü erreichbar
Das „Öffnen“ war unter Windows XP noch per Menü erreichbar

Ebenfalls problematisch sind Funktionen und Operationen, die nur über ein Kontextmenü mittels rechtem Mausklick erreichbar sind. Es gibt keinerlei Hinweis darauf, dass dieses Menü an der jeweiligen Stelle auf diese Art und Weise aufgerufen werden kann. Das ist unproblematisch, wenn die gleichen Operationen auch an anderer Stelle aufrufbar und damit erschließbar bleiben.

Nutzungsschnittstellen jenseits des Bildschirmrandes
Mangelhafte Erschließbarkeit von nur über den Bildschirmrand erreichbaren Funktionen
Mangelhafte Erschließbarkeit von nur über den Bildschirmrand erreichbaren Funktionen

In Smartphones ist die Technik verbreitet, bestimmte Funktionen und Menüs durch das Streichen vom Bildschirmrand aufzurufen. Beim abgebildeten iOS streichen Sie zum Beispiel vom unteren Bildschirmrand nach oben, um von der aktuellen App auf die App-Übersicht zu wechseln. Wie Sie sehen, hat Apple für diese Funktion einen kleinen Hinweis in Form eines schwarzen Balkens vorgesehen. Dieser Balken ist eine Möglichkeit, die ein Mindestmaß an Erschließbarkeit sicherstellt. Zwar kann an dieser Stelle nicht in ausführlicher Prosa angegeben werden, was alles erreichbar ist, doch zeigt der Balken immerhin an, dass eine Manipulation möglich ist. Auch an anderen Stellen kann man in iOS durch Bewegungen über Bildschirmränder hinweg etwas auslösen. Wenn Sie vom rechten oberen Rand eine Streichbewegung nach unten vollziehen, öffnen sich beispielsweise die System-Schnelleinstellungen, in denen Sie etwa den Flugmodus aktivieren können. Es gibt jedoch keinerlei Hinweis darauf, dass dies möglich ist. Die Forderung nach Erschließbarkeit ist folglich nicht erfüllt; man muss es wissen, zufällig darauf kommen oder im Handbuch nachlesen, dass sich dieses Menü an dieser Stelle verbirgt.

Bei klassischen Nutzungsschnittstellen mit Maus und Tastatur haben Sie ein ähnliches Problem, wenn Sie Menüs und Buttons erst anzeigen, wenn die Maus an einen Bildschirmrand stößt. Solche sich selbst einblendenden Bildschirmobjekte werden oft in Vollbildmodi eingesetzt, um den vorhandenen Platz für den Inhalt zu maximieren. Die Folge ist ein Erschließbarkeits- und Orientierungsproblem, das dazu führen kann, dass keine Anschlusshandlungen vorgenommen werden. Um dieses Problem abzumildern, könnte beispielsweise eine Art Lasche am Bildschirmrand angezeigt werden, um weitere Handlungsoptionen zu signalisieren. Ist das unerwünscht oder störend, sollte zumindest eine Meldung zu Beginn darauf hinweisen, wie die zusätzlichen Funktionen zu erreichen sind.

Komplexe Gesten

Im Zusammenhang mit Touch-Eingaben sowohl auf Tablets und Smartphones als auch mit Trackpads an Laptops ist über die Zeit eine Vielfalt von Eingabegesten entstanden. Einige dieser Gesten haben sich auf vielen Eingabegeräten durchgesetzt. Dazu gehört zum Beispiel das Swipen zum nächsten Element oder auch das „Pinch-To-Zoom“, also das Auseinanderspreizen der Finger zum Vergrößern der Anzeige. Aktuelle Softwaresysteme verfügen aber oft über viele weitere Gesten mit drei oder mehr Fingern, mit Bewegungen oder Tippen, und teilweise abhängig davon, an welcher Stelle auf dem Bildschirm sie ausgeführt werden. Kennt man die Gesten gut, sind sie eine hervorragende Abkürzung, um Funktionen aufzurufen, die sonst nur viel komplizierter umsetzbar wären. Aus Sicht der Erschließbarkeit jedoch sind Gesten ein großes Problem, denn es gibt bei Gesten kein sichtbares Artefakt auf dem Bildschirm. Man kennt eine Geste oder man kennt sie nicht. Das ist kein Problem, wenn man die mit der Geste verbundene Funktionalität auch anders erreichen kann.

Gesten haben auch das Problem, dass es leicht ist, sie versehentlich auszulösen. Es wird eine Funktion aufgerufen oder eine Ansicht oder das Programm gewechselt, ohne dass dies der handelnden Person bewusst ist. Gesten, die über das Übliche hinausgehen, sollten mit einer neuen Anwendung nur eingeführt werden, wenn das Abkürzungspotenzial größer ist als die Fehlbedienungsgefahr.

Die Nutzung von Modifikationstasten

Die Tasten STRG, ALT und SHIFT auf Tastaturen sind sogenannte Modifikatoren. Für sich stehend haben Sie keinerlei Bedeutung und lösen meist auch nichts aus (mit der Ausnahme der ALT-Taste, die bei Windows klassischerweise das Menü der Anwendung öffnet). Das Drücken dieser Tasten modifiziert aber die Funktion, die eine Eingabe hat. Ein gutes Beispiel ist Drag and Drop bei einer Datei aus einem Finder- oder Explorer-Fenster heraus in ein anderes oder auf den Desktop. Je nachdem, ob sich Quelle und Ziel auf dem gleichen Datenträger befinden oder auf einem anderen, führt das Betriebssystem eine Kopier- oder Verschiebe-Aktion aus. Gefällt einem diese Auswahl nicht, kann man durch Drücken von SHIFT dafür sorgen, dass die Dateien verschoben, mit STRG, dass sie kopiert werden, und mit ALT, dass eine Verknüpfung angelegt wird. An keiner Stelle zeigt das System an, dass man mit diesen Tasten die Funktion beeinflussen kann. Es wird auch zu keinem Zeitpunkt an irgendeinem Ort angezeigt. Auch dies ist nicht problematisch, solange eine andere Möglichkeit gegeben ist, an die jeweilige Funktion zu gelangen. Fehlt eine solche Möglichkeit jedoch, liegt ein Erschließbarkeitsproblem vor.

Das Vertrauen auf Drag and Drop

Die letzte in unserer sicher nicht vollständigen Liste von Techniken, die zwar verbreitet, aber in Sachen Erschließbarkeit problematisch sind, ist das Drag and Drop, also das Auslösen von Funktionen dadurch, dass Objekte am Bildschirm durch Touch-Bewegungen oder bei gedrückter Maustaste verschoben werden können. Dass Drag and Drop zur Verfügung steht, muss man wissen. Den Objekten, die bewegt werden können, kann man das in vielen Fällen nicht ansehen. Auch hier ist es unproblematisch, Drag and Drop einzusetzen, man muss aber entweder verdeutlichen, dass diese Funktionalität besteht, oder aber (am besten zusätzlich) dafür sorgen, dass die Funktionalität auch auf andere Weise zur Verfügung steht. In den gängigsten Dateimanagern ist das gut gelöst. Man kann per Drag und Drop Dateien verschieben oder es genauso gut über das Menü, über ein Icon in einer Symbolleiste oder per Tastenkombination erledigen. Drag and Drop ist eine Möglichkeit, die nicht erschließbar ist, aber da sie nicht die einzige Möglichkeit ist, ist das nicht tragisch.

Unsere kleine Aufstellung soll verdeutlichen, dass die vorgestellten Techniken im Sinne der Erschließbarkeit oft problematisch sein können. Das ist aber kein grundsätzliches Problem, wenn dafür Sorge getragen wird, dass die Erschließbarkeit auf andere Art und Weise gewährleistet ist. Dies geht entweder durch einen sichtbaren, also erschließbaren Hinweis auf die sonst nicht sichtbare Nutzungsschnittstellentechnik oder aber durch das Bereitstellen verschiedener Wege zum Ziel, die erschließbar sind.

Aufdecken bei Bedarf

Übergänge sind immer nötig, wenn – was nahezu immer der Fall ist – nicht alle Inhalte und Optionen auf einer Bildschirmseite angezeigt werden können oder es aus Gründen der Komplexitätsreduzierung der Aufgabe nicht sollen. Damit diese Inhalte und Optionen nicht einfach entfallen, braucht es einen Mechanismus, sie bei Bedarf anzuzeigen. Auch für dieses Aufdecken bei Bedarf gilt es, die Forderung nach Erschließbarkeit zu gewährleisten.

Progressive Disclosure in einem Eigenschaften-Fenster des Xerox Star – Quelle: Johnson et. al (1981)
Progressive Disclosure in einem Eigenschaften-Fenster des Xerox Star – Quelle: Johnson et. al (1981)

Aufdecken bei Bedarf wurde 1981 mit der Vorstellung des Xerox Star unter dem Namen „Progressive Disclosure“ bekannt 2. Zu sehen ist ein Eigenschaften-Fenster, das die Attribute des Textes eines Textdokuments betrifft. Obwohl man Vieles einstellen kann, bietet die Maske nicht alle Einstellungen direkt an. Für die Wahl der Abstände vor und nach einem Absatz sowie für den Zeilenabstand hat man sich dafür entschieden, nur die häufigsten Einstellungen direkt verfügbar zu machen und die selten genutzte Einstellung für andere Werte erst anzuzeigen, wenn auf „Other“ geklickt wird. Gemäß der Argumentation des Entwicklungsteams ist aber auch das Anzeigen der Eigenschaften in einem überlappenden Fenster, das erst erscheint, wenn es explizit aufgerufen wird, eine Umsetzung von Progressive Disclosure, denn auch in diesem Fall wird ein Teil der Nutzungsschnittstelle erst angezeigt, wenn es explizit verlangt wird.

Elemente dauerhaft anzuzeigen erfordert Platz und kann Probleme mit der Übersichtlichkeit erzeugen, hat aber den Vorteil, dass sie sofort zu sehen sind. „Versteckt“ man sie hingegen im Menü eines erst aufzurufenden Fensters, besteht die Möglichkeit, dass sie nicht gefunden werden. In jedem Falle entsteht Zusatzaufwand durch das Aufrufen des Menüs oder des Fensters. Eine Aufdecktechnik, und um die handelt es sich auch bei Menüs, sollte also mit Bedacht und ausgewogen eingesetzt werden.

Aufdecktechnik im FTP-Programm Cyberduck
Aufdecktechnik im FTP-Programm Cyberduck

Die Abbildung zeigt ein typisches Beispiel der Aufdecktechnik in einem FTP-Programm. Für die meisten Anwendungsfälle reichen die auf der linken Seite gezeigten Einstellungen. Falls aber doch weitere nötig sein sollten, kann der Bereich „Erweiterte Einstellungen“ aufgeklappt werden. Allerdings sagt „Erweiterte Einstellungen“ nichts darüber aus, was zu erwarten ist und was vielleicht noch eingestellt werden könnte. Durch das nicht dauerhafte Anzeigen dieser Einstellungen bleiben sie zunächst unerkannt, es sei denn, man blendet ohnehin die verdeckten Bereich ein, um sehen zu können, was sich dahinter verbirgt. Was im Rahmen einer routinierten Nutzung von Vorteil ist, kann im Rahmen gelegentlicher Nutzung und beim Erlernen des Systems ein Problem bereiten. Wann immer es möglich ist, versuchen Sie daher den Auslöser für das Aufdecken möglichst spezifisch zu benennen. Im gezeigten Beispiel wäre es zugegebenermaßen schwierig, da ein ganzes Sammelsurium verschiedenster Einstellungen gebildet worden ist. Wären es beispielsweise nur Einstellungen zur Verschlüsselung, wäre „Weitere Verschlüsselungsoptionen“ besser gewählt als „Erweiterte Optionen“.

Aufdecken oder Zuklappen bei Bedarf im Editor Notepad++
Aufdecken oder Zuklappen bei Bedarf im Editor Notepad++

Auch dieses Beispiel illustriert ein Aufdecken bei Bedarf oder, in der Gegenrichtung formuliert, ein Zuklappen bei Bedarf. Zu sehen ist der Editor Notepad++. Dieser bietet eine Funktion, Codeblöcke auf- und zuzuklappen. Im zugeklappten Zustand bleibt lediglich die Kopfzeile stehen, sodass man immer noch sieht, welche Funktionen es gibt und welche Signatur diese haben.

Verdeutlichung der Handlungsfolgen

Zur Erschließbarkeit gehört es, dass die möglichen Handlungsoptionen nicht nur benannt, sondern auch im Hinblick auf ihre Folgen beschrieben werden. Man könnte von einer Art „vorausschauender Rückmeldung“ sprechen, die, wie Rückmeldungen grundsätzlich, differenziert sein müssen. Dazu ein Beispiel: Ergonomische Nutzungsschnittstellen bieten meist, entsprechend unserer Forderung nach Beeinflussbarkeit, eine Möglichkeit an, getätigte Eingaben und andere Manipulationen rückgängig zu machen. Während der Ausführung vieler kleiner Handlungen ist aber mitunter nicht offensichtlich, was genau die letzte Handlung war, was also passiert, wenn eine Funktion, die mit „Rückgängig“ oder „Widerrufen“ betitelt ist, aufgerufen wird.

Welche Bewegung wird hier widerrufen?
Welche Bewegung wird hier widerrufen?

Die Anzeige im Finder von MacOS enthält mehr Informationen, denn dort steht nicht nur „Rückgängig“ oder „Widerrufen“, sondern auch, welche Operation widerrufen werden soll. Ideal ist die Umsetzung aber nicht, denn es wird nicht klar, um welches Objekt oder um welche Objekte es sich handelt, deren Bewegung widerrufen wird.

Konkrete Rückmeldung im Finder von MacOS
Konkrete Rückmeldung im Finder von MacOS

An anderer Stelle ist dies besser gelöst worden. Die Funktion zum Kopieren des markierten Objekts ist sehr spezifisch beschriftet, sodass klar ist, was passieren wird, wenn man diese Funktion aufruft. Unbedingt nötig wäre das in diesem Fall nicht, denn das markierte Objekt ist noch zu sehen. Doch sollte man im Sinne einer robusten Gestaltung davon ausgehen, dass das nicht immer der Fall sein muss.

Unspezifische Rückmeldung – Welches Objekt wird gerade eingesetzt?
Unspezifische Rückmeldung – Welches Objekt wird gerade eingesetzt?

Umso verblüffender ist es, dass beim Gegenstück zum Kopieren einer Datei in die Zwischenablage, also dem Einfügen, der gerade in der Zwischenablage befindlichen Datei nicht angegeben wird, welches Objekt eingefügt wird. An dieser Stelle wäre es hilfreich, die Datei zu benennen, denn sie ist in der Zwischenablage nicht sichtbar.

Vorschau vermeidet Probehandeln

Funktionsaufrufe in einem Menü spezifisch zu beschriften statt einfach nur generell „Rückgängig“ oder „Kopieren“ zu schreiben, könnte man auch als eine sehr einfache Art der Vorschau charakterisieren. Der entsprechende Menüeintrag beschreibt nicht nur eine Funktion, sondern legt auch nahe, wie der Folgezustand nach der Ausführung der Funktion sein wird. Vorschauen sind in gewisser Weise wie Berechnungen. Eine Berechnung ermöglicht Probehandeln, indem das Ergebnis bestimmter Handlungen errechnet werden kann, ohne die tatsächliche Handlung vollziehen zu müssen. Vorschauen in Nutzungsschnittstellen bieten dieses Potenzial auch. Sie offenbaren die Konsequenzen einer Handlung bzw. den Aufruf einer Funktion, bevor diese mit allen Konsequenzen ausgeführt werden müssen.

Vorschau aus Microsoft PowerPoint
Vorschau aus Microsoft PowerPoint

Das Beispiel zeigt eine etwas komplexere Art der Vorschau aus Microsoft PowerPoint. Eine Vorschau verdeutlicht die Konsequenz einer Handlung, in diesem Fall der Auswahl eines Stils, bevor die entsprechende Aktion ausgeführt wird. Die Stile werden nicht nur per Namen aufgerufen, sondern es erscheint eine Ansicht, in der man sieht, wie das Ergebnis aussieht, wenn der jeweilige Stil ausgewählt wird. Um zu einer Auswahl zu kommen, muss man nicht erst Stil 1 bis Stil 5 oder „Professionell“ bis „Verspielt“ einzeln anwenden, um zu einer Einschätzung zu kommen.

Vorschau des Finders von MacOS
Vorschau des Finders von MacOS

Auch diese Vorschaufunktion des Finders, der Dateimanager von MacOS, zeigt das potenzielle Ergebnis einer Handlung, ohne dass sie durchgeführt werden muss. Hätte man die Vorschau nicht, hätte man eine Reihe von Dateien, die allenfalls durch ihren Titel verdeutlichen, was sich dahinter verbirgt. Oft reicht das nicht. Befindet sich eine bestimmte Folie nun in diesem oder in jenem Foliensatz? War dieses oder jenes das Foto vom Kölner Dom? Um das herauszufinden, müsste man die Dateien nacheinander öffnen, was immer mit zusätzlichem Aufwand und mit einem Kontextwechsel verbunden ist. Die Vorschaufunktion ermöglicht auch das Blättern innerhalb des Foliensatzes, was sehr sinnvoll ist, da die Titelfolien von Foliensätzen sich oft kaum unterscheiden. Das Inhaltsangebot wird dadurch erschließbar, ohne dass die Anwendung gestartet werden müsste.

Interne Konsistenz

Die Forderung nach Erschließbarkeit ist essentiell, um die Orientierung in einem Softwaresystem zu unterstützen. Neben der Erschließbarkeit haben wir mit interner Konsistenz und Kontinuität zwei weitere wichtige Forderungen, die zwar allein nicht für Orientierung sorgen können, bei deren Nichtbeachtung aber die Orientierung beeinträchtigt ist.

Mit der Forderung nach interner Konsistenz soll sichergestellt werden, dass man während der Nutzung eine stabile Umgebung vorfindet, in der man trotz des Hin- und Herwechselns zwischen verschiedenen Bildschirmseiten sich in einer vertrauten Umgebung befindet. Eine wichtige Grundlage für den Aufbau dieses Vertrauens während der Nutzung ist die Forderung nach interner Konsistenz.

Inkonsistentes Schnittstellenelement einer universitären Lernplattform
Inkonsistentes Schnittstellenelement einer universitären Lernplattform

In diesen Screenshots einer universitären Lernplattform ist in allen drei Bildern ein Nutzungsschnittstellenelement markiert, das dazu dient, neue Objekte zu erzeugen. In den drei unterschiedlichen Bereichen der Software sieht dieses Schnittstellenelement jeweils unterschiedlich aus und ist auch verschiedenartig bezeichnet. Eine neue Datei wird angelegt bzw. hochgeladen durch einen Klick auf ein Icon innerhalb einer Icon-Leiste. Ein neuer Termin im Kalender wird durch einen Button angelegt, der mit „Neuer Termin“ beschriftet und rechtsbündig angeordnet ist. Ein neuer Beitrag im „Website-Blog“ wird angelegt durch einen Klick auf „Neuer Beitrag“ – in dieser Hinsicht konsistent zum Kalender –, allerdings nicht auf einen Button, sondern auf einen Hyperlink, und auch nicht rechtsbündig, sondern zentriert über der Anzeige der bisherigen Beiträge.

Für diese Unterschiede gibt es weder eine funktionale noch ergonomische Rechtfertigung. Inkonsistenzen innerhalb einer Anwendungswelt betreffen in vielen Fällen die Wortwahl in verschiedenen Bereichen einer Software. Haben wir es mit Einstellungen, mit Optionen oder mit einer Konfiguration zu tun? Wird eine Einstellung bearbeitet oder geändert? Wird sie angewandt oder übernommen? Selbst wenn die Konsequenzen vergleichsweise harmlos sein sollten, muss die Tatsache, dass verschiedene Dinge gleich sind, erst erlernt und verstanden werden; also in jedem Fall erzwungene Sequenzialität, da die Unterschiede ja bedeutungslos sind. Bestenfalls sorgt das nur für eine kurze Irritation, schlimmstenfalls aber werden unnötige Unterschiede falsch interpretiert.

Achtung: Ein Unterschied, der keinen Unterschied macht, ist immer eine Verletzung der internen Konsistenz. Der Unterschied wird zwar wahrgenommen, aber es steckt keine Information dahinter. Differenzerfahrung wird sabotiert.

Die Forderung nach interner Konsistenz bezieht sich auf viele Aspekte einer Nutzungsschnittstelle. Neben den Bezeichnungen, dem Objektaussehen, der Objektposition und der Anordnung von Objekten kann dies auch die Funktionsweise der Oberfläche betreffen.

Einstellungsfenster des Windows Editors Notepad++. Änderungen werden sofort ausgeführt
Einstellungsfenster des Windows Editors Notepad++. Änderungen werden sofort ausgeführt
Einstellungsfenster des Windows Editors Notepad++. Hier müssen Einstellungen bestätigt werden
Einstellungsfenster des Windows Editors Notepad++. Hier müssen Einstellungen bestätigt werden

Diese Screenshots zeigen zwei Einstellungsfenster des Windows Editors Notepad++. Obwohl die beiden Fenster ähnliche Einstellungen zu Programmfunktionen ermöglichen, funktionieren sie auf unterschiedliche Art und Weise. Das mit „Stile“ beschriftete Fenster hat Buttons zum „Abbrechen“ und zum „Speichern & Schließen“. Zunächst wird also die Auswahl angezeigt und erst durch die Auswahl einer Alternative die entsprechende Funktion ausgeführt. Im Fenster „Optionen“ wird diese Auswahl nicht angezeigt. Jeder Klick wird sofort umgesetzt. Es gibt keine Möglichkeit, sie in der Gesamtheit wieder zurückzunehmen. Das Fenster kann lediglich geschlossen werden. Diese Inkonsistenz ist problematisch, denn im Optionen-Fenster kann der Eindruck entstehen, dass die getätigten Einstellungen nicht zur Anwendung kommen, da es keinen entsprechenden Button gibt. Personen, die sich entsprechend der Funktionsweise des unteren Fensters angewöhnt haben, das Einstellungsfenster nach den Einstellungen über das Icon X im Fensterkopf zu schließen, würden im oberen Fenster wahrscheinlich eine Fehlhandlung begehen, weil sie in diesem Fall den Einstellungsvorgang ungewollt abbrechen.

Das logische Gegenstück dazu, dass Gleiches gleich gestaltet werden soll, ist, dass Ungleiches auch ungleich gestaltet werden sollte. Dies betrifft auch Bezeichner und Icons, also zum Beispiel, dass das gleiche Icon für verschiedene Funktionen eingesetzt wird, also eine Lupe nicht einmal eine Suchfunktion auslöst und an anderer Stelle eine Vergrößerung bewirkt oder dass der gleiche Ausdruck „Schließen“ mal nur ein Fenster schließt und im anderen Falle einen Vorgang abschließt.

Interne Konsistenz in einer Software kann man nur dadurch erreichen, dass man die Dinge, die gleich sein müssen, und die Dinge, die unterschiedlich sein müssen, explizit festlegt.

Die Erstellung von Design-Guidelines ist eine wertvolle Hilfe bei der Entwicklung, zumal wenn der Entwicklungsprozess sich über einen längeren Zeitraum und mehrere Versionen erstreckt. In Design-Guidelines werden von Schriftgrößen, Farben, dem Aussehen von Buttons und Icons bis zu Ausrichtungen all diese Eigenschaften festgelegt. Technisch komplementiert werden können Design-Guidelines durch die Verwendung von Vorlagen (Templates) und Ressourcenbibliotheken. Hiermit wird ein hohes Maß an Konsistenz bereits dadurch garantiert, dass Gestaltungsoptionen nicht mehr individuell festgelegt werden, sondern übergreifend für alle Beteiligten festgeschrieben werden.

Bei der Verwendung von Templates bewegt man sich jedoch auf einem schmalen Grat. Je mehr man innerhalb eines Templates explizit vorgibt, desto mehr besteht die Gefahr, dass das Design generisch wird, es also schlimmstenfalls auf zu generische Beschriftungen und Elemente hinausläuft. Durch ein unbedachtes Template könnte ein Einstellungsfenster zum Beispiel stets mit einem Knopf „Anwenden“ versehen werden. Wird dieses Template aber nun zum Beispiel auch für die Einstellungen für einen Druckvorgang verwendet, wäre „Anwenden“ nicht die richtige Wahl. Wir hätten durch den Versuch, Konsistenz auf einer Ebene herzustellen, ein Konsistenzproblem geschaffen, denn nun würde Ungleiches gleich benannt.

Da bei der Bezeichnung von Objekten und Funktionen schnell Konsistenzprobleme entstehen, möchten wir das Anlegen eines Glossars und das Einhalten und Überarbeiten desselben dringend empfehlen. Gerade bei verteilter Arbeitsweise muss organisatorisch dafür gesorgt werden, dass sowohl die Design-Vorlage als auch das Glossar für alle Software-Teile gelten.

Stabile Objektpositionen

Ein wichtiger Aspekt beim Übergang sowohl innerhalb einer Bildschirmseite, wenn sich dort etwas am Objektarrangement ändert, als auch beim Wechsel zwischen zwei unterschiedlichen Bildschirmseiten sind stabile Positionen der Elemente.

Inkonsistente Buttonanordnung beim Einfügen von Bibliotheks- und Indexeinträgen in LibreOffice
Inkonsistente Buttonanordnung beim Einfügen von Bibliotheks- und Indexeinträgen in LibreOffice
Beim Einfügen von Lesezeichen wird wiederum eine andere Buttonanordnung angeboten.
Beim Einfügen von Lesezeichen wird wiederum eine andere Buttonanordnung angeboten.

Die drei Screenshots zeigen verschiedene Einfügeoperationen aus LibreOffice (Literatureintrag, Indexeintrag und Lesezeichen). Alle drei Masken enthalten die Buttons „Close“, „Insert“ und „Help“, jedoch an unterschiedlichen Positionen im Fenster. Bei den ersten beiden Screenshots befinden sich die Objekte einmal unten und einmal rechts oben. Diese Inkonsistenz führt eventuell zu kurzen Irritationen, doch eine Fehlbedienung ist eher nicht zu erwarten. Problematischer ist der Unterschied zwischen dem ersten und dritten Screenshot, denn beide Fenster zeigen jeweils unten fünf Knöpfe an, die sich aber in Funktion und Reihenfolge unterscheiden. Eine häufige Nutzung der Funktion zum Einfügen von Literatureinträgen beispielsweise führt dazu, dass die Position der Buttons mit der jeweiligen Funktion identifiziert wird (Ortskodierung). Je stärker eine Routine ausgeprägt ist, desto weniger verwendet der Wahrnehmungsapparat noch aufwändige Lesehandlungen, um sicherzustellen, dass auf dem Button auch die erwartete Funktion steht. Wenn diese Routinehandlung auf die Bookmark-Funktion angewandt wird, kann es passieren, dass statt auf „Insert“ auf „Help“ und statt auf „Rename“ zum Bearbeiten auf „Close“ geklickt wird.

Wie groß die Gefahr solcher Fehlhandlungen ist, zeigt sich auch darin, dass Personen in vertrauten Nutzungssituationen dazu neigen, bei sich langsam aufbauenden Bildschirmseiten die Maus bereits an die Position zu bewegen, an der sie ein Objekt erwarten. Dies entspricht der Grundarchitektur der Wahrnehmung mit ihren getrennten Wahrnehmungsbereichen für das Verarbeiten des „Was“ und des „Wo“, bei dem Hypothesen zur Position von Objekten dominieren (siehe unsere Erläuterungen im Unterkapitel zum Hypothesengenerator). In der Konsequenz gilt es folglich zu vermeiden, Objektpositionen ohne Notwendigkeit zu verändern. Zudem sollte in der Regel über die Anordnung während der Nutzung explizit entschieden werden können (siehe Anpassbarkeit im Kapitel Flexibilität). Das Ändern von Objektpositionen sollte stets auf ein Minimum reduziert werden. Das hat auch Konsequenzen für den Fall, dass Objekte am Bildschirm neu erscheinen oder verschwinden. Idealerweise bleiben die übrigen Objekte an ihrem Ort.

Räumliche Auszeichnung der Suchergebnisse in den Systemeinstellungen des Macintosh
Räumliche Auszeichnung der Suchergebnisse in den Systemeinstellungen des Macintosh
Ausgegraute Bereiche im FastRawViewer
Ausgegraute Bereiche im FastRawViewer

Wie Sie am obigen Beispiel der Suchfunktion innerhalb der Systemeinstellungen des Macintosh sehen, werden bei der Eingabe eines Suchbegriffs bestimmte Elemente innerhalb der Objektauswahl hervorgehoben. Die nicht hervorgehobenen Objekte bleiben sichtbar, vor allem aber bleiben alle Objekte auf ihren Positionen am Bildschirm. Die Objektpositionen sind stabil, es kommt zu keinen abrupten Positionsänderungen.

Wichtig sind diese stabilen Objektpositionen auch bei formularartigen Eingabebereichen wie dem rechts abgebildeten Einstellbereich der Software „FastRawViewer“. Dieser verfügt über Einstellungen für den sogenannten „Grid-Mode“. Nur wenn diese Funktion aktiviert ist, ist es sinnvoll, Einstellungen für diesen Modus vorzunehmen. Statt nun aber bei deaktiviertem Grid-Mode die Einstellungen komplett auszublenden, wird eine Ausgrautechnik verwendet. Sie hat den Nachteil, dass Platz „verschwendet“ wird, dem aber klare Vorteile gegenüberstehen: Würde der Einstellungsbereich beim Deaktivieren der Funktion vollständig verschwinden, würden beim Umschalten die Elemente, die sich darunter befinden, nach oben springen. Dieser plötzliche Übergang kann sehr desorientierend sein. Zudem hat die grundsätzliche Sichtbarkeit der Einstellungsmöglichkeiten, auch wenn sie nicht nutzbar sind, den Vorteil, dass sie die Orientierung, welche Einstellungen möglich sind, unterstützen, und damit indirekt auch, was der Grid-Mode eigentlich ist. Würde das Ausgrauen nicht eigesetzt, müsste man den Modus erst aktivieren, um zu sehen, welche Einstellungen er beinhaltet. Dieser Zwischenschritt kann beim Ausgrauen entfallen.

Geschmeidige Übergänge

Verzeichnis-Listing im Finder von Apple
Verzeichnis-Listing im Finder von Apple

Situationen, in denen Objekte in einer Nutzungsschnittstelle ihre Position verändern, lassen sich nicht vermeiden. Die Möglichkeit, alle Objekte am Bildschirm zu behalten und lediglich auszugrauen, ist stark abhängig von der Anzahl der Elemente und letztlich auch von dem Szenario, in dem wir uns befinden. Bei dem Verzeichnis-Listing im Finder von Apple sind vier Ordner zu sehen. Der Finder erlaubt es, diese Ordner aufzuklappen, um die Elemente darin anzusehen (rechts im Bild). Bei dieser Aufklapptechnik sind die Positionen der Objekte am Bildschirm nicht mehr konstant. Jedes Objekt außer dem Objekt „Bilder“ verschiebt sich nach unten, hat also seine Position verändert. Positionsänderungen dieser Art sind oft unvermeidbar, etwa wenn Fenster geöffnet und geschlossen werden, wenn Sortieroptionen geändert werden, oder allgemein, wann immer ein Wechsel der Position aufgrund der Anwendungslogik nötig sein sollte.

In jeder dieser Situationen kann es zu Orientierungsproblemen kommen, denn was gerade noch zu sehen war, ist nicht mehr sichtbar und neue oder veränderte Objekte tauchen plötzlich auf. Das menschliche Wahrnehmungssystem ist auf solche disruptiven Änderungen nicht eingestellt. Um sie räumlich verstehen und leichter nachverfolgen zu können, ist es deshalb hilfreich, die Übergänge kontinuierlich zu gestalten.

Ein Mittel, Kontinuität zu erreichen, sind Animationen. Im oben beschriebenen Beispiel des aufgeklappten Ordners springen die Elemente, die nach unten wandern, nicht schlagartig an den neuen Ort, sondern bewegen sich in einer zügigen, aber sichtbaren Bewegung dorthin.

Ein gutes Beispiel für derartige Kontinuität durch Animation findet sich in MacOS, wo beim Minimieren von Fenstern sich dieses kontinuierlich verkleinert und dabei auf seinen Platz innerhalb des Docks wandert. Das Fenster verschwindet nicht spurlos, sondern deutet mit dem Übergang nachvollziehbar an, wo es anschließend wieder ansprechbar ist. Das Gleiche passiert, wenn das Fenster von dort aus wieder vergrößert wird. Windows 10 hat einen ähnlichen Mechanismus, der grafisch weniger aufwändig, aber ebenso effektiv ist.

Um das Wahrnehmungssystem zu entlasten, sollten disruptive Veränderungen des Bildschirminhalts grundsätzlich vermieden werden, indem man Übergänge kontinuierlich und geschmeidig gestaltet.

Kontinuität bei Rückmeldungen

Kontinuierliche Übergänge sind oft Teil einer Rückmeldung auf eine getätigte Eingabe. Ein Klick auf ein Minimieren-Icon in einem Fenster hat zur Folge, dass das entsprechende Fenster auf eine kontinuierliche Art und Weise minimiert wird.

Kombination von Forderungen an die Rückmeldung
Kombination von Forderungen an die Rückmeldung

Die Abbildung soll die Kopplung der Unmittelbarkeit einer Rückmeldung mit der Kontinuität einer differenzierten Rückmeldung illustrieren. Zu sehen ist eine Liste, bei der einzelne Objekte durch Drag and Drop in der Reihenfolge verändert werden können. Beim Herausziehen des Objekts „Navigation“ aus der Liste muss das System, wie immer bei Drag and Drop, unmittelbar reagieren, denn nur so kann sichergestellt werden, dass das Objekt dem Mauszeiger ohne Probleme folgt. Wenn das Objekt nun, bei noch gedrückter Maustaste, in die Nähe einer Position geschoben wird, an der sich bereits ein anderes Element befindet, wandert dieses in einer kurzen Animation nach unten oder nach oben. Dadurch lässt sich verfolgen, welche Änderung passieren würde, würde das Objekt an der jeweiligen Position „fallengelassen“.

Kontinuität durch Erhalt des räumlichen Kontextes

Auch bei kontinuierlichen Übergängen sollten Bildschirminhalte nur so weit überschrieben werden, wie es aus inhaltlichen oder funktionalen Gründen erforderlich ist.

Beim Speichern geht sämtlicher Bezug zum eigentlichen Text verloren.
Beim Speichern geht sämtlicher Bezug zum eigentlichen Text verloren.

In der Windows-Version von Microsoft Word müssen Sie auf „Datei“ klicken, um einen geschriebenen Text abzuspeichern. Ab dem Augenblick ist jedoch Ihr Text und alles andere, was Word Ihnen bis dahin gezeigt hat, nicht mehr zu sehen. Das kann nicht nur für Irritationen sorgen, sondern nimmt Ihnen auch jede Möglichkeit des Bezugs auf den Text, beispielsweise um einen geeigneten Dateinamen zu wählen. Zwischen dem Eingabe- und dem Speichern-Modus vollzieht sich ein Wechsel der Objektumgebung. Das ist besonders kritisch, weil der bisherige Arbeitskontext vollständig ausgeblendet wird. Das sollte, soweit es geht, vermieden werden.

Hintergrundstrukturen bleiben bei Überlagungen erhalten.
Hintergrundstrukturen bleiben bei Überlagungen erhalten.

Auch in diesen Beispielen wird eine Überlagerung verwendet, um neu benötigte Objekte anzuzeigen, jedoch ohne die bisherige Umgebung komplett unzugänglich zu machen. Alle Beispiele haben gemeinsam, dass der Hintergrund jeweils durch Abdunkeln bestehen bleibt. Diese Art der Überlagerung bietet sich an, wenn die Bearbeitung des Vordergrundobjekts weiterhin erforderlich ist, bevor mit dem Ensemble im Hintergrund wieder gearbeitet werden kann. Hierzu gehören vor allem Bestätigungsmeldungen und Einstelldialoge. Eine übliche Konvention und sinnvolle Abkürzung bei dieser Art der Überblendungen ist es, einen Klick in den abgedunkelten Hintergrund mit der Abbrechen-Option zu verknüpfen.

Navigation

Im vorherigen Kapitel haben wir mit Erschließbarkeit eine der wichtigsten Forderungen beschrieben, um einen Computer möglichst weitgehend ohne vorherige Schulungen oder das Lesen eines Handbuchs nutzen zu können. Die Forderung zielt darauf ab, am Bildschirm sichtbare Hinweise zu geben, welche Operationen möglich sind, wie man sie ausführen kann und welche Inhalte erreichbar sind. Dies ist jedoch nur vollständig umsetzbar, wenn es gelänge, für jede mögliche Anschlusshandlung und auf jedes Inhaltsobjekt einen sichtbaren Hinweis zu geben. Anhand eines großen Textverarbeitungssystems wie beispielsweise Microsoft Word lässt sich vergegenwärtigen, was ein solcher Anspruch auf Vollständigkeit bedeuten würde. Das System müsste beispielsweise für jede Funktion der Software dauerhaft ein sichtbares Icon als Hinweis anzeigen. Der Bildschirm bestünde nur noch aus Icons und Hinweisen auf Tastenkürzel und würde vermutlich noch nicht einmal alle Funktionen abbilden können. Für den eigentlichen Inhalt, den zu bearbeitenden Text, bliebe kein Platz. Vollständigkeit ist mit Ausnahme sehr einfacher Nutzungsschnittstellen, etwa einer Lichtsteuerung, nicht ohne Gestaltkonflikte umsetzbar.

Die sich aus dieser Erkenntnis ergebenden Problemstellungen werden mit Techniken von Nutzungsschnittstellen gelöst, die wir unter dem Begriff „Navigationsschnittstellen“ zusammenfassen wollen. Dabei geht es darum, wie man die möglichen Handlungsoptionen und Inhalte, ohne zu viel Platz zu verbrauchen und ohne unübersichtlich zu werden, zugänglich machen und wie man den Ausschnitt aus einem Objekt darstellen und den Rest zugänglich machen kann.

Navigation ist immer mit Sequenzialität verbunden, denn wenn Sie erst navigieren müssen, um etwas zu erreichen, heißt es, dass das, was Sie erreichen wollen, nicht sofort im Zugriff ist, es also Zusatzschritte braucht. Gänzlich vermeiden lässt sich diese Sequenzialität nicht, denn es sind nicht nur viele Forderungen wie Erkennbarkeit (alle Objekte sind hinreichend vom Hintergrund abgesetzt etc.), Übersichtlichkeit und Strukturiertheit (die Objekte sind räumlich abgesetzt), Handhabbarkeit (die verschiedenen Alternativen sind sicher auswählbar) und Eingabeminimalität (für die Auswahl einer Option sollten möglichst wenig Eingaben notwendig sein) zu bedenken, die Abwägung dieser Anforderungen hängt auch von einer Vielzahl von Rahmenbedingungen wie Bildschirm- bzw. Fenstergröße, Eingabemodus, erwarteten Nutzungscharakteristiken etc. ab. Die Konsequenz ist, dass es keine für alle Einsatzzwecke gleich gut geeignete Navigationsschnittstelle gibt. Stattdessen gilt es, das Spektrum aufzuspannen, die auftretenden Gestaltungskonflikte zu erkennen und über die Ausgestaltung verbreiteter Navigationstechniken nachzudenken.

Vielleicht sind Sie über den Begriff „Navigationsschnittstelle“ gestolpert, den wir hier verwenden. Wir wollen damit unseren Fokus auf Navigationstechniken einschränken, die über eigene Objekte in der Nutzungsschnittstelle verfügen. Diese Navigationsobjekte erscheinen als zusätzliche Elemente zu den eigentlichen Inhaltsobjekten der Anwendung. Wir bezeichnen solche Elemente in Anlehnung an den Experten Jacob Nielsen als „GUI-Chrome“3.

Veranschaulichung von GUI-Chrome in Microsoft Word
Veranschaulichung von GUI-Chrome in Microsoft Word

Wir beschränken uns bei unserer Betrachtung von Navigationstechniken auf solche, die zum GUI-Chrome gehören, bei denen es also eine explizite Nutzungsschnittstelle zur Erschließung der Inhalte und Optionen gibt4. Obiger Screenshot von Microsoft Word kann gut verdeutlichen, um welche Art von Bildschirmelementen es uns geht. Im Inhaltsbereich in der Mitte werden Anwendungsobjekte angezeigt. Rund um diesen Inhaltsbereich befindet sich aber viel GUI-Chrome; von den von Microsoft „Ribbons“ getauften Reitern (deutsch: „Menüband“ oder technokratisch „Multifunktionsleiste“) im oberen Teil des Bildes, über eine Scrollbar auf der rechten Seite bis hin zur Fußzeile unten. Die meisten Elemente im GUI-Chrome sind Navigationselemente, denn sie dienen der Zugänglichmachung der Funktionalität der Software einerseits (die Ribbons, die Kurzwahlleiste oben, die Icons und Menüs innerhalb der Ribbons) und der Manipulation und Darstellung des sichtbaren Ausschnitts andererseits (die Scrollbar, die Zoom-Einstellungen, die Seitenangabe). Daneben gibt es auch einige wenige andere Metainformationen, die hier ebenfalls untergebracht sind, etwa die Anzeige der Dokumentsprache. Ebenfalls zum Bereich des GUI-Chromes zählen wir Objekte wie das Pop-up-Menü im obigen Beispiel oder auch Navigationsbereiche, die in den Inhalt eingebunden sind oder eingeblendet werden, aber nicht selbst den Inhalt verkörpern.

Was GUI-Chrome, also Anwendungsrahmen, ist und was der Inhalt der Anwendung ist, kann sich so verhalten wie die russischen Matroschkas. Beim Auseinandernehmen der größeren Puppe kommt eine kleinere, identisch aussehende Puppe zum Vorschein. Vor allem in webbasierten Nutzungsschnittstellen ist das so. Der Browser selbst hat sein GUI-Chrome, das dazu dient, Websites anzusteuern, Lesezeichen zu verwalten und andere Browser-Funktionalitäten zugänglich zu machen. Daneben gibt es den Inhaltsbereich, in dem Websites angezeigt werden. Wenn man nun eine Website oder Web-Anwendung öffnet, zum Beispiel eine Online-Version einer Textverarbeitung, hat auch diese Anwendung wieder ihren GUI-Chrome- und ihren Inhaltsbereich.

Navigationsschnittstellen zur Wahl des Ausschnitts

Die Menge der Inhaltsobjekte einer Anwendung (zum Beispiel die Bilder im Fotoalbum, die heruntergeladenen Musikstücke oder der Inhalt eines Verzeichnisses der Festplatte) und auch die einzelnen Inhaltsobjekte selbst (etwa ein Textdokument oder aber auch ein Eingabeformular) können in den wenigsten Fällen auf nur einer einzigen Bildschirmseite vollständig angezeigt werden. Der Ausschnitt dessen, was gerade angezeigt wird, ist immer begrenzt. Wenn Sie nur einen Ausschnitt sehen, kann es zu Orientierungsproblemen kommen. Gestaltet man die Navigationsschnittstelle nicht angemessen, kann es passieren, dass während der Nutzung nicht erkannt wird, dass es sich nur um einen Ausschnitt handelt. Das bedeutet, dass die weiteren Inhalte nicht erschließbar sind und dass es keine Unterstützung gibt, um eine Vorstellung davon zu entwickeln, wie sich der aktuelle Ausschnitt zum Ganzen verhält.

Zoomen

Seitenübersicht durch verkleinerte Darstellung
Seitenübersicht durch verkleinerte Darstellung

Ein Ansatz zur Wahl des Ausschnitts kann eine Zoom-Technik sein. Sie soll zweierlei leisten, zum einen, den Überblick über den gesamten oder zumindest einen großen Teil des Inhalts anzubieten, zum anderen aber auch eine Detailbetrachtung zu ermöglichen, indem die Granularitätsstufe gewechselt wird. Gute Zoom-Techniken erlauben es, zwischen mehreren Granularitätsstufen geschmeidig hin und her zu wechseln.

Der folgende Screenshot zeigt mehrere Seiten eines Textes in einer verkleinerten Darstellung. Diese Darstellung ist gut geeignet, um sich eine Übersicht zu verschaffen, nicht aber, um den Text tatsächlich zu lesen.

Scrolling

Wenn nicht alle Objekte zu sehen sind oder nicht das vollständige Objekt auf einmal angezeigt werden kann, braucht es einen Mechanismus, um den aktuellen Ausschnitt erschließbar und manipulierbar zu machen. Eine der beiden wichtigsten Techniken hierfür ist das Scrolling (auf Deutsch „Rollen“ oder „Bildlauf“ genannt). Scrolling an sich kommt ohne Schnittstellenelemente aus. In einem Text kann zum Beispiel der Cursor bewegt werden. Der dargestellte Bildausschnitt wandert mit dem Cursor mit, sobald dieser den aktuellen Bildschirmbereich verlässt. Ein derart simples Scrolling ist aber aus mehreren Gründen nicht ergonomisch, denn es liefert keine erschließbaren Hinweise auf die Ausschnittsnavigation. So ist nicht direkt ersichtlich, dass es weiteren Inhalt gibt, dass auf diese Weise gescrollt werden kann, welcher Ausschnitt innerhalb des Ganzen gerade zu sehen ist und schlussendlich, welches Verhältnis der aktuelle Ausschnitt zum Ganzen hat. Abhilfe für diese Erschließbarkeitsprobleme schafft eine Scrollbar.

Bildlaufleisten am Beispiel des Atari ST
Bildlaufleisten am Beispiel des Atari ST

Eine Scrollbar (deutsch „Rollbalken“ oder „Bildlaufleiste“), dargestellt sind die Bildlaufleisten des Atari ST aus den 1980er Jahren, zeigt nicht nur die aktuelle Position des Ausschnitts innerhalb des Dokuments, sondern auch das Größenverhältnis des aktuellen Ausschnitts im Vergleich zum Ganzen. Ein solcher Bildlauf vermittelt also umfangreiche Informationen, die der Orientierung innerhalb des dargestellten Inhalts dienen. Scrollbars dienen bei reiner Mauseingabe nicht nur dazu, den Ausschnitt anzuzeigen, sondern auch dazu, ihn zu manipulieren. Die genaue Ausgestaltung hängt stark vom Betriebssystem ab. Allen gemein ist die Möglichkeit, die Position im Dokument durch Verschieben des Bildlauffeldes zu ändern. Zusätzliche Schaltflächen oder auch das Klicken in Bereiche auf dem Rollbalken bewirkt zudem das zeilen- oder seitenweise Scrollen.

Die verschwundene Scrollbar

Leider sind Scrollbars heute teils einer Mode und teils einem falschen Minimalismus zum Opfer gefallen. Zunächst sind sie auf Touch-Geräten wie Handys und Tablets verschwunden, später bei MacOS und inzwischen hat auch Microsoft bei Windows 10 nachgezogen und blendet Scrollbars unter bestimmten Bedingungen aus. Die Ausblendung ist insofern verständlich, als die Leiste als Eingabeelement für das Scrollen heute kaum noch benötigt wird. Verwendet man eine Maus, scrollt man mit dem Scrollrad, auch Trackpads bieten direkte Möglichkeiten zum Scrollen und bei Touch-Eingaben wird ohnehin durch Wischen auf dem Inhaltsbereich gescrollt. Ausladende Scrollbars, wie sie in der obigen Abbildung zu sehen sind, werden in diesen Fällen zwar nicht mehr unbedingt benötigt, doch rechtfertigt das nicht, sie gänzlich wegzulassen.

Durch fehlende Scrollbar ist ein weiteres Objekt außerhalb des angezeigen Ausschnitts nicht erschließbar.
Durch fehlende Scrollbar ist ein weiteres Objekt außerhalb des angezeigen Ausschnitts nicht erschließbar.

Dieses Beispiel illustriert, zu welchen Problemen das Fehlen einer Scrollbar führen kann. Es ist der Inhalt eines Ordners mit einer Reihe von Foliensätzen zu sehen. Beim Betrachten entsteht der Eindruck, dass diese Darstellung alle Icons anzeigt. Bestärkt wird man darin nicht zuletzt dadurch, dass es freien Raum gibt, was den Eindruck erweckt, dass die Anzeige größer ist als die Menge der anzuzeigenden Objekte. Lediglich die kleine Anzeige „7 Objekte“ unten in der Fußleiste des Fensters gibt einen Hinweis darauf, dass ein Objekt fehlt. Allerdings wird diese Statusleiste im Regelfall nicht angezeigt, sondern muss explizit aktiviert werden. Abgesehen davon gibt es keinen Hinweis darauf, dass es ein weiteres Objekt gibt und wie man es erreicht, denn die Scrollbar wird nur angezeigt, während man scrollt. Diese Implementierung verstößt gegen unsere Forderung nach Erschließbarkeit. Die Oberfläche wird durch das Weglassen der Scrollbar vielleicht schicker, in keinem Fall jedoch besser. Mit Übersichtlichkeit für die Ausblendung von Scrollbars zu argumentieren, wird übrigens schwierig, denn vor allem wenn man sie nur zur Positionsanzeige und nicht mehr als eigentliches Interaktionselement nutzt, brauchen die Scrollbars kaum Platz und können sehr unaufdringlich gestaltet werden.

Wenn das Ende kein Ende ist

Eine andere problematische Einrichtung, die die Funktion von Scrollbars stark beeinträchtigt, ist das dynamische Nachladen weiterer Inhalte, wie es häufig bei modernen Webanwendungen üblich ist. Wenn Sie beispielsweise in Facebook durch die Inhalte einer Seite scrollen und unten angekommen sind, lädt die Seite nach und wird nach unten hin verlängert. Die Scrollbar, die gerade noch bis nach unten gezogen wurde, springt unvermittelt wieder nach oben. Dadurch wird es schwerer bis unmöglich, mittels der Scrollbar einzuschätzen, welchen Ausschnitt man an welcher Position zu sehen bekommen wird. Auch die Orientierungsfunktion ist nicht mehr gegeben, denn am unteren Ende der Scrollbar ist nicht mehr das Ende, sondern nur das Ende des gerade geladenen Ausschnitts.

Der Vorteil bei Facebook ist, dass in der Regel viel weniger Daten übertragen werden müssen, denn bei biografisch geordneten Inhalten sind oft nur die aktuellen Inhalte, die oben stehen, von Interesse. Es gibt jedoch zu diesem Nachlademechanismus auch Alternativen, um die Datenmenge klein zu halten. Die einfachste ist, unten auf der Seite jeweils einen Link zu Folgeseiten anzubieten, das Scrollen also mit dem Blättern zu kombinieren, um das es im folgenden Abschnitt geht. Auch Nachladen ist grundsätzlich in Ordnung, könnte aber zum Beispiel durch Klicken auf einen Button am Ende geschehen. Mit dem automatischen Nachladen wird zwar dieser Klick gespart, dies geschieht jedoch auf Kosten der Orientierung.

Wenn Sie eine Software haben, bei der Inhalte erst hinzugeladen werden, wenn sie gebraucht werden, stößt die klassische Scrollbar an ihre Grenzen.

Blättern

Die Alternative zum Scrollen, vor allem bei den oft anzutreffenden eindimensionalen Ausdehnungen, ist das Blättern. Der Vorteil des Scrollings liegt vor allem in der Kontinuität – im Gegensatz zum Blättern wird der Inhalt weitergeschoben statt komplett ersetzt. Das ermöglicht auf modernen Desktop-Rechnern, Laptops und Touch-Geräten, bei denen per Wischen oder per Scrollrad gescrollt werden kann, eine sehr einfache Handhabung. Für das Blättern ist es im Gegensatz dazu in den meisten Fällen nötig, einen Verweis oder einen Button räumlich auszuwählen und anzuklicken. Es gibt dennoch Bedingungen, unter denen das Blättern besser ist als das Scrollen:

  • Wenn die Anzahl der Elemente oder der Inhalt sehr groß ist: Das Scrollen über die komplette Menge verliert seine Vorteile, denn der jeweils aktuelle Ausschnitt wird im Vergleich zur Gesamtmenge sehr klein, die Anzeige ungenau und das manuelle Wählen des Ausschnitts durch das Positionieren des Rollfeldes nicht mehr handhabbar.
  • Wenn die Anzahl der gleichzeitig zu ladenden Elemente verringert werden soll: Hierfür kann es inhaltliche, aber auch technische Gründe, wie Arbeitsspeicherbedarf oder die Übertragungszeit, geben. Gerade für die Fälle, in denen weiter hinten bzw. unten liegende Elemente selten betrachtet werden (zum Beispiel in der Facebook-Timeline) ist das Einteilen in Seiten sinnvoll.
  • Wenn Eingabetechniken eingesetzt werden, die kein Scrollen unterstützen oder das Wissen über die Scroll-Technik nicht vorausgesetzt werden kann: Fahrkartenautomaten wären hier ein Beispiel.
  • Wenn es möglich sein soll, einzelne Ausschnitte oder Positionen innerhalb des Inhalts oder der Objekte zu adressieren: Dies geht zwar grundsätzlich auch mit Scroll-Techniken, ist aber komplexer und von einer spezifischen Umsetzung abhängig. Bei der Verwendung von Seiten ist eine Adressierung leichter zu bewerkstelligen.
  • Wenn einzelne Seiten mit semantischen Einheiten des Inhalts, wie zum Beispiel Handlungsschritte, Kapitel, Ereignisse oder Vergleichbares gekoppelt werden können: Die Verwendung von Seiten sorgt in diesem Fall für inhaltlich abgeschlossene Einheiten.

Für die Navigationselemente zum Blättern gelten ähnliche Anforderungen wie an Scrollbars. Sie sollten nicht nur Möglichkeiten bereithalten, die vorherige und die nachfolgende Seite zu erreichen, sondern auch anzeigen, auf welcher Seite man sich gerade befindet, und auch verdeutlichen, in welcher Relation die aktuelle Seite zum Ganzen steht.

Seitenauswahl in flickR
Seitenauswahl in flickR

Diese Seitenauswahl stammt aus der Bildplattform flickr. Das Navigationselement zeigt, dass die aktuelle Seite die Nummer 5 ist und erlaubt das Weiterschalten auf die direkt umgebenden Seiten 4 und 6. Darüber hinaus veranschaulicht sie auch die Relation zum Ganzen durch die Angabe der Gesamtseitenzahl und ermöglicht, wenn auch mit Einschränkungen, die direkte Anwahl von Seiten.

Navigation auf Strukturebene

Die oben beschriebenen Navigationstechniken erweitern die Bildschirmanzeige um Navigationselemente, mittels derer der Ausschnitt aus einem Objektarrangement oder einem großen Objektinhalt dargestellt und gewählt werden kann. Die Voraussetzung dafür ist, dass es einen solchen räumlich-grafisch darstellbaren Inhalt gibt. Beim schon mehrfach benutzten Beispiel eines längeren Textes ist das der Fall, denn dieser ist linear und wird räumlich dargestellt. Viele Navigationsprobleme sind jedoch anders gelagert. Denken Sie zum Beispiel an die Menge aller Funktionen, die eine Textverarbeitung bietet. Jede einzelne davon könnten Sie über eine Textfläche, einen Button oder ein Icon darstellen, aber die Gesamtheit dieser Funktionen hat keine natürliche Ordnung, die sich direkt auf räumliche Achsen abbilden ließe. Um in ihnen scrollen oder blättern zu können, müssen sie erst in eine darstellbare Anordnung gebracht werden. Man könnte zum Beispiel alle Funktionen mit einem Namen versehen und sie alphabetisch sortieren.

Eine solche Liste ist keine angemessene Struktur, da die alphabetische Distanz auf kein semantisches Kriterium abbildbar ist. Doch bleiben wir kurz bei dieser abwegigen Idee, denn sie verdeutlicht eine notwendige Voraussetzung, die erfüllt sein muss, um eine Nutzungsschnittstelle zur Navigation umsetzen zu können. Bei einer alphabetischen Liste auf dem Bildschirm handelt es sich um eine räumliche Darstellung eines linearen Index. Ein solcher Index ist die Grundlage für die Navigationstechniken, die wir im Folgenden besprechen wollen. Alphabetische Listen oder auch eine Sortierung nach Zeitpunkten sind für die meisten Anwendungen allerdings nur am Rande interessant, wenn es darum geht, die Funktionalität zu erschließen.

Die am häufigsten anzutreffende Indexart für die Navigation ist die zweidimensionale Struktur des Baums, denn sie gestattet das Bilden von Kategorien und Unterkategorien und ermöglicht dadurch die Realisierung von Menüs, Reitern und Pfaden.

Wenn Sie das Wort „Index“ im Zusammenhang mit dem Wort „Navigation“ hören, mag Ihnen vielleicht das Thema „Suche“ in den Sinn kommen. Um eine Suche geht es hier allerdings nicht. Wenn für eine Suche indiziert wird, ist damit nicht das Erstellen einer Struktur für die Inhalte gemeint, sondern das Erstellen eines Volltextindexes. Suchen ist zwar eine sehr praktische Funktion, sorgt jedoch nicht für die Erschließbarkeit einer Software und schafft auch keine Orientierung innerhalb der von ihr angebotenen Handlungsoptionen.

Damit ein Index die Navigation unterstützen kann, muss er unter Berücksichtigung vielfältiger Rahmenbedingungen und Forderungen zur Anzeige gebracht werden. Werden zum Beispiel alle Funktionen einer Textverarbeitung in Kategorien und Unterkategorien, also in einen Baum, eingeordnet, könnte man versuchen, den Baum vollständig darzustellen. Allerdings würde man nicht nur viel Platz verbrauchen, man käme auch nicht den Anwendungsanforderungen entgegen. Ein Menü, bei dem einzelne Ebenen bei Bedarf eingeblendet werden können, wäre an dieser Stelle die bessere Navigationstechnik.

Menüs

Klassische Darstellung des Menüs
Klassische Darstellung des Menüs

Menüs dienen der Darstellung eines hierarchischen Index, also eines Baums. Die Funktionen einer Software, aber auch Inhalte von Websites werden sehr häufig in Baumstrukturen organisiert und damit per Menü zugänglich gemacht. Wie ein solcher Baum konstruiert wird, also welche Elemente jeweils unter einem Oberbegriff zusammengefasst werden sollten, hängt von der Anwendung ab. Im Folgenden geht es uns stattdessen darum, wie das Menü ergonomisch dargestellt werden sollte. Die konkrete Gestaltung hängt von vielen Rahmenbedingungen ab, etwa, ob ein Menü häufig genutzt wird oder nicht und vor allem auch, wie viel Platz zur Verfügung steht und welche Eingabetechnik zum Einsatz kommt. Menüs können, wie der kurze historische Rückblick zeigt, sehr verschiedene Darstellungsformen annehmen.

In der Abbildung sehen Sie die klassische Darstellung eines Menüs. Die Menüpunkte sind textuell untereinander dargestellt und mit Zahlen versehen. Diese Zahlen dienen dazu, einen Menüpunkt anzuwählen. Wird ein Menüpunkt ausgewählt, so wird entweder die direkt damit verbundene Funktion ausgeführt oder es öffnet sich ein Untermenü, das wiederum den Großteil des Bildschirms einnimmt, sodass die vorherige Menüebene nicht mehr zu sehen ist. Mit dem Aufkommen grafischer Nutzungsoberflächen mit Zeigegeräten ist diese Form des Menüs nahezu vollständig von den Personal Computern verschwunden. Man findet sie allerdings noch häufig in Einstellungsbereichen von Fernsehern und in Geräten mit nur kleinen Anzeigen. Zu letzteren gehören interessanterweise auch Handys. Die Einstellungs-App von iOS auf einem iPhone funktioniert genau auf die oben beschriebene Weise. Es ist stets nur eine Menüebene zu sehen, ein Klick auf ein Element wechselt in eine andere Menüebene und ein einzeln herausgestelltes Eingabeelement wird dazu verwendet, wieder auf die übergeordnete Ebene zurückzuwechseln. Der einzige Unterschied zwischen dieser Art des Menüs und dem oben abgebildeten klassischen Menü aus der Zeit der textbasierten Computersysteme ist die Eingabemodalität. Statt Zahlen einzugeben wird nun auf den entsprechenden Menüeintrag getippt.

Menüs dieser Art haben den großen Nachteil, dass bei jedem Wechsel der Menüebene der räumliche Kontext verloren geht, denn eine Menüebene ersetzt vollständig die vorherige, sodass man die Ebene der parallelen Untermenüs nicht mehr im Blick hat. In solchen Menüs etwas zu finden oder sie zu durchschauen, ist nicht einfach. Man kann sich leicht in ihnen „verlaufen“. Nach Möglichkeit sollten derartige Menüs vermieden werden. Nur in Ausnahmefällen wie dem kleinen Bildschirm eines Smartphones sind sie gerechtfertigt.

Wie Menüs dargestellt werden, wie viel von ihnen dauerhaft zu sehen ist und inwiefern mit Aufdecken und Überlagern gearbeitet werden kann, ist Gegenstand vieler Forderungen an die Ergonomie. Die Forderung nach Erschließbarkeit würde darauf abzielen, möglichst viele Elemente und Ebenen dauerhaft darzustellen. Platzbeschränkungen und die Forderungen nach Übersichtlichkeit, Erkennbarkeit und Handhabbarkeit sprechen allerdings dagegen, dies zu extensiv auszugestalten und eher darauf zu setzen, die Menüebenen nacheinander aufzurufen. Man erkauft sich allerdings die gewonnene Übersichtlichkeit durch zusätzliche Eingabeschritte mit Maus oder Tastatur, opfert also bis zu einem bestimmten Grad die Eingabeminimalität.

Erste Menüebene möglichst sichtbar machen

Mit dem WIMP-Paradigma (Windows, Icons, Menus, Pointer) der 1980er Jahre ist es üblich geworden, die oberste Ebene des Hauptmenüs einer Anwendung dauerhaft anzuzeigen. Sowohl Apples Betriebssysteme als auch Microsofts Windows sowie die meisten grafischen Nutzungsschnittstellen von Linux und Unix halten es auf diese Weise.

Dauerhaft sichtbare erste Menüebene im LibreOffice Writer
Dauerhaft sichtbare erste Menüebene im LibreOffice Writer

Hier sieht man dies am Beispiel von LibreOffice Writer. Die erste Ebene des Anwendungsmenüs mit den Unterpunkten „Datei“, „Bearbeiten“, „Ansicht“ usw. ist dauerhaft sicht- und jederzeit anwählbar. Eine solche Darstellung des Menüs würde auf einem Tablet mit Touch-Eingabe nicht gut funktionieren. Die Elemente müssten größer sein, um per Touch-Eingabe gut und sicher getroffen werden zu können. Dieser Platz geht jedoch zulasten des Anwendungsinhalts. Spätestens auf einem kleinen Smartphone-Bildschirm gibt es nicht mehr genug Platz, um neben dem Anwendungsinhalt auch noch das Menü auf diese Weise anzuzeigen. Im Falle einer solchen Platzbeschränkung ist es sinnvoll, auch die oberste Menüebene erst auf explizite Anforderung anzuzeigen. Heute geschieht das meist durch den Klick auf ein sogenanntes „Burger-Icon“.

„Burger-Icon“ zum Aufruf eines Menüs
„Burger-Icon“ zum Aufruf eines Menüs

Die Tendenz, Nutzungsschnittstellen, die für eine Geräteklasse optimiert worden sind, auf andere Arten von Geräten zu übertragen, ohne die Designkonflikte neu auszutarieren, führt heutzutage leider oft dazu, dass generell auf die Menüleiste verzichtet wird, auch wenn genügend Platz vorhanden ist und die Eingabeform per Maus und Tastatur genutzt wird. Die Ausnahme ist hier Apple, wo die Menüleiste so stark in die Nutzungsschnittstelle des Betriebssystems MacOS integriert ist, dass auch Software wie Google Chrome, Firefox und Microsoft Word, die unter Windows ihr klassisches Menü haben, sich dem angepasst haben.

Keine fixe Grenze für die Anzahl von Menüelementen

In manchen Hinweisen zur Gestaltung grafischer Nutzungsoberflächen werden Angaben darüber gemacht, wie viele Elemente ein Menü bzw. ein Untermenü enthalten sollte. Manche dieser Hinweise sind sinnvoll, viele sind es allerdings nicht.

  • Für Menüs, die per Maus oder Tastatur gesteuert werden, sollte man vermeiden, dass innerhalb eines Menüs gescrollt oder geblättert werden muss. Dies ist zwar grundsätzlich bei jedem Menü anzustreben, wird aber zum Beispiel auf Handys mit kleinem Bildschirm und aufgrund der nötigen Touch-Eingabe oft nicht sicherzustellen sein.
  • Eine zu tiefe Menüstruktur hat den Nachteil, dass zum Erreichen eines Elements sehr viele Klicks, Berührungen oder Tastatureingaben nötig sind und dass es keine Möglichkeit mehr gibt, ein Element direkt zu entdecken, da man in diesem Fall einen recht komplexen Pfad kennen muss. Eine Menütiefe größer als 3 ist unüblich und sollte aus den oben genannten Gründen auch vermieden werden.

Kritisch sind Angaben zur maximalen Elementanzahl innerhalb von Menüs. Häufig wird die Zahl 7(+-2), also 5 bis 9, als das Maximum von Elementen innerhalb einer Menüebene genannt. Diese „Magical Number 7“ ist von George Miller 1956 experimentell ermittelt worden5. Allerdings hat Miller in den 1950ern nichts über die Gestaltung von Menüs in grafischen Nutzungsschnittstellen gesagt. Schlimmer noch: Seine Ergebnisse lassen sich auch nicht darauf anwenden. Millers Experimente sollten zeigen, wie gut bzw. eher wie schlecht das Erinnerungsvermögen von Menschen ist. Um semantische Zusammenhänge und damit individuell nutzbare Hinweise auszuschließen, wurden im Experiment nur Gegenstände zusammen gezeigt, die möglichst keinen gemeinsamen Handlungskontext haben. Nach einer Ablenkungsaktivität wurden die Probanden gefragt, an welche Gegenstände sie sich erinnern können. Es zeigte sich, dass die Probanden sich jeweils nur an fünf bis neun Gegenstände erinnern konnten. Aufgrund dieses Befundes ist die „Magical Number 7“ auch als Richtwert für die Anzahl von Menüelementen entstanden. Diese Empfehlung hat es in etliche Ergonomie-Bücher und Styleguides geschafft.

Betrachtet man das von Miller konzipierte Experiment und sein Erkenntnisinteresse genauer, fällt auf, dass eine maximale Anzahl von Menüelementen aus seinen Untersuchungen nicht abgeleitet werden kann. Bei Millers Experiment hatten die Gegenstände, die gezeigt wurden, nichts miteinander zu tun. Das war auch nötig, weil das Erinnerungsvermögen und nicht die Assoziationsfähigkeit getestet werden sollte. Bei gut gestalteten hierarchischen Menüs hingegen haben die einzelnen Elemente sehr wohl etwas miteinander zu tun. In Millers Experiment wurden zudem die Gegenstände nur kurz gezeigt. Die Probanden sollten sich später ohne weiteren visuellen Hinweis an sie erinnern. Das Charakteristikum eines Menüs ist dagegen, dass es bis zur Auswahl eines Elements kontinuierlich am Bildschirm zu sehen ist. Man muss sich an die Elemente nicht frei erinnern, sondern unter dem Angebot eine Auswahl treffen. Die Empfehlung, die Anzahl von Menüpunkten auf fünf bis neun Elemente zu begrenzen, kann somit nicht aus diesem Experiment abgeleitet werden und könnte sich als ergonomisch nachteilig erweisen, wenn dadurch semantische Zusammenhänge unnötig auseinandergerissen werden.

Reiter

Reiternavigation in Windows XP
Reiternavigation in Windows XP

Menüs sind eine Navigationstechnik für einen hierarchischen Index. Nicht immer ist es jedoch nötig und sinnvoll, eine hierarchische Struktur aufzustellen. In vielen Fällen reicht es, Inhalts- und Funktionsbereiche lediglich zu kategorisieren. Würde man stattdessen ein Menü verwenden, enthielte es nur eine Ebene. Jeder der Punkte würde direkt zu einem Funktionsaufruf oder zu einem Inhalt führen. In den Fällen, in denen ein Aufruf eines Elements dieses Menüs dazu führen würde, dass jeweils verschiedene Bildschirmseiten angezeigt werden, das Menü also nur zur Auswahl dieser Bildschirmseiten verwendet wird, kann man das Menü auch durch eine Reiternavigation ersetzen.

Die Abbildung zeigt eine Reiternavigation innerhalb der Anzeigeeinstellungen von Windows XP. Die Kategorien „Designs“, „Desktop“, „Bildschirmschoner“, „Darstellung“ und „Einstellungen“ sind dauerhaft verfügbar. Ein Klick darauf wechselt den unten dargestellten Inhalt. Reiter sind mit der Verbreitung von Windows 95 vor allem bei Einstelldialogen sehr beliebt geworden. Gerade in diesem Bereich nimmt ihre Verwendung aber ab. Dagegen haben sie als Alternative zur Darstellung mehrerer Fenster in einer Vielzahl von Anwendungen, angefangen bei Webbrowsern über Dateimanager bis hin zu Grafikbearbeitungsprogrammen, weite Verbreitung gefunden.

Die Reiternavigation ist eine geschickte Verbindung eines Menüs zur Inhaltsauswahl mit der Möglichkeit, die aktuelle Auswahl direkt darzustellen. Der Clou bei der Darstellung als Reiter liegt in der optischen Einheit der Auswahlelemente für den Reiter und seinem Inhalt. Dazu wird die Illusion erzeugt, dass sich alle auszuwählenden Inhalte auf Registerkarten befinden, unter denen eine Karte ausgewählt werden kann. Die ausgewählte Karte wird jeweils als die zuoberst liegende dargestellt.

Darstellung von Reitern unter Windows 10
Darstellung von Reitern unter Windows 10

Hier ist dargestellt, wie Reiter unter Windows 10 aussehen. Die optische Gestaltung lässt jedoch stark zu wünschen übrig. Die nicht aktiven Reiter sind, im Gegensatz zur Darstellung unter Windows XP und unter Windows 7, nur unzureichend als im Hintergrund liegend abgesetzt, weshalb der aktive Reiter schlecht zu erkennen ist.

Reiter im Browser „Edge“
Reiter im Browser „Edge“

In diesem Beispiel des Browers Edge zeigt Microsoft, wie man es besser machen kann. Die nicht ausgewählten, also die „hinten liegenden“ Reiter sind im Vergleich zum hellen, aktiven Reiter optisch abgedunkelt. Ein Schlagschatten verstärkt die optische Absetzung (siehe hierzu unsere Ausführungen im Kapitel Bildschirmobjekte).

Reiterdarstellung der Ribbons in Microsoft Word
Reiterdarstellung der Ribbons in Microsoft Word

Eine andere Form von Reitern stellen Microsofts Ribbons dar, die Microsoft als Weiterentwicklung der Menüleisten verwendet. Anstelle der Anzeige einer Vielzahl von Leisten mit kleinen Icons ohne Beschriftung hat Microsoft sich vor einigen Jahren dazu entschlossen, die Elemente fortan in einer Reihe von Bändern, den sogenannten Ribbons, zugänglich zu machen. Oben abgebildet ist Microsofts Ribbon-Design aus dem Jahr 2016. Der aktuell ausgewählte Ribbon setzt sich sehr gut von den gerade nicht aktiven ab. Es bleibt das Geheimnis von Microsoft, warum die 2019er-Version der gleichen Ribbons (unten) erheblich schlechter gestaltet wurde. Der aktuell ausgewählte Ribbon ist nun durch eine Unterstreichung ausgezeichnet. Der räumliche Effekt der Reiterdarstellung ist dahin.

Ribbons ohne räumlich-perspektischen Effekt der Reiterdarstellung
Ribbons ohne räumlich-perspektischen Effekt der Reiterdarstellung
Grenzen der Reiternavigation
Grenzen der Reiternavigation

Auch die Reiternavigation hat ihre Grenzen. Die Abbildung zeigt ein altes Beispiel von Reitern in Microsoft Word unter Windows 95. Der jeweils aktive Karteireiter ist schlecht zu erkennen. Er unterscheidet sich von den anderen Reitern nur durch sehr wenige Merkmale: Der Reiter ist genau ein Pixel höher als die anderen und im unteren Bereich fehlt die Begrenzung. Bedeutend problematischer ist aber die Anzahl der Reiter, die nicht mehr in eine Zeile passen. Dies hat zur Folge, dass sich die Position der Karteireiter mit der Selektion ändert, weil die komplette Reihe, in der sich der ausgewählte Reiter befindet, nach vorne wandert. Das erzeugt ein Kontinuitätsproblem, das auf jeden Fall vermieden werden sollte.

Pfade und Brotkrumen

Die vorgestellten Reiter erfüllen drei wichtige Funktionen: Sie zeigen die zur Auswahl stehenden Optionen, verdeutlichen die aktuelle Auswahl und bieten zudem die Möglichkeit, diese Auswahl zu verändern. Leider eignen sich Reiter nur für flache Strukturen. Ein Navigationselement, das die gleichen guten Darstellungsmöglichkeiten und Manipulationsoperationen böte wie Reiter, existiert für hierarchische Strukturen leider nicht, denn es ist meist nicht möglich, alle Hierarchieebenen gleichzeitig übersichtlich darzustellen. Jedoch sind die Darstellung der aktuellen Position innerhalb der Hierarchie und der direkte Zugriff auf höhere Hierarchieebenen und, wie wir sehen werden, teils auch auf parallele Ebenen größtenteils ohne Probleme möglich.

Die aktuelle Position innerhalb einer hierarchischen Struktur lässt sich analog zu Dateipfaden als „Pfad“ beschreiben. Für die Anzeige eines Pfades hat sich vor allem im Webdesign der Begriff „Brotkrumen-Navigation“ bzw. „Breadcrumb Navigation“ durchgesetzt. Der Begriff nimmt Bezug auf das Märchen „Hänsel und Gretel“ und ist im Gegensatz zum Märchen insofern erfolgreich, als es keine Instanz gibt, die die Brotkrumen auffrisst.

Breadcrumb-Navigation einer universitären Lernplattform
Breadcrumb-Navigation einer universitären Lernplattform

Hier sehen sie eine Breadcrumb-Navigation in einer universitären Lernplattform. Der Pfad wird innerhalb der hierarchischen Struktur der Plattform verdeutlicht. Der Begriff „Breadcrumb“ hat sich auch für diese Lösung durchgesetzt, obwohl die Analogie nicht passt, denn die dargestellte Abfolge zeigt die Einordnung in die Hierarchie, nicht etwa den tatsächlich zurückgelegten Weg, über den man zur aktuellen Position gekommen ist. Dies wird durch Unterscheidung von ortsbezogenen und verlaufsbezogenen Breadcrumbs verdeutlicht. Letztere sind vor allem bei der Navigation durch Hypertextstrukturen interessant.

Zugriff auf höhere und parallele Hierarchieebenen

Breadcrumbs zeigen nicht nur den Pfad zur aktuellen Position, sondern erlauben es auch, höhere Ebenen der Hierarchie direkt durch Anklicken anzuspringen. Je nach Anwendung kann man auch weitergehen und die höheren Ebenen nicht nur als anklickbaren Text ausgestalten, sondern als manipulierbares Menü.

Breadcrumbelemente als vollwertige Objekte im Explorer von Windows 10
Breadcrumbelemente als vollwertige Objekte im Explorer von Windows 10

Im Explorer von Windows (hier zu sehen ist die Version in Windows 10), sind die Elemente des angezeigten Pfades nicht nur Abkürzungen, um diese Ebene wieder zu erreichen, sondern Objekte. Dadurch ist es auf einfache Weise möglich, ein Objekt in diese Ebene zu verschieben oder zu kopieren, indem es auf den entsprechenden Teil des Pfades verschoben wird. Im Finder von MacOS steht eine ähnliche Funktion zur Verfügung, wenn die sogenannte „Pfadleiste“ eingeblendet wird.

Zugriff auf Paralleläste des Dateisystems
Zugriff auf Paralleläste des Dateisystems

Mit der Einführung von Windows 7 fügte Microsoft der Pfadleiste des Explorers eine interessante Funktion hinzu, die es ermöglicht, Zugriff auf die Paralleläste der Elemente innerhalb des Pfades zu erhalten. Sie ermöglicht einen bequemen und schnellen Zugriff auf viele Hierarchieebenen, ohne dass dafür viele Klicks benötigt werden.

Modusgestaltung

Im Themenbereich Orientierung haben wir den Konflikt behandelt, dass einerseits die Menge der ergonomisch darstellbaren und damit direkt zugänglichen Elemente zu beschränken ist, dabei jedoch andererseits die Gesamtheit erschließbar zu gestalten ist. Damit stellt sich grundsätzlich die Frage, welche Funktionen und Objektoperationen sich in unmittelbarem Zugriff befinden und ohne Umweg über eine zusätzliche Navigation beispielsweise in Form eines Menüs erreichbar sein sollen. Oft ist es nicht einfach, diese Frage pauschal zu beantworten, denn je nachdem, welche individuellen Arbeitsstile zu erwarten, welche spezifischen Aufgabe zu erledigen sind oder auch in welcher Phase eines Arbeitsprozesses man sich gerade befindet, sind es andere Bereiche der Funktionalität und der Inhalte, die direkt verfügbar sein sollten. Man kann sich das gut an einer Präsentations-Software wie PowerPoint verdeutlichen:

  • Ist es das Ziel, eine gleichmäßige Gestaltung von Folien sicherzustellen, muss ein Satz Vorlagen (in PowerPoint „Folienmaster“ genannt) erzeugt oder bearbeitet werden. Um das zu bewerkstelligen, benötigt man Zugriff auf die Funktionen, die das Design der Folienvorlagen betreffen. Während der Erstellung der Vorlagen sind andere Funktionen der Software von Interesse, wie das Eingeben von Inhalten, das Einfügen von Objekten oder das Anlegen neuer Folien.
  • Während Folien mit Inhalt gefüllt werden, sind dagegen die Funktionen zur Veränderung der Vorlagen nicht interessant; stattdessen werden Funktionen zum Anlegen von Objekten und neuen Folien sowie zur Eingabe von Text und zum Einfügen von Bildern benötigt.
  • Zum Zeitpunkt, an dem die Präsentation vorgeführt werden soll, besteht dagegen kein Bedarf an Funktionalität zum Einfügen neuer Objekte oder zur Änderung des Designs. Auch sollte es nicht mehr möglich sein, die Objekte zu verschieben oder zu löschen, denn das könnte schnell versehentlich passieren. Stattdessen werden andere Funktionalitäten wie das Erstellen eines Audiomitschnitts, das Einblenden eines Zeigers in die Präsentation und vor allem die Steuerung der Folienpräsentation besonders wichtig.

Im Laufe der „Lebensgeschichte“ einer Folienpräsentation müssen üblicherweise all diese Aufgaben irgendwann durchgeführt werden, was entsprechend den Zugriff auf alle damit verbundenen Operationen und Inhalte erfordert. Im Normalfall werden jedoch die drei beschriebenen Arbeitsphasen nicht zur gleichen Zeit genutzt. Entsprechend sind bei PowerPoint die Funktionen auch aufgeteilt. Eine solche Aufteilung in Funktionen, in unserem Beispiel solche zur Vorlagenbearbeitung, zur Folienbearbeitung und zur Präsentation, nennen wir „Modi“. Jeder Modus hat seine eigene Nutzungsoberfläche, die für diesen Modus angepasst ist. Die Funktionen eines Modus sind direkt erreichbar, die für einen anderen Modus stehen nicht unmittelbar zur Verfügung. Um sie zu erreichen, muss der Modus gewechselt werden. Gut gestaltete Modi erhöhen die ergonomische Qualität einer Software, denn sie können dafür sorgen, dass weniger Elemente gleichzeitig auf dem Bildschirm angezeigt werden müssen (Übersichtlichkeit) und dass die Operationen, die ausgeführt werden müssen, mit nur wenig Zusatzaufwand erreichbar sind (Eingabeminimalität). Letztlich hilft dies, Fehleingaben zu vermeiden. Gestaltet man die Modi jedoch schlecht, verursachen sie mehr Schaden als Nutzen und können zur Desorientierung beitragen.

Studiert man ältere Lehrbücher und Artikel zu softwareergonomischen Fragen, fällt auf, dass der Begriff Modus in diesen oft eine sehr wichtige Rolle einnimmt. Des Weiteren fällt auf, dass der Begriff unterschiedlich verstanden und verwendet wird. Larry Tesler beispielsweise hat in den 1980er Jahren das Schlagwort der „modusfreien Interaktion“ etabliert und dazu aufgefordert, Modi grundsätzlich zu vermeiden. Mit Blick auf die seinerzeit vorherrschenden Technik beklagt er zum Beispiel, dass Textverarbeitungssysteme es nicht erlaubten, während des Betriebes die auf einem Datenträger gespeicherten Dokumente zu erfassen, was beim Laden und Speichern von Dateien zum Nachteil gereichte und gelegentlich sogar ein zwischenzeitliches Verlassen der Textverarbeitungsumgebung nach sich zog. Derartige Modi, gegen die er sich zur damaligen Zeit zu Recht gewandt hatte, haben sich allerdings mit der Einführung von Multitasking und Fenstertechnik größtenteils erledigt. Modi, die sich aus der Aufgabe begründen, hat er dagegen nicht im Blick gehabt.

Modale Dialoge

Wenn von Modi und ihrer Vermeidung die Rede ist, richtet sich der Fokus oft auf den Teilaspekt der sogenannten „modalen Dialoge“ oder „modalen Fenster“. Grafische Nutzungsoberflächen bieten in der Regel die Wahlfreiheit, ein beliebiges Fenster anzuklicken und in diesem Aktionen durchzuführen. Es gibt jedoch Situationen, in denen zunächst eine Aktion in einem Fenster abgeschlossen werden muss, bevor im anderen weitergearbeitet werden kann. Das Fenster ist „modal“. Ein typischer Fall ist das Speichern einer Datei. Wenn „Speichern unter“ ausgewählt worden ist, öffnet sich ein Fenster, in dem man den Speicherort und den Dateinamen festlegen kann. Während dieses Fenster geöffnet ist, ist es nicht möglich, das Dokument weiter zu bearbeiten. Das Fenster lässt sich nicht wechseln. Erst wenn der Prozess im Fenster abgeschlossen ist, also entweder die Datei tatsächlich gespeichert oder die Aktion abgebrochen worden ist, kann der Inhalt weiterbearbeitet werden.

Das Anzeigen eines solchen modalen Fensters verkörpert immer Sequenzialität. Das ist unkritisch, wenn diese Sequenzialität so gewollt oder der Mehraufwand gering ist. Oft ist das Verwenden eines modalen Fensters sehr sinnvoll, doch gerade das Beispiel des Speichern-Fensters zeigt, dass diese Sequenzialität nachteilig sein kann. Nehmen wir einmal an, an einer bestimmten Stelle im Text steht eine Zeichenfolge, die als Dateiname ausgewählt werden soll. Wenn die Wahl des Dateinamens in einem modalen Fenster erfolgt, erzwingt das zum Einhalten einer bestimmten Reihenfolge. Man muss zuerst an die entsprechende Stelle im Text wechseln und die Zeichenfolge kopieren und kann erst danach die Speichern-Funktion aufrufen. Bei der entgegengesetzten Handlungssequenz steht das modale Fenster einer erfolgreichen Ausführung entgegen. Deshalb sind modale Fenster mit Bedacht einzusetzen, denn sie können leicht für erzwungene Sequenzialitäten sorgen, die Mehreingaben verursachen, und die freie Wahl des Wegs zur Erledigung der Aufgabe einschränken.

Eine Software, die ein modales Fenster anzeigt, befindet sich in einem Modus. Doch unser Verständnis von einem Modus geht über dieses doch sehr begrenzte Phänomen hinaus. Keiner der oben erläuterten Phasen einer Präsentationssoftware basiert etwa auf modalen Dialogen.

Modi und Modusprobleme

Für unsere nachfolgende Argumentation richten wir uns an folgender Charakterisierung für Modi aus:

  • Innerhalb eines Modus steht ein bestimmter Satz von Funktionen und Objektoperationen zur Verfügung, der sich von denen in einem anderen Modus zur Verfügung stehenden Funktionen unterscheidet.
  • In welchem Modus sich ein System befindet, hängt von einem Zustand der Nutzungsoberfläche ab. Es gibt also durch die Änderung dieses Zustands die Möglichkeit, einen Modus zu betreten und zu verlassen bzw. zwischen verschiedenen Modi umzuschalten.
  • Die gleichen Eingaben (sowohl Tastatureingaben als auch räumliche Manipulationen oder Gesten) haben innerhalb verschiedener Modi verschiedene Konsequenzen.

Diese Charakterisierung von Modi kann mehr Situationen umfassen als die, die man intuitiv Modus nennen würde. Zum Beispiel ist, der Definition entsprechend, ein Programm, in dem gerade ein Öffnen-Dialog angezeigt wird, in einem anderen Modus als das gleiche Programm bei nicht geöffnetem Öffnen-Dialog. Ob man diesen Unterschied im Programmzustand typischerweise als Modus bezeichnen würde, ist fraglich. Entscheidend ist letztlich weniger die Frage, wann wer etwas als Modus bezeichnet, sondern wann Modi problematisch sein können.

In seinem Buch „The Humane Interface“ aus dem Jahr 2000 führt Jef Raskin den Begriff „modal“ ein. Das von ihm verwendete Wort „modal“ definiert nicht, was ein Modus ist, sondern als „modal“ bezeichnet Raskin eine Nutzungsschnittstelle nur in den Fällen, in denen es bei der Nutzung aufgrund der Modushaftigkeit der Schnittstelle auch zu einem Nutzungsproblem kommt. Diesem Ansatz, mit Hilfe des Begriffs „modal“ einen Modus nur dann als Modus zu bezeichnen, wenn er problematisch ist, können wir nicht folgen. Aber seinen Definitionsvorschlag können wir gestalterisch nutzen, indem wir uns die Bedingungen ansehen, unter denen es zu einem Modusproblem kommt. Wir definieren also in Anlehnung an Raskin:

Ein Modusproblem liegt vor, wenn

  • die Reaktion des Interfaces auf eine Eingabe von einem Systemzustand abhängt,
  • dieser Zustand des Systems aber zum Zeitpunkt der Eingabe nicht Gegenstand der Aufmerksamkeit ist.

Nicht jeder Modus verursacht also ein Modusproblem. Beispielsweise bewirkt die Eingabe von „=5+5“ in eine Textverarbeitung etwas anderes als bei einer Tabellenkalkulation. Unserer allgemeinen Charakterisierung folgend könnte man Textverarbeitung und Tabellenkalkulation als zwei Modi verstehen, wenn man es darauf anlegt. Es entsteht aber kein Modusproblem, denn durch die jeweilige Bildschirmgestaltung ist dies in der Regel offensichtlich. Auch zwischen dem Wiedergabemodus einer Präsentationssoftware und dem Folienbearbeitungsmodus besteht kein Modusproblem, denn der Unterschied zwischen den beiden Modi ist ebenfalls offensichtlich.

Apples Keynote in verschiedenen Modi
Apples Keynote in verschiedenen Modi

Andere Modi können ein Modusproblem verursachen. Oben sehen Sie das Präsentationsprogramm Keynote von Apple in zwei verschiedenen Modi. Die Eingabe „Drücken der Nach-unten-Taste“ bewirkt im linken Fall einen Wechsel auf die nächste Folie, im rechten Fall das Verschieben des Texteingabecursors innerhalb des Folientextes um eine Zeile nach unten. Problematisch ist, dass auf den ersten Blick kein Unterschied zwischen den Abbildungen erkennbar ist. Die beiden Modi werden zwar optisch angezeigt, die Unterschiede sind aber sehr subtil. Man muss genau hinsehen, um auf der rechten Abbildung eine dünne Umrahmung um den Folientext und den Eingabecursor zu sehen. Hinzu kommt, dass die markante Hinterlegung der aktiven Folie auf der linken Seite zur Fehleinschätzung führen kann, dass hier auch im rechten Fall der Eingabefokus läge.

Wir werden uns gleich einige weitere Beispiele für Modi ansehen, deren Gestaltung zu Modusproblemen führen kann. Lassen Sie uns aber zunächst einmal überlegen, welche Strategien es zur Vermeidung von Modusproblemen geben kann. Dies geht durch eine logische Umformung der obigen Definition des Modusproblems:

Ein Modusproblem kann nicht vorliegen, wenn

  • die Reaktion der Nutzungsschnittstelle auf eine Eingabe unabhängig vom aktuellen Systemzustand ist, oder
  • falls die Eingabe abhängig vom Systemzustand ist, aber dieser Systemzustand so offensichtlich ist, dass er bewusst wahrgenommen wird.

Beide Punkte sind für uns Ansatzpunkte, Modusprobleme zu vermeiden. Der erste Punkt bedeutet in letzter Konsequenz, einen Modus abzuschaffen oder zumindest abzuschwächen, denn wenn die gleiche Eingabe das gleiche bewirkt, handelt es sich zumindest bezüglich dieser Eingabe nicht mehr um einen Modus. Wenn es zum Beispiel bezüglich der Reaktion auf die Entfernen-Taste keinen Unterschied macht, ob ein Bild gerade im Vollbild angezeigt oder als markiertes Vorschaubild dargestellt wird, folglich in beiden Fällen das aktuelle Bild gelöscht wird und die Anzeige bzw. die Markierung auf das nächste Bild wechselt, dann liegt bezüglich dieser Eingabe kein Unterschied vor. Es kann also auch nicht zu Problemen kommen. Interne Konsistenz sorgt in diesem Fall dafür, dass es nicht zu einem Modusproblem kommt.

Der zweite Punkt ist ein wenig komplexer, denn ob ein bestimmter Systemzustand oder auch die Änderung dieses Zustands bewusst wahrgenommen werden, ist sehr situativ und kann während der Entwicklung nicht verlässlich ermittelt werden. Unabhängig davon gibt es jedoch gestalterische Ansätze, um Modi möglichst prägnant zu gestalten. Wir haben das schon bei den Forderungen aus dem Kapitel Bildschirmobjekte thematisiert. Ist der sichtbare Unterschied wie im obigen Beispiel zu subtil, ist die Wahrscheinlichkeit, dass er nicht wahrgenommen wird, hoch. Bei Übergängen von einem Zustand zum anderen kommt zusätzlich die Forderung nach Kontinuität ins Spiel, denn ihre Einhaltung verringert die Wahrscheinlichkeit, dass sich ein Nutzungsschnittstellen-Zustand unbemerkt ändert.

Problematische Modi und ihre Auflösung

Wir schauen uns im Folgenden einige Beispiele für problematische Modi aus verschiedenen Bereichen an. Diese Aufstellung kann nicht vollständig sein. Sie erhebt nicht einmal den Anspruch, alle möglichen Modi zu umfassen, denn diese können in ihrer Erscheinung sehr unterschiedlich sein.

Überflüssige Modi: Caps-Lock

Wir beginnen mit einer Art Fossil der Tastatureingabe, das sich über die Jahrzehnte erhalten hat und seitdem immer wieder für Probleme sorgt. Die Rede ist von der Feststelltaste, engl. „Caps-Lock“. Sie sorgt dafür, dass eingegebene Buchstaben als Majuskeln geschrieben werden. Es gibt also zwei Modi der Tastatur, einen festgestellten Modus und einen „normalen“ Modus, bei dem Buchstaben nur bei gleichzeitigem Drücken der SHIFT-Taste als Majuskel geschrieben werden. Die Aktivierung von Caps-Lock wird oft zum Modusproblem, denn es kann leicht einmal passieren, dass beim Drücken auf das A, die Tabulator- oder die SHIFT-Taste der Modus versehentlich gewechselt wird. Ein Moduswechsel ist leicht zu übersehen, wenn man nicht zufällig an der Stelle auf die Tastatur schaut, wo der Modus angezeigt wird (häufig durch das Aufleuchten einer kleinen Leuchtdiode). Auf dem Bildschirm wird der Caps-Lock-Modus dagegen nicht angezeigt.

Diesen Modus könnte man heutzutage vermeiden, denn für ein Feststellen gibt es auf heutigen Tastaturen außer bei körperlichen Einschränkungen keinen Anlass. Es handelt sich um ein Überbleibsel aus der Zeit mechanischer Schreibmaschinen. Erstaunlich ist jedoch, dass auf Laptop-Tastaturen, bei denen man einzelne Tasten aus Platzgründen geopfert hat, gerade diese Taste erhalten blieb.

Vermeidbare Modi: Einfügen und Überschreiben

Auch der zweite Fall ist einer, den die Zeit inzwischen überholt hat, der aber heute noch für Probleme sorgen kann. Mit dem Aufkommen von Screen-Editoren, also Editoren, bei denen ein Text am Bildschirm angezeigt wird und in dem ein Cursor positioniert werden kann, stellt sich die Frage, was passiert, wenn ein Cursor an einer Stelle am Bildschirm steht und eine Eingabe erfolgt. Wird diese eingefügt und der Rest nach hinten verschoben oder wird der bestehende Text ab dieser Position mit der Eingabe überschrieben? Je nach Situation und Aufgabe kann mal das eine, mal das andere sinnvoll sein. Aus diesem Grund haben Texteditoren lange Zeit über zwei verschiedene Eingabemodi verfügt, einen Einfügen- und einen Überschreiben-Modus.

In Windows können diese beiden Modi noch heute genutzt werden, allerdings werden sie von zunehmend weniger Programmen unterstützt bzw. unterschieden. Beim aktuellen Windows 10 funktioniert es zum Beispiel mit dem systemeigenen WordPad6. Man kann WordPad öffnen und schreiben „Dies ist ein Text“. Nun positioniert man den Mauszeiger vor dem Text, drückt auf die „Einfügen“-Taste (auf vielen Tastaturen ist sie mit „Einfg“ beschriftet und befindet sich rechts neben der Backspace-Taste) und schreibt „Unsinn“. Wie Sie sehen, wird jetzt nicht mehr eingefügt, sondern überschrieben. Das Resultat ist „Dies ist ein Unsinn“. Ein weiteres Tippen auf „Einfügen“ wechselt den Modus wieder zurück. Nun wird wieder eingefügt. Wenn Sie den Text vor „Unsinn“ platzieren und „großer“ eintippen, wird das Wort „Unsinn“ wieder, wie Sie es gewohnt sind, nach rechts verschoben.

Bei der beschriebenen Nutzung von WordPad liegt ein Modusproblem vor. Die gleiche Eingabe führt jeweils zu einem unterschiedlichen Resultat und es gibt keinen Hinweis auf den jeweiligen Modus. Dasselbe gilt auch für LibreOffice. Zwar wird in der Fußzeile „Überschreiben“ angezeigt, doch ist die Wahrscheinlichkeit groß, dass der Aufmerksamkeitsfokus auf dem Text liegt und damit die außerhalb dieses Fokus gelegene Anzeige des Moduswechsels übersehen wird.

Zusammenfassung der Modi Einfügen und Überschreiben zum Ersetzen
Zusammenfassung der Modi Einfügen und Überschreiben zum Ersetzen

Die beiden Eingabemodi sind dadurch überflüssig geworden, dass man sie durch eine einzige Eingabe-Interpretation ersetzt hat. Die ursprünglich gebräuchlichen Modi „Einfügen“ und „Überschreiben“ wurden auf den „Ersetzen“-Modus reduziert. Jede Eingabe ersetzt die gerade gültige Selektion. Ist zuvor nichts explizit selektiert worden, gilt der Zwischenraum, in dem sich der Cursor befindet, als selektiert und wird somit überschrieben.

Schlecht erkennbare Modi – „vi“

Geradezu der Inbegriff einer Software mit vielen Modi bei einer aktuellen und viel genutzten Software ist der Unix-Editor „vi“.

Modi des „vi“ – Darstellung: Firnacarl auf wikibooks unter GNU-FDL
Modi des „vi“ – Darstellung: Firnacarl auf wikibooks unter GNU-FDL

Diese Abbildung zeigt die Modi des „vi“. Nehmen wir an, „vi“ ist von der Kommandozeile aus mit vi test.txt aufgerufen worden. Der Editor öffnet sich im Befehlsmodus. Man sieht zwar den Text der Textdatei, kann aber nicht in diesen hineinschreiben, wohl aber den Cursor bewegen. Zum Schreiben muss man in den Einfügemodus wechseln. Dies geschieht durch die Eingabe von i´, I´, a´, A´, o´ oder O´. Diese Alternativen unterscheiden sich nur darin, dass die Eingabe an der Stelle des Cursors, am Anfang oder am Ende der aktuellen Zeile oder aber in einer neuen Zeile darüber oder darunter einsetzt. Nach Tätigung einer dieser Eingaben befindet man sich im Eingabemodus, der durch das Betätigen der ESC-Taste wieder beendet wird. Der Befehlsmodus von „vi“ kann noch in einen unmittelbaren Modus und einen Ausführungsmodus unterschieden werden. Wir überlassen die Details an dieser Stelle aber den „vi“-Fans und betrachten den Editor in Bezug auf die Unterscheidung zwischen Befehls- und Eingabemodi.

Wer den Editor „vi“ sieht, weiß, dass er offensichtlich nicht nach den Kriterien gestaltet ist, die wir in diesem Buch propagieren. Bei „vi“ gibt es keinerlei Erschließbarkeit. Auch wenn man das so akzeptiert, ist die Modusgestaltung auch bei einer routinierten Nutzung problematisch. Den Unterschied zwischen Befehls- bzw. Eingabemodus erkennt man nur an der Anzeige von `– INSERT –´ in der letzten Bildschirmzeile im Falle des Eingabemodus. Auf den Befehlsmodus kann nur aus dem Fehlen dieser Anzeige geschlossen werden.

Unerwarteter Moduswechsel – Lightroom

Mit dem nächsten Beispiel verlassen wir den Bereich der anachronistisch wirkenden Nutzungsschnittstellen und schauen uns die aktuelle Software Lightroom7 von Adobe an. Lightroom ist eine Anwendung, die es zum einen erlaubt, Bilder zu verwalten und zu sortieren. Zum anderen verkörpert sie einen sogenannten RAW-Entwickler, mit dem die Rohdaten digitaler Kameras bearbeitet werden können. Die Entwickler haben für diese beiden Aufgabenbereiche zwei verschiedene Modi eingerichtet. Es kommen noch einige weitere Aufgaben wie das Erstellen von Diashows und Fotobüchern hinzu, die wir an dieser Stelle aber nicht betrachten wollen. Für unsere Betrachtung reichen zwei Modi, „Bibliothek“ und „Entwickeln“ genannt.

Der Modus „Entwickeln“ in Adobe Lightroom
Der Modus „Entwickeln“ in Adobe Lightroom

Der aktuelle Modus ist in Lightroom gut daran zu erkennen, dass oben rechts entweder „Bibliothek“ oder „Entwickeln“ hervorgehoben ist. Im Prinzip handelt es sich also um eine optisch stark abgespeckte Reiter-Navigation. Die Modi können durch Klick auf die Worte oder aber auch per Tastaturkommando geändert werden.

Da es sich beim Sortieren und Verwalten auf der einen Seite und beim Bearbeiten und Optimieren auf der anderen Seite um recht verschiedene Aufgaben handelt, stehen in diesen beiden Modi verschiedene Funktionen zur Verfügung. Die Trennung ist aber nicht absolut. Es ist zum Beispiel in beiden Modi möglich, ein Bild durch das Eintippen von X als abgelehnt zu markieren. Dies ist zwar eine Verwaltungsaufgabe, aber da oft erst während der Bearbeitung eines Bildes auffällt, dass die Qualität Anlass dazu gibt, ein Bild als ungeeignet zu markieren, ist es im Sinne der Eingabeminimalität erfreulich, dass diese Funktion an dieser Stelle zur Verfügung steht. Ein erzwungener Moduswechsel wäre sonst die Folge.

Das Problem, das wir beschreiben wollen, hat mit einer solchen Funktion zu tun, die in beiden Modi aufgerufen werden kann, weil sie auch in beiden Modi ihre Berechtigung hat.

Zunächst einmal: Die gleichen Tastaturkürzel haben innerhalb verschiedener Modi weitgehend unterschiedliche Auswirkungen, da verschiedene Funktionalitäten zur Verfügung stehen. Ein Klick auf die Raute-Taste bedeutet im Entwicklungsmodus beispielsweise die Erhöhung einer vorher definierten Entwicklungseinstellung, beispielsweise der Helligkeit des Bildes. Innerhalb des Bibliotheksmodus steht diese Funktion nicht in der Form zur Verfügung. Die Eingabe von `#´ bewirkt stattdessen eine Änderung der Darstellungsgröße. Für sich genommen ist dies noch kein Problem.

Schauen Sie sich erneut den obigen Screenshot von Lightroom an. Wir befinden uns gerade im Entwicklungs-Modus. Das Ziel ist nun, die Belichtung dieses Bildes zu optimieren. Dazu soll es mit einem Referenzbild verglichen und entsprechend angepasst werden. Das Vorhaben besteht also aus drei Schritten: In einen Bildervergleich wechseln, den Bildervergleich beenden, die Belichtung gegebenenfalls anpassen

Um einen Vergleich des aktuellen Bildes mit dem Referenzbild aufzurufen, kann die Taste C´ für Compare´ gedrückt werden. Diese Funktion steht sowohl im Bibliotheks- als auch im Entwicklungsmodus zur Verfügung.

Der Vergleich offenbart nun, dass die Belichtung unseres Bildes im Vergleich zum Referenzbild zu dunkel ist. Ein weiterer Klick auf `C´ beendet die Vergleichsansicht wieder.

Nun könnte man den Eindruck gewinnen, dass die Anwendung wieder im gleichen Zustand wie vor dem Vergleich ist. Das täuscht aber, denn unbemerkt von unseren Handlungen hat sich der Modus von „Entwickeln“ auf „Bibliothek“ umgeschaltet.

Im Modus „Bibliothek“ bewirkt die gleiche Eingabe eine andere Reaktion.
Im Modus „Bibliothek“ bewirkt die gleiche Eingabe eine andere Reaktion.

Klickt man nun auf die Raute-Taste, um die Belichtung anzupassen, wird stattdessen die Darstellungsgröße verändert. Eine Eingabe, die zu einem Modus gehört, ist versehentlich im falschen Modus durchgeführt worden. Das Ergebnis führt höchstwahrscheinlich zu Irritationen, in jedem Fall aber zu Korrekturaufwand. Der Ausgangspunkt des Problems ist, dass aus dem Entwicklungsmodus heraus eine Funktion aufgerufen werden kann, die eigentlich Teil eines anderen Modus ist. Ohne einen weiteren Hinweis wird jedoch nicht nur die Funktion selbst aufgerufen, sondern auch der Modus gewechselt. Das Modusproblem kann aber auf zweierlei Art vermieden werden. Entweder wird die Funktion in beiden Modi ohne Notwendigkeit eines Moduswechsels angeboten oder der Modus wird bei der Beendigung der Vergleichs-Funktion wieder auf den Modus „Entwickeln“ gesetzt, wenn die Funktion von dort aus aufgerufen worden ist.

Fremdgesteuerter Moduswechsel – Focus-Stealing

Im Lightroom-Beispiel ist der Moduswechsel zwar durch das Eingeben von `C´ ausgelöst worden, jedoch ohne Hinweis auf den damit verbundenen Moduswechsel. Im folgenden Beispiel haben wir es mit einem Moduswechsel zu tun, der ohne eine explizite Eingabe geschieht. Das sogenannte „Focus-Stealing“ bedeutet, dass ein Element der Nutzungsschnittstellen den Eingabefokus auf sich zieht, ohne dass diese Fokusänderung direkt über eine Eingabe initiiert worden wäre. Oft ist dies mit dem Erscheinen eines neuen Fensters verbunden.

Ein Fenster drängt sich in den Vordergrund
Ein Fenster drängt sich in den Vordergrund

Diese Abbildung zeigt ein zugegebenermaßen etwas konstruiertes Beispiel. Wir befinden uns im Editor und möchten dort den Text „Es gibt nichts Leckereres als eine gebackene Banane!“ schreiben. Unmittelbar bevor wir das Wort „Banane“ schreiben, öffnet sich ohne unser Zutun das Fenster eines Chatprogramms aus dem Hintergrund. Das Fenster enthält den Fokus und nimmt unsere Eingabe direkt an. Es gibt, oder gab zumindest, Chatprogramme, die tatsächlich so funktionieren. Häufiger tritt das Problem auf, wenn eine Software unvermittelt eine Fehlermeldung anzeigt, diese aber nicht bemerkt wird. Wenn in einem solchen Fall die Eingabe fortgesetzt und vielleicht mit „Enter“ abgeschlossen wird, kann die Meldung verschwinden oder eine Funktion ausgelöst werden. Solche Effekte sind schwer nachzuvollziehen und stiften Verwirrung. Typische Kandidaten für Focus-Stealing sind auch Fehlermeldungen oder Update-Assistenten, die sich ohne Ankündigung als vorderstes Fenster öffnen und die Eingaben an sich ziehen.

Wie lässt sich dieses Modusproblem vermeiden? Am besten dadurch, dass man vermeidet, dass Anwendungen den Fokus auf sich ziehen können. Moderne Betriebssysteme und GUI-Frameworks ermöglichen in der Regel auch das Einblenden von Nachrichten auf dem Bildschirm, die ausgewählt und bearbeitet werden können, die aber nicht den Handlungsfluss unterbrechen.

Wenn es doch nötig ist, für eine Meldung den Modus programmseitig ohne explizite Eingabeaufforderung zu ändern, muss auf den Moduswechsel, in diesem Fall das erscheinende Fenster, explizit hingewiesen werden (Ton und/oder Blinken am Bildschirm). Empfehlenswert ist in diesem Fall auch, die Eingabeverarbeitung kurzzeitig zu unterbrechen und die weiteren Eingaben nicht unmittelbar zu interpretieren. Trotz des ungefragten Moduswechsels kommt es jetzt zumindest nicht mehr zu unbewussten Aktionen und Manipulationen, weil die Unterbrechung des Handlungsflusses die Aktion bewusstseinspflichtig macht. Die Eingaben werden verworfen.

Hinweise zur Gestaltung von Modi

Aus unseren Überlegungen zum Modusproblem und aus den Beispielen können wir einige Konsequenzen für die Gestaltung von Modi ableiten.

  1. Modi reduzieren. Wenn sich zwei Modi zusammenfassen lassen, ohne dass die Nutzungsoberfläche dadurch zu unübersichtlich oder unverständlich wird, sollte auf Modi möglichst verzichtet werden.
  2. Den aktuellen Modus verdeutlichen. Mit den Erkenntnissen aus dem Kapitel Orientierung und dem Gestaltungsrepertoire aus dem Kapitel Präsentation muss der jeweils aktuelle Modus klar dargestellt werden, damit er auffällt und damit die Wahrscheinlichkeit für das Auftreten eines Modusproblems deutlich reduziert.
  3. Moduswechsel explizit machen. Der Wechsel von einem Modus in einen anderen sollte immer ein expliziter Schritt sein. Dies kann dadurch geschehen, dass der Modus nur über ein dediziertes GUI-Element gewechselt werden kann. Falls Modi auch auf Nebenwegen wechseln können, muss gemäß der Forderungen Kontinuität und Attentionalität dafür gesorgt werden, dass der Wechsel trotzdem bewusstseinspflichtig wird.
Explizite Darstellung eines Moduswechsels
Explizite Darstellung eines Moduswechsels

Dieses Beispiel aus der Präsentationssoftware Keynote ist ein gutes Beispiel für die Punkte 2 und 3. Obige Meldung erscheint, wenn man versucht, ein Element des Foliendesigns zu bearbeiten, obwohl sich das Programm nicht im passenden Modus befindet. Es wird nicht etwa der Modus direkt gewechselt. Dies hätte sehr irritierende Folgen, denn es würden durch das Bearbeiten eines Objekts auf dem Bildschirm die anderen Objekte einfach verschwinden. Stattdessen wird der Arbeitsfluss sinnvollerweise unterbrochen. Dadurch wird auch die Entscheidung ermöglicht, ob der Moduswechsel tatsächlich vollzogen wird oder ob es sich um ein Versehen gehandelt hat.

Modus wird durch den auffälligen blauen Balken deutlich.
Modus wird durch den auffälligen blauen Balken deutlich.

Wird der Modus gewechselt, erscheint eine Bildschirmdarstellung, die zwar dem üblichen Folienbearbeitungsmodus sehr ähnelt, jedoch mit dem prominenten blauen Balken auch deutlich verschieden gestaltet ist. Dieser Balken zeigt eine Veränderung an und auch, in welchem Modus sich das System gerade befindet. Zugleich bietet dieser Balken auch eine schnelle und nicht zu übersehende Möglichkeit, den Modus wieder zu verlassen.

Die folgende Abbildung zeigt eine Software mit ähnlichem Funktionsumfang, die weitaus unübersichtlicher und mit weniger Modi durchsetzt ist. Bei Lightroom treten Probleme dadurch auf, dass Funktionen sowohl im Bibliotheks- als auch im Entwicklungsmodus sinnvoll angesiedelt sind. Die in der Abbildung zu sehende Software ist dagegen so gestaltet, dass diese Modi nicht erforderlich sind. Mittels eines GUI-Elements oben rechts kann zwischen verschiedenen Sichten, also einer Übersicht, einer Großansicht und einer gemischten, gewechselt werden, auf der linken Seite zwischen Entwicklungseinstellungen, Metainformationen und der Bibliothek selbst. Alle Kombinationen sind möglich und nicht einem Modus zugeordnet.

Modusarme Interaktion in „Aperture“ von Apple
Modusarme Interaktion in „Aperture“ von Apple

Flexibilität

Im letzten Abschnitt unseres Praxisteils tragen wir dem Umstand Rechnung, dass Software in verschiedenen Situationen von verschiedenen Personen für verschiedene Zwecke verwendet wird. Sowohl bei der Erstellung von Standardsoftware, aber letztlich auch bei speziellen Entwicklungen sind wir mit dem Problem der Vielseitigkeit konfrontiert. Unterschiedliche Personen verwenden die Software für verschiedene Aufgaben. Die Art und Weise, wie dies geschieht, ist geprägt durch individuelle Vorlieben und Erfahrungen, unterschiedliche fachliche und technische Kompetenzen sowie vielfältige situative Randbedingungen. Hinzu kommt, dass Aufgaben, Kenntnisstände, Vorlieben und Arbeitsweisen sich mit der Zeit ebenso ändern wie die technische Umgebung.

Die Vielfalt der daraus resultierenden Nutzungskonstellationen kann zur Entwicklungszeit nicht bzw. nur sehr grob antizipiert werden. In diesem Abschnitt wollen wir uns damit befassen, wie wir diesen Problemen begegnen und mit der großen Vielfalt unter ergonomischen Gesichtspunkten umgehen können.

Der einfachste und radikalste Umgang mit Vielfalt wäre, sie zu eliminieren und „eine durchgängige Lösung“ vorzugeben. Dies wäre jedoch in einer Vielzahl von Nutzungssituationen weder effektiv noch bedarfsgerecht, denn es erzeugt ein erhebliches Maß an erzwungener Sequenzialität. Umgekehrt ist es nicht sinnvoll, alle möglichen Varianten und Vorgehensweisen in Software abzubilden. Ein solches System wäre sehr schwer zu erschließen und aufgrund der Fülle an Möglichkeiten kaum handhabbar und ökonomisch vertretbar.

Im Laufe der Jahre haben sich einige Lösungsansätze herauskristallisiert, wie man die Forderungen nach vollständiger Abbildung aller möglichen Nutzungsvarianten mit der Forderung nach Standardisierung und Einfachheit austarieren kann. Es gilt, den Einschränkungen der Handlungsflexibilität durch unangemessene Festlegungen über das Nutzungsverhalten zur Entwicklungszeit durch die Bereitstellung von Mechanismen zu begegnen, die es ermöglichen, die Vorgehensweise möglichst weitgehend zur Nutzungszeit zu bestimmen.

Anpassbarkeit

Bevor wir intensiver darauf eingehen können, was bei der Anpassbarkeit zu beachten ist, müssen wir uns zunächst einmal genauer darüber klar werden, was wir damit meinen und Anpassbarkeit von zwei verwandten Konzepten absetzen.

Wenn wir von der Gestaltung von anpassbarer Software sprechen, meinen wir die Gestaltung von Software, die über eine Nutzungsschnittstelle verfügt, um Programmeinstellungen und die Nutzungsschnittstelle des Programms während der Nutzung anzupassen. Wir müssen diese Anpassbarkeit innerhalb des Programms vom Vorgang der „Anpassbarkeit von außen“ unterscheiden. Eine Analogie kann vielleicht helfen: Beispielsweise können manche Schreibtische in der Höhe eingestellt werden. Dafür muss man den Schreibtisch umdrehen oder anheben und an den Beinen etwas herausschrauben oder etwas herausziehen und neu fixieren. Diese Anpassung geschieht zwar erst zur Nutzungszeit und nicht schon in der Produktion des Tisches, jedoch vor der eigentlichen Nutzung des Schreibtisches. Man sagt auch, der Schreibtisch ist höheneinstellbar. Die Einstellung erfolgt also vor der eigentlichen Ausführung der Tätigkeit. Übertragen auf Software bedeutet dies, dass außerhalb der Anwendungssoftware Konfigurationsdateien oder Konfigurationsdatenbanken (zum Beispiel Windows Registry) bearbeitet werden oder ein explizites Konfigurationsprogramm aufgerufen wird, das dies übernimmt. Diese Art der Anpassung wird häufig „Customizing“ genannt und wird in den meisten Fällen nicht während der eigentlichen Nutzung, sondern davor durch Personen vorgenommen, die für die Systemadministration zuständig sind. Mit dieser Form der Softwareanpassung befassen wir uns daher nicht weiter.

Ebenfalls abgrenzen müssen wir den Begriff der Anpassbarkeit von einer Softwareeigenschaft, die „Adaptivität“ oder „Anpassungsfähigkeit“ genannt wird. Die Idee hinter Adaptivität ist, Nutzungsdaten zu erfassen, sie mit Hilfe von personen- oder aufgabenbezogenen Nutzungsmodellen auszuwerten, um daraus selbsttätig Anpassungen abzuleiten. Diese Modelle sind nicht unproblematisch. Zum einen erfordern sie die Protokollierung des Nutzungsverhaltens (personenbezogene Leistungsdatenerfassung) und damit entsprechende datenschutzrechtliche Maßnahmen. Zum anderen ist das nur erfolgreich möglich, wenn sich die erfassten Nutzungsdaten eindeutig auf Absichten und Ziele in der Nutzung beziehen lassen. Dies ist aber häufig nicht möglich, wie es das nachfolgende Beispiel aus dem Hause Microsoft verdeutlicht:

Anfang der 2000er führte Microsoft in Windows 2000, in den Favoriten des Internet Explorers und in seinen Office-Anwendungen ein Feature ein, das dafür sorgen sollte, dass die Oberflächen übersichtlicher erscheinen. Das System zählt mit, wie oft eine Verknüpfung im Startmenü, ein Favorit im Internet Explorer oder ein Menüpunkt in einem der Office-Programme aufgerufen wird. Selten oder nie genutzte Elemente werden ausgeblendet, nur häufig genutzte Elemente bleiben direkt verfügbar. Um an die ausgeblendeten Optionen zu gelangen, ist es erforderlich, auf einen Pfeil am Ende des Menüs zu klicken.

Ausblendung selten oder nie genutzter Elemente im Startmenü von Windows 2000
Ausblendung selten oder nie genutzter Elemente im Startmenü von Windows 2000

Diese Funktion ist nicht sehr beliebt gewesen. Die Kritik1 verweist auf eine Reihe von Problemen, die den Forderungen zur softwareergonomischen Gestaltung, vor allem nach Erschließbarkeit, Eingabeminimalität, Kontinuität und interner Konsistenz, zuwiderläuft. Die Software ist schlechter erschließbar, weil es nicht mehr möglich ist, durch Anschauen eines Menüs zu sehen, welche Funktionen insgesamt angeboten werden. Der in vielen Fällen unnötige Zusatzklick verletzt zusätzlich die Forderung nach Eingabeminimalität. Auch die interne Konsistenz ist verletzt, weil dasselbe Menü sich von einer Nutzung zur nächsten verändert und anders funktioniert als vorher. Schlussendlich ist die Kontinuität ein Problem, wenn auf den Doppelpfeil geklickt wird, denn es erscheinen nicht nur, wie man annehmen könnte und es auch der Pfeil nahelegt, neue Einträge am Ende der Liste, sondern auch zwischen den bereits angezeigten. Alle bislang angezeigten Objekte innerhalb des Menüs springen daher an eine andere Position.

Problematisch an „persönlich angepassten Menüs“ ist, dass sich die strukturierten Teile des Startmenüs oder der Anwendungsmenüs ändern und die Nutzungsschnittstelle damit instabil und unvorhersehbar erscheint. Wenig bis nichts spricht allerdings dagegen, häufig genutzte Elemente und Menüeinträge in einem zusätzlichen Bereich, etwa am Anfang des Menüs oder in einem Extra-Menü, zusätzlich nochmals aufzuführen. Zwar ist auch dieser Bereich naturgemäß Änderungen unterworfen, die eigentliche Menüstruktur selbst bleibt aber stabil. Die Nutzungsschnittstelle passt sich nicht ungefragt und undurchschaubar von selbst an, sondern verfügt über zusätzliche, explizite Mechanismen, die als Abkürzung im Sinne der Eingabeminimalität genutzt werden können.

Wir wollen es bei diesem einen Beispiel belassen, denn Adaptivität mit all ihren Facetten umfassend zu betrachten, würde den Rahmen sprengen. Wir wollen jedoch einige grundlegende Probleme kurz ansprechen:

  • Adaptivität herzustellen erfordert einen erheblichen Aufwand zur Datenerhebung sowie zur Erstellung der Nutzungsmodelle, der gegenüber dem möglichen Nutzen schnell unangemessen ist.
  • In heutigen Zeiten, in denen Nutzer oft mehr als nur einen einzelnen Rechner mit nur einer einzigen Installation eines Programms nutzen, bedeutet Adaptivität konsequenterweise, dass die Nutzungsmodelle über mehrere Geräte hinweg erhoben und zwischen ihnen verteilt werden müssen. Daraus resultieren auch zusätzliche Probleme für den Persönlichkeits- und den Datenschutz.
  • Bei der Nutzung geht die Kontrolle über die Schnittstelle verloren, da diese nicht mehr als stabil erscheint, sondern ergonomische Folgeprobleme mit den oben erläuterten negativen Folgen für Kontinuität, interne Konsistenz und Erschließbarkeit erzeugt.
  • Für die Verständnisbildung ist auch zu berücksichtigen, dass ohne ein grundlegendes Verständnis der den Änderungen zugrundeliegenden Nutzungsmodelle das Verhalten des Systems nachvollzogen werden kann. Es muss somit ein erhöhter Aufwand betrieben werden, um sich in der Nutzung die Systemrationalität erschließen zu können.
  • Um eine Software auf einem Computersystem von mehreren Personen nutzen zu können, erfordert Adaptivität zwangsweise die Verwendung von individuellen Konten, denn wenn mehrere Personen die gleiche Instanz einer Software nutzen und alle ihre Eingaben in ein und dasselbe Modell einfließen, ist dieses schnell korrumpiert und die Resultate sind am Ende nicht brauchbar.
  • Wenn der Grad der Adaptivität einer Software hoch ist, ist es kaum noch möglich, Hilfestellung von außen zu leisten, weil unklar ist, welches Nutzungsverhalten zu den jeweiligen Anpassungen geführt hat. Es gibt keine gemeinsame Grundlage mehr, über die geredet und auf Basis derer gehandelt werden kann.

Alles in allem kann man feststellen, dass die Gestaltung wirklich anspruchsvoller adaptiver Nutzungsschnittstellen eher eine interessante Forschungsherausforderung verkörpert als einen zufriedenstellenden praktischen Gestaltungsansatz.

Wenn wir somit im Weiteren über Anpassbarkeit reden, reden wir also nicht über eine Software, die vor ihrer jeweiligen Nutzung eigens an eine konkrete Aufgabenstellung angepasst wurde, und auch nicht über Software, die Nutzungsdaten erhebt und auf der Basis der zugrunde gelegten Nutzungsmodelle sich selbst anpasst, sondern über eine Software, die über eine Nutzungsschnittstelle zur Anpassung von Eigenschaften und Einstellungen verfügt, um das Systemverhalten während der Nutzung anpassen zu können.

Anpassbarkeit kann sich auf viele Bereiche beziehen, von denen wir im Folgenden einige betrachten wollen. Wir werden auch wieder sehen, dass Anpassbarkeit nicht zum Nulltarif, d. h. ohne das Austarieren von Gestaltungskonflikten zu haben ist. Es gibt stets andere Forderungen, die mit zu bedenken sind und die die Anpassbarkeit einschränken oder ihre Umsetzung komplexer gestalten.

Anwendungseinstellungen und optisches Erscheinungsbild

Ein Inbegriff der Anpassbarkeit sind die in fast jeder Anwendung aufrufbaren „Einstellungen“. Die Anwendung zeigt ein Fenster oder eine Bildschirmseite, in der viele Optionen gebündelt verfügbar sind. Die Einstellungen werden gespeichert und stehen bei der nächsten Nutzung wieder zur Verfügung. Die Art der Einstellungen kann je nach Anwendung sehr umfangreich sein und hängt stark von der Anwendung selbst ab. Die Einstellungen ermöglichen das Anpassen der Anwendung an die Erfordernisse der Aufgabe und an die Vorlieben des Nutzers. Ein typisches Beispiel ist das Anpassen von Standardwerten, sodass in der weiteren Nutzung Eingaben eingespart werden können. Der Anpassungs- und damit auch der Eingabeaufwand werden im Vorfeld spendiert, um ihn später immer wieder einsparen zu können.

In vielen Anwendungen besteht die Möglichkeit, die Erscheinungsform der Nutzungsschnittstelle anzupassen. Gründe dafür können persönliche Präferenzen, die individuelle Konstitution wie eine Fehlsichtigkeit oder auch eine spezielle Nutzungskonstellation sein, in der die Nutzungsschnittstelle beispielsweise für Touch-Eingaben angepasst werden soll. Einstellungen zum Aussehen beinhalten Attribute wie Größe, Position, Transparenzeffekte, Farben oder auch Hintergrundbilder.

Mit den Möglichkeiten zur Anpassung einer Software werden Gestaltungsentscheidungen in die Phase der Nutzung verlegt. Dies entlastet zum einen die Entwicklung und fördert eine autonome Nutzung, hat aber auch Nachteile. Zunächst ist festzustellen, dass Einstellmöglichkeiten nicht davon befreien, eine zunächst bestmögliche Gestaltung anzubieten, um die Gestaltungsverantwortung nicht in die Nutzungsphase abzuwälzen. Zum anderen erweitern Anpassungsmöglichkeiten die Schnittstelle, müssen also auch zusätzlich erschlossen werden. Darüber hinaus lassen sich viele ergonomische Forderungen nicht aus einem persönlichen Bauchgefühl heraus begründen, sondern erfordern eine gewisse Erfahrung und entsprechend aufgebaute Kompetenzen, um nicht zu einer unergonomischen Gestaltung zu führen.

Farbeinstellungen in Windows 2.0
Farbeinstellungen in Windows 2.0

Die Abbildung zeigt ein Einstellungsfenster für die Farben der Windows-Version 2 aus der Mitte der 1980er Jahre. Das Farbschema, das sich auf der rechten Seite der Abbildung befindet, zeigt die von Microsoft vorgesehene Standardeinstellung. Dass Microsoft dermaßen kräftig in den Farbtopf gegriffen hat, muss im Kontext der Zeit gesehen werden, denn zum einen signalisiert es mehr als deutlich, dass die Oberfläche Farben unterstützt, zum anderen können die damaligen EGA-Grafikkarten nur 16 stark gesättigte Farben anzeigen. Immerhin erlaubt es das Einstellungsfenster, eine bessere Farbkombination zu wählen. Das schließt jedoch auch die Möglichkeit ein, besonders schlechte Farbkombinationen zu wählen. Selbst die Auswahl von weißer Schrift auf weißem Grund ist möglich.

Farbeinstellungen in Windows 3.1
Farbeinstellungen in Windows 3.1

Bei den Farbeinstellungen von Windows 3.1 Anfang der 1990er Jahre ist die Voreinstellung der Standardfarbwahl seitens Microsoft viel zurückhaltender geworden. Es werden jedoch vom System Farbschemata wie das gezeigte „Fluorescent“ bereitgestellt, die nicht nur unergonomisch sind, sondern auch geschmacklos fragwürdig scheinen. Flexibilität ermöglicht also auch die Einstellung absolut schrecklicher Farbschemata. Deshalb ist es umso wichtiger, die Möglichkeit vorzusehen, wieder zum Standardfarbschema oder einem anderen ergonomischen Farbschema zurückzukehren2.

Wir können das verallgemeinern: Wann immer es möglich ist, durch Anpassungen eine Nutzungsschnittstelle so umzugestalten, dass sie weniger ergonomisch ist als vorher, sollte unbedingt eine Rücksetzmöglichkeit vorgesehen werden, um zu vermeiden, dass eine derart „verkonfigurierte“ Software nicht mehr ohne detaillierte Zusatzkompetenzen und einen entsprechenden Aufwand in einen ergonomisch vertretbaren Zustand gebracht werden kann.

Einstellungen für die Systemfarbe in Windows 10
Einstellungen für die Systemfarbe in Windows 10

Interessant ist die hier abgebildete Eingeschränktheit der Konfigurationsmöglichkeiten bei den Systemeinstellungen für die Systemfarbe aus Windows 10. In den vorherigen Windows-Versionen ist es möglich, eine Vielzahl von Farben für verschiedene Bildschirmelemente einzeln einzustellen. Windows 10 ermöglicht dagegen nur die Wahl einer einzigen Farbe, der sogenannten „Akzentfarbe“.

Dahinter steckt eine Idee, die wir verallgemeinern können: Wenn die Anpassung einzelner Attribute im Sinne einer ergonomisch angemessenen Gestaltung auch entsprechende Änderungen anderer Eigenschaften erfordert, sollte man die Anpassung jedes einzelnen Wertes nur ermöglichen, wenn es zugleich einen Mechanismus gibt, die abhängigen Optionen jederzeit vom System „ausrechnen“ zu lassen.

Die Windows-10-Farbauswahl offenbart noch einen weiteren Aspekt: Im Gegensatz zu früheren Windows-Versionen werden zunächst nicht alle Optionen der Farbwahl angezeigt, sondern nur die sogenannten „Windows-Farben“. Diese verkörpern zwar auch eine Vielfalt von Einstellungsmöglichkeiten, enthalten aber zum Beispiel keine problematischen Farben wie reines Rot. Diese geringe Einschränkung reduziert auch die Wahrscheinlichkeit einer unergonomischen Konfiguration.

Bildschirmaufteilungen

Im Kapitel Differenzerfahrung haben wir begründet, warum die Produktivität von Wissensarbeit stark davon abhängt, dass Objekte, die einen inhaltlichen Bezug zueinander haben, im Wahrnehmungsraum arrangiert werden können. Die Büroarbeit an einem Schreibtisch illustriert diesen Sachverhalt sehr gut, weil aufgrund seiner Größe Bücher, Bilder, Dokumente und Objekte im Allgemeinen gleichzeitig im Wahrnehmungsfeld verfügbar sind. Es ist meist auch möglich, ein gerade interessierendes Objekt in den Fokus zu bringen, ohne dass die anderen Objekte auf dem Schreibtisch vollständig überdeckt werden. Bis zu einem gewissen Grad ist es auch möglich, mehrere Objekte zugleich in den Fokus zu bringen, um beispielsweise eine IBAN aus einer Rechnung in ein Überweisungsformular zu übertragen.

Da die Nutzungskonstellationen bei der verzahnten Bearbeitung verschiedener Objekte bzw. Objekttypen in ihrer Fülle nicht vorhersehbar sind, benötigen wir auch in diesem Fall einen grundlegenden Mechanismus zur flexiblen Bearbeitung.

Fenstertechnik

Ein Schreibtisch erlaubt die freie Anordnung von Elementen. In der Nutzungsschnittstelle kommt die Fenstertechnik dem am ehesten nahe, indem jedes Fenster als Analogie zu einem Dokument auf dem Schreibtisch betrachtet wird.

Fenster auf dem Schreibtisch von MacOS
Fenster auf dem Schreibtisch von MacOS

Die Fenster auf dieser Abbildung können nach Belieben verschoben und in der Größe geändert werden. Auf diese Weise lässt sich eine spezifische Arbeitsumgebung individuell einrichten. In diesem Beispiel können rechts im Bild Notizen gemacht, oben Recherchen in der Wikipedia durchgeführt und gleichzeitig Grafiken aus dem Finder-Fenster ausgewählt und in den Text eingebunden werden.

Die Flexibilität, die frei positionierbare Fenster bieten, wird erkauft mit der Notwendigkeit des Fenster-Handlings. Es braucht seine Zeit, die Fenster, wie oben abgebildet, einzurichten. Dieser Aufwand hat oft zur Folge, dass eine spezielle Anordnung nicht eingerichtet wird, sondern stattdessen jedes Fenster in maximierter Größe genutzt und zwischen diesen gewechselt wird. Wie im vorherigen Abschnitt befinden wir uns in einem Spannungsverhältnis zwischen der Anpassbarkeit und der Eingabeminimalität. Um die Fenster anzuordnen, sind Eingaben nötig, die nicht mit der Erledigung der Aufgabe in Zusammenhang stehen. Der Zweck solcher Anpassungen ist jedoch, neben der Gedächtnisentlastung, vor allem die Vermeidung zukünftiger Eingaben, die sonst erforderlich wären, um zwischen den Bildschirmseiten umzuschalten.

Mit der Fenstertechnik aktueller Betriebssysteme wird diese Abwägung häufig stark in Richtung von Vollbildanwendungen verschoben, zwischen denen gewechselt werden kann. Das liegt nicht unbedingt daran, dass die Darstellungsgröße maximiert werden soll, sondern dass die Betriebssysteme zum Maximieren und Minimieren sowie zum Wechseln zwischen Fenstern gute Unterstützungsfunktionen anbieten, die die jeweilige Operation mit einem einzigen Klick oder mit einer komfortablen Tastenkombination ermöglichen.

Der dargestellte Konflikt zwischen Anpassbarkeit und Eingabeminimalität kann aber auch anders aufgelöst werden. Der am Xerox PARC Anfang der 1980er Jahre entwickelte Arbeitsplatzrechner Star nutzt Fenster als geöffnete Version von Objekten, die auf dem Desktop liegen. Jedoch sind diese Fenster im Vergleich zu heutigen Systemen in Bezug auf ihre Arrangierbarkeit stark eingeschränkt. Im Artikel „Xerox Star: A Retrospective“3 wird diese Designentscheidung begründet:

However, early testing revealed that users spent a lot of time adjusting windows, usually so they did not overlap. Because of this, and because Star’s 17-inch screen reduced the need for overlapping windows, the designers decided to constrain application windows to not overlap.

Außer bei Einstellungsfenstern überlappen sich die Fenster des Star also nicht, sondern werden automatisch angeordnet. In den Nachfolgern der ursprünglichen Oberfläche können überlappende Fenster in den Einstellungen aktiviert werden, weil unter anderem das System nun auch mit kleineren Bildschirmen verkauft wird.

Wenn jedoch der Aufwand für das Fenster-Handling so groß ist, dass dahinter der Nutzungsvorteil verschwindet, lohnt es sich darüber nachzudenken, ob dieser Aufwand nicht verringert werden kann.

In Windows 7 hat Microsoft eine entsprechende Funktion eingeführt, die in Windows 10 nochmals verbessert worden ist. Nach wie vor ist es möglich, Fenster frei zu positionieren und ihre Größe zu verändern. Daneben gibt es aber die Möglichkeit, Fensteraufteilungen wie die abgebildeten herzustellen. Wird ein Fenster gegen den linken oder rechten Bildschirmrand gezogen, wird es so vergrößert und angeordnet, dass es genau die Hälfte des zur Verfügung stehenden Platzes einnimmt. Daraufhin erfolgt das Angebot, ein oder zwei bereits geöffnete Fenster auszuwählen, die die andere Hälfte einnehmen bzw. sich diese teilen. Um die abgebildete Konstellation herzustellen, muss also die Aufteilung nicht mehr detailliert angelegt, sondern lediglich einmal grob gezogen und geklickt werden.

Automatische Fensteraufteilung in Windows 10
Automatische Fensteraufteilung in Windows 10
Alternativen zu frei verschiebbare Fenstern
Panels im FastRawViewer
Panels im FastRawViewer

Um eine Bildschirmaufteilung zu gewährleisten, die es ermöglicht, notwendige Inhalte und Nutzungsschnittstellen gleichzeitig zu sehen, ist der Einsatz von Fenstern nicht immer angebracht. Es gibt andere Techniken, die es ermöglichen, den vorhandenen Platz einzuteilen und den Konflikt zwischen Anpassbarkeit und Eingabeminimalität anders auszutarieren.

Der Screenshot oben zeigt das Programm FastRawViewer. Es verfügt neben dem Inhaltsbereich in der Mitte über eine Reihe von Panels, die an den Rändern der Anwendung angeordnet werden können. Die Panels können in dieser Form nicht so frei angeordnet werden wie Fenster, bieten aber doch ein gewisses Maß an Anpassungsmöglichkeiten, so ist die Breite oder Höhe der Panels änderbar und auch ihre Position an den Rändern kann den eigenen Vorlieben angepasst werden. Dieser Grad der Anpassbarkeit ist in diesem Fall ausreichend und der vollständigen Flexibilität vorzuziehen, denn diese bietet für den höheren Anpassungs- und Eingabebedarf nur wenige Nutzungsvorteile.

Kombination von Einblendungen und Fenstern (Detachables)
Abgetrenntes Panel, das als eigenes Fenster frei positioniert werden kann
Abgetrenntes Panel, das als eigenes Fenster frei positioniert werden kann

Die den Aufwand minimierenden und die Übersichtlichkeit steigernden Eigenschaften von Panels lassen sich mit der Flexibilität von Fenstern kombinieren. In der Abbildung oben sehen Sie ein Panel, das abgetrennt worden ist und nun als eigenes Fenster frei auf dem Bildschirm positioniert werden kann. Normalerweise scheint es wenig sinnvoll, so ein Panel über dem Inhalt zu platzieren, doch beim Einsatz mehrerer Bildschirme sieht die Sache schon anders aus. Man könnte den Inhalt auf dem einen und alle Zusatzinformationen auf dem zweiten Bildschirm darstellen.

Panels, die sich abtrennen lassen, können beide Anforderungen erfüllen. Sie bieten die Vorteile der Eingabeminimalität des angedockten Zustands, schöpfen aber gleichzeitig die Flexibilität von Fenstern aus, sofern dies nötig ist. Die Entscheidung kann in der jeweiligen Nutzungssituation getroffen werden. Leider kommt auch dieser Vorteil nicht zum Nulltarif, denn durch diese Option wird die Nutzungsschnittstelle komplexer. Es braucht zusätzliche Elemente zum Ab- und Ankoppeln der Panels und es bedarf zusätzlichen Wissens, um diese Funktion zu nutzen oder auch, falls ein Panel versehentlich abgekoppelt wird, dies wieder rückgängig zu machen.

Oberflächeneinrichtung je nach Kontext und Aufgabe

Fenster und Panels sind Techniken, die wir nutzen können, um eine Bildschirmaufteilung zu schaffen, die der aktuellen Aufgabe entspricht. Oft wird eine Software nicht nur für eine Art von Aufgaben verwendet. Verschiedene Aufgaben legen jedoch verschiedene Bildschirmaufteilungen nahe. Eine Lösung für dieses Problem ist das Anbieten verschiedener Modi, wie wir sie im Kapitel Modusgestaltung beschrieben haben. Der Nachteil von Modi ist allerdings, dass sie schon zur Entwicklungszeit festgelegt werden müssen. Viele Oberflächenkonfigurationen ergeben sich aber erst im jeweiligen Nutzungskontext. Eine Bildschirmaufteilung muss also häufig aufgelöst und umgestaltet werden. Dieser Konfigurationsaufwand ist aber zu einem großen Teil reduzierbar, wenn man die Möglichkeit vorsieht, die Bildschirmaufteilung abzuspeichern. Dadurch kann eine schon mal benutzte Aufteilung bei ähnlichen Aufgaben wiederverwendet werden.

Anordnungen können als "Arbeitsbereiche" gespeichert und geladen werden.
Anordnungen können als “Arbeitsbereiche” gespeichert und geladen werden.

Die Software „Bridge“ von Adobe bietet eine Vielzahl von solchen „Arbeitsbereichen“. Ein Arbeitsbereich ist eine gespeicherte Konfiguration der Bildschirmaufteilung, also welche Panels zu sehen sind und wo sie sich befinden. Zwischen diesen Arbeitsbereichen und entsprechend zwischen den Bildschirmaufteilungen kann man einfach wechseln. Wenn man eine gewünschte Aufteilung für eine Aufgabe eingerichtet hat, kann man diese als eigenen Arbeitsbereich speichern.

Das individuelle Einrichten solcher Arbeitsbereiche oder das Anpassen von Panels und ihren Positionen kann auch zu einer schlechteren Nutzungsschnittstelle führen. Wie schon bei anderen Anpassungen erwähnt, sollte deshalb eine Option zum Zurücksetzen auf eine Standardaufteilung vorgesehen werden.

Paletten, Menüs und Tastaturkürzel

Icon-Paletten im LibreOffice Writer
Icon-Paletten im LibreOffice Writer

Icon-Paletten sind ein klassischer Bereich einer Nutzungsschnittstelle, der angepasst werden kann. Die Möglichkeit der Anpassbarkeit dieser Paletten liegt auf der Hand, denn die angezeigten Icons fungieren im Grunde genommen als Abkürzungen für den Aufruf von Funktionen, die sonst nur per Menü verfügbar wären. Mit entsprechenden Anpassungen kann man sich neue Abkürzungen schaffen und dadurch die erzwungene Sequenzialität vermeiden, die mit dem Aufruf über ein komplexes Menü verbunden sind. Die abgebildeten Paletten der Software LibreOffice Writer können auf verschiedene Art und Weise angepasst werden. Die Nutzungsschnittstelle stellt Mechanismen bereit, um weitere Paletten einblenden, die Paletten in ihrer Position ändern, die Elemente einzelner Paletten bearbeiten und schließlich auch eigene Paletten erstellen zu können. Dieser hohe Grad an Anpassbarkeit bringt allerdings Nachteile mit sich. Zum einen ist für umfangreiche Anpassungen eine komplexe Nutzungsschnittstelle nötig, zum anderen besteht die Gefahr, dass man sich die Anwendung aus Versehen „kaputtkonfiguriert“ und danach nicht mehr ordentlich nutzen kann.

Nicht anpassbare Ribbons in Microsoft Word
Nicht anpassbare Ribbons in Microsoft Word

Leider wiegen die Nachteile von anpassbaren Icon-Paletten schwer. In Untersuchungen von Microsoft, deren Office-Software bis zur Version 2003 ebenfalls diese Technik eingesetzt hat, kam heraus, dass die wenigsten Personen Icon-Paletten anpassen. Das wäre noch zu verschmerzen. Doch problematisch ist, dass sehr viele dieser Anpassungen versehentlich geschehen sind und entsprechend unangenehme Konsequenzen zur Folge haben. Microsoft hat mit der Entwicklung der Ribbons, die, bis auf einen Schnellzugriffsbereich, nicht anpassbar sind, reagiert.

Ribbons dieser Art sind von Microsoft entwickelte Elemente der Nutzungsschnittstelle. Andere Hersteller nutzen sie in dieser Form nicht. Die Abbildung unten zeigt den Modus zum Anpassen der Icon-Leiste in der Software Keynote von Apple. Apple hat diesen Bereich stark eingeschränkt. Es gibt keine verschiedenen Bereiche mit einzelnen Icon-Gruppen, sondern nur eine einzige Zeile, die angepasst werden kann. Viele der Aspekte, die klassischerweise auf Icon-Leisten untergebracht werden, erscheinen bei Keynote bei Bedarf in Panels auf der rechten Seite.

Anpasbarkeitder Icon-Leiste in Keynote
Anpasbarkeitder Icon-Leiste in Keynote

Das Einstellfenster für die Menüleiste enthält als letzten Punkt die Standardsymbolleiste. Diese kann verwendet werden, um auf einfache Art und Weise alle Anpassungen der Symbolleiste wieder zurückzusetzen. Wenn diese per Drag and Drop auf die Menüleiste gezogen wird, setzt sich diese zurück. Alle Anpassungen und zusätzlichen Elemente verschwinden zugunsten des von Apple definierten Standards.

Weitaus weniger üblich als die Anpassung von Icons ist die Anpassung von Tastenkombinationen und von Menüs. Grundsätzlich lassen sich unsere Überlegungen ebenso auf diese Bereiche übertragen. Auch die Funktion zum Zurücksetzen auf die Standardeinstellungen ist in diesem Fall besonders wichtig. Speziell bei der Anpassung von Menüs muss auch sichergestellt werden, dass die Anpassung nicht in einer Sackgasse enden kann, weil die Funktion zur Anpassung nicht mehr geöffnet werden kann.

Makros

Ein letzter Aspekt der Anpassbarkeit, den wir noch in aller Kürze ansprechen wollen, liegt im Grenzbereich ergonomischer Betrachtungen. Der Einsatz von Makros ermöglicht es, häufig genutzte Abläufe von Funktionsaufrufen zusammenzufassen und als eine gebündelte Funktion zur Verfügung zu stellen. Mit der Entwicklung von Makros verschwimmt die Grenze zwischen Programmierung und Nutzung bzw. zwischen der Entwicklung neuer Anwendungsfunktionen und ihrer Ausgestaltung in der Nutzungsschnittstelle. Mit der Betrachtung zweier verschiedener Anwendungsphilosophien wollen wir illustrieren, was wir damit meinen:

Wir beginnen die Überlegung mit einer Aufgabe, nämlich dem Erstellen einer Geburtstagskarte. Diese Aufgabe soll mit dem Computer erledigt werden. Praktisch wäre es nun, wenn wir einfach in einen App-Store gehen, dort eine App namens „Geburtstagskartendruckerei“ finden, diese installieren und verwenden könnten. Die App macht genau das, was wir wollen. Wir geben alles Notwendige ein, suchen noch ein passendes Design aus und können die Karte in den Druck geben. In diesem Fall hätten wir für unsere Aufgabe ein nahezu ideales Programm gefunden, das jedoch den Nachteil hat, dass es in seiner Funktionalität sehr eingeschränkt ist. Schon für eine Hochzeitskarte könnte das Programm ungeeignet sein und dass mit der Software auch das Geburtstagsmenü erzeugt oder ein Leserbrief verfasst werden könnte, ist eher unwahrscheinlich.

Das Gegenstück zu solch einer Software aus einem Guss, einer monolithischen Software, ist Software, die eine Vielzahl kleiner Funktionen anbietet, die individuell kombiniert werden können. Gängige Standardpakete zur Textverarbeitung oder Tabellenkalkulation sind Produkte dieser Art. Sie sind sehr flexibel einsetzbar und eignen sich für eine Vielzahl von Aufgaben und schreiben daher auch deutlich weniger fest, auf welche Art und Weise und in welcher Abfolge etwas zu tun ist. Diese Flexibilität der Nutzung wird leider durch eine hohe Komplexität der Nutzungsschnittstelle und damit ein hohes Maß an erzwungener Sequenzialität erkauft.

Beide Philosophien, weder das monolithische abgeschlossene Werkzeug für eine spezifische Aufgabe noch der Werkzeugkasten mit vielen unabhängigen Einzelwerkzeugen, ist für alle Anwendungssituationen angemessen. Es gilt, wie so oft, beides zu verbinden und darüber den Konflikt auszutarieren.

Eine Möglichkeit ist, viele typische Nutzungsszenarien zu identifizieren und die feingranular strukturierte Software mit sogenannten Assistenten auszustatten, die für diese Nutzungsszenarien eine vereinfachte Oberfläche bereitstellen. Ein Serienbrief-Assistent in einer Textverarbeitung ist ein Beispiel für einen solchen Assistenten. Er fragt nacheinander alle wichtigen Daten für den Brief ab und erledigt automatisch die nötigen Formatierungen. Die Verwendung des Assistenten beinhaltet keine Einschränkungen, nach eigenem Gusto Änderungen vorzunehmen oder den Brief auch gänzlich „von Hand“ zu erstellen.

Einrichtungen wie der Serienbrief-Assistent müssen bei der Entwicklung der Software festgelegt werden, also auch alle dafür notwendigen Informationen und Abläufe. Die andere Möglichkeit, feingranulare Funktionen zu größeren Einheiten zusammenzusetzen, ist die Erzeugung eines Makros. Ein Makro ist ein einfaches Programm, ein Script, mit dem Funktionsabläufe automatisiert werden können. Ein solches Makro erscheint nach außen als eine neue Funktion, die etwa mit einem Icon in einer Icon-Leiste oder mit einem Menüeintrag aufgerufen werden kann. Die Möglichkeit, Makros zu erstellen, verlangt weit mehr als das, was in einem Buch über Ergonomie behandelt werden kann, denn es bedarf ja auch einer integrierten Programmiersprache und einer API, also einer Schnittstelle für den Zugriff auf die Softwarefunktionen. Wir belassen es daher an dieser Stelle dabei, lediglich auf die Möglichkeit der Erzeugung von Makros hinzuweisen.

Heterogenität

Der Anpassbarkeit einer Software an individuelle und situative Erfordernisse stellen wir noch eine zweite, häufig übersehene Forderung nach Heterogenität an die Seite. Während es bei der Anpassbarkeit um ein „Entweder-Oder“ geht, handelt es sich bei der Heterogenität um ein „Sowohl-Als-Auch“, also die Bereitstellung mehrerer verschiedener Nutzungsmöglichkeiten, um das gleiche Ziel zu erreichen.

Anpassbarkeit und Heterogenität widersprechen sich nicht. Die Nutzungsschnittstelle einer Software kann und sollte sowohl anpassbar als auch heterogen sein. Sie kann auch durch ein Mittel der Anpassbarkeit heterogener werden.

Beispiel: Öffnen von Dateien

Am Beispiel des Öffnens von Dateien lässt sich die Forderung nach Heterogenität gut verdeutlichen. Am Beispiel der Textverarbeitung LibreOffice sehen Sie, wie das Öffnen einer Datei auf unterschiedliche Arten bewerkstelligt werden kann:

  • Durch Auswahl des Menüpunkts „Öffnen“ im Menü „Datei“ (1).
  • Durch Anklicken des „Datei öffnen“-Icons in der Icon-Leiste (2).
  • Durch Eingabe des Tastaturkürzels STRG+o (3).
  • Durch die Auswahl aus der Liste der zuletzt geöffneten Dateien im Menü „Datei“ (4).
  • Durch einen Doppelklick auf eine Datei im Explorer (5).
  • Per Drag and Drop der Datei vom Explorer in den Kopfbereich des Anwendungsfensters (6).
  • Per Auswahl der vom Betriebssystem geführten Liste der zuletzt bearbeiteten Dateien (bis Windows XP und bei MacOS) (7).
  • Durch Aufruf von der Kommandozeile (8).
Multiple Möglichkeiten des Öffnens von Dateien in LibreOffice
Multiple Möglichkeiten des Öffnens von Dateien in LibreOffice

Die dargestellte Vielfalt an Möglichkeiten, eine Datei zu öffnen, bedient nicht nur verschiedene Nutzungspräferenzen, die es sicher gibt, sondern trägt auch verschiedenen Situationen Rechnung. Befindet man sich gerade im Dateimanager, ist der Doppelklick auf die zu ladende Datei naheliegender, als erst das Programm zu öffnen, um anschließend die Datei in das Programm zu importieren. Befindet man sich hingegen schon im Programm und will eine vor Kurzem bearbeitete Datei erneut öffnen, ist der Weg über die Liste der zuletzt bearbeiteten Dateien schneller als das Suchen in der Dateiverwaltung.

Bei Heterogenität geht es darum, innerhalb der Nutzungsschnittstellengestaltung eine Vielzahl alternativer Wege anzubieten, auf denen man zum gleichen Ziel gelangt.

Beispiel Farbauswahl

Farbauswahlmöglichkeiten in MacOS
Farbauswahlmöglichkeiten in MacOS

Ein gutes Beispiel für Heterogenität sind die umfangreichen Farbauswahlmöglichkeiten in MacOS, die nur teilweise abgebildet sind. Es gibt verschiedene Möglichkeiten zur Festlegung einer Farbe. In einem Farbrad kann eine Farbe gemäß dem HSV-Farbschema durch die Auswahl einer Farbe im Rad und zusätzlicher Spezifikation der Helligkeit angegeben werden. Die Farben können auch über Farbregler gemäß verschiedener Farbmodelle (HSV, RGB, CMYK) angegeben werden. Ebenfalls angeboten werden verschiedene Paletten sowie die Möglichkeit, eine Farbe aus einem Bild auszuwählen. Schlussendlich kann auf zuvor abgespeicherte Farben zugegriffen oder aber mittels Farbpipette eine Farbe von einer beliebigen Stelle am Bildschirm abgenommen werden.

Doch ist ein solches Füllhorn alternativer Eingabemöglichkeiten nötig? Die Frage ist weniger, ob eine Person wirklich alle Möglichkeiten ausschöpft, sondern vielmehr, ob diese Möglichkeiten die Reichhaltigkeit der unterschiedlichen Nutzungskonstellationen unterstützen kann. Soll beispielsweise eine Farbe an eine Grafik auf dem Bildschirm angepasst werden, liegt die Nutzung der Pipette nahe. Sind dagegen die gewünschten Farben als RGB-Werte festgelegt worden, wird die Farbe über die Eingabe der Zahlenwerte festgelegt. Für die Kreierung eines Schattens für ein farbliches Objekt bietet es sich schließlich an, auf das HSV-Modell umzuschalten und Helligkeit und Sättigung anzupassen.

Nicht nur für Farbe gilt, je vielfältiger die alternativen Formen zum Erreichen eines bestimmten Ziels sind, desto reichhaltiger sind die Nutzungsszenarien, die angemessen unterstützt werden.

Heterogenität, Übersichtlichkeit und Erschließbarkeit

Erwartungsgemäß ist auch mit der Forderung nach Heterogenität eine Reihe von Nachteilen verbunden. Das Anbieten vieler Auswahlmöglichkeiten, Einstiegspunkte und Ansichten ermöglicht zwar eine flexible Nutzung und erzwingt daher weniger vorgeschriebene Bearbeitungswege, doch:

  • Heterogenität erfordert zusätzliche Nutzungsschnittstellen-Elemente und erhöht dadurch die Komplexität der Oberfläche (Widerspruch zur Übersichtlichkeit, siehe Kapitel Anordnung).
  • Bei Platzmangel kann weniger Funktionalität oder Inhalt dargestellt werden (problematisch in Bezug auf Vollständigkeit und Kontinuität, siehe Kapitel Übergänge) oder die Elemente müssen sehr klein dargestellt werden (problematisch in Bezug auf Erkennbarkeit und Handhabbarkeit, siehe Kapitel Bildschirmobjekte und Kapitel Eingaben).
  • Bei mehreren Wegen zum gleichen Ziel ist die aktuelle Position im Prozess gegebenenfalls schwer zu bestimmen (Orientierbarkeit, siehe Kapitel Navigation).
  • Ein Programm mit vielen alternativen Möglichkeiten der Bedienung kann schwerer zu erlernen und zu erklären sein, insbesondere wenn jeweils nur ein bestimmter Ausschnitt genutzt wird. Statt einer einfachen Beschreibung, die sich nur auf die jeweils spezifische Nutzungsart bezieht, müssen für ein umfassendes Verständnis der Auswahlmöglichkeiten übergreifende Konzepte wie zum Beispiel Farbmodelle und ihre unterschiedlichen Qualitäten einbezogen werden. Je nach Situation kann dies eher Verwirrung stiften als unterstützend zu wirken.

Die Erfüllung der Forderung nach Heterogenität bringt also vielerlei Designkonflikte hervor, die erst unter Einbeziehung der Gebrauchstauglichkeit anwendungsbezogen austariert werden können. Erst in dieser Gesamtbetrachtung zeigt sich, ob die Vorteile der Heterogenität die Nachteile aufwiegen.

Aspekte der Heterogenität

Die Forderung nach Heterogenität kann sich, wie auch die Forderung nach Anpassbarkeit, auf enorm viele Aspekte einer Anwendung beziehen, die selten unabhängig von der jeweiligen Anwendung sind. Wir können und wollen sie daher nicht im Detail betrachten. Die beiden im Folgenden beschriebenen Aspekte sind jedoch so allgemeiner Natur, dass sie eine Betrachtung an dieser Stelle rechtfertigen.

Unterschiedliche Eingabegeräte

In vielen Fällen kann bei der Entwicklung von Software nicht endgültig festgelegt werden, mit welcher Eingabetechnik ein Programm genutzt werden wird. Solange es grafische Nutzungsoberflächen mit Mauseingabe gibt, gibt es den Streit darüber, ob Mausbedienung effizienter ist als Tastatureingabe. Auch unter Wissenschaftlern ist diese Frage letztlich nicht geklärt; man findet Argumentationen und empirische Belege für beides. Das Problem ist, dass die Gestaltung von Nutzungsoberflächen in weiten Teilen kontingent ist oder anders ausgedrückt, es gibt keinen „One Best Way“ der Gestaltung. Völlig ungeachtet solcher Grundsatzfragen müssen wir festhalten,

  • dass es verschiedene Vorlieben bezüglich des Eingabegeräts gibt und
  • dass es Szenarien gibt, in denen jeweils eine Eingabetechnik gegenüber der anderen von Vorteil ist.

Im Sinne der Heterogenität sollte deshalb grundsätzlich die Interaktion mit einem Zeigegerät als auch vermittels einer Tastatur vorgesehen werden.

Touch-Eingaben und die Grenzen der Heterogenität

Die Frage „Tastatur oder Maus?“ hat einen modernen Zwilling namens „Maus oder Touch?“. Diese Frage lässt sich nicht so einfach beantworten. Maus- und Tastatureingaben lassen sich nämlich gut vereinheitlichen, weil beide Techniken sich ergänzen können, ohne sich in die Quere zu kommen. Maus- und Touch-Eingaben hingegen sind beides ortsbasierte Eingabeformen, die sich auf dasselbe Objekt beziehen. Das führt zu Problemen:

  • Maus-optimierte Nutzungsschnittstellen sind für die Touch-Nutzung nicht gut geeignet, denn Elemente sind oft zu klein und typische Maus-Tricks, wie die Positionierung an Bildschirmrändern, funktionieren bei Touch nicht. Es gibt auch kein eindeutiges Pendant zum Verweilen über einem Element.
  • Touch-optimierte Oberflächen lassen sich dagegen auch per Maus gut nutzen, solange es sich um Single-Touch-Eingaben handelt. Problematisch sind jedoch die bei der Touch-Interaktion verbreiteten Gesten, für die es bei der Mausnutzung keine etablierten Äquivalente gibt.

Wie schwierig es ist, die beiden Nutzungsparadigmen unter einen Hut zu bringen, offenbart sich am Beispiel aktueller Windows-Systeme. Programme, die der Microsoft Design Language entsprechen, sollen sowohl für Touch- als auch für die Mausbedienung geeignet sein. Vergleicht man das daraus resultierende Design mit Beispielen von Microsoft, sieht man, dass viele der typischen Elemente, die vorher verbreitet waren, nicht mehr zur Verfügung stehen. Bei Windows 8 hat Microsoft eine Nutzungsoberfläche entwickelt, die sowohl Touch- als auch Mausnutzung ermöglicht. Das Resultat ist, dass beides zusammen nicht besonders gut funktioniert. Einige Strukturen sind zu klein und fein, um per Touch gut nutzbar zu sein. Andere Bereiche sind bezüglich der Nutzung einer Maus unnötig grob und verschenken Potenziale einer möglichst vollständigen und übersichtlichen Darstellung.

Selektionsmodus in „Fresh Paint“
Selektionsmodus in „Fresh Paint“

Die Abbildung oben zeigt das Programm „Fresh Paint“ von Microsoft. Dieses verfügt über einen expliziten Modus zum Markieren von Elementen. Dieser kann über das Icon oben rechts oder durch einen Rechtsklick auf eines der Elemente betreten und verlassen werden. Innerhalb des Modus können Objekte per Klick markiert und Funktionen wie „Löschen“ oder „Umbenennen“ darauf angewendet werden. Außerhalb dieses Modus stehen die entsprechenden Icons auf der linken Seite nicht zur Verfügung.

Die Kombination von Markier- und Bearbeitungsmodi ist auch von Smartphones bekannt. Im „normalen“ Modus führt ein Klick auf ein Element, etwa ein Foto oder eine Mail, dazu, dass dieses Element direkt geöffnet wird, während in einem anderen Modus die einzelnen Elemente markiert und bearbeitet, aber nicht geöffnet werden können. Für die Nutzung am Tablet ist diese Interaktionsform sinnvoll, weil dadurch verhindert wird, dass Objekte versehentlich geöffnet werden. Außerdem wird dem Umstand Rechnung getragen, dass bei einer Touch-Eingabe weniger Modifikatoren zur Verfügung stehen als bei einer Mauseingabe, wo zwischen einer einfachen Mausbewegung, einer solchen mit gedrückter Maustaste, einer mit gedrückter rechter Maustaste und einer Bewegung mit gleichzeitigem Drücken der Tasten SHIFT, STRG oder ALT unterschieden werden kann. Da diese Möglichkeiten nur bei der Mausnutzung bestehen, stellt der Markierungsmodus und vor allem der Zwang, ihn zu nutzen, einen Umweg, also erzwungene Sequenzialität dar.

Dateiselektionsmodus im Explorer von Windows 10
Dateiselektionsmodus im Explorer von Windows 10

Die zugrundeliegenden Designkonflikte sind stets die gleichen, es gilt sie aber je nach Eingabetechnik unterschiedlich auszugestalten.

Eine entsprechende Lösung zeigt der File Explorer von Windows. Microsoft hat geschickt eine durch die vielen Checkboxen unübersichtlich wirkende Oberfläche vermieden. Das Auswahlfeld, das den Bearbeitungsmodus in Gang setzt, wird jeweils nur angezeigt, wenn der Mauszeiger über einem Objekt schwebt. Erst innerhalb dieses Modus erscheinen auch die übrigen Checkboxen.

Eingaberobustheit

Die Angaben „5.3.90“, „5.3.1990“, „05.03.1990“ und „5. März 1990“ bezeichnen allesamt dasselbe Datum. Es handelt sich um verschiedene Möglichkeiten, den gleichen semantischen Inhalt darzustellen. Diese Verschiedenartigkeit bei der Eingabe zu berücksichtigen ist eine Spielart der Heterogenität, die wir mit „Eingaberobustheit“ betiteln. Eingaberobustheit meint in diesem Sinne, dass eine spezifische Eingabe in unterschiedlichen Formen und Formaten erfolgen kann, solange ein Algorithmus die eindeutige Abbildung der verschiedenen Eingaben auf ein und dasselbe Zielobjekt sicherstellen kann.

Vermeintlich falsche Eingabe beim Online-Banking
Vermeintlich falsche Eingabe beim Online-Banking

In diesem Beispiel des Online-Bankings der Sparkasse beklagt sich das System über eine angeblich falsche Eingabe der IBAN, die nicht mehr als 10 Zeichen lang sein dürfe. Die Nummer ist jedoch faktisch nur 8 Zeichen lang. Allerdings zählt die Software die Leerzeichen mit. Da eine IBAN der besseren Lesbarkeit wegen meist mit Leerzeichen notiert wird (siehe Strukturiertheit), ist diese Eingabe plausibel. Da die Eingabe in beiden Fällen eindeutig ist, gibt es keinen Grund, eine der beiden von der Softwarte zu erzwingen. Es sollte deshalb keinen Unterschied machen, ob eine Telefonnummer oder Seriennummer mit Leerzeichen oder mit Bindestrichen eingegeben wird. Ebenso sollte es bei Suchfunktionen in den meisten Fällen unerheblich sein, ob ein Begriff groß oder klein geschrieben wird.

Toleranz gegenüber verschiedenen Eingaben wird oft, so auch in der ISO-Norm 9241, unter dem Begriff „Fehlertoleranz“ verbucht, denn auch die nicht der Vorgabe entsprechenden Eingaben, also in einem gewissen Sinne „fehlerhafte“ Eingaben, werden vom System akzeptiert. Wir halten diese Sichtweise allerdings nicht für hilfreich, denn wenn eine Telefonnummer beispielsweise als „180-9034“, „18 09 03 4“ oder „1809034“ geschrieben werden kann, sind ja nicht einige der Eingaben falsch und einige richtig, sondern, wenn sie alle zum richtigen Ergebnis führen, alles drei korrekte Möglichkeiten der Eingabe, die der Heterogenität der Nutzervorlieben und Einsatzkontexte gerecht werden.

Konventionen

Zwischen Ergonomie und Gebrauchstauglichkeit

Bis zu diesem Punkt haben wir uns explizit auf ergonomische Aspekte von Software beschränkt. Wir haben geschaut, wie sie gestaltet werden sollte, um an den Menschen und an seine körperliche und kognitive Konstitution angepasst zu sein. Wir haben gezeigt, dass eine nicht angepasste Gestaltung jeweils zu erzwungenen Sequenzialitäten führt. Gleichzeitig haben wir dargelegt, dass Forderungen zur ergonomischen Gestaltung einander oft widersprechen. Gestaltung von Software bedeutet also stets, diese Konflikte auszutarieren. Spätestens an dieser Stelle kommt die konkrete Nutzungskonstellation mit ins Spiel, denn das Austarieren erfordert die Betrachtung des Kontextes, das heißt, wie Menschen mit dem technischen System umgehen wollen und welche Aufgabe sie mit Unterstützung des Systems erledigen wollen.

Aus dem Einsatzkontext lässt sich für eine Softwaregestaltung indes weit mehr ableiten als nur die notwendigen Informationen zum Austarieren der Gestaltungskonflikte, denn in der Ergonomie haben wir völlig außer Acht gelassen, welchem Zweck die Software eigentlich dient und ob sich dieser Zweck erfüllen lässt. Ist dies nicht der Fall, kommt es wieder zu Hindernissen, die wir auch an dieser Stelle mit erzwungener Sequenzialität beschreiben könnten. Würde man etwa eine Software zur Lagerhaltung in einem Großlager für die private Weinsammlung nutzen, hätte man zwar ein umfangreiches Paket an Funktionen, doch wäre die Software für diesen Anwendungsfall sicherlich zu komplex. Sie würde über viele Eingabebereiche verfügen, die nicht benötigt und daher dauerhaft ignoriert werden müssten. Schließlich würde sie auch sprachlich an den Anforderungen vorbeigehen, da sie mit Begriffen wie Position, Warengruppe, Gefahrenklasse oder Ähnliches ausgestattet wäre, die im privaten Weinkeller kaum von Nutzen sein dürften.

Ein spezifisches Programm zur Weinkellerverwaltung könnte deutlich einfacher gestaltet sein und würde dadurch viele der entstehenden erzwungenen Sequenzialitäten nicht aufweisen. Es wäre für den Gebrauch tauglicher oder kurz: gebrauchstauglicher. Gleichermaßen ließe sich ein Warenlager sicher mit einer Tabellenkalkulation verwalten, wäre aber weniger gebrauchstauglich als ein den üblichen kaufmännischen Anforderungen angepasstes Lagerverwaltungsprogramm. Solche Fragestellungen fallen in den Bereich der Gebrauchstauglichkeit (engl. Usability Engineering), wo es das Ziel ist, die entsprechenden Anforderungen zu erheben und im Rahmen von Usability Tests zu validieren.

Einen Einblick in die Gebrauchstauglichkeit wollen wir an dieser Stelle nicht geben, denn in der gebotenen Kürze ließe sich nicht abhandeln, was anderswo Bücher füllt. Wohl aber wollen wir ein Schlaglicht auf einen wichtigen Gestaltungsaspekt lenken, der zwar nicht mehr zur Software-Ergonomie gehört, aber auch noch nicht auf empirische Erhebungen von Anforderungen im großen Stile angewiesen ist. Es geht um Konventionen, wie wir sie hier nennen möchten, also um Anforderungen aus dem Nutzungsumfeld, auf die man sich im Gestaltungsprozess abstützen kann, ohne sie stetig erneut erfragen zu müssen. Wir betrachten im Folgenden Konventionen innerhalb einiger grober Bereiche1:

  • Plattformkonventionen beschreiben Vorgaben für eine Systemplattform, in der Regel ein Betriebssystem oder ein Software-Framework. Das Erfreuliche an diesem Bereich der Konventionen ist, dass sie in großen Teilen von den Herstellern selbst aufgeschrieben werden und viele Ressourcen existieren, die bei der konformen Gestaltung helfen.
  • Aufgabenkonventionen können sich auf nahezu jeden Aspekt einer Aufgabe beziehen. Unsere Hinweise beziehen sich, wie oben erläutert, nicht auf konkrete Aufgaben, sondern auf allgemein anwendbare Techniken, um mehr Konformität mit der Aufgabe zu erreichen. Hinzu kommen Hinweise auf einige Gestaltungsfehler, aufgrund derer keine aufgabenkonforme Nutzungsschnittstelle gestaltbar ist.
  • Kulturelle Konventionen sind Gepflogenheiten, die sich durchgehend etabliert haben. Sie sind so mannigfaltig und zahlreich, dass wir keinen vollständigen Überblick geben können, sondern vor allem für das Problemfeld anhand typischer Aspekte sensibilisieren wollen.

Bevor wir die genannten Bereiche behandeln, müssen wir noch eine Grundsatzfrage klären. Sollte man sich an Konventionen halten, auch wenn sie unergonomisch sind?

Konventionen sind allgemein oder im Umfeld, in der eine Software eingesetzt wird, bekannt. Das ist ihre Stärke. Sie kommen auf sehr unterschiedliche Art und Weise zustande, verkörpern aber nicht notwendigerweise immer die bestmögliche Handlungsweise.

Etwas besser zu machen als üblich, erleichtert idealerweise die Nutzung bei denen, die neu mit einer Software umgehen, aber sie erfordert Aufwand bei denjenigen, die sich bereits auskennen. Sie haben die bislang übliche, vielleicht nicht perfekte Art und Weise über lange Zeit erlernt und verinnerlicht und sind daher in der Regel nicht bereit, zusätzlichen Lernaufwand zu spendieren, wenn es nur geringe Vorteile bietet. Hinzu kommt, dass die Expertise von anderen und die gebräuchlichen Hilfestellungen der konventionellen Methode entsprechen werden, sich dagegen mit dem Neuen viel weniger Leute auskennen.

Der Gestaltungskonflikt zwischen Vertrautheit und Effektivität tritt auch an anderen Stellen auf, wenn z. B. Plattformvorgaben – wie wir des Öfteren in diesem Buch gesehen haben – ergonomische Forderungen verletzen. Wie jeweils in solchen Fällen zu verfahren ist, lässt sich schwer verallgemeinern, weil es sowohl davon abhängt, wie streng und konsequent die jeweilige Konvention den Nutzungsalltag prägt, als auch davon, wie schwerwiegend die jeweilige Verletzung ist. Grundsätzlich gilt, dass Abweichungen von Konventionen explizit begründet werden sollten.

Plattformkonformität

Betriebssystemplattformen wie Windows, MacOS oder Android geben große Teile des Aussehens und des Verhaltens der Nutzungsoberfläche vor. Man braucht sich in den meisten Fällen nicht mehr darum kümmern, wie zum Beispiel ein Button aussehen soll.

Die ersten umfangreichen User-Interface-Guidelines wurden nach unserem Wissen von Apple für den Macintosh herausgegeben. Jede Macintosh-Software, ob von Apple selbst oder von anderen Herstellern, war angehalten, sich nach den Vorgaben dieses Dokuments zu richten. Lange Zeit war dieses einheitliche Design einer der Hauptvorteile von Macintosh-Systemen gegenüber anderen Systemen, zum Beispiel mit Microsofts DOS. Software-Produkte aus den 1980er Jahren unter MS-DOS weisen eine Vielzahl von verschiedenen Designs auf, die nicht nur unterschiedlich aussehen, sondern auch auf unterschiedliche Art und Weise funktionieren. In diesen Macintosh-Anwendungen kann man sich schnell zurechtfinden, denn jede dieser Anwendungen hat eine einheitliche Menüleiste, in allen gibt es Fenster, die sich auf die gleiche Art und Weise nutzen lassen, überall gibt es die gleichen Buttons und auch die Masken zur Auswahl einer Datei sehen in all diesen Anwendungen gleich aus und funktionieren auf die gleiche Art und Weise. Bei der Nutzung anderer Systeme wie etwa dem PC von IBM ist es dagegen erforderlich, mit jedem Programm, zumindest aber mit jedem Hersteller, eine andere Arbeitsweise zu erlernen.

Die Firma IBM reagiert auf diesen Missstand im Jahr 1987 mit der CUA-Spezifikation (Common User Access). Diese Spezifikation wird in der Folge in mehr oder weniger großem Maße von vielen MS-DOS-Anwendungen umgesetzt. Sie bilden die Grundlage für die Entwicklung von OS/2 und werden auch von Microsoft in Windows umgesetzt. Viele Aspekte dieser Spezifikation sind noch heute Standard, etwa, dass Buttons per Tastatur bedient werden können, indem die ALT-Taste zusammen mit einem unterstrichenen Buchstaben gedrückt werden kann (noch heute Standard in klassischen Windows-Programmen), dass F1 die Hilfe aufruft, noch heute üblich bei Windows, dass die Tabulatortaste zwischen Eingabefeldern und Buttons weiterschaltet und so weiter.

Heute gibt es User-Interface-Guidelines von allen Herstellern für alle Betriebssysteme bzw. Nutzungsoberflächen. Grundsätzlich empfehlen wir, sich die Empfehlungen jeweils durchzulesen und sich daran zu halten. Die User-Interface-Guidelines sind heutzutage meist mit der Bereitstellung einer Vielzahl von Ressourcen verbunden. Dies reicht von Farbschemata über Schriften und Standard-Icons bis zu einem großen Katalog von Standard-Nutzungsschnittstellen-Elementen. Bei Microsoft kann man ein Programm herunterladen, in dem alle Ressourcen inklusive aller Nutzungsschnittstellen-Elemente an einem Beispiel vorgeführt werden.

Gegenüberstellung von Icons verschiedener Versionen von MacOS X – Bild: gizmodo.com.au
Gegenüberstellung von Icons verschiedener Versionen von MacOS X – Bild: gizmodo.com.au

Wie schon erwähnt, genügen Design-Vorgaben in User-Interface-Guidelines nicht zwingend ergonomischen Kriterien und werden in der Regel auch nicht ergonomisch begründet. Die Abbildung zeigt eine Gegenüberstellung von Icons in Apples MacOS X. In der Version 10.10 Yosemite von 2014 sind die unten abgebildeten Icons durch die oberen ersetzt worden. So sehr wir uns auch bemühen, können wir keinerlei ergonomischen Fortschritt entdecken. Die neuen Icons sind stärker gesättigt und haben dadurch weit mehr Ablenkungspotenzial, die Overlay-Icons sind schlechter zu erkennen und die Farbverläufe widersprechen der Hypothese einer Lichtquelle von oben.

Auch Microsofts User-Interface-Guidelines weisen Kuriositäten und vor allem auch über die Zeit kuriose Entwicklungen auf. Für Windows 95 wird noch, ganz in unserem Sinne, Zurückhaltung bei der Farbgestaltung empfohlen:

Use of a Limited Set of Colors – While the human eye can distinguish millions of different colors, using too many usually results in visual clutter and can make it difficult for the user to discern the purpose of the color information. The colors you use should fit their purpose. Muted, subtle, complementary colors are usually better than bright, highly saturated ones, unless you are really looking for a carnival-like appearance where bright colors compete for the user’s attention. (Windows 95 User Interface Guidelines)

Die Begründungen von Microsoft sind gut gewählt, denn, ohne allzu sehr in die Tiefe zu gehen, wird mit der Wahrnehmbarkeit und mit der Gefahr der Ablenkung durch zu viele Farben argumentiert. Siebzehn Jahre später argumentiert Microsoft für Windows 8 aber anders:

Take full advantage of the digital medium. Remove physical boundaries to create experiences that are more efficient and effortless than reality. Being authentically digital means embracing the fact that apps are pixels on a screen. It means designing with colors and images that go beyond the limits of the real world.

Be dynamic and alive with communication. * Use typography beautifully. * Use bold, vibrant colors. * Connect to the cloud so that your users can stay connected to each other.

An solchen Stellen kann man die Konvention missachten, denn der Verzicht auf allzu viele farbige Flächen wird kaum dafür sorgen, dass das Programm nicht mehr nutzbar ist. Die Abweichungen von der Konvention sind ergonomisch begründet, unschädlich und somit generell empfehlenswert. Begründete Abweichungen von der Norm können auch in grundsätzlichen Abläufen und Arbeitsweisen angeraten sein. Sie sollten jedoch auch in der Gestaltung verdeutlicht werden**.

Gefährliche Inkonsistenz bei Meldungsfenstern
Gefährliche Inkonsistenz bei Meldungsfenstern

In diesem Beispiel ist das nicht geschehen. Falls es einen Grund dafür geben sollte, dass bei Microsoft Word die Funktionalität entgegengesetzt zu der von anderen Mac-Applikationen ist, kann von der Norm abgewichen werden. Diese Abweichung wird jedoch nicht durch die Gestaltung verdeutlicht. Das Meldungsfenster von Word sieht genauso aus wie ein Standardfenster. Die mögliche Folge ist, dass bei der Nutzung statt auf „Sichern und Beenden“, was ja eine sichere Wahl wäre, auf „Änderungen verwerfen“ geklickt wird.

Aufgabenkonventionen

In der Einleitung des Kapitels haben wir auf die Schwierigkeiten hingewiesen, aus ergonomischer Sicht über Aufgabenkonformität zu sprechen, denn Konventionen der Aufgabe sind dieser zu eigen und können schlecht verallgemeinert werden. Es gibt aber auch in diesem Fall einige allgemeine Hinweise, deren Einhaltung die Aufgabenkonformität generell verbessert.

Direkte, klare und einfache Sprache

Grundsätzlich gilt, klare und positive Aussagen zu formulieren. Wo Negationen erforderlich sind, sollten keine doppelten Verneinungen auftreten. Dazu ein Beispiel einer Mediensteuerung in einem Hörsaal, über die zwei unter der Decke hängende Projektoren gesteuert werden können. Neben der Auswahl der jeweiligen Quelle kann man auch die Projektion auf schwarz schalten. Diese Funktion hat die seltsame Bezeichnung „Picture Mute“. Dies ist schwer nachvollziehbar, weil „mute“ nicht „schwarz“, sondern „stumm“ bedeutet. Vor allem ist es aber eine inhärent negative Aussage. Das System zeigt in bestem Denglisch den Zustand mit „Picture Mute ist aus“ an. Das ist nicht ohne weiteres einsichtig und führt leicht zu Fehleingaben. In einer Überarbeitung haben wir deshalb diese Schaltfläche auf „Schwarz“ ändern lassen und damit die Unklarheiten beseitigt. Kritisch ist eine doppelte Verneinung übrigens vor allem, wenn sie in einer Frage verwendet wird. Auch dies passiert oft in indirekter Form mit einem negativen Verb wie „verwerfen“ wie z. B. in der Frage: „Wollen Sie Ihre Arbeit wirklich nicht verwerfen?“

Zur klaren Sprache gehört außerdem, dass keine tiefen Verschachtelungen und keine Konjunktivsätze verwendet werden. Berufsgruppen oder soziale Milieus prägen eine Art Fachsprache mit für Außenstehende meist kryptischen Abkürzungen und ungewohnten Redewendungen aus. Ein solcher Jargon, vor allem aus dem Technikbereich, sollte sich nicht in einer Nutzungsoberfläche wiederfinden, es sei denn, die Anwendung ist für Technikspezialisten entwickelt worden. In diesem Fall erfüllt es die Forderungen an die Aufgabenkonformität. In allen anderen Fällen sollte diese Sprache vermieden werden.

Ebenso sollten statt fremdsprachlicher Fachbegriffe entsprechende landessprachliche Übersetzungen eingesetzt werden. Für Begriffe wie „Backup“ oder „Viewer“ sollten beispielsweise „Sicherung“ oder „Sicherungskopie“ und „Betrachter“ verwendet werden. Da sich jedoch auch viele fremd- oder fachsprachliche Begriffe in der Alltagsprache etabliert haben, könnte die Verwendung des Wortes Datenpost für E-Mail seltsam anmuten und zu Verwirrung führen. In diesem Zusammenhang sind auch Begriffe problematisch, die beispielsweise im Bereich der Informationstechnik selbstverständlich verwendet werden, die aber außerhalb der IT eine andere Bedeutung haben. Sie sollten entweder erläutert oder vermieden beziehungsweise ersetzt werden. Typische Beispiele sind „Zertifikat“, „Konto“, „Prozess“2 (noch problematischer sind die Termini „Kind-Prozess“ und „Eltern-Prozess“) oder „Routine“. Ein Konto, das den autorisierten Zugriff auf Daten oder Dienstleistungen verwaltet, ist etwas anderes als ein Bankkonto. Bei solchen Begriffen sollte nutzungsseitig keine Verwirrung entstehen.

Ebenfalls für Verwirrung sorgen Begrifflichkeiten, die im Rahmen der Entwicklung und damit auch innerhalb des Quellcodes in internen Bezeichnungen und in Kommentaren üblich, akzeptabel und angemessen sein mögen, wenn sie in die Nutzungsschnittstelle vordringen. Bei der anzutreffenden Fehlermeldung „Die Datei ist korrupt!“ etwa liegt ein Übersetzungsfehler vor. Das englische Wort „corrupt“ kann „beschädigt“ oder „unbrauchbar“ heißen. Das deutsche Wort „korrupt“ bedeutet das nicht.

Und was bedeutet die Meldung „unerwartete Fehler“? Wer oder was erwartet denn etwas? Da es diese Meldung gibt, muss sie bei der Entwicklung als Möglichkeit erwartet worden sein. Es wird also etwas Unerwartetes erwartet, doch warum ist das ein Fehler und wodurch wurde er verursacht? Ohne Kenntnis des technischen Konzepts der Ausnahmebehandlung ist diese Meldung kaum nachvollziehbar. Tatsächlich handelt es sich um Situationen, für die im Programm nicht explizit vorgesorgt worden ist. Erwartete Fehler werden anders behandelt und werden mit konkreten Methoden behandelt, etwa wenn der Speicherplatz nicht ausreicht oder aber die Datei ein falsches Format hat. Mit diesen Problemen wurde bei der Entwicklung gerechnet. Ein unerwarteter Fehler hingegen ist einer, mit dem nicht gerechnet wurde. Der technisch richtige Ausdruck wäre „unbehandelte Ausnahme“, doch sollte sich auch dieser nicht in der Nutzungsschnittstelle wiederfinden. Was kann man stattdessen machen?

Zunächst sollte die Anzahl der Situationen, in denen es zu solchen Meldungen kommen kann, möglichst klein gehalten werden. Wenn es aber doch dazu kommt, könnte man zum Beispiel von einem „internen Fehler“ sprechen. Das ist zwar nicht konkreter und noch weniger präzise, aber da das Programm sich bei Erscheinen einer solchen Meldung ohnehin in einem Zustand befindet, in dem nichts mehr zu ändern ist, spielt das keine große Rolle. „Interner Fehler“ drückt diesen Tatbestand recht gut aus.

Unnötige Verwendung von Fachtermini
Unnötige Verwendung von Fachtermini

Zu guter Letzt noch der Hinweis, Fachtermini zu vermeiden, wenn der jeweilige Tatbestand handlungsorientiert angemessener ausgedrückt werden kann. Die Meldung „Die Syntax für den Seitenbereich ist ungültig“ lässt alle, die den Begriff Syntax nicht kennen, ratlos zurück. Was ist passiert? Es sind Zeichen eingegeben worden, die an der entsprechenden Stelle nicht zulässig sind. Das kann man aber auch genauso formulieren, ohne den Begriff Syntax strapazieren zu müssen.

Kulturelle Konventionen

Ein großer Teil der (oft ungeschriebenen) Konventionen entstammt allgemeinen, kulturellen Übereinkünften. Doch die Frage, auf was sich der Begriff Kultur im Einzelnen bezieht, lässt sich nicht generell beantworten. Wir können beispielsweise von einem westlichen Kulturkreis sprechen und uns auf bestimmte Umgangsformen oder auch die Farbgebung beziehen. Es kann aber auch die Nutzung des gleichen Alphabets und die gleiche Leserichtung beinhalten, von links nach rechts und von oben nach unten. Nicht alle Konventionen müssen von den Mitgliedern eines Kulturkreises gleichermaßen geteilt werden. Hebräisch beispielsweise wird, ähnlich wie im arabischen Sprachraum, von rechts nach links geschrieben und gelesen. Im asiatischen Raum sind weitere Leserichtungen üblich. Japaner schreiben sowohl von links nach rechts, von rechts nach links als auch spaltenweise von oben nach unten. Kulturelle Konventionen dieser Art überspannen teils große Bereiche. Andere Konventionen sind national oder regional begrenzt. Schließlich gibt es auch noch „Subkulturen“, die sich wiederum übergreifend organisieren, Berufsgruppen, Sportverbände oder die Wissenschaft. In all diesen Gruppen gibt es eigene Konventionen und eigene Fachsprachen sowie spezielle Zeichen, Codes und Verhaltensweisen.

Wenn wir uns um kulturelle Kohärenz bemühen, um erzwungene Sequenzialität zu reduzieren, können wir dies also mit zwei gleichermaßen wichtigen Zielen tun:

  • Die interne Sichtweise ist entscheidend, wenn die Software spezifisch auf einen bestimmten Kulturkreis zugeschnitten sein soll. Sie sollte den kulturellen Konventionen möglichst vollständig entsprechen.
  • Bei der externen Sichtweise hingegen geht es um Software, die in mehreren Kulturkreisen Verwendung finden soll. In einem solchen Nutzungsszenario gilt es vor allem Probleme zu vermeiden bzw. abzumildern, die durch unterschiedliche kulturelle Konventionen verursacht werden.

In nahezu allen praktischen Fällen ist man gut beraten, möglichst beide Ziele gleichermaßen im Auge zu behalten, da es im Zuge der Globalisierung vielfach keine durchgängige Kopplung kultureller Besonderheiten mit Nutzungsorten oder sozialen Gruppen gibt.

Internationalisierung und Lokalisierung

In Zeiten des Internets wird Software zunehmend in verschiedenen Kulturräumen eingesetzt. Damit es nicht zu Problemen kommt, kann man Software lokalisieren, also auf den aktuellen Kulturkreis anpassen, oder internationalisieren, also so gestalten, dass sie in vielen Kulturkreisen funktioniert. Lokalisierung betrifft die Sprache, aber zum Beispiel auch Adressenformate, Maßsysteme etc. Internationalisierung beinhaltet unter anderem das Verzichten auf nur lokal verständliche Bilder (auch Sprachbilder), aber auch das Verzichten auf modische Farbgestaltungen, die in verschiedenen Kulturkreisen unterschiedlich aufgenommen werden können.

Sowohl für Internationalisierung als auch für Lokalisierung ist spezifische Expertise erforderlich, die in einem Entwicklungsteam ebenso wie bei uns in der Regel nicht vorhanden ist. Wir behandeln die Thematik trotzdem kurz, um zum einen für das Thema zu sensibilisieren und zum anderen, um bestimmte Fallstricke zu vermeiden.

Nicht nur Text, sondern auch bildliche Darstellungen können sehr spezifisch für eine Kultur sein. Damit sind Icons ein Kandidat für Lokalisierung und Internationalisierung. Viele Icons, die in grafischen Nutzungsschnittstellen verwendet werden, sind inzwischen standardisiert und werden international verwendet. Dass das Abgebildete einem bestimmten Kulturkreis entstammt und etwas zeigt, das nicht überall so aussieht oder so praktiziert wird, muss nicht problematisch sein. Wir verdeutlichen dies an einigen Beispielen aus „The Icon Book“3.

Diese Icons sind international gebräuchlich – Quelle (auch der kommenden Abbildungen): Horton, William: The Icon Book: Visual Symbols for Computer Systems and Documentation. John Wiley & Sons. 1994.
Diese Icons sind international gebräuchlich – Quelle (auch der kommenden Abbildungen): Horton, William: The Icon Book: Visual Symbols for Computer Systems and Documentation. John Wiley & Sons. 1994.

Diese Zeichen können beispielsweise international verwendet werden, auch wenn das darauf abgebildete nicht international ist. Das erste Icon wird international als Buch erkannt, auch wenn in Ländern, in denen von rechts nach links geschrieben wird, also im arabischen, persischen und hebräischen Sprachraum, das Bild den Eindruck erwecken mag, dass die Rückseite beschriftet wäre. Das zweite Zeichen zeigt einen Handschlag. Dieses Bild wird auch in Kulturkreisen verstanden, in denen ein Handschlag zur Begrüßung weniger üblich ist, etwa in Asien. Das Gleiche gilt für das Besteck als Zeichen für Essen oder Restaurant. Auch in Kulturkreisen, in denen diese Esswerkzeuge nicht vornehmlich genutzt werden, ist es bekannt. Das letzte Icon zeigt einen typischen amerikanischen Briefkasten. Schon bevor diese Briefkästen bei uns zunehmend in Mode gekommen sind, ist die Bedeutung dieses Zeichens bei uns bekannt gewesen. Es ist daher nicht nötig, dieses Zeichen in Deutschland durch einen gelben Postkasten und in Großbritannien durch eine rote Säule auszutauschen. Das Gleiche gilt für eines der bekanntesten Icons der Desktop-Metapher, dem Ordner. Das Ordner-Icon zeigt einen typischen amerikanischen Folder. Das Bild ist aber inzwischen international so bekannt, dass Sie nicht gut daran täten, es durch einen deutschen Leitz-Ordner zu ersetzen.

Dass diese Icons keine Probleme zu bereiten scheinen, dürfte damit zusammenhängen, dass es sich um echte Bild-Icons handelt. Es ist nicht nur ein abgebildetes Objekt zu erkennen, sondern dieses hängt mit dem zusammen, wofür das Icon steht (siehe Kapitel Icon-Gestaltung). Es kann zwar sein, dass das Abgebildete nicht erkannt wird, weil das Objekt, auf das es verweist, nicht bekannt ist, doch ist unwahrscheinlich, dass das Abgebildete im jeweiligen Kulturkreis für etwas ganz Anderes steht.

Handgesten mit problematischen Interpretationen
Handgesten mit problematischen Interpretationen

Bei diesen Icons sieht das jedoch anders aus. Wir erkennen sie wahrscheinlicb als „Alles in Ordnung“, „Lecker“ und „Stopp“. Wir wollen das an dieser Stelle nicht vertiefen, sondern nur darauf hinweisen, dass jedes dieser Zeichen in mindestens einem Kulturkreis jeweils etwas anderes bedeutet, oft sogar etwas Schlüpfriges oder Fäkales. Seien Sie daher immer vorsichtig, wenn Sie Handzeichen dieser Art verwenden. Zudem lässt sich an diesen Beispielen gut feststellen, dass Konventionen dem Zeitgeist unterworfen sind, denn spätestens mit dem Erfolg von Facebook und dem dort allgegenwärtigen Daumen nach oben dürfte diese Bedeutung des Zeichens weltweit bekannt sein und vermutlich dominieren.

Bedeutungzuschreibungen zu Tieren sind stark kulturabhängig.
Bedeutungzuschreibungen zu Tieren sind stark kulturabhängig.

Sehr problematisch sind schließlich auch Zeichen, die Tiere verkörpern, denn ihre Zuschreibungen sind meist stark mit religiösen oder spezifischen in einer Kultur verbreiteten Geschichten und Sagen verknüpft. Dem deutschen Kulturkreis entsprechend könnten die obigen Zeichen für „Suchen“, „Lexikon“, „Schnell“ und „Sparen“ stehen. Doch das ist keineswegs universell. Während eine Eule in Anlehnung an antike Geschichten in Europa oft für Weisheit steht, verkörpert sie in Indien die Dummheit schlechthin. Bei einem Kaninchen beziehen wir uns auf deren Schnelligkeit. In Australien sind bei einem Kaninchen eher Assoziationen wie Plage oder Fertilität zu erwarten. Auch andere Tiere wie Hunde oder Schweine gelten in vielen Regionen der Welt als verpönt oder werden mit jeweils unterschiedlichen Eigenschaften verbunden.

Ein besonders wichtiger Bereich der Lokalisierung ist die Übersetzung eines Textes in eine andere Sprache. Übersetzungen sollten grundsätzlich von Personen durchgeführt werden, die über die entsprechenden Sprachkompetenzen verfügen. Zudem sollte die Qualität der Übersetzung mit der jeweiligen Zielgruppe im Kontext getestet werden.

Übersetzungen bergen viele Probleme auch dadurch, dass eine Sprache kein einheitliches Kulturgebiet darstellt. Schon im deutschsprachigen Bereich gibt es viele Unterschiede im Sprachgebrauch etwa zwischen Norddeutschen und Österreichern. Bei sehr weit verbreiteten Sprachen wie Englisch, Spanisch und Chinesisch sind die damit verbundenen Herausforderungen jedoch ungleich komplexer. Folgendes Problem einer Übersetzung von Microsoft beschreibt zum Beispiel heise:

[Microsoft hatte] die Geschlechtsangaben für ein Formular aus dem Englischen in die Wörter „varon“ für „männlich“, „No especificado“ für „keine Angaben“ und „hembra“ für „weiblich“ übersetzt – und nicht bedacht, dass „hembra“ in manchen lateinamerikanischen Ländern für „Hure“ gebraucht wird.

Um gegen solche Probleme gefeit zu sein, helfen nur ausgeprägte Sprachkompetenzen und intensives Testen der Software in den intendierten Zielgebieten. Fundierte Sprach- und Kulturkompetenzen braucht man auch, wenn es um das Finden des richtigen Tons geht. Dies geht deutlich über das Erzeugen einer korrekten Übersetzung hinaus. Es gibt zum Beispiel einen bekannten Unterschied zwischen dem Tonfall in der westlichen Welt, in der eine direkte Aufforderung wie „Geben Sie ein Datum vor März 2028 an!“ völlig akzeptabel ist. Wenn man diese Meldung wörtlich ins Japanische übersetzt, würde das sehr unhöflich wirken, denn direkte Aufforderungen an Personen sind dort zu direkt. Dort würde man die Meldung eher wie folgt formulieren: „Ein Datum vor März 2028 muss eingegeben werden.“ Wenn diese Formulierung wiederum im Deutschen Verwendung fände, würde sie wohl nicht als unfreundlich, wohl aber als umständlich empfunden. Bei Übersetzungen von Software treten, von solchen Fallstricken abgesehen, oft viel einfachere Probleme auf, die aus dem Übersetzungsprozess selbst resultieren und die wir uns im Folgenden anschauen wollen.

Wenn der Übersetzungsprozess ausgelagert wird, das heißt, von der unmittelbaren Entwicklung separat erfolgt, gibt es meist lange Listen mit zu übersetzenden Inhalten. Im nachfolgenden Beispiel steht links der Text in Originalsprache und rechts in der Übersetzung. Das Problem ist, dass die Übersetzung nicht ohne den jeweiligen Kontext erfolgen kann, in dem ein bestimmter Ausdruck verwendet wird. Nehmen wir als Beispiel das englische Wort „none“. Wie sollte man „none“ ins Deutsche übersetzen? Bei „Mouse: none“ und „Screen: none“ müsste es einmal mit „keine“ und einmal mit „keiner“ übersetzt werden, vorausgesetzt, dass „screen“ mit „Bildschirm“ übersetzt worden ist.

Missverständnis zwischen Handlungsauführung und Zielzustand
Missverständnis zwischen Handlungsauführung und Zielzustand

Auch mit diesem Beispiel haben wir ein ähnliches Problem. Wenn man im Englischen „turn on“ betätigt, ist etwas „on“, entsprechend ist es bei „turn off“ hinterher „off“. Im Deutschen geht das so nicht. Ein Gerät oder eine Funktion ist nach dem Einschalten nicht „ein“, sondern „an“ oder allenfalls „eingeschaltet“.

Falsche Kontextzuordnung beim Übersetzen
Falsche Kontextzuordnung beim Übersetzen

Wie würden Sie „switch“ übersetzen? „Umschalten“ ist eine Möglichkeit, etwa bei „Switch sources“, aber bei „Switch mouse buttons“ werden diese nicht umgeschaltet, sondern schlicht und ergreifend vertauscht. All diese Übersetzungen haben das gleiche Problem: Wenn in einer Sprache dasselbe Wort in unterschiedlichen Situationen verwendet wird, muss das in einer anderen Sprache nicht der Fall sein. Gerade Englisch ist aufgrund seiner vielen generischen Ausdrücke als Quellsprache besonders problematisch.

Übersetzungskonflikte in iWork-Anwendungen von Apple
Übersetzungskonflikte in iWork-Anwendungen von Apple

Die Abbildung illustriert ein solches Problem, das in iWork-Anwendungen von Apple auftritt. Links befinden sich Ausschnitte aus der Nutzungsschnittstelle des Präsentationsprogramms Keynote, oben auf Englisch, unten auf Deutsch. Bei der Einstellung für das Aussehen eines Linienzugs wurden die Wörter „line“ und „lines“ korrekt mit „Linie“ und „Linien“ übersetzt. Im rechten Teil der Abbildung kommt das Wort „lines“ jetzt in der Textverarbeitung Pages vor. Dabei geht es um die Einstellung des Zeilenabstands. Zeilen heißen an dieser Stelle aber nicht Zeilen, wie es eigentlich richtig wäre, denn „lines“ ist schon mit „Linien“ (in diesem Zusammenhang falsch) übersetzt worden.

Rechts befindet sich noch ein Kuriosum, das erstaunlicherweise genauso in Keynote von Apple wie in PowerPoint von Microsoft vorkommt. Mehrere Elemente können in beiden Programmen zu einem Objekt zusammenfasst werden. Die Funktion dazu heißt auf Englisch „group“ und wurde mit „gruppieren“ übersetzt. Das entstehende Objekt heißt Englisch ebenfalls „group“ oder auf Deutsch, zumindest entsprechend Microsoft und Apple, „Gruppierung“ statt korrekt „Gruppe“.

Falsche Übersetzungen in der Software Pixelmator
Falsche Übersetzungen in der Software Pixelmator

Die genannten Beispiele sind noch relativ harmlos, weil auch die falsche Übersetzung zum Kontext passt, sodass die korrekten Übersetzungen noch einigermaßen nah dran sind. Unverständlich wird es, wenn die Übersetzung zu einem falschen Kontext gehört. Die Abbildung zeigt eine Anpassungsschnittstelle für die Werkzeugleiste im Grafikprogramm Pixelmator. Neben Funktionen wie „Bewegen“ und „Beschneiden“ kann man auch „Scheibe“ hinzufügen. Erst wenn man sich das englische Ausgangswort vor Augen hält, kann man feststellen, dass in diesem Zusammenhang das Wort „Slice“ falsch übersetzt ist. Richtig wäre „Zerteilen“ und nicht etwa „Scheibe“ wie in „a slice of bread“.

Übersetzung kompletter Sätze
Übersetzung kompletter Sätze

Überall dort, wo in der Nutzungsschnittstelle vollständige Sätze verwendet werden, sollte auch der komplette Satz übersetzt werden. Vermeiden Sie es, Sätze zusammenzusetzen oder, wie in der Abbildung zu sehen ist, dies im Rahmen der Nutzung zu ermöglichen. Das Ergebnis kann sehr verwirrend sein. In dem Beispiel geht um das Verhalten des Scrollrads der Maus. Auf Englisch vervollständigt die Auswahl den Satz „Roll the mouse wheel to scroll multiple lines at a time“, auf Deutsch wäre angemessen „Ein Drehen des Mausrads scrollt mehrere Zeilen auf einmal“. Da der Text aber in zwei Teile zerfällt, sind der obere und der untere Teil jeweils getrennt für sich übersetzt worden, was zu einem recht unverständlichen Ergebnis geführt hat. Selbst wenn in diesem Fall auf Deutsch bessere Formulierungen möglich gewesen wären, sollte man solche Trennungen vermeiden. Das zeigt auch das folgendes Beispiel:

Press + to [scroll/turn over] to the next page.

Wenn die Teile einzeln übersetzt werden, entsteht ein grammatisch falscher Satz wie „Drücken Sie + um zu [scrollen/blättern] zur nächsten Seite.“, denn im Deutschen müsste das Verb korrekterweise nach hinten wandern.

Fehlende Unterscheidung von Imperativen und Infinitiven
Fehlende Unterscheidung von Imperativen und Infinitiven

Dieses abschließende Beispiel zeigt ein weiteres Problem, wie bei der Übersetzung ohne Kontext typischer Eigenarten der Sprachen nicht berücksichtigt werden. Das Problem besteht darin, dass im Englischen auf Grundlage des geschriebenen Wortes nicht zwischen einem Infinitiv und einem Imperativ unterschieden werden kann. „Close Program“ kann sowohl „Programm schließen“ bedeuten, wenn es etwa auf einem Button in einer Fehlermeldung steht, oder auch „Schließen Sie das Programm“, wenn es etwa in einem erläuternden Hilfetext steht. Ohne den nötigen Kontext kann es bei der Übersetzung zu Vertauschungen kommen. In dem Fall steht auf einem Button „Schließen Sie das Programm“. Ähnliches ist bei der Option „Join the office insider program“ geschehen. Als Option müsste es mit „Am Office Insider Programm teilnehmen“ übersetzt werden, nicht aber mit „Nehmen Sie am Office Insider Programm teil“. Wenn man Letzteres liest, fragt man sich, wer hier mit wem spricht (vgl. unser Exkurs-Kapitel zum Mensch-Computer-Dialog.

Nutzung schafft Konventionen

Wir wollen dieses Kapitel mit einem interessanten Aspekt beenden, der bei der Betrachtung von Konventionen leicht übersehen werden kann. Der Gebrauch von Software schafft nämlich unter Umständen auch seine eigenen Konventionen. Die Art und Weise des Umgangs mit weit verbreiteter und häufig genutzter Standard-Software kann zur Etablierung von De-facto-Standards führen. VisiCalc oder WordStar sind Beispiele dafür, weil sich vielfach andere Software-Produkte an diese Schnittstellengestaltung angelehnt haben. Die Tastenkombinationen aus WordStar funktionieren zum Beispiel auch in frühen Versionen der integrierten Programmierumgebung TurboPascal. In der Frühzeit des World Wide Web hat man sich sehr darum bemüht, die aus Microsoft Word oder Microsoft Windows vertrauten Nutzungsweisen ins Web zu übertragen. Gegenwärtig läuft der Trend aber eher in die entgegensetzte Richtung, weil Nutzungsweisen aus dem Web zunehmend auch in nativen Anwendungen zu finden sind. Auch wenn es in der Hoffnung auf die Etablierung eines eigenen De-facto-Standards verlockend scheint, von gängigen Nutzungskonventionen stark abzuweichen, raten wir davon ab, denn es birgt ein sehr hohes Risiko durch mangelnde Akzeptanz.

Eine Besonderheit von Software ist, dass sie bis auf sehr wenige Ausnahmen in Versionen existiert. Mit der neuen Version einer Software können auch umfangreiche Änderungen in der Nutzungsschnittstelle einhergehen. So hat beispielsweise Microsoft beim Wechsel von der Version 2003 zur Version 2007 seiner Office-Produkte die Schnittstelle von den klassischen Icon-Leisten und Menüs zu den Ribbons umgestellt. Diese Änderung der seit über zehn Jahren etablierten Nutzungskonventionen hat sowohl bei gelegentlicher als auch bei häufiger Nutzung eine Fülle von Problemen verursacht. Die neuen Möglichkeiten erfordern einen entsprechend hohen Zusatzaufwand zum Erlenen der Software und zur Umstellung gut etablierter Arbeitsroutinen. In der Konsequenz bedeutet das, auch über Software-Versionen hinweg so stabil wie möglich zu bleiben, also größere Änderungen in Funktionsweisen und in Objektpositionen nur durchzuführen, wenn der Nutzen den entstehenden Produktivitätsverlust aufwiegt.

Eine Möglichkeit, in neuen Versionen geänderte Nutzungsschnittstellen anzubieten, ohne die eigenen, über Jahre aufgebauten Konventionen zu verletzen, folgt dem Prinzip Heterogenität (siehe Heterogenität), indem die alte und die neue Nutzungsform gleichzeitig angeboten werden. Diesen Weg hat auch Microsoft zumindest teilweise gewählt. Zwar ist es in den Office-2007-Programmen nicht mehr möglich, auch die alten Icon-Leisten anzuzeigen (inzwischen ist dies per Customizing möglich), aber die bereits etablierten Tastenkombinationen sind allesamt erhalten geblieben. Einige Jahre vorher beim Übergang von Windows 3.1 zu Windows 95 hat man wohl ähnliche Probleme befürchtet, denn die Art und Weise der Nutzung ist mit der Einführung des Desktops, der Taskleiste und des Startmenüs recht grundlegend geraten. Microsoft hat deshalb auch den ursprünglichen Programm-Manager als weiter bestehende Alternative angeboten.

Fazit

Konventionen sind, wie wir gesehen haben, nicht immer wohl begründet, jedoch sehr wirksam. Sie verkörpern geronnene Anforderungen aus den Anwendungsbereichen der Software, von der Branche über das Computersystem bis hin zur Kultur. Die relevanten Konventionen zu kennen und sich an sie zu halten, ist daher eine wichtige Abkürzung auf dem Weg zu einer gebrauchstauglichen Gestaltung, aber kein Ersatz für eine situative und beteiligungsorientierte Methodik zur Sicherung der Gebrauchstauglichkeit.

Unsere Forderungen und Beispiele zur ergonomischen Gestaltung bietet gewissermaßen das Grundwissen, das weitestgehend unabhängig von spezifischen Einsatzkontexten ist. Die Orientierung auf Gestaltungskonflikte verbindet dieses Wissen mit den Anforderungen der alltäglichen Gestaltungspraxis. Aus diesem Grund haben wir möglichst viele Beispiele aus täglich breit eingesetzten Softwaresystemen genommen, nicht um die Systeme zu bewerten, sondern um alltagsnahe Beispiele zur Illustration von Designkonflikten und den Möglichkeiten und Mitteln ihrer Austarierung genutzt. Mit dem Übergang von der Software-Ergonomie zur Gebrauchstauglichkeit haben wir angedeutet, dass das Verständnis für und das Austarieren von Gestaltungskonflikten auch bei kontextspezifischen Aspekten hilfreich ist.

Sammlungen guter (hall of fame) und auch weniger guter (hall of shame) Beispiele für ergonomische Lösungen und Praktiken ebenso wie lange Listen von Forderungen an die Gestaltung sind zwar praktisch, doch nicht wirklich konstruktiv, weil sich aus einer Sammlung von Einzelaspekten noch keine Orientierung für die Gestaltung ableiten lässt, die es auch gestattet, das Wissen auf neue technische Umgebungen oder neue Gestaltungskonstellationen zu übertragen.

Gewiss ist dieses Wissen sehr begrenzt und deckt nur einen Teil dessen ab, was man für die Gestaltung von Software und ihren Schnittstellen benötigt. Das ist und wird auch weiterhin begrenzt sein, denn einen Blick in die Zukunft ermöglicht auch der von uns vorgestellte Ansatz nicht. Wohl aber bietet die Betrachtung von Gestaltungskonflikten und der sie verursachenden Forderungen einen Rahmen für begründete Gestaltungshypothesen, die ebenfalls eine Abkürzung im Gestaltungsprozess verkörpern, weil eine begründete Hypothese das Explorieren vieler weiterer Lösungsansätze verringern hilft.

Insgesamt können wir konstatieren, dass wir von einer durchgängigen hypothesengeleiteten Technikgestaltung noch weit entfernt sind, hoffen aber, dass der von uns eingeschlagene Weg auch für andere ein hilfreiches Angebot sein kann.

Schlussbetrachtungen

An dieser Stelle fassen wir unsere bisherigen Aussagen und Empfehlungen zur Software-Ergonomie abschließend zusammen und ordnen sie in einen größeren Kontext ein. Dazu ist es hilfreich, sich noch einmal die verwendeten Begrifflichkeiten vor Augen zu führen.

Übersicht über die Forderungen der Software-Ergonomie
Übersicht über die Forderungen der Software-Ergonomie

Ergonomie – ein Teilgebiet der Arbeitswissenschaft – bezeichnet die wechselseitige Anpassung zwischen dem Menschen an seinen Arbeitsbedingungen, den benutzten Geräten und der Arbeitsumgebung. Mit der EU-Bildschirmrichtlinie (siehe Kapitel X1) wurden zum ersten Mal auch psychische Beeinträchtigungen gesetzlich erfasst und die Angemessenheit von Software in Bezug auf die Verarbeitung von Informationen durch den Menschen gesetzlich verankert.

Da wir uns mit der Gestaltung von Software befassen und nicht mit der Gestaltung von Arbeit, geht es uns darum, Merkmale und Eigenschaften von Software mit ihren spezifischen Wirkungen an der Nutzungsschnittstelle zu untersuchen. Von daher unterscheiden wir kontextabhängige Gestaltungsaspekte von solchen, die vom jeweiligen Anwendungskontext abhängig sind. Aus diesem Grund fassen wir unter dem Begriff Softwareergonomie alle Erkenntnisse zur Produktgestaltung zusammen, deren Wirkungen sich auf Eigenschaften und Merkmale von Software reduzieren lassen. Dabei erkennen wir ausdrücklich an, dass damit bei weitem nicht alle gestaltungsrelevanten Aspekte der traditionellen Ergonomie behandelt werden. Vielmehr verweist der Begriff der Gebrauchstauglichkeit darauf, dass es eine Fülle weiterer relevanter Gestaltungsaspekte gibt, für die im Bereich des Usability Engineering geeignete Methoden, Techniken und Konzepte entwickelt worden sind. Sie können in vielen einschlägigen Publikationen nachgelesen werden. Was uns jedoch bislang fehlt, ist eine einigermaßen kohärente Sicht auf das Zusammenspiel von Produktmerkmalen und den damit einhergehenden Wirkungen in Bezug auf die Verarbeitung von Informationen durch den Menschen.

Das Übergangskapitel zur Gebrauchstauglichkeit (in unserer Gestaltungsübersicht grau hinterlegt) macht deutlich, dass es keine scharfe Trennlinie gibt, denn es gibt eine Fülle nutzungsabhängiger Gestaltungshinweise, die zwar anwendungsbezogen, aber nicht anwendungsspezifisch sind. Es kommt also darauf an, wie groß bzw. wie breit wir den Begriff Kontext und entsprechend (Software-)Ergonomie interpretieren. Fragen des Sprachstils oder der Einhaltung von Konventionen beispielsweise beziehen sich immer auf den Einsatzkontext. Spielesoftware wird in Sprachstil und Duktus anders ausfallen als Verwaltungssoftware. Ähnliches gilt für Konventionen oder kulturspezifische Gestaltungsaspekte. Beispielsweise können Empfehlungen, wie lustige oder ironische Meldungen zu vermeiden oder sie distanziert respektierend (Sie) statt persönlich vertraut (Du) zu formulieren, je nach Zielgruppe zwar unterschiedlich, aber gleichwohl ergonomisch konform ausgestaltet werden.

Ein weiterer wichtiger Aspekt ist die Barrierefreiheit (in der Gestaltungsübersicht ebenfalls grau hinterlegt). Software sollte weitestgehend unabhängig von sensorischen oder motorischen Besonderheiten nutzbar sein. So ist zum Beispiel bei der Farbgestaltung darauf zu achten, dass Bildschirmobjekte und -bereiche auch bei Vorliegen bestimmter Formen von Farbfehlsichtigkeit gleichermaßen gut unterscheidbar sind. Bedingt durch die Fülle möglicher individueller Konstitutionen kommen sehr viele zusätzliche spezifische Aspekte zum Tragen, die eine eigenständige fundierte Behandlung erfordern. Das dazu benötigte Wissen geht deutlich über den vorgestellten Gestaltungsrahmen hinaus.

Doch auch unter den von uns getroffenen Einschränkungen müssen wir feststellen, dass es für den Bereich der visuellen Wahrnehmung keine umfassende und allgemein akzeptierte Theorie menschlicher Informationsverarbeitung gibt, die wir als Grundlage für die Gestaltung nehmen könnten. Jedoch gibt es eine Fülle von Erkenntnissen aus der Psychologie und der Neurologie, die wir uns aber erst mit einer geeigneten Sichtweise selektiv erschließen und für die Gestaltung von Nutzungsoberflächen anpassen müssen. Obwohl neuronale bzw. kognitive Prozesse eine zentrale Rolle spielen, beziehen sich unsere theoretischen Überlegungen und Gestaltungsempfehlungen auf die räumlich-physischen Aspekte des Arbeitsmittels Software, um zu verdeutlichen, welche Wirkungen und Folgen mit bestimmten Gestaltungsalternativen verbunden sind. Diese Bereiche sind in der Gestaltungsübersicht blau hinterlegt.

Die Abgrenzung zwischen Ergonomie und Gebrauchstauglichkeit vollziehen wir also anhand der Überlegung, inwieweit wir die betrachteten Wirkungen verlässlich auf Fragen der Gestaltung technischer Merkmale zurückführen können. Das auf diese Art gewonnene ergonomische Gestaltungswissen sollte zugleich konstruktiv sein, d. h. in theoretische Überlegungen eingebettet und mit Konzepten und Begriffen belegt sein, die es ermöglichen, die gewonnenen Einsichten auch auf neue Gestaltungsaufgaben zu übertragen. Das ist allein mit Check-Listen oder einer empirischen Klassifizierung, wie sie z. B. heuristische Regeln oder auch die Gestaltungsnorm DIN EN ISO 9241 Teil 110 verkörpern, kaum möglich, weil selbst mit einer ergänzenden Sammlung einzelner Gestaltungsbeispiele eine Regel oder eine Gestaltungsempfehlung zwar illustriert werden kann, damit aber kaum kausale Abhängigkeiten und Begründungszusammenhänge offengelegt werden.

Damit stellt sich die Frage, wie sich denn solche kausalen Abhängigkeiten bestimmen lassen, denn wir brauchen sie, um die vielfältigen Designkonflikte angemessen austarieren zu können. Gestaltungskonflikte sind dadurch gekennzeichnet, dass berechtigte Forderungen nur auf Kosten anderer, ebenfalls berechtigter Forderungen umgesetzt werden können. Deshalb ist es typisch für Gestaltungskonflikte, dass sie nicht aufgelöst werden können und sie insofern keine binären Variablen darstellen, die entweder erfüllt sein können oder nicht. Vielmehr kommt es darauf an, gute Gestaltungslösungen zu entwickeln, die festlegen, bis zu welchem Grad welche Anforderungen auf Kosten einer jeweils anderen umgesetzt werden können. Dies ist vergleichbar mit der Verschreibung eines Medikaments, bei dem es darauf ankommt, die Dosierung so zu wählen, dass die negativen Folgen der Nebenwirkungen nicht die gewünschte positive Wirkung überlagern.

Hinter Gestaltungskonflikten stehen verschiedene Forderungen oder Kräfte. Aber wie identifiziert man diese Kräfte oder anders ausgedrückt, wie kommen wir zu Gestaltungsvorstellungen, die es uns ermöglichen zu bestimmen, unter welchen Bedingungen die Wirkung einer Kraft positiv zu sehen ist und wann sie sich eher als hinderlich herausstellt? Da das Zusammenspiel dieser Kräfte je nach Situation unterschiedlich ausfällt, sprechen wir nicht von Gestaltungskriterien, die quasi in Form einer Checkliste abgehakt werden können, sondern bevorzugen den Begriff der Gestaltungsforderung. Um sie präzisieren zu können, müssen wir auf der einen Seite technische Potenziale ermitteln und sie auf der anderen Seite in Beziehung zu grundlegenden Merkmalen der Wahrnehmung und kognitiven Verarbeitung setzen.

Als Grundlage und Ausgangspunkt dient uns das Modell der Kopplung von Handlungs- und Wahrnehmungsraum, d. h. wir betrachten die Nutzungsoberfläche einerseits als Wahrnehmungsraum, in dem Objekte und Strukturen jedweder Art erkannt und unterschieden werden können, und andererseits als Handlungsraum, in dem diese Objekte angeordnet oder verändert werden können. Es geht also nicht um die Bedeutung von Zeichen, sondern um die Frage, welche Handlungsmöglichkeiten digitale Systeme gegenüber analogen Einschreibtechniken für den Umgang mit ihnen anbieten.

Beispielsweise kann bei der Nutzung analoger Technologien ein Punktmuster von einer Person als Ziffer interpretiert werden, die je nach Position im Stellenwertsystem einen bestimmten Wert verkörpert. Dieses In-Beziehung-Setzen von Bildpunkten ist eine Wahrnehmungshandlung der Person, die bestimmte Bildpunkte so zusammenfasst, dass sie als ein sinnvolles Objekt interpretiert werden können. Dieses Objekt hat keine physisch manipulierbare Entsprechung, denn die Ziffer kann nicht als ein Objekt verändert oder bearbeitet werden. Mit technischen Mitteln kann bei analogen Einschreibtechniken nur der Zeichenträger, nicht aber das Zeichen selbst bearbeitet werden. Jeder Akt der Manipulation erzwingt eine Neueinschreibung oder erfordert das Zerschneiden des Papiers, um beispielsweise mehrere Ziffern anders anzuordnen. Handlungs- und Wahrnehmungsraum werden durch die erforderlichen Zusatzhandlungen am Zeichenträger voneinander entkoppelt. Digitale Medien besitzen das Potenzial, diese Barriere zu durchbrechen.

Im Zentrum unserer Überlegungen steht deshalb die Forderung, diese Kopplung möglichst eng zu gestalten. Zu jedem Zeitpunkt sollte während der Nutzung entscheidbar sein, welche Handlung als nächstes jeweils auszuführen ist. Das beinhaltet gleichwohl keine grenzenlose Freiheit, denn es gibt in einer physischen Welt immer zeitliche, stoffliche oder strukturelle Abhängigkeiten, die sich nicht außer Kraft setzen lassen und damit eine gewisse Sequenzialität erzwingen. Um beispielsweise ein Dokument im Netz bereitzustellen, muss man es erst hochladen. Um das tun zu können, muss man es erst schreiben und, um es schreiben zu können, muss man sich zunächst die Schreibmittel beschafft haben usw.

Ein gewisses Maß an Sequenzialität ist also unvermeidbar. Aber es gibt auch viele Situationen, in denen zusätzliche Aktivitäten erforderlich sind, die einer unzureichenden Gestaltung geschuldet sind, also durch schlechtes Design erzwungen werden. Unsere Leitforderung an die Gestaltung von Nutzungsoberflächen lautet deshalb „Reduziere das Maß an erzwungener Sequenzialität“, um festzustellen, wo mentale Handlungsschritte oder physische Manipulationen erforderlich sind, die nicht der jeweiligen Arbeitsaufgabe inhärent sind.

Auch die menschliche Informationsverarbeitung ist inhärent sequenziell. Der entscheidende Grund dafür sind Kapazitätsbeschränkungen. Unsere Sinnesorgane sind bereits sehr selektiv in ihren Fähigkeiten, Umweltunterschiede wahrzunehmen. Sie nehmen aber immer noch weit mehr Informationen auf, als wir im Gehirn verarbeiten können. Im Abschnitt Architektur der Wahrnehmung haben wir die Mechanismen beschrieben, die wir für unseren Gestaltungsansatz benötigen, und gesehen, dass auch in der Evolution fortwährend Konflikte auftreten, denn die vollständige Erfassung der Umgebung geht auf Kosten der Schnelligkeit. Da es für das Überleben wichtig ist, Gefahren möglichst schnell zu erkennen, konzentriert sich unser Wahrnehmungssystem darauf, passende Features möglichst schnell zu erkennen und zunächst weniger relevant erscheinende Wahrnehmungsangebote schrittweise zu erschließen.

Im Kern steht das Konzept der Aufmerksamkeit (siehe Kapitel Architektur der Wahrnehmung), d. h. die Art und Weise, wie das Gehirn steuert, welche Sinnesdaten besonders schnell verarbeitet werden sollen. An den Stellen, wo gesicherte Erkenntnisse über genetische oder kulturell standardisierte Wahrnehmungsmuster vorliegen (z. B. Leseflussrichtung), kann man die Gestaltung an ihnen ausrichten. Die Aufmerksamkeitssteuerung ist jedoch nach heutigem Stand der Forschung weitgehend selbst organisiert (nicht willkürlich) und kann deshalb von uns nicht gestalterisch genutzt werden. Wir wollen das auch nicht, weil die technische Umsetzung einer Entmündigung der Menschen, die das System nutzen, gleichkommt. Wohl aber wissen wir, dass Aufmerksamkeit von außen getriggert werden kann, z. B. über die periphere Wahrnehmung oder durch prä-attentive Merkmale im Wahrnehmungsfeld. Wenn man die Mechanismen dazu kennt, kann man einerseits gestalterisch Ablenkungen reduzieren, die erzwungene Sequenzialität induzieren würden, andererseits aber auch gezielt auf bestimmte Aspekte aufmerksam machen.

Ein weiterer wichtiger Aspekt ist das Aussehen von Objekten sowie ihre Anordnung. Da das Auge ein visuelles Muster nicht wie eine Kamera in einem Stück aufnimmt, sondern durch ruckartige Augenbewegungen (Sakkaden) stufenweise erschließt, muss unser Wahrnehmungssystem ständig entscheiden, wohin es als nächstes seine Aufmerksamkeit richtet. Zwischen diesen Bewegungen liegen die Fixationspunkte, die recht klein sind, aber eine wichtige Entscheidungsgrundlage für die „Hypothesenbildung“ in der Wahrnehmung liefern, wohin sich die Aufmerksamkeit als nächstes am besten richten sollte. Da diese Verarbeitungsprozesse die Grundlage für alle weiteren Wahrnehmungsaktivitäten bilden, ist die Geschwindigkeit auf dieser Stufe des Erkennens der entscheidende Faktor. Das zeigt sich darin, dass sich im Laufe der Evolution spezielle neuronale Verschaltungen in der Retina und im visuellen Kortex herausgebildet haben, in denen optische Muster, die sich in der Entwicklung als erfolgreich für die Hypothesenbildung erwiesen haben, gewissermaßen automatisch verarbeitet werden, bevor das Resultat zur Weiterverarbeitung an andere Hirnregionen geleitet wird. Die Steuerung der Augenbewegungen ist zwar erfahrungsabhängig erfolgt, aber auf der untersten Stufe unbewusst oder besser vor-bewusst. Ein Verstoß bei der visuellen Gestaltung von Nutzungsoberflächen gegen diese Mechanismen stört den Wahrnehmungsprozess erheblich bzw. kann ihn umgekehrt bei guter Gestaltung entsprechend unterstützen. Deshalb ist es wichtig zu wissen, dass man unter anderem durch die Bereitstellung von Zusatzinformationen an einem Fixationspunkt Erkundungsbewegungen unterstützen kann. Die Forderungen, zu denen wir entsprechende Beispiele für die Gestaltung statischer Wahrnehmungsräume und den dabei auftretenden Gestaltungskonflikten behandelt haben, sind in unserer Gestaltungsübersicht im Kasten Präsentation aufgeführt.

Die Forderung nach einer möglichst engen Kopplung von Handlungs- und Wahrnehmungsraum durch die Reduzierung erzwungener Sequenzialität gilt auch für höhere Stufen der kognitiven Verarbeitung, die erforderlich sind, um die Handlungen mit dem Softwaresystem verlässlich ausführen und die Konsequenzen verstehen zu können. Gemäß unseres Abschnitts „Differenzerfahrung und Artefaktgebrauch“ ist das Verstehen eines Interaktionsschritts unauflösbar an Rückmeldung gekoppelt. Dabei betrachten wir nicht komplexe Verstehens- und Lernprozesse, die nach unserer Auffassung aufgrund der vielen Einflussfaktoren in der jeweiligen Nutzungssituation nicht über kontextfreie gestalterische Maßnahmen verlässlich beeinflusst werden können. Vielmehr geht es darum, die Voraussetzungen für die Verständnisbildung zu schaffen. Die von uns betrachteten Forderungen sind somit gestalterisch notwendige, aber bei weitem nicht hinreichende Bedingungen; sie sollen die Voraussetzung schaffen, dass solche Verständnis- und Lernprozesse sich in der Nutzung überhaupt erst entfalten können.

Die Forderung nach Lokalität beispielsweise soll verhindern, dass Rückmeldungen übersehen werden, weil sie nicht am Ort der Handlung auftreten. Können sie nur durch ein zuvor stattgefundenes Training an der gewählten Stelle gefunden werden oder muss die Aufmerksamkeit durch einen zusätzlichen Verweis auf sie gelenkt werden, beinhaltet dies ein erhebliches Maß an erzwungener Sequenzialität.

In Bezug auf die Eingabe konzentrieren wir uns bei der Software-Ergonomie weitgehend auf diskrete Handlungsschritte (Interaktionssequenzen), die kein spezifisches Wissen über die Dynamik analoger Handlungsausführungen im Körper des Menschen erfordern. Zwar gibt es für analoge Handlungen psychologische und arbeitswissenschaftliche Erkenntnisse, doch zeigt das Beispiel „Fitts’s Law“ – das gelegentlich als einziges (Natur-)Gesetz der Software-Ergonomie bezeichnet wird –, dass sein Gestaltungswert trotz des hohen damit verbundenen Umsetzungsaufwandes für eine kontextfreie Gestaltung sehr begrenzt ist.

Da sich diskrete Handlungsschritte auf die Möglichkeiten beziehen, die die Software bereitstellt, sind sie zum Zeitpunkt der Entwicklung analytisch gut zugänglich. So kann man beispielsweise der Forderung nach Eingabeminimalität dadurch nachkommen, dass man untersucht, ob ein bestimmter Zielzustand ohne Einschränkungen auch mit weniger Interaktionsschritten erreicht werden kann. Anders verhält es sich beispielsweise bei der Auswahl eines Objekts, das von anderen überlagert wird. In diesem Fall geht es weniger um das Ausnutzen motorischer Feinheiten, sondern darum, wie mit einer möglichst geringen Zahl von Zusatzschritten das zu selektierende Objekt spezifiziert werden kann (Präzision).

Schließlich ist bei der Gestaltung auch zu berücksichtigen, dass durch eine Eingabe ein aufwändiger oder komplexer Prozess mit vielen Nebeneffekten und einem längeren Zeitbedarf angestoßen werden kann. Obwohl oder gerade weil die Logik des Ablaufprozesses durch das technische System determiniert ist, gilt es umso mehr, geeignete Mechanismen vorzusehen, die bei der Nutzung die Handlungsautonomie fördern. Gerade bei Fehleingaben oder bei unvorhersehbaren Latenzen kann andernfalls ein erheblicher Mehraufwand entstehen. Die damit verbundenen Forderungen haben wir deshalb unter dem Stichwort Prozess aufgeführt.

Neben der Präsentation und der Interaktion gibt es den übergreifenden Bereich der Orientierung. Die Forderungen und Designkonflikte, die wir in diesem Bereich betrachten, kommen dadurch zustande, dass wir es bei fast allen Arten von Softwaresystemen nicht nur mit einem statischen Handlungsraum und einem Wahrnehmungsraum zu tun haben, sondern mit vielen. Aufgrund begrenzter Displays kann immer nur ein begrenzter Ausschnitt aller Daten und Operationen angezeigt werden. Damit man sich bei der Nutzung aufgrund mangelnder Orientierung nicht in dieser Fülle von Möglichkeiten verliert oder lange Umwege gehen muss, um das Ziel zu erreichen, braucht es zusätzliche Mittel. Zur Unterstützung der Orientierung haben wir drei grundlegende Forderungen aufgeführt, die, über die je aktuellen Handlungs- und Wahrnehmungsgrenzen hinaus, sich jeweils auf Beziehungen zwischen vielen Objekten und Gegebenheiten beziehen:

  • Erschließbarkeit: die Beziehung zwischen sichtbaren und nicht sichtbaren Objekten,
  • Konsistenz: die Beziehung zwischen Objekteigenschaften und semantischen Eigenschaften und
  • Kontinuität: die Beziehung zwischen der Abfolge von Handlungen und der Veränderung in der Sichtbarkeit der Dinge.

Letztlich zeigt sich auch in diesem Bereich wieder, dass Bildschirmobjekte und -strukturen nicht als individuelle Elemente gestaltet werden sollten, sondern im gesamten Ensemble.

Im letzten der in der Gestaltungsübersicht blau dargestellten Gestaltungsbereiche wird die Vielfalt der Einsatzkontexte in den Fokus gerückt. So kann man beispielsweise bezüglich der Nutzung weder einheitliche Kenntnisstände voraussetzen oder gleiche Vorlieben und Fertigkeiten annehmen noch im Voraus die individuelle Entwicklung einer Person während einer teilweise länger andauernden Nutzungszeit abschätzen. Um ergonomisch robust für diese Unterschiedlichkeit gestalten zu können, betrachten wir unter dem Stichwort Flexibilität zwei Forderungen mit den entsprechenden Konflikten und Gestaltungshinweisen.

Bei der Anpassbarkeit betrachten wir die Bereitstellung von Mechanismen, um das Aussehen von Objekten oder die Abfolge von Interaktionsschritten während der Nutzungszeit zu ändern. Entscheidend ist, dass diese Anpassungen auch gespeichert werden können und damit das System individuell und situativ einstellbar und nutzbar ist. Allerdings wird auch deutlich, dass die Frage, bis zu welchem Grad welche Konzepte der Anpassbarkeit anzubieten sind, mit dem Nutzungskontext variiert.

Bei der Heterogenität steht die Vielfalt möglicher Handlungsabfolgen im Fokus. Wie und auf welche Weise beispielsweise ein Wert in einem System eingegeben werden kann, sollte, solange das Handlungsziel nicht gefährdet ist, während der Nutzung entscheidbar sein. Diese Varietät kann sich sowohl auf die Auswahl der Eingabemethode als auch auf das Format von Objekten beziehen. Die Auswahl für die jeweilige Möglichkeit erfolgt während der Nutzungszeit; Anpassungen am System sind damit nicht verbunden.

Zusammenfassend gilt es festzuhalten, dass das von uns vorgestellte ergonomische Wissen nicht statisch ist, sondern fortwährend überprüft, erweitert oder auch in Teilen korrigiert werden muss. Technische Innovationen ebenso wie neue Erkenntnisse über die Informationsverarbeitung beim Menschen ermöglichen neue Konzepte und Gestaltungsansätze. Die vorgestellten Forderungen, Konflikte und Empfehlungen sind als praktische Handreichung und – auf diesen Erfahrungen basierend – auch als weiter zu entwickelnder Gestaltungsansatz gedacht. Er umfasst zwar nur einen kleinen Kern aller möglichen Forderungen an die Gestaltung von Benutzungsoberflächen, die aber in nahezu allen Gestaltungsvorhaben auftauchen.

Exkurse

In diesem Abschnitt mit mehreren Exkursen stellen wir einige zusätzliche Aspekte vor, die bei der Arbeit im Ergonomie-Bereich hilfreich, aber für die Verständnisbildung nicht erforderlich sind.

Das erste Exkurskapitel beschäftigt sich mit der gesetzlichen Grundlage für die ergonomische Gestaltung von Software. Wir behandeln in diesem Kapitel auch die wichtige ISO-Norm 9241. Wir stellen die für die Software-Ergonomie relevanten Normenteile vor und werfen abschießend einen genaueren Blick auf den häufig zitierten Normteil 110, den wir mit den Erkenntnissen unseres Ansatzes im Hintergrund einordnen.

Die weiteren Exkurskapitel behandeln Ansätze, die zwar auch einen Beitrag zur ergonomischen Gestaltung leisten können, denen aber problematische Annahmen zugrunde liegen und denen deshalb aus unserer Sicht eine zu große Wichtigkeit zugestanden wird. Dazu gehören sowohl Vorstellungen zur Wichtigkeit von Metaphern und der universellen Forderung nach Konsistenz im Gestaltungsprozess ebenso wie Modellierungsvorstellungen, bei denen die Nutzungsschnittstelle des Computers mit einem Dialog zwischen Mensch und Maschine betrachtet wird.

Die kurze Einführung in das Thema Farbmodelle hat hingegen einen pragmatischen Grund. Wir stellen dort einige Alternativen zum üblichen RGB-Modell vor. Sie sollen helfen, die in den Praxiskapiteln behandelten Empfehlungen zu Farbabstufungen in Helligkeit und Sättigung umzusetzen.

Exkurs: Gesetze und Normen

Ergonomisch gestaltete Software unterstützt und entlastet nicht nur die Nutzer, sondern verbessert auch die Effizienz der Nutzung. Sie verursacht dadurch auch weniger Support-Anfragen. Ergonomische Gestaltung ist jedoch nicht nur ethisch geboten und wirtschaftlich sinnvoll, sondern auch gesetzlich vorgeschrieben. Software-Ergonomie ist Teil der Gesetzgebung im Bereich Gesundheitsschutz am Arbeitsplatz, denn unzureichend gestaltete Software kann ernsthafte physische und psychische Belastungen verursachen. Es ist die Intention des Gesetzgebers, dem vorzubeugen. Regelungen zum Gesundheitsschutz im Arbeitsumfeld finden sich in drei Bereichen der Gesetzgebung:

  • Das Wettbewerbsrecht soll verhindern, dass sich einzelne Unternehmen auf Kosten der Gesundheit der Arbeitnehmer einen Vorteil verschaffen können bzw. umgekehrt, dass Unternehmen, die den Gesundheitsschutz ernst nehmen, dadurch wirtschaftlich benachteiligt werden.
  • Im Rahmen der Sozialgesetzgebung geht es darum, durch Vorschriften zur Arbeitssicherheit Arbeitsunfälle und gesundheitliche Beeinträchtigungen durch Vorbeugemaßnahmen zu vermeiden und damit verbunden die Folgen zu minimieren.
  • Im Betriebsverfassungsgesetz (BetrVG) bzw. in den Personalvertretungsgesetzen (BPersVG und PersVGe) der Länder sind Regelungen zur Mitbestimmung bei der Gestaltung von Arbeitsplätzen und der Umstellung von Arbeitsabläufen insbesondere in Bezug auf den Gesundheitsschutz verankert.

Eine Charakteristik gesetzlicher Regelungen zum Gesundheitsschutz war – insbesondere bei der Mitbestimmung – lange Zeit die Tatsache, dass dieser sehr defensiv als nachlaufender Schutz gehandhabt wurde. „Nachlaufend“ bedeutet, dass erst gesicherte Erkenntnisse vorliegen mussten, bevor man in einer problematischen Situation auf Abhilfe dringen konnte:

Betriebsverfassungsgesetz § 91 Mitbestimmungsrecht

Werden die Arbeitnehmer durch Änderungen der Arbeitsplätze, des Arbeitsablaufs oder der Arbeitsumgebung, die den gesicherten arbeitswissenschaftlichen Erkenntnissen über die menschengerechte Gestaltung der Arbeit offensichtlich widersprechen, in besonderer Weise belastet, so kann der Betriebsrat angemessene Maßnahmen zur Abwendung, Milderung oder zum Ausgleich der Belastung verlangen. Kommt eine Einigung nicht zustande, so entscheidet die Einigungsstelle. Der Spruch der Einigungsstelle ersetzt die Einigung zwischen Arbeitgeber und Betriebsrat.

Formulierungen wie „besonders belastend“ und „offensichtlich“ drücken die Tendenz schon aus. Doch erst in Kombination mit dem Ausdruck „gesicherte” arbeitswissenschaftliche Erkenntnisse entfalten sie vollends ihre bremsende Wirkung, denn bis eine wissenschaftliche Erkenntnis auch als gesicherte wissenschaftliche Erkenntnis betrachtet werden kann, können mitunter viele Jahre ins Land gehen. Ab wann galt es beispielsweise für Gerichte als gesichert, dass Rauchen und auch passives Rauchen die Gesundheit gefährdet? Ist man auf 100 Prozent gesicherte Erkenntnis fixiert, können auch Jahrzehnte ins Land gehen. Im schnelllebigen IT-Zeitalter wäre das ein viel zu großer Zeitraum.

Europäischer Gesundheitsschutz

Über die Integration des europäischen Wirtschaftsraums (zunächst Montan-Union, dann Europäische Wirtschaftsgemeinschaft (EWG), dann Europäische Gemeinschaft (EG) und schließlich Europäische Union (EU)) wurden Regeln, wie die oben skizzierten, europaweit zu einem vorbeugenden Gesundheitsschutz ausgebaut. Schon der Gründungsvertrag der Europäischen Wirtschaftsgemeinschaft aus dem Jahr 1975 beschreibt in seinem Artikel 117 die Verbesserung der Lebens- und Arbeitsbedingungen als ein Ziel. Im Jahre 1986 wurde der Vertrag um Artikel 118a ergänzt, um Sicherheit und Gesundheit der Arbeitnehmer zu fördern und nationale Regelungen zum Arbeitsschutz zu harmonisieren. 1989 folgte dann die Rahmenrichtlinie „Maßnahmen zur Verbesserung der Sicherheit und des Gesundheitsschutzes der Arbeitnehmer bei der Arbeit“ (89/391/EWG). Die Präambel dieser Rahmenrichtlinie führt aus:

Die Arbeitgeber sind verpflichtet, sich über den neuesten Stand der Technik und der wissenschaftlichen Erkenntnisse auf dem Gebiet der Gestaltung der Arbeitsplätze zu informieren, um etwa erforderliche Änderungen vorzunehmen und damit eine bessere Sicherheit und einen besseren Gesundheitsschutz der Arbeitnehmer gewährleisten zu können.

Im Gegensatz zu einem nachlaufenden Gesundheitsschutz ist nicht mehr von „gesicherten“ Erkenntnissen die Rede, sondern es muss der „neueste Stand“ der Technik berücksichtigt werden. Auch präventive Regelungen werden deutlich ausgebaut, damit die Ursachen für mögliche Probleme vor ihrem Auftreten behoben werden können. Arbeitgeber sind zudem verpflichtet, sich in Eigeninitiative zu informieren.

Spezifische Regelungen zu den praktischen Implikationen der Rahmenrichtlinie finden sich in einer Reihe von Einzelrichtlinien. Für uns von Belang ist die fünfte dieser Richtlinien, „Arbeiten mit Bildschirmgeräten“ (90/270/EWG), meist kurz „Bildschirmrichtlinie“ genannt. Diese Richtlinie legt Mindestvorschriften in Bezug auf die Sicherheit und den Gesundheitsschutz bei der Arbeit an Bildschirmgeräten fest. Der Begriff Bildschirmgerät ist dabei recht weit gefasst und umfasst nahezu alle interaktiven Geräte mit einem Display.

Eine europäische Richtlinie muss von den nationalen Parlamenten der Europäischen Union in das jeweilige Landesrecht umgesetzt werden. Die EU-Rahmenrichtlinie wurde in Deutschland durch die Reform des Arbeitsschutzgesetzes umgesetzt; das deutsche Pendant zur Bildschirmrichtlinie ist die Bildschirmarbeitsverordnung. Im Jahre 2016 entschloss sich der Gesetzgeber, diese Einzelverordnung abzuschaffen und die entsprechenden Regelungen stattdessen als Anhang 6 direkt in das Arbeitsschutzgesetz zu integrieren. In Bezug auf die Regelungen der Bildschirmrichtlinie haben sich keinerlei nennenswerte Änderungen ergeben.

Zur Mensch-Maschine-Schnittstelle führt die Bildschirmrichtlinie der EU folgende Mindestvorschriften auf:

Bei Konzipierung, Auswahl, Erwerb und Änderung von Software sowie bei der Gestaltung von Tätigkeiten, bei denen Bildschirmgeräte zum Einsatz kommen, hat der Arbeitgeber folgenden Faktoren Rechnung zu tragen:

  • Die Software muss der auszuführenden Tätigkeit angepasst sein.
  • Die Software muss benutzerfreundlich sein und gegebenenfalls dem Kenntnis- und Erfahrungsstand des Benutzers angepasst werden können.
  • Die Systeme müssen den Arbeitnehmern Angaben über die jeweiligen Abläufe bieten.
  • Die Systeme müssen die Information in einem Format und in einem Tempo anzeigen, das den Benutzern angepasst ist.
  • Die Grundsätze der Ergonomie sind insbesondere auf die Verarbeitung von Informationen durch den Menschen anzuwenden.

Diese Aufzählung wirkt in ihrer Zusammenstellung etwas eigentümlich. Größtenteils wird auf die Anpassbarkeit von Software eingegangen, doch finden sich auch sehr allgemeine Hinweise in Bezug auf Anzeigeformate und Anzeigetempo. Interessant für uns ist vor allem der letzte Punkt, der auf die „Grundsätze der Ergonomie“ verweist. Solche Grundsätze sind u. a. in der ISO-Norm 9241 „Ergonomie der Mensch-System-Interaktion“ niedergelegt. Wir werden sie weiter unten genauer betrachten.

Zwei neue Qualitäten

Die EU-Bildschirmrichtlinie bringt zwei neue Qualitäten mit sich, die in den bis dahin geltenden nationalen Regelungen keine Rolle gespielt haben.

1. Vorbeugender Gesundheitsschutz

Der vorbeugende Gesundheitsschutz umfasst entsprechend der Verordnung eine Reihe von Punkten:

  • Orientierung am neuesten Stand der Erkenntnisse: Eine potenzielle Gefahr muss nicht erst nachgewiesen sein, um vermieden zu werden. Zur Vorbeugung gehört es daher auch, Maßnahmen zu treffen, wenn es nur hinreichende Anzeichen für Gefahren gibt.
  • Umfassende Aufklärungspflicht: Gesundheitsschutz darf keine Geheimsache des Arbeitgebers sein. Die Arbeitnehmer müssen daher über die Maßnahmen zum Gesundheitsschutz und die Gefahren am Arbeitsplatz aufgeklärt werden.
  • Verbesserte Mitbestimmungsmöglichkeiten: Neben den Pflichten zur Unterrichtung und Unterweisung der Arbeitnehmer sind auch entsprechende Mitwirkungsregelungen festgelegt worden.
  • Präventivmaßnahmen: Um vorbeugend schützen zu können, ist grundsätzlich die Untersuchung des Arbeitsplatzes auf mögliche Gefahren erforderlich. Dies ist bei gravierenden Änderungen zu wiederholen. Erkannte Gefahren müssen entsprechend beseitigt werden. Weitere Präventivmaßnahmen sind das Angebot betriebsärztlicher Untersuchungen. Beispielsweise besteht ein Anspruch der Arbeitnehmer auf regelmäßige Augenuntersuchungen.
  • Kontinuierliche Zyklen: Wichtiger Bestandteil des präventiven Gesundheitsschutzes ist sein zyklischer Charakter. Es reicht nicht, einen Arbeitsplatz einmal für gut zu befinden und dann nie wieder zu betrachten. Analyse (Finden von Problemen), Bewertung (Bestimmen von Verbesserungsmöglichkeiten), Dokumentation und Umsetzung müssen regelmäßig wiederholt durchgeführt werden.
2. Vermeidung psychischer Belastungen

Die zweite wichtige neue Qualität des europäischen Gesundheitsschutzes ist die Anerkennung psychischer Belastungen. Vorherige Regelungen ließen diesen Aspekt außer Acht und beschränkten Gesundheit auf physische Unversehrtheit. Psychische Belastungen können mannigfaltig sein. Die Norm DIN EN ISO 10075-1 definiert psychische Belastungen als die von außen auf die Psyche einwirkenden Faktoren. Diese ergeben sich aus den Arbeitsbedingungen, beispielsweise:

  • der Arbeitsaufgabe (Art und Umfang der Tätigkeit),
  • der Arbeitsumgebung (zum Beispiel Lärm, Blendungen),
  • der Arbeitsorganisation (zum Beispiel Arbeitszeit, Arbeitsabläufe) und
  • den sozialen Komponenten (zum Beispiel Führungsstil, Betriebsklima).

Arbeitsaufgaben, Klima oder auch soziale Komponenten liegen außerhalb der Software-Ergonomie. Die Gestaltung von Software hat jedoch einen großen Einfluss auf die Arbeitsumgebung und die Arbeitsorganisation. Schlechte Gestaltung kann zu einer psychischen Belastung werden. Die Nutzer sind unzufrieden, gestresst oder entwickeln sogar körperliche Symptome.

Ein Blick auf die DIN-EN-ISO 9241

Durch die Referenzierung in Gesetzen und Verordnungen kommt der ISO-Norm 9241 „Ergonomie der Mensch-System-Interaktion“ eine besondere Rolle zu. Besonders die Teile 110 „Interaktionsprinzipien“ und 112 „Grundsätze der Informationsdarstellung“ werden häufig betrachtet, da sie sehr allgemeine Grundsätze und Prinzipien enthalten. Andere Normenteile beziehen sich konkreter auf spezielle Interaktionstechniken. Gerade an diesen Stellen gehen die Vorgaben der Norm oft über das hinaus, was wir in diesem Buch etwa zu Menüs oder Formularen zu sagen haben.

Insgesamt macht es doch wenig Sinn, die ISO-Norm 9241 mit diesem Lehrbuch zu vergleichen, denn das Ziel der Norm ist ebenso wenig das Schaffen eines zusammenhängenden, operationalisierbaren Wissens über Nutzungsschnittstellengestaltung, wie es das Ziel dieses Buchs ist, alle Bereiche der Nutzungsschnittstellengestaltung abzudecken und mit Regeln zu belegen.

Die ISO-Norm 9241, in der deutschen Fassung in ganzer Länge DIN EN ISO 9241, war nicht immer derart umfangreich. Sie hatte zunächst den Titel „Ergonomische Anforderungen für Bürotätigkeiten mit Bildschirmgeräten“ und bestand aus 17 Teilen. Die ältesten Teile der aktuell geltenden Norm stammen aus dem Jahr 1993. Jeder Teil der Norm wird alle fünf Jahre überprüft und falls notwendig aktualisiert, was dann wiederum ca. fünf Jahre dauert. Im Rahmen dieser Aktualisierung wurde der Geltungsbereich der Norm im Jahre 2006 erheblich erweitert, was sich auch im neuen Titel „Ergonomie der Mensch-System-Interaktion“ widerspiegelt. Die Norm beschränkt sich also nicht mehr auf den klassischen Computereinsatz im Büro, sondern umfasst auch Bereiche der privaten Nutzung und neue Ein- und Ausgabetechniken wie zum Beispiel VR-Brillen.

Die einzelnen Normenteile haben sehr unterschiedlichen Charakter. Einige beziehen sich sehr konkret auf die technische Gestaltung, andere geben einen sehr allgemeinen Rahmen vor. Hier ein paar interessante Normenteile in Kürze:

Teil 125 (Informationsdarstellung) ist einer der längsten Teile der Norm. In ihm werden viele der Techniken angesprochen, die wir unter Präsentation besprochen haben, allerdings ohne sie von einer theoretisch-konzeptuellen Grundlage abzuleiten. An vielen Stellen ist dieser Teil der Norm ausführlicher und fasst bereits bekannte Designspezifika zusammen. Es sind zum Beispiel umfangreiche Hinweise zur Formatierung von Zahlen in Tabellen enthalten.

Die Teile 14 und 143 geben konkrete Gestaltungshinweise zu den Themen Menüs und Formulare. Ein Blick in diese Normenteile lohnt sich, denn die Ausführungen und Tipps gehen über den Rahmen Ausführungen in diesem Buch hinaus.

Von deutlich anderem Charakter als die vorgenannten Teilnormen ist Teil 161 der ISO 9241. Hier werden Nutzungsschnittstellen nicht in verschiedene „Dialogtechniken“ eingeteilt, sondern dieser Normenteil beschreibt im Detail die Elemente aktueller, WIMP-basierter Nutzungsschnittstellen.

Die Teile 300 und 303 der Norm beschreiben viele ergonomische Anforderungen an Bildschirmdarstellungen. Die meisten dieser Anforderungen, etwa die über Bildwiederholfrequenzen, sind für uns als Softwareentwickler weniger interessant. Ausnahmen sind Hinweise zu Zeichengrößen und zu Bildauflösungen. Die für uns wichtigen Aspekte haben wir ebenfalls im Bereich Präsentation behandelt.

Die „Interaktionsprinzipien“

Teil 110 der ISO 9241 ist der am häufigsten referenzierte Teil im Bereich der Software-Ergonomie. Er beschreibt sieben recht allgemeine Prinzipien, die ein Software-System erfüllen muss. Für jeden der Grundsätze werden grundlegende Anforderungen definiert, die dann mit Beispielen erläutert werden. Entstanden sind diese Grundsätze bereits in den 1980er Jahren in der Bundesrepublik auf der Grundlage empirischer Befragungen, in denen in einer großen Sammelaktion „Beschwerden“ über Probleme im Umgang mit Software erhoben worden sind. Auf der Grundlage dieser Sammlung wurden mit Hilfe der Faktorenanalyse Cluster gebildet, in denen nur Probleme enthalten sind, die unabhängig von den jeweils anderen aufgetreten waren. Für diese Cluster wurden möglichst inhaltsneutrale Bezeichnungen gewählt. Die fünf statistisch so ermittelten Cluster bildeten die „Grundsätze ergonomischer Dialoggestaltung“ in der ersten Norm (damals noch DIN 66235, Teil 8). Mit der Weiterentwicklung und Internationalisierung des Normenwerks zur ISO 9241 wurden später im entsprechenden Teil 110 zwei weitere Grundsätze hinzugefügt. Die neueste Überarbeitung der Norm stammt aus dem Jahre 2020. Aus den „Grundsätzen der Dialoggestaltung“ wurden nun „Interaktionsprinzipien“. Innerhalb der Prinzipien wurde ein bisschen umgeräumt, um Platz für das neue Prinzip „Benutzerbindung“ zu schaffen. Die sieben Prinzipien lauten nach aktuellem Stand Aufgabenangemessenheit, Selbstbeschreibungsfähigkeit, Erwartungskonformität, Erlernbarkeit, Steuerbarkeit, Robustheit gegen Benutzungsfehler und Benutzerbindung.

Betrachtet man die „Interaktionsprinzipien“ (Teil 110) und nimmt noch die „Grundsätze der Informationsdarstellung“ (Teil 112) mit hinzu, finden sich sehr viele Hinweise und Beispiele, die auch in diesem Lehrbuch zur Ergonomie vorkommen. Aus der Struktur der Norm für sich lassen sich keine gestaltungsleitenden Konsequenzen für den Aufbau eines Lehrbuchs ableiten. Wir wollen dies am Beispiel „Robustheit gegen Benutzungsfehler“ illustrieren, denn an diesem Grundsatz lässt sich der empirisch begründete Sammlungscharakter dieses Normteils gut verdeutlichen.

Unter Robustheit gegen Benutzungsfehler sind all die Aspekte eingeordnet, bei denen es um Fehler und den Umgang mit ihnen geht. Benutzungsfehler definiert die Norm als „Benutzerhandlung oder Unterlassung einer Handlung während der Nutzung eines Systems, eines Produkts oder einer Dienstleistung, die zu einem anderen Ergebnis führt, als vom Hersteller angestrebt oder vom Benutzer erwartet“. Diese Definition ist sehr breit, wie die nachfolgenden Beispiele zeigen, die in der Norm zur „Robustheit gegen Benutzungsfehler“ angeführt sind:

Ein Online-Formular informiert im oberen Formularbereich darüber, dass das Formular nicht korrekte Einträge enthält. Außerdem wird jedes Feld mit einer nicht korrekten Eingabe markiert.

In einer Rechtschreibprüfung werden fehlerhafte Wörter markiert. Die Rechtschreibprüfung bietet die Auswahl einer oder mehrerer Versionen des falsch geschriebenen Wortes, wobei der Benutzer die Möglichkeit hat, eine andere korrigierte Version des Wortes einzugeben oder die Schreibweise des Wortes zu akzeptieren, auch wenn die Rechtschreibprüfung dieses nicht erkennt.

Ein Reservierungssystem mit Meldungsausgabe liefert eindeutige Meldungen wie „Der von Ihnen gewählte Zug steht am 25. Dezember bei dieser Verbindung nicht zur Verfügung. Verfügbar ist er am 23. Dezember sowie am 26. Dezember. Bitte wählen Sie einen anderen Zug, ein anderes Datum oder eine andere Verbindung“.

Zwar geht es in allen drei Beispielen um Fehler, doch liegen diese auf ganz verschiedenen Ebenen. Im ersten Fall geht es um eine fehlerhafte Eingabe in dem Sinne, dass sie bei der Modellierung des Systems nicht vorgesehen wurden und somit eine weitere Verarbeitung nicht möglich ist. Das ist im Fall der Rechtschreibprüfung ganz anders. Wird in einem Text „nähmlich“ mit einem „h“ rot unterschlängelt, haben wir keinen Interaktionsfehler im Sinne einer nicht verarbeitbaren Eingabe. Das h ließe sich ohne Probleme eingeben und könnte so auch im Text verbleiben, ohne dass es im weiteren Ablauf zu Nutzungsproblemen käme. Ein Fehler ist diese Rechtschreibanomalie nur auf der Aufgabenebene. Im letzten Fall schlussendlich ist die Eingabe eigentlich überhaupt nicht falsch. Es handelt sich weder um eine nicht verarbeitbare und in diesem Sinne falsche Eingabe, noch ist es von der Aufgabenstellung her falsch, am ersten Weihnachtsfeiertag mit dem Zug fahren zu wollen. Der Fehler liegt darin, dass das, was da jemand will, nicht erfüllbar ist. Gestalterisch haben diese drei Fehlerarten nichts miteinander zu tun.

Nehmen wir noch ein anderes Beispiel, um das Problem zu verdeutlichen: Unsere Aufgabe soll es sein, mit Hilfe eines Grafikprogramms die abgebildete Grafik in eine französische Flagge zu verwandeln, also die Flächen entsprechend mit den Grafikwerkzeugen farblich zu füllen. Bei dieser Aufgabe können mehrere Fehler passieren. Dazu einige Beispiele:

  1. Wir haben das Füllwerkzeug gewählt, es wurde jedoch keine Farbe ausgesucht, mit der gefüllt werden soll. Wenn wir in einen der Bereiche klicken, um ihn einzufärben, zeigt die Software eine Fehlermeldung.
  2. Wir haben die Farbe Blau ausgewählt, sind bei der Positionierung des Mauszeigers jedoch unpräzise und färben den mittleren Streifen blau.
  3. Wir haben die französische mit der italienischen Flagge verwechselt und daher mit großer Begeisterung eine grüne Farbe ausgesucht und den linken Streifen grün gefärbt.

In allen drei Fällen ist ein Fehler passiert und man kann diese Fehler auch durchaus „Benutzungsfehler“ nennen. Diese Fehler sind jedoch sehr unterschiedlicher Art. Im ersten Fall haben wir das Programm im Sinne des Interaktionsmodells falsch bedient, sodass die Funktion nicht ausgeführt werden konnte. Im zweiten Fall war das zugrundeliegende Modell korrekt, doch die Ausführung unsererseits fehlerhaft. Im dritten Fall ist die Interaktion fehlerfrei abgelaufen. Das Ergebnis ist aber inhaltlich falsch. Nun kann man all dieses unter „Benutzungsfehler“ einsortieren und sich überlegen, wie man das Problem gestalterisch so lösen kann, dass diese Fehler nicht mehr auftreten oder sich ihr Auftreten deutlich verringert. Doch weder lassen sich übergreifende gemeinsame Begründungszusammenhänge formulieren, noch ist es möglich, einheitliche Gestaltungshinweise zu formulieren, die in all diesen Fehlerklassen gleichermaßen wirken.

Quintessenz

Unser Ergonomieansatz mit der Leitforderung nach der Reduzierung erzwungener Seqzenzialität, mit den in Designkonflikten verwobenen Einzelforderungen und mit unserem starken Fokus auf eine robuste Gestaltung lässt sich nicht durch eine Auseinandersetzung mit der Norm ersetzen. Umgekehrt kann dieses Lehrbuch den Umfang und die Vielseitigkeit der über Jahre gewachsenen Norm, die fast alle nur erdenklichen Aspekte der Nutzungsschnittstellengestaltung behandelt, nicht abdecken. Beide ergänzen sich in diesem Sinne wechselseitig; ein Blick gerade in die spezielleren Normenteile lohnt sich daher grundsätzlich.

Wenn Sie unseren Ansatz mit seinen Forderungen und Beispielen betrachten und sich die Prinzipien und Grundsätze aus den Normenteilen 110 und 112 anschauen, werden sie Vieles wiedererkennen. Sie können sich jeweils überlegen, ob, wo und wie das jeweilige Beispiel und das jeweilige Ziel in unser Schema passen. Vermutlich eröffnet sich dabei noch der eine oder andere zusätzliche Aspekt. Wenn Sie unseren Ansatz beherzigen und danach gestalten, werden Sie auch nach ISO 9241-110 und 112 gut gestalten. Umgekehrt wäre es weitaus schwieriger, denn die Norm fordert nur. Sie erklärt nicht, sie konstruiert keine Zusammenhänge und sie hilft nicht, konkurrierende Anforderungen abzuwägen. Nehmen Sie die Norm daher nicht als Alternative, sondern als willkommene Ergänzung für eine ergonomischere Gestaltung von Nutzungsschnittstellen.

Exkurs: Metaphern

Die Verwendung von Metaphern und die Wahl der richtigen Metapher für eine Software-Anwendung werden vielfach als eine der wichtigsten Techniken für gut nutzbare Software angesehen. Die Idee hinter dem Einsatz von Metaphern ist, mit Hilfe einer Analogie zu etwas Bekanntem Unbekanntes einfacher erschließbar und verständlich zu gestalten. Ein typisches Beispiel für eine Metapher ist der elektrische Stromfluss, bei dem eine Analogie zu Flüssigkeiten hergestellt wird. Anhand dieses Beispiels lassen sich auch die Probleme und Grenzen von Metaphern verdeutlichen. Wenn die Grundaspekte elektrischer Stromkreise verstanden sind, kann die Metapher helfen, sich einige Aspekte von Strom und Spannung zu verdeutlichen und sie sich – wie bei einer Eselsbrücke – auch besser merken zu können. Sie ist aber nicht geeignet, das noch unbekannte Phänomen Strom durch die Metapher selbst zu erschließen, denn ein Vergleich trägt immer nur bis zu einem gewissen Grad. Wenn man aber das betrachtete Phänomen noch nicht verstanden hat, gibt es keine Möglichkeit zur Differenzerfahrung, denn man kann nicht einschätzen, wie weit die Metapher trägt bzw. ob die aus der Metapher abgeleiteten Schlussfolgerungen richtig sind. Es gibt zum Beispiel bei der Metapher des Stromflusses eine Analogie zwischen Flüssigkeitsmenge und Stromstärke sowie Flüssigkeitsdruck und Spannung. Andere Aspekte wie die Viskosität oder das Verhalten bei unterschiedlichen Temperaturen lassen sich allerdings nicht übertragen. Erst wenn man sich über Differenzerfahrungen ein Phänomen erschlossen hat, lassen sich Metaphern als Abkürzung bzw. Vereinfachung oder zur Gedächtnisentlastung angemessen nutzen.

Auch die Fachsprache der Informatik ist stark mit Metaphern durchsetzt. So wird wie selbstverständlich von Netzen, Navigation oder Verschlüsselung gesprochen, ohne dass wir die metaphorischen Anspielungen auf Spinnen- und Fischernetze, Karte und Kompass oder auch auf Schlüssel und Schloss ständig im Kopf hätten. Die ursprüngliche Metapher ist zu einem Fachbegriff geworden, der nun inhaltlich durch die gemachten Differenzerfahrungen ausgefüllt und präzisiert worden ist; das Wort fungiert nur noch als Hülle. Auch in Nutzungsschnittstellen gibt es vielfältige Metaphern. Diese weisen jedoch eine Besonderheit insofern auf, als es nicht um die metaphorische Übertragung eines Konzepts geht, sondern um die Nachbildung einer nicht digitalen Technik in Bezug auf Aussehen und Funktionalität. Das bekannteste Beispiel ist die Desktop-Metapher, die von Xerox als Büro-Metapher eingeführt worden ist.

Der Desktop des Xerox Star – Quelle: Designing the Star User Interface, Byte Magazine, April 1982, Seite 256.
Der Desktop des Xerox Star – Quelle: Designing the Star User Interface, Byte Magazine, April 1982, Seite 256.

Die Analogie der Desktop-Metapher geht sehr weit. Es ist nicht nur so, dass eine Ablage von Arbeitsmaterialien auf dem Computer grundsätzlich als ähnlich zur Ablage von Dokumenten auf einem Schreibtisch beschrieben wird. Vielmehr bildet die Nutzungsschnittstelle viele Details eines Desktops und auch seiner Funktionsweise bis ins Detail ab. Die Schreibtisch-Oberfläche eines Xerox Star zeigt in Icon-Form bekannte Schreibtischutensilien wie einen Papierkorb, Ordner und Ein- und Ausgangsboxen.

Allerdings haben sich in der Folge der weiteren Entwicklung grafischer Benutzungsoberflächen eine Fülle teilweise sehr unterschiedlicher metaphorischer Umsetzungen eines Desktops herausgebildet. Dies betrifft zum einen die Art der visuellen Abbildung realweltlicher Objekte wie Drucker, Dokumente oder Behälter für Dokumente (Ordner, Verzeichnisse, Papierkörbe usw.). Zum anderen betrifft es die Frage der Funktionalität. Beispielsweise wurde die Löschfunktion in einem Fall durch einen Behälter verkörpert, aus dem man ein Dokument auch wieder – ähnlich wie bei einem Papierkorb – herausholen kann, in einem anderen Fall – wie beim TOS-Betriebssystem des Atari-ST – verkörpert das entsprechende Icon einen Shredder. In der Konsequenz, die sich nur durch Handeln mit dem jeweiligen Objekt ergibt, führt das dazu, dass sich in einem Fall der Löschvorgang wieder rückgängig machen lässt, im anderen jedoch nicht.

Schließlich wurden im weiteren Verlauf der Entwicklung viele Konzepte und Ideen der Bürometapher des Xerox Star aufgegriffen, aber in sehr unterschiedlichen Modellvorstellungen umgesetzt, die mal von einer objektorientierten Sicht geprägt waren (Dokumente als zentrale Objekte), mal von einer funktionalen Sicht (Werkzeuge bzw. Funktionen als zentrale Objekte) oder auch als Mischform angelegt wurden (die heute gebräuchlichste Form). Was aber jeweils vorliegt, lässt sich allein auf der Basis der Metapher Büro oder Schreibtischoberfläche nicht erschließen.

Die Frage ist nun, ob trotz dieser Einschränkungen Metaphern eine konstruktive Kraft innewohnt, die man im Sinne unserer Forderungen gestalterisch nutzen kann. Bei einer guten Gestaltung gemäß der Forderungen Wiedererkennbarkeit, interne Konsistenz oder auch Konformität können Metaphern eine Unterstützungswirkung entfalten, wenn zuvor verstanden worden ist, in welchem Verhältnis der metaphorische Gehalt zur tatsächlichen Implementierung steht. Sie haben also in diesem Sinne eine entlastende Funktion, eröffnen aber keine zusätzlichen Möglichkeiten für Differenzerfahrungen. Obwohl Metaphern in diesem Sinne die Nutzung von Software unterstützen können, haben sie im Hinblick auf die Gestaltung nur einen sehr begrenzten Wert. Neben der schon angesprochenen Verständnisproblematik (jede Metapher muss ähnlich wie ein Icon bezüglich seiner Bedeutung erst erlernt werden) gehen mit ihnen auch viele konstruktive Beschränkungen einher, die wir nachfolgend kurz skizzieren wollen:

Links: Magic Cap Operating System, rechts: Taschenrechner von MacOS
Links: Magic Cap Operating System, rechts: Taschenrechner von MacOS

Zu enge Orientierung am Analogen: Die Nachbildung der Knöpfe eines Taschenrechners, wie oben abgebildet, bezieht sich auf das Gerät, das nachgebildet wird, verkörpert aber keine gute Schnittstelle für ein Rechenprogramm am PC. Nachgebildet wird ein Gerät mit allen seinen Nachteilen, ohne dass dies der eigentlichen Aufgabe des Rechnens zuträglich wäre. Die Knöpfe entpuppen sich bestenfalls als Zierwerk, das entweder nicht genutzt wird oder dazu verleitet, Eingaben umständlich per Maus zu erledigen statt die Tastatur zu nutzen.

Auch die möglichst realistische Darstellung eines Schreibtisches, auf dem verschiedene Utensilien untergebracht sind, ist eher hinderlich als förderlich. Allein die Nachbildung fordert einen hohen Aufwand. Dem höheren Aufwand in der Erstellung ebenso wie in der Wahrnehmung der Objekte steht jedoch kein imformationeller Mehrwert für die Nutzung gegenüber. Die mit den Utensilien verbundenen Funktionen würden auch dann als Analogie zu einem klassischen Gegenstück verstanden, wenn sie einfach als Icons auftauchten. Die Desktop-Metapher wurde hier auf ihre optischen Eigenschaften reduziert. Dadurch entfiel der Hauptvorteil des Desktops, einen Raum für die Anordnung und Manipulation der Arbeitsobjekte bereitzustellen. Die Desktop-Metapher erweist sich in ihrer engen Auslegung damit eher als Hindernis in der Entwicklung weiterer ergonomischer Innovationen.

Metaphorische Diskrepanzen: Irritationen können dadurch entstehen, dass etwas, was in der Bezugswelt möglich ist, in der digitalen Entsprechung nicht funktioniert. In der Regel ist beispielsweise auf einem digitalen Desktop die Möglichkeit der Anordnung von Dokumenten und anderen Objekten im Vergleich zu echten Schreibtischen stark eingeschränkt. Weder lassen sich Stapel bilden, noch gibt es ein digitales Pendant zu einem Tacker.

Umgekehrt besteht die Gefahr, dass die starke Anlehnung an eine Metaphorik dazu führt, dass genuin digitale Funktionen nicht genutzt oder nicht verstanden werden. Es gibt keinen Grund, warum eine Datei nur an einem Ort im Dateisystem erscheinen sollte, denn das Konzept von Hardlinks, wie sie in Unix- und Linux-Systemen verbreitet sind, ist mit dieser Metapher nicht vereinbar. Mit Hilfe dieses Konzepts kann ein und dieselbe Datei an mehreren Stellen auftauchen, obwohl es sich nicht um Kopien handelt, sondern immer um dasselbe Objekt. Nutzer, die das Dateisystem nur in der Desktop-Metaphorik kennen, haben daher Schwierigkeiten, dieses Konzept zu verstehen.

Pseudo-Metaphern: Völlig vermeiden sollte man übrigens Pseudo-Metaphern. In der nachfolgenden Abbildung sind gleich zwei Metaphern dieser Art zu sehen. Die Inhalte einer Multimedia-Präsentation über Musik wurden auf ein Haus und auf das Atomium abgebildet.

Website für ein multimediales Musiklernprogramm mit unsinnigen Metaphern
Website für ein multimediales Musiklernprogramm mit unsinnigen Metaphern

Diese Art von Bildern steigert die Komplexität der Darstellung, bietet aber keinen informationellen Mehrwert. Man kann mit entsprechenden Vorerfahrungen vermuten, dass man einen Datenraum durch einen Klick auf eine Tür oder den Klick auf eine Kugel des Atomiums betreten kann. Welches jedoch die anklickbaren Objekte in der Grafik sind, ist visuell nicht ausgezeichnet; ebenso wenig lassen sich aus der räumlichen Anordnung konstruktive Schlussfolgerungen ableiten. Auch müssen sich die Entwickler die Frage gefallen lassen, warum der Lieferanteneingang in der Luft hängt und warum sich das Foyer am anderen Ende des mit einer Treppe versehenen Eingangs befindet. Solche Visualisierungen sind metaphorische Umweltverschmutzung und sollten nicht mit einem Hinweis auf die hedonistische Gestaltung (Joy of Use) von Benutzungsoberflächen legitimiert werden. Niemandem ist damit geholfen, dass eine inhaltlich begründete Zusammenstellung mit einem Büro oder einem Foyer assoziiert wird, zumal wenn die zu selektierenden Objekte optisch gleich aussehen, aber das jeweils selektierte Objekt mal für einen Datenraum und ein andermal für eine technische Kommunikationsfunktion steht. Schließlich haben das Atomium und seine Struktur überhaupt keinen Bezug zum vermittelten Inhalt Musik oder einer spezifischen Didaktik des Vermittelns.

Konstruktive Beschränkungen: Ein weiteres Problem wollen wir an einer verbalen Metapher erläutern. Beispielsweise weist das Wort Kuckuck eine lautsprachliche Analogie zum Ruf des Vogels auf. Das ist eine schöne Analogie und gut zu merken. Was ist aber, wenn wir diese Analogie als durchgängiges Konstruktionsprinzip verwenden wollten? Zuerst fällt auf, dass es uns äußerst schwerfallen dürfte, alle möglichen Vogellaute lautsprachlich umzusetzen. Intensives Training und Kehlkopfakrobatik wären unverzichtbare Voraussetzungen. Hinzu kommt, dass man bei der Nutzung von Metaphern diese nicht konstruktiv um Aspekte erweitern kann, die bislang nicht Bestandteil der Metapher waren. Beispielsweise müsste man dann auch eine Lautfolge für Gattungsbezeichnungen wie Vogel oder Singvogel ableiten können. Nicht umsonst bestehen moderne natürliche Sprachen bezüglich ihres Alphabets aus willkürlichen Zeichen, die frei zugeordnet werden können und auch bezüglich ihres Wortschatzes nur sehr schwach metaphorisch ausgeprägt sind. Hinzu kommt, dass sich ihre Bedeutung im Sprachgebrauch verändert. Das Gleiche gilt auch für Benutzungsoberflächen. Als konstruktives Gestaltungsprinzip sind User-Interface-Metaphern nicht tauglich.

Fazit: Sollte man auf Metaphern also besser verzichten? Die Antwort darauf ist aus unserer Sicht ein „Jein“. Nutzungsschnittstellen-Metaphern können durch ihre Analogie helfen, Funktionen und Objekte einer Software zuzuordnen. Hat man beispielsweise zwei Bildsymbole zur Auswahl, beispielsweise einen Drucker und eine Feder mit einem Tintenfass, und soll schlussfolgern, welches der Symbole für einen Editor steht, so wird die Wahl vermutlich auf die Feder mit dem Tintenfass fallen, weil sie stärkere Assoziationen zum Schreiben aufweist. Gesichert ist dies jedoch nicht und für verlässliche Ableitungen muss man die Objekte und Funktionen in ihrem jeweiligen Nutzungszusammenhang ohnehin zuvor erlernt haben.

Metaphern erfüllen also nicht die Erwartung, das Erlernen einer Software sparen oder substantiell abkürzen zu können. Empirische Untersuchungen haben schon vor vielen Jahren ergeben, dass Metaphern die Verständnisbildung beim Übergang von einer kommandozeilenorientierten Interaktion zu einer grafischen Benutzungsoberfläche nicht erleichtern. Überraschenderweise kamen auch versierte Nutzer nicht auf die Idee, den Papierkorb mit der Funktion Löschen in Verbindung zu bringen. Auch kann man feststellen, dass viele Bildsymbole, wenn sie ohne Kontext gezeigt werden, nicht erkannt werden. Auf der anderen Seite musste man feststellen, dass auch falsche Metaphern den Umgang mit einem System unterstützen können. Das ist plausibel, wenn man sich nochmal vor Augen führt, dass eine Schnittstellen-Metapher eine Erinnerungsstütze für Funktionen sein kann, jedoch kein Modell, aus dem Schlussfolgerungen für die Nutzung abgeleitet werden können. Bei Ersterem stören Brüche in der Metapher viel weniger, als man annehmen könnte. So sind Nutzer von Systemen mit Desktop-Oberfläche in der Regel nicht dadurch irritiert, dass der Papierkorb auf dem Schreibtisch steht oder dass Ordner in Ordner gesteckt werden können. Sobald man sich im System bewegen kann, stören solche Brüche nicht, wohl aber wenn man sich das System auf der Grundlage der Metapher erschließen will.

Deshalb ist es müßig, bei der Entwicklung eines Systems krampfhaft nach Analogien für ein Konzept oder die Funktionalität einer Software zu suchen. Die Wahrscheinlichkeit, dass eine Analogie zu mehr Verwirrung und Irritation führen, als dass sie zur Unterstützung dienen kann, ist recht hoch. Wenn es sich jedoch um eine möglichst realitätsnahe Abbildung der mit Hilfe einer Software zu erledigenden Aufgabe handelt (Aufgabenangemessenheit), können Metaphern von Vorteil sein. In diesen Fällen handelt es sich nur noch um eine punktuelle Abbildungsfunktion und nicht mehr um ein metaphorisches Modell, bei dem sich durch Übertragung aus der zugrunde gelegten Metapher Schlussfolgerungen für den Umgang mit dem System ableiten lassen. Die Tauglichkeit der Metapher muss im Rahmen des Usability Engineering abgesichert werden.

Exkurs: Konsistenz

Konsistenz wird oft als eine der wichtigsten Techniken zur Gestaltung gut nutzbarer Software angesehen. Ben Shneiderman beschreibt etwa in seinen Goldenen Regeln das Streben nach Konsistenz gleich als Erstes:

Strive for consistency. Consistent sequences of actions should be required in similar situations; identical terminology should be used in prompts, menus, and help screens and consistent color, layout, capitalization, fonts and so on should be employed throughout. 1

Das klingt plausibel und einfach umsetzbar, doch leider ist es das nicht, denn je tiefer man in das Problem einsteigt, desto vertrackter wird es. Eine zentrale Schwierigkeit ist, dass man immer angeben muss, zu was etwas gleich oder konsistent ist („similar“). So sieht auch Shneiderman die Notwendigkeit für Ausnahmen, fordert jedoch: „Exceptions, such as required confirmation of the delete command or no echoing of passwords, should be comprehensible and limited in number.“ Tatsächlich zeigt sich, wenn man es genau betrachtet, dass Probleme oder Abweichungen von einfachen Konsistenzregeln eher die Regel als die Ausnahme („exception“) sind. Und sie sind auch sinnvoll.

Beispiel: Drag and Drop

Nehmen Sie als Beispiel Drag and Drop und, um es einfach zu halten, das räumliche Verschieben eines Datei-Icons von einem Ort auf dem Bildschirm zu einem anderen. Soll dieses Drag and Drop immer die gleiche Funktion auslösen, etwa das Verschieben der Datei an den Zielort? Das wäre konsistent, aber ist es auch erstrebenswert?

Schon bei der Entwicklung der frühen, auf der Desktop-Metapher basierenden Systeme fiel auf, dass dies zu unpraktischen Operationen führen würde. Bei der Verwendung eines zusätzlichen internen oder externen Speichermediums – also damals eine Diskette und heute zum Beispiel ein USB-Stick – will man in den meisten Fällen Dateien zwischen den Medien kopieren und nicht verschieben. Zieht man hingegen eine Datei von einem Ordner zu einem anderen Ordner auf demselben Speichermedium, ist das Verschieben die wahrscheinlichere Operation. Folglich wurde die Regel für das Drag and Drop komplexer gestaltet. Bei Drag and Drop innerhalb eines Datenträgers werden Verschiebe-Operationen ausgelöst, beim Drag and Drop zwischen Datenträgern hingegen wird ein Objekt kopiert.

Bei diesem Vorgehen wurde der Gestaltungskonflikt zwischen der Forderung nach Konsistenz und der nach Aufgabenangemessenheit zu Lasten der Konsistenz aufgelöst. Die gleiche Operation, das Verschieben eines Objekts von einem Fenster in ein anderes, hat nun also verschiedene Folgen je nach Kontext, in dem diese Operation stattfindet.

Man kann solche Konflikte austarieren, indem man Regeln einführt und die Konsistenz von Nebenbedingungen abhängig macht. Doch das hat auch Nachteile. Im Drag-and-Drop-Beispiel wird es schwierig, wenn man sich der unterschiedlichen Datenträger nicht bewusst oder der Unterschied faktisch ohne Bedeutung ist. Das kann beispielsweise der Fall sein, wenn es sich um zwei interne Speichermedien handelt oder um zwei Partitionen auf ein und demselben Medium. Man nimmt die Trennung dann oft nicht wahr. Liegt zum Beispiel der Desktop auf Laufwerk C und die Dateiablage auf Laufwerk D, ist die intendierte Operation meist nicht das Erstellen einer Kopie, sondern das Verschieben in eine Ablage. Konsistenz hilft aber in diesen Fragen nicht weiter. Es handelt sich schlichtweg um ein Modusproblem (siehe Kapitel Modusgestaltung), da die Reaktion des Systems (kopieren oder verschieben) vom Systemzustand abhängt, d. h. auf welchem Medium die Objekte gespeichert sind. Dieser Systemzustand ist bei der Nutzung aber nicht wahrnehmbar.

Beispiel: Scrollrichtung

Konsistenz, so wie von Shneiderman definiert, verlangt, dass in vergleichbaren Situationen auch vergleichbare Operationen durchgeführt werden sollten. Betrachten wir das beim Scrolling von Inhalten in Fenstern mittels Touch auf dem Bildschirm, mittels Geste auf einem Trackpad oder mittels Mausrad.

Unterschiedliche Scrollrichtung bei Touch- und bei Scrollrad-Eingabe
Unterschiedliche Scrollrichtung bei Touch- und bei Scrollrad-Eingabe

Hier findet sich eine vermeintliche Inkonsistenz. Bei Microsoft Windows und bis 2011 auch beim MacOS zeigte sich folgendes Verhalten: Scrollte man mit dem Mausrad oder mittels Trackpad nach oben, bewegte sich der im Fenster dargestellte Inhalt nach unten, drehte man das Rad nach unten, bewegte sich der Inhalt nach oben. Auf Tablets oder auch auf PCs mit Touch-Bedienung ist ein Scrollen durch direktes Berühren des Bildschirms möglich. Bei dieser Konstellation verhält es sich auf allen Betriebssystemen so, dass bei einer Bewegung nach oben der Inhalt sich nach oben und bei einer Bewegung nach unten dementsprechend sich nach unten bewegt.

Mit OS X Lion passte Apple die Scrollrichtung an und nannte dieses Verhalten euphemistisch „Natural Scrolling“. In einem Blog-Eintrag aus der Zeit liest man hierzu:

Aside from all the cool new features that Lion offers, the one that immediately stood out to me was a switch to natural scrolling. For the longest time, both Macs and PCs have used reverse scrolling.

An example of natural scrolling is the Apple iPad. When you want to scroll up a web page, you put a finger on the iPad and move up. When you want to scroll down, you move your fingers down. This is, of course, very natural and logical.

This process is reserved when using a mouse wheel or trackpad. To make a webpage scroll down, you have to push up on the mouse wheel or trackpad. To make a webpage scroll up, you push down. This doesn’t sound logical or natural but it’s been this way for so long that we think it is.“2

Diese Beschreibung der einen Option als „natural“ und damit der anderen als unnatürlich ist nicht haltbar! Das eine ist nicht natürlicher als das andere. Ebenso ist die Scrollrichtung von Windows (genauso wie die frühere Apple-Variante) keinesfalls „reversed“. Entscheidend ist vielmehr, welches Objekt mit der Scrolloperation bewegt wird: der Inhalt oder das Fenster. Die Windows-Logik ist, dass beim Scrollen mit dem Scrollrad der Ausschnitt bewegt wird. Man bewegt quasi das Fenster auf dem Inhalt hinauf und hinunter. Das ist auch genau die Information, die eine Scrollbar anzeigt. Man kann das Ganze also auch so interpretieren, dass man die Scrollbar rauf- oder runterbewegt. Beim Mac hingegen bewegt man den Inhalt selbst rauf oder runter.

Anders gesagt: Die vermeintlich nicht natürliche Variante kann durchaus als die konsistentere angesehen werden, denn in diesem Fall entspricht die Bewegung des Mausrads der der Scrollbar. Beim vermeintlich konsistenten „Natural Scrolling“ von Apple hingegen gibt es diese Kopplung nicht mehr. Dafür entspricht die Bewegung des Mausrads nun der des Inhalts. Beide Varianten sind gleichermaßen sowohl konsistent als auch inkonsistent.

Konsistenz mit der Außenwelt?

Der Anspruch an Konsistenz wird auch oft als Konsistenz mit Gegebenheiten außerhalb des Computers interpretiert. Ähnlich wie bei den Metaphern geht es um das Nachahmen von etwas bereits Bekanntem. Die Dinge sollen sich am Computer so verhalten wie in der „wirklichen Welt“. Die entscheidende Frage ist jedoch immer, zu was man konsistent sein will.

Unten zu sehen ist der Windows-Taschenrechner in zwei verschiedenen Einstellungen. In beiden Fällen wurde `5+5*3=´ eingetippt. Es gibt offenbar eine Inkonsistenz, denn die gleiche Eingabe führt nicht zum gleichen Ergebnis. Andererseits ist dieses Verhalten konsistent zu verschiedenartigen Taschenrechnern. Einfache, nicht wissenschaftliche Taschenrechner kannten früher oft keine Punkt-vor-Strich-Rechnung, wissenschaftliche hingegen schon.

Windows-Taschenrechner im Modus „Standard“ und „Wissenschaftlich“
Windows-Taschenrechner im Modus „Standard“ und „Wissenschaftlich“

Ein anderes Beispiel für die Konsistenz zu Konzepten außerhalb des Computers ist “Abwedeln” und “Nachbelichten” bei digitalen Bildverarbeitungsprogrammen. Diese Funktionen dienen der lokalen Helligkeitsanpassung in einem Foto. Abwedeln und Nachbelichten sind Techniken der analogen Fotobelichtung in der Dunkelkammer: Abwedeln bedeutet dort, dass während der Belichtung eines Fotopapiers mit einem Gegenstand im Lichtweg hin und her gewedelt wird, um die Belichtung des Fotopapiers im Bereich zu verringern und damit ein lokal helleres Bild zu erhalten. Nachbelichten ist das Gegenstück, es bedeutet zusätzliche Belichtung des Fotopapiers, um entsprechend ein dunkleres Bild zu erzielen. Für denjenigen, der den analogen Prozess kennt, sind die beiden Begriffe (und ihre dazugehörigen Icons) wahrscheinlich verständlich. Für die wohl mittlerweile größere Zahl derer, die nie in einer klassischen Dunkelkammer waren, sind die Begriffe unverständlich. Wieso sollte es beim Nachbelichten, also bei mehr Licht, dunkler werden? In diesem Fall kann man auf die Metaphorik einfach verzichten, denn die technisch neutralen Begriffe „Abdunkeln“ oder „Aufhellen“ sind für beide Nutzergruppen gleichermaßen verständlich.

Fazit

Was kann man aus dieser kurzen, eher anekdotischen Betrachtung von Konsistenz als Gestaltungsmittel lernen? Zunächst einmal, dass die hohen Erwartungen, die mit dieser Forderung verbunden werden, letztlich nicht gerechtfertigt sind. Konsistenz an sich ist als Gestaltungsleitlinie eher kritisch zu sehen, denn die Auflösung von widersprüchlichen Konsistenzanforderungen und die Entscheidung für passende Design-Systematiken zur konsistenten Gestaltung sind in der Regel aufgabenabhängig.

Auf der anderen Seite steht jedoch eine Fülle von Beispielen dafür, dass eine gleichartige Gestaltung gleichartiger Objekte oder Funktionen durchaus hilfreich ist. Dies lässt sich auch gut mit unserem Konzept der Differenzerfahrung verdeutlichen, denn wir gehen davon aus, dass ein Unterschied im Wahrnehmungsfeld zur Information wird, indem er bewusst wahrgenommen wird. Als Gestalter haben wir keine Sicherheit, dass dies während der Nutzung durchgängig passiert. Umgekehrt können wir feststellen, dass jeder wahrgenommene Unterschied hinsichtlich seiner möglichen Bedeutung auch interpretiert wird. Wenn der wahrgenommene Unterschied aber keinen informationellen Mehrwert bietet, weil er sich aus Nachlässigkeit oder Unbedachtheit wie eine Zeitungsente eingeschlichen hat, verkörpert die kognitive Leistung des Interpretierens nichts anderes als erzwungene Sequenzialität, die weitestgehend reduziert werden sollte. Bei einer stufenweisen Entwicklung eines Systems kann man das berücksichtigen, indem man der Maxime folgt, ohne begründbaren Anlass keine Unterschiede zur bislang erfolgten Gestaltung einzuführen, denn diese verkörpern automatisch Inkonsistenzen.

Exkurs: Mensch-Computer-Dialog

Obwohl die Idee, einen Computer mit Hilfe eines Dialogs zu steuern, technisch sehr aufwändig ist, wurde sie schon mit dem Aufkommen der Time-Sharing-Systeme in den 1960er Jahren propagiert. Später kamen Ideen eines computerisierten persönlichen Assistenten auf. Ein Video von Apple von 1987 etwa zeigt die Vision eines Knowledge Navigators, mit dessen Hilfe zum Beispiel eine wissenschaftliche Recherche durchgeführt werden kann und der gleich noch die Rolle der Telefonvermittlung übernimmt. Von solchen Szenarien sind wir nicht mehr weit entfernt. Dank KI-Sprachmodellen können wir uns mit einem Computer über wissenschaftliche Themen oder Kochrezepte unterhalten, fotorealistische Bilder erzeugen oder in Office-Software Folien automatisch generieren und per Text- oder Spracheingabe umformulieren lassen. Werden wir also bald alles durch ein Gespräch mit dem Computer erledigen? Hat die klassische Nutzungsschnittstelle ausgedient? Wenn das so wäre, dann wäre ja fast alles, was Sie in diesem Buch gelesen haben, bald obsolet. Lassen Sie uns deshalb ein paar Gedankenexperimente anstellen.

Wir stellen uns ein Computer-Assistenz-System vor, das perfekt funktioniert, also die gesprochene Sprache richtig erkennt und auch korrekt antworten und reagieren kann. In diesem angenommenen System gehen wir davon aus, dass es außer der Ein- und Ausgabe von Sprache keine andere Nutzungsschnittstelle gibt. Wir hätten somit einen Computer, den man für alle Arten von Aufgaben nutzen könnte, die man auch im Rahmen eines Telefonats erledigen kann. Man kann zum Beispiel das Wetter erfragen, etwas zu essen bestellen, Musiktitel abspielen, sich Geschichten oder neueste Informationen aus Wissenschaft und Technik vorlesen lassen und so weiter. Soweit dieses System auch Schnittstellen zu anderen technischen Komponenten hat, könnten wir beispielsweise auch Licht einschalten, Türen schließen, die Heizungstemperatur einstellen und vieles andere mehr.

Das Ganze hat aber seine Grenzen. Würden wir auf diese Art und Weise einen längeren Text wie z. B. einen Brief verfassen? Abgesehen davon, dass viele Menschen nicht in der Lage wären, ohne Vorlage druckreif zu sprechen (diktieren), müssten wir auch mit Unterbrechungen klarkommen und uns überlegen, wie wir Fehler korrigieren, wie wir jeweils spezifizieren, an welcher Stelle was wie ergänzt, geändert oder gestrichen werden soll. Wir gerieten in eine Situation, in der wir das bisher Gesprochene entweder komplett im Kopf haben oder ständig Teile des diktierten Textes neu erfragen müssten. Das ist äußerst unpraktisch oder, je länger der Text ist, sogar unmöglich. Erweitern wir das System also um einen Bildschirm zur Anzeige der Ausgabe, wobei die Eingaben weiterhin rein verbal erfolgen. Wir haben nun ein Computersystem, das wir per Textprompts bedienen können, das aber auch über eine Anzeige verfügt, auf der ein Text oder zumindest ein Ausschnitt davon dauerhaft zu sehen ist. Wir könnten ein solches System gut nutzen, um unter Vorgabe des gewünschten Inhalts und zusätzlicher Parameter einen Text generieren zu lassen. Doch wie geht es weiter, wenn der Text nicht perfekt ist, wenn hier und da etwas geändert oder wenn unterschiedliche Textteile zusammengefügt oder umgeordnet werden sollen?

Würden wir solche Arbeiten gerne rein verbal erledigen? Selbst unter der Annahme, dass wir ein KI-Gegenüber haben, das uns bestmöglich versteht, wäre das wohl keine gute Idee. Um das zu verdeutlichen, ersetzen wir die KI kurzfristig einmal um eine klassische, menschliche Intelligenz, mit der wir die gleiche Aufgabe durchführen wollen. Diese Nutzungsschnittstelle entspräche nun einer Art von Videotelefonat, bei dem die Person am anderen Ende der Leitung das Gehörte auf eine Tafel schreibt. Wir können die Tafel sehen und unserem Gegenüber laufend Anweisungen geben, wie das Tafelbild entsprechend unserer Vorgaben zu verändern ist. Diese Art der Manipulation hat jedoch den Nachteil, dass sprachliche Befehle zur Manipulation physischer Objekte – und nichts anderes ist ein Text ja – immer indirekt sind. Stellen Sie sich vor, Sie wollen in dem Text ein Wort einfügen. Anweisungen wie „Füge im zweiten Absatz, in der zweiten Zeile vor ‘wichtig’ ein ‘sehr’ ein“ sind zwar verständlich, aber nicht besonders praktisch. Statt sprachlich über die Beschreibung der räumlichen Lage oder des Aussehens anzugeben, welches Objekt gemeint ist, wäre es doch viel einfacher, direkt auf das entsprechende Objekt zu weisen und es zu bearbeiten. Unsere bisher vorgestellte Nutzungsschnittstelle sieht das aber nicht vor.

Wir müssten für Aufgaben der Objektmanipulation wie bei der Textverarbeitung die Objekte also nicht nur sehen, sondern auch räumlich verdeutlichen können, worauf wir uns jeweils beziehen wollen.3 Eine solche Nutzungsschnittstelle wäre also immer auch grafisch-räumlich, ganz unabhängig davon, ob die jeweiligen Operationen dann schlussendlich aus einem Menü ausgewählt oder in natürlicher Sprache eingegeben werden.

Die Möglichkeiten der natürlich-sprachlichen Interaktion mit dem Computer werden in der Zukunft sicher zunehmen. In einigen Bereichen mögen sie die heutigen grafischen Nutzungsschnittstellen ersetzen und ergänzen, in vielen anderen Fällen werden sie das aber wohl nie tun, denn die Errungenschaft, Objekte am Bildschirm räumlich darzustellen, auf diese zeigen und sie an Ort und Stelle bearbeiten zu können, kann genauso wenig durch rein verbale Kommunikation ersetzt werden, wie Tafelanschriebe, Mitschriften und gedruckte Texte nur durch Vorlesen und Zuhören sinnvoll erschlossen werden können.

Unabhängig von den Vor- und Nachteilen sprachlicher und direkt-räumlicher Interaktionen ist das Paradigma des Mensch-Maschine-„Dialogs“ mit zusätzlichen Problemen behaftet, die mit den Fähigkeiten von Sprachmodellen nichts zu tun haben.

Programmierte Dialoge?

In seinem Buch „The Art of Interactive Design“ schlägt Chris Crawford vor, dass eine Nutzungsschnittstelle einen Dialog nachahmen soll, um „freundlicher“ zu wirken. Er charakterisiert dazu den schwer zu fassenden Begriff der Interaktion als „a cyclic process in which two actors alternately listen, think and speak.“4 Ob moderne KI-Sprachsysteme dieser Charakterisierung entsprechen, hängt davon ab, was genau sie unter „listen“, „think“ und „speak“ verstehen und ob das, was in einem KI-Modell passiert, wirklich ein Denken und Verstehen ist. Wir lassen diese philosophische Frage an dieser Stelle unbeantwortet, denn die „Dialoge“, auf die Crawford anspielt, sind weit entfernt von der Interaktion mit einem solchen Sprachsystem. Es geht vielmehr um recht einfache, aber häufig anzutreffende Situationen, in denen für die Ausführung einer Operation zusätzliche Informationen benötigt werden, oder solche, bei denen unerwünschte Konsequenzen auftreten können. Eine klassische Situation dieser Art liegt zum Beispiel vor, wenn eingegebene Informationen noch nicht gespeichert worden sind und im nächsten Schritt verloren gehen könnten, etwa wenn die Software beendet werden soll, aber der Inhalt der zuvor bearbeiteten Datei noch nicht gespeichert worden ist. In diesem Fall sollten, so Crawford, die Konsequenzen verdeutlicht und die Möglichkeit der direkten Speicherung angeboten werden. Ganz recht! Diese Hinweise entsprechen nicht nur unseren Forderungen nach Differenziertheit der Rückmeldung und nach Beeinflussbarkeit, sondern sind auch gängige Praxis, um die Konsequenzen von Fehlhandlungen zu reduzieren.

Darüber hinaus schlägt Crawford in solchen Situationen vor, einen Dialog zwischen Mensch und Maschine zu simulieren und so zu tun, als würde der Computer über eigene Befindlichkeiten sprechen. Das Resultat wäre eine Meldung wie „Ich habe deinen Text noch nicht gespeichert. Wenn du das Programm jetzt schließt, geht dein Text verloren. Möchtest du das wirklich? Dies sind deine Möglichkeiten:“. Damit verbunden ist das Ziel, in einer Schnittstelle keine Aussagen mit Schuldzuweisungen zu formulieren oder unfreundliche oder rüde Ausdrucksweisen zu benutzen. Stattdessen fordert Crawford, dass die Meldungen die Schuld auf Seiten des Computers ausdrücken sollten, etwa in Titelzeilen wie „Ich brauche mehr Informationen“, „Ich kann damit nicht umgehen“ oder „Ich habe es vermasselt“.5

Da sind wir anderer Ansicht! Natürlich gilt es, bei Meldungen niemanden zu beschimpfen, sondern konstruktive Formulierungen zu verwenden, aber Meldungen in der Ich-Form auszugeben, den Computer sich selbst des Versagens bezichtigen zu lassen und durch Fragen Interesse an der nutzenden Person zu suggerieren, sind aufgesetzt und falsch. Formulierungen wie „Sind Sie sicher, dass sie das wirklich tun wollen?“ fragen persönliche Befindlichkeiten ab, auf die man unter anderen Umständen abgewogen antworten könnte. Etwa in der Art „Ich glaube schon, aber vielleicht sollte ich darüber nochmal nachdenken.“, „Ich bin generell keine sichere Person!“ oder „Lass mich damit jetzt in Ruhe!“? Doch solche auf Seiten des Systems „inakzeptablen“ Antworten offenbaren, dass es nicht um einen natürlichen Dialog geht. Vielmehr wird der Handlungsfluss absichtlich unterbrochen, indem das System erzwingt, eine Auswahl aus den vorgegebenen Handlungsoptionen zu treffen. Das ist sowohl inhaltlich als auch ergonomisch geboten, weil der mögliche Schaden in vielen Fällen den Aufwand einer zusätzlich erzwungenen Auswahl überwiegt. Die Software kann aber jeweils nur das „akzeptieren“, was bei der Entwicklung als Option vorgesehen worden ist.

Pseudo-Dialog in OpenOffice (2005)
Pseudo-Dialog in OpenOffice (2005)

Diese Meldung von OpenOffice stammt aus dem Jahre 2005. Sie erschien, wenn eine Datei in einem nicht unterstützten Dateiformat abgespeichert werden sollte. Nach Crawford müsste zunächst auf das Versagen der Software hingewiesen werden. In der Titelzeile müsste also „I screwed up“ stehen. Der Text sollte dann in der Ich-Form der Software die Schuld an der Misere zuweisen, etwa „I am not able to save your document properly in the format you selected. Some of the formatting or content might get lost, if you try anyway.“ Egal ob Aussagen oder Fragen, alle Elemente dieses „Dialogs“ sind vor der Nutzung entworfen und programmiert worden, weshalb sie nicht der von Crawford selbst angegebenen Definition einer Konversation entsprechen können, die er in folgendem Ablauf beschreibt: 6

  1. Partner A hört Partner B zu und interpretiert die Worte zu einem großen Ganzen.
  2. Partner A denkt über die Aussagen von Partner B nach, wägt sie ab und bildet sich in Gedanken eine Antwort.
  3. Partner A antwortet Partner B, indem die Gedanken in Worte umgesetzt werden.
  4. Nun macht Partner B dasselbe mit vertauschten Rollen.

Hier ist kein Sprachmodell am Werk, das eine Konversation führt und dessen Operationen man vielleicht, wenn man möchte, als zuhören, interpretieren, nachdenken und antworten bezeichnen könnte. Der Dialog ist (vor-)programmiert. Entwicklungszeit und Nutzungszeit sind getrennt. Zur Nutzungszeit können weder neue Fragen formuliert noch eigene Antworten kreiert werden. Die natürlich-sprachliche Interaktion reduziert sich auf die natürlich-sprachliche Beschriftung von vorgegebenen Auswahlalternativen. Das Resultat ist ein Pseudo-Dialog.

Das Hauptproblem dieses Pseudo-Dialog-Stils ist nicht eine Frage an sich, sondern das Erwarten einer Antwort, vor allem wenn die angebotenen Antwortoptionen auch noch generisch, also etwa mit „Ja“, „Nein“ oder „Okay“ vorgegeben werden. Eine Antwort wie „Ja“ oder „Nein“ auf den „Antwort“-Buttons bezieht sich inhaltlich stets auf die gestellte Frage, nicht auf die auszuführende Handlung bzw. den Folgezustand. Es ist also zusätzlicher mentaler Aufwand erforderlich, um auswählen zu können, welche Handlungskonsequenzen jeweils mit der generischen Antwortauswahl verbunden sind (Umsetzungsproblem). Dieser Zusatzaufwand soll in dem OpenOffice-Beispiel dadurch gemildert werden, dass zusätzlich textuell angegeben worden ist, was bei „Ja“ oder „Nein“ passiert. Doch stehen diese Informationen nicht am Ort der Handlung, dem zu drückenden Button, müssen somit an anderer Stelle erschlossen werden (Informationsbeschaffung). Wenn es kein grundsätzliches Problem bereitet, oberhalb der Buttons ihre Wirkungsweise darzustellen, warum schreibt man das dann nicht gleich auf die Buttons selbst? Der zusätzliche Übersetzungs- und Informationsbeschaffungsaufwand ist völlig unnötig! Selbstverständlich gilt weiterhin, dass zusätzliche Informationen z. B. über Nebeneffekte und Folgekonsequenzen hilfreich und teilweise notwendig sind, doch sollten sie nicht durch die Art der Gestaltung grundsätzlich erzwungen werden.

Begriffe wie Partner, Dialog oder Konversation machen in diesen, aus gutem Grunde programmierten Situationen keinen Sinn. Warum sollten wir sie dann simulieren, zumal durch den Pseudo-Dialog mehr Text entsteht, der wahrgenommen und interpretiert werden muss? Mögliche Verbesserungen, die wir nachfolgend beschreiben, tragen vielmehr dem Umstand Rechnung, dass es entscheidend ist, die der Entwicklung des Systems unterliegende Designrationalität für die Nutzung transparent zu gestalten bzw. offenzulegen.

Verbesserte Buttonbeschriftung (2008)
Verbesserte Buttonbeschriftung (2008)

Der Zweck der angezeigten ursprünglichen Meldung war nicht, situative Einschätzungen der Nutzungssituation zu erfragen. Vielmehr geht es bei solchen Meldungen darum, zwei (oder auch mehrere) Möglichkeiten des weiteren Programmablaufs zur Wahl zu stellen. Ein Pseudo-Dialog ist da hinderlich. Dies wird an der obigen Abbildung der gleichen Meldung aus dem Jahr 2008 deutlich, die eine Verbesserung mit sich bringt. Zwar wird unter der Problembeschreibung nach wie vor eine Frage gestellt, doch sind die Buttons jetzt mit dem Effekt beschriftet, der bei ihrer Auswahl eintritt. Ungeschickt ist allerdings die vage Angabe „aktuelles Format“ auf dem linken Button. Was das bedeutet, steht nach wie vor nur im Beschreibungstext, nicht am Ort der Handlung, dem Button.

Konkrete Buttonbeschriftung und Verzicht auf eine Frage (2015)
Konkrete Buttonbeschriftung und Verzicht auf eine Frage (2015)

Bis zum Jahr 2015 wurde die Meldung nochmals weiterentwickelt. Das einzige Überbleibsel des früheren Pseudo-Dialogs ist das Fragezeichen im Meldungs-Icon. Innerhalb des Meldungsfensters gibt es hingegen weder Fragen noch Antworten. Die Problembeschreibung ist in Fettschrift herausgestellt und die beiden Entscheidungsmöglichkeiten werden auf spezifisch beschrifteten Buttons angeboten. Auch die Beschriftung ist verbessert worden, denn auf den Buttons wird nicht mehr nebulös von einem aktuellen Format gesprochen, sondern dieses Format wird direkt angegeben.

Ist okay wirklich okay?

Eine sehr kritische „Antwortmöglichkeit“ in einer Meldung ist das „Okay“ bzw. das „OK“.

Das Disaster mit „OK“ bestätigen?
Das Disaster mit „OK“ bestätigen?

In dieser Meldung wird ungeheuerliches kundgetan! Teile des geschriebenen Textes sind verloren gegangen und das Einzige, was man darauf „antworten“ kann, ist „OK“. Das ist aber überhaupt nicht okay! „Okay“ ist eine Antwort auf eine Aussage, mit der der Gesprächspartner einverstanden ist. Es findet jedoch kein Dialog statt und es geht auch nicht darum, mit etwas einverstanden zu sein. Angemessener wäre die nüchterne Beschriftung „Schließen“ oder „Gelesen“, denn das ist der einzige Grund für den Button: Zur Entwicklungszeit ist nicht absehbar, unter welchen Umständen bzw. wie schnell Text gelesen oder zur Kenntnis genommen wird.

Vorsicht mit Humor!

In eine ähnliche Richtung der Simulation eines Dialogs oder einer Konversation geht die Idee, Meldungen mit Humor aufzulockern. Der Versuch, unerfreuliche Situationen durch lustige Meldungen angenehmer zu gestalten, steigert nur noch potentiell den Ärger über die Situation. Beim ersten Mal mag es noch lustig sein, beim zweiten Mal vielleicht auch noch, aber irgendwann schlägt es in Aggressivität um. Insbesondere wenn durch einen Fehler Arbeit verloren gegangen ist, sind Entsetzen und Ärger unmittelbar da. Humoristische Bemerkungen in Pseudo-Dialogen sind grundsätzlich fehl am Platz. Humor erfordert ein gehöriges Maß an Fingerspitzengefühl und Einfühlungsvermögen in die jeweilige Situation. Programmierte Meldungstexte können das aufgrund ihrer Natur nicht.

Zwischen"menschliches" hat gehört nicht in die Nutzungsschnittstelle – Quelle: Crawford, Chris: The Art of Interactive Design
Zwischen”menschliches” hat gehört nicht in die Nutzungsschnittstelle – Quelle: Crawford, Chris: The Art of Interactive Design

Hier sehen Sie ein Beispiel für eine vermeintlich humoristische Meldung. Die mit „I screwed up“ betitelte Meldung wird in dieser Art, der Idee des Mensch-Computer-Dialogs folgend, von Crawford empfohlen. Einen Knopf mit „Shoot the programmer!“ zu beschriften, ist weder konstruktiv noch hilfreich, möglicherweise aber geschäftsschädigend.

Dies ist nur beim ersten Mal lustig.
Dies ist nur beim ersten Mal lustig.

Auch YouTube witzelt in einer Fehlermeldung. Unabhängig davon, wie gelungen ein Scherz oder Witz sein mag, sind humoristische Einlagen bei Meldungen problematisch, weil sie in vielen Nutzungskonstellationen sowohl bei unterschiedlichen Personen als auch bei ein und derselben Person nicht vorhersehbar sind, sie keine sachlichen Zusammenhänge beschreiben und ein solcher Pseudo-Dialog verletzend und stressfördernd wirken kann. Die Gestaltungsmaxime lautet daher: Meldungen sollten sich immer auf die Offenbarung der Designrationalität beschränken, d. h. angeben, was die Ursache einer Meldung ist und welche Handlungsoption angeboten wird, jedoch nicht ungeprüfte Annahmen und Spekulationen über die Nutzungssituation und die Befindlichkeiten der beteiligten Personen. Diese sind nicht vorhersehbar und während der Nutzungszeit nicht korrigierbar. Designentscheidungen müssen sachlich, aber sehr zurückhaltend abgefasst werden.

Fazit

Bis auf Weiteres müssen wir davon ausgehen, dass die Metapher vom partnerschaftlichen Dialog zwischen Mensch und Maschine eine ergonomische Gestaltung von Nutzungsoberflächen erschwert, da durch die Pseudo-Dialoge Sachverhalte verschleiert und nicht transparent gestaltet werden. Meldungen und sogenannte Dialoge werden vor der Nutzungszeit festgelegt, müssen also darauf gerichtet sein, während der Nutzung zu beschreiben, warum sie auftreten und was jeweils getan werden kann. Verständnisbildung und Lernen findet in den Köpfen der Menschen während der Entwicklung bzw. Nutzung statt, nicht jedoch in der Maschine, da die beiden Phasen zeitlich voneinander getrennt sind. Das Hineinversetzen in Absichten oder emotionale Befindlichkeiten bringt eine zusätzliche, weitaus komplexere Dimension ins Spiel, ohne damit einen erkennbaren ergonomischen Zugewinn erzielen zu können. Ob das für immer so bleiben wird, ist zwar offen, doch zeigen unsere eingangs dieser Exkursion beschriebenen Szenarien, dass für viele Aufgaben eine ergonomische Gestaltung von Nutzungsoberflächen nicht auf eine räumlich-visuelle Einbettung verzichten kann.

Exkurs: Farbmodelle

Um Objekte am Bildschirm anzuzeigen, sie auszuzeichnen und sie räumlich strukturieren zu können, ist es nötig, Farben und vor allem Farbabstufungen zu erzeugen (siehe Kapitel zur Präsentation). Wenn Sie eine Entwicklungsumgebung oder ein Framework nutzen, das Ihnen ein Farbschema bereitstellt, können Sie sich dieser Farben bedienen, sollten aber die in den entsprechenden Kapiteln motivierten Einschränkungen bedenken oder begründen können, warum Sie sie missachten. Wenn Ihnen kein Farbschema zur Verfügung steht oder wenn Sie selbst eines erzeugen wollen, müssen Sie Farben definieren und zueinander passende Farben zusammenstellen können. In diesem Exkurs-Kapitel stellen wir Ihnen einige technisch-wissenschaftliche Hintergründe und daraus abgeleitete Farbmodelle vor, um diese Aufgabe ausführen zu können.

Als sichtbares Licht nimmt der Mensch elektromagnetische Wellen zwischen 380 und 780 nm wahr. Wellen dieser Wellenlängen stimulieren die menschliche Netzhaut. Wenn nur Licht einer bestimmten Wellenlänge ins Auge vordringt, wird ein bestimmter Farbeindruck ausgelöst.

Sichtbares Licht als Teil des elektromagnetischen Spektrums – Bild: Horst Frank / Phrood / Anony [CC BY-SA 3.0]
Sichtbares Licht als Teil des elektromagnetischen Spektrums – Bild: Horst Frank / Phrood / Anony [CC BY-SA 3.0]

Wie Sie auf der Abbildung sehen, können Sie jeder Wellenlänge im Spektrum des sichtbaren Lichts einen Farbeindruck zuweisen. Andersherum funktioniert es aber nicht. Wenn Sie eine Farbfläche sehen, die gelb ist, heißt das nicht notwendigerweise, dass Licht mit einer Wellenlänge von etwa 570 nm ins Auge fällt. Der gleiche gelbe Farbeindruck entsteht auch bei einer Mischung aus rotem und grünem Licht.

Die Drei-Farben-Theorie

In seinem 1867 veröffentlichten „Handbuch der physiologischen Optik“7 beschreibt Hermann von Helmholtz auf der Grundlage von Experimenten, dass die Farben des natürlichen Lichtspektrums, also die Regenbogenfarben, durch die Kombination der Farben Rot, Grün und Blau erzeugt werden können und dass es demnach im Auge Rezeptoren für diese drei Farben geben muss. Erst 1956 wurde entdeckt, dass es im Auge in der Tat drei verschiedene Zapfentypen gibt und dass diese, wie durch von Helmholtz dargelegt, verschiedene Bereiche des Spektrums abdecken. Heute weiß man, dass, anders als lange angenommen, die drei Zapfentypen, obwohl man sie so betitelt, nicht den Farben Rot, Grün und Blau entsprechen und weitaus breitbandiger sind als von von Helmholtz angenommen.

Empfindlichkeit der Zapfen des menschlichen Auges bei verschiedenen Wellenlängen - Quelle: w:User:DrBob and w:User:Zeimusu derivative work: Sgbeer (CC BY-SA 3.0)
Empfindlichkeit der Zapfen des menschlichen Auges bei verschiedenen Wellenlängen - Quelle: w:User:DrBob and w:User:Zeimusu derivative work: Sgbeer (CC BY-SA 3.0)

In dieser Abbildung sind die Absorptionsraten der drei verschiedenen Zapfenarten auf der menschlichen Netzhaut dargestellt. Wie Sie sehen, sind alle drei Zapfentypen recht breitbandig empfindlich. Wenn Licht mit einer Wellenlänge von 570 nm ins Auge trifft, werden sowohl die L-Zapfen als auch, in geringerem Maße, die M-Zapfen angeregt. Die gleiche Anregung erreichen Sie auch, wenn Sie etwa 90 % Rot (640 nm) und 80 % Grün (580 nm) mischen. Im Auge entstehen die gleichen Anregungen der M- und L-Zapfen. Die beiden Farbeindrücke sind nicht voneinander zu unterscheiden.

Obwohl die von Helmholtz’sche Theorie der Farbwahrnehmung im Auge relativ nahekommt, entspricht die Art der Farbmischung mit Rot, Grün und Blau nicht der Art und Weise, wie Menschen Farben empfinden. In der Frage dieser Farbempfindung des Menschen stellte zum Beispiel Goethe8 umfangreiche Untersuchungen an. Er verlor sich dabei zum Teil in dem Versuch, Newtons Modell über den Zusammenhang von Licht und Farbe mit Argumentationen zu widerlegen, die einer naturwissenschaftlichen Überprüfung nicht standhalten konnten. Goethes Untersuchungen sind dennoch interessant, weil er aus Beobachtungen der Umwelt mit einem vor das Auge gehaltenen Prisma ein eigenes Farbsystem ableitete. Für Goethe waren Gelb und Blau die einzigen reinen Farben. Grün beschreibt er, da es die Mischung aus Gelb und Blau ist, als im Gleichgewicht befindlich. Auf etwas eigentümliche Art und Weise, deren Erläuterung uns zu weit weg führen würde, kommt in seinem Farbsystem noch Rot hinzu. Goethe beschreibt somit ein System aus den vier Farben Rot, Grün, Blau und Gelb.

Etwa vierzig Jahre nach dem Tod Goethes zog der Psychologe und Hirnforscher Ewald Hering9 in seiner „Lehre vom Lichtsinn“ ganz ähnliche Überlegungen an und folgerte aufgrund seiner Beobachtungen, dass sich gewisse Farbkombinationen ausschließen: So kann man zwar von einem bläulichen Rot oder auch gelblichen Grün sprechen, aber ein bläuliches Gelb oder ein rötliches Grün lässt sich nicht beobachten. Diese Farben scheinen sich auszuschließen. Aus solchen Überlegungen und aus den Farbeindrücken, die entstehen, wenn man nach der längeren Betrachtung einer intensiven Farbe auf eine weiße Fläche schaut, entwickelte er das System der Gegenfarbpaare Rot-Grün und Blau-Gelb. Diese bilden laut Hering ein natürliches System der Farbempfindung.

„Verschaltung“ der Zapfen – Darstellung nach Welsch und Liebmann: „Farben: Natur, Technik, Kunst“
„Verschaltung“ der Zapfen – Darstellung nach Welsch und Liebmann: „Farben: Natur, Technik, Kunst“

Mittlerweile hat die Forschung gezeigt, dass sich Herings Beobachtungen auch bei der Signalverarbeitung im Auge belegen lassen. Wie in der Grafik dargestellt, werden die Reize der Zapfen so miteinander „verschaltet“, dass schon auf der Retina die beiden Gegenfarbkanäle Rot-Grün und Blau-Gelb sowie ein Helligkeitskanal entstehen10.

Farbmodelle

Für die praktische Gestaltung mit Farben ist es nötig, dass man Farben benennen oder beschreiben kann. Eine Benennung nur mit Worten wird nicht genügen, denn selbst wenn wir viele Farbwörter hätten, könnten wir uns unter diesen Worten immer noch Verschiedenes vorstellen. Da Farben am Bildschirm durch die Kombination der drei Farben Rot, Grün und Blau erzeugt werden, liegt es nahe, die jeweiligen Intensitäten dieser drei Grundfarben zur Beschreibung von Farben zu nutzen. Hieraus resultiert das RGB-Farbmodell. Bei RGB werden die Intensitäten von Rot, Grün und Blau üblicherweise als Prozentzahlen oder als Werte von 0 bis 255 angegeben. Der Farbraum lässt sich, wie hier zu sehen, als Würfel darstellen.

RGB-Farbwürfel
RGB-Farbwürfel

Das RGB-Modell kann immer dann angewandt werden, wenn Licht direkt von einer Lichtquelle ins Auge fällt und nicht von einem Gegenstand reflektiert wird. Man spricht in diesem Falle von Lichtfarben. Wird Licht hingegen an einer Oberfläche reflektiert, spricht man von Körperfarben. Lichtfarben und Körperfarben haben unterschiedliche Farbmodelle, da die Farbmischungen auf unterschiedliche Art erfolgen: Richtet man einen roten, einen grünen und einen blauen Scheinwerfer auf die gleiche Stelle einer weißen Wand in einem ansonsten dunklen Raum, wird die Wand weiß beleuchtet. Mischt man hingegen aus dem Wasserfarbkasten alle Grundfarben zusammen, ist das Ergebnis nicht etwa weiß, sondern eher schmutzig grau. Bei solchen Körperfarben, die z. B. im Druckbereich eingesetzt werden, wird das CMY(K)-Modell als Gegenstück zu RGB verwendet. Dabei werden Cyan, Magenta und Gelb gemischt. Betrachtet man den oben abgebildeten RGB-Würfel, stellt man fest, dass er auch ein CMY-Würfel ist. Der Nullpunkt für RGB liegt bei Schwarz, der für CMY bei Weiß.

Theoretisch müssten beide Farbsysteme äquivalent sein, sind es in der Praxis jedoch nicht. Da Farbpigmente sich nicht perfekt mischen lassen, sondern einander teilweise verdecken, sind nicht alle Farben darstellbar. Mischt man Cyan, Magenta und Gelb, so ist das Ergebnis nicht Schwarz, sondern ein schmuddeliges Grau oder ein Braun. Aus diesem Grund wird beim Druck zusätzlich Schwarz (K für Key) hinzugefügt, um kontrastreiche Bilder drucken zu können. Mittels der CMYK-Mischung ist es trotzdem nicht möglich, alle RGB-Farben darzustellen. Bilder können daher am Bildschirm und beim Druck unterschiedlich aussehen. Im weiteren Verlauf kümmern wir uns nicht um CMYK, denn Bildschirme sind selbstleuchtend. Ein additives Farbmodell wie RGB ist also gefragt.

HSV und HSL

Das RGB-Farbmodell ist eine gute Beschreibung der technischen Farberzeugung, denn jede am Bildschirm darstellbare Farbe kann als ein Tripel von Zahlen dargestellt werden. Das Modell ist für die Gestaltung jedoch nicht geeignet. Schon die additive Farbmischung ist für das menschliche Empfinden nicht besonders einleuchtend. Kaum jemand würde wohl auf Anhieb darauf kommen, dass die Mischung aus Blau und Gelb Weiß ergibt. Eher würde man wohl entsprechend der subtraktiven Farbmischung von Grün ausgehen. Von diesem Aspekt abgesehen hat das RGB-Modell den grundsätzlichen Nachteil, dass es nur schwer möglich ist, ähnliche Farben zu finden. Farben, die für das Wahrnehmungssystem ähnlich aussehen, haben ganz unterschiedliche RGB-Werte.

Farbabstufungen
Farbabstufungen

Die beiden dargestellten Farben sind Abstufungen voneinander. Sie könnten gut zusammen in einer Nutzungsoberfläche verwendet werden. Betrachtet man jedoch ihre RGB-Werte, erkennt man die Ähnlichkeit der Farben nicht. Die rechte Farbe ist im Vergleich zur linken etwas weniger rot (14 % weniger), nahezu genauso grün (1,7 % weniger), aber fast dreimal so blau (181 % mehr). Man müsste dieser Beschreibung nach annehmen, dass es sich um eine recht bläuliche Farbe handelt. So erscheint sie uns aber nicht.

Das RGB-Modell ist daher für die wichtige Aufgabe, ähnliche Farben zu finden, nicht geeignet. Es gibt aber eine Vielzahl von Möglichkeiten, die RGB-Werte miteinander zu verrechnen und die Farben für unsere Ansprüche praktischer darzustellen. Man könnte zum Beispiel, entsprechend der Hering’schen Ideen, eine Farbe als Kombination der drei Kanäle Helligkeit, Farbtemperatur (blau-gelb) und Tönung (rot-grün) beschreiben. Ein solches Modell ist teilweise im Bereich der Bearbeitung von Fotos hilfreich. Für unsere Zwecke bieten sich jedoch andere Farbmodelle an. Im HSB-Modell etwa, das unten vorgestellt wird, haben die beiden oben gezeigten Farben den gleichen Farbton, allerdings ist die rechte Farbe nur etwa halb so stark gesättigt und minimal dunkler.

Die Idee der Farbmodelle HSB (das auch HSV genannt wird) und dem ähnlichen HSL ist die Beschreibung einer Farbe als Kombination aus einem Farbton, der Sättigung und der Helligkeit. Da es sich um Projektionen des RGB-Modells handelt, sind alle RGB-Farben auch in HSB und HSV darstellbar und umgekehrt. In Bezug auf den Farbton sind die beiden Modelle identisch, ihre Interpretation von Sättigung und Helligkeit ist allerdings unterschiedlich.

Darstellung des HSV-Farbraums – Bild: Samus_ (CC BY-SA 3.0)
Darstellung des HSV-Farbraums – Bild: Samus_ (CC BY-SA 3.0)

Der Farbton (Hue) ist eine Gradangabe im Farbkreis mit der Null-Grad-Marke bei Rot. Dieser Farbkreis besteht größtenteils aus den Regenbogenfarben, die so im Kreis angeordnet sind, dass sich im Kreis gegenüber jeweils die Gegenfarbe befindet. Mit den Regenbogenfarben allein ist der Farbkreis aber nicht komplett, denn, entgegen dem Spruch, dass dem Regenbogen keine Farben hinzuzufügen sind, gibt es Farben, die zwar durch die Mischung anderer Farben erzeugt werden können, für die sich aber keine Wellenlänge von Lichtstrahlen findet, die diesen Farbeindruck direkt hervorrufen könnte. Diese dem Regenbogen fehlenden Farben sind die Purpur- und Magenta-Farben, die aus der Mischung aus kurz- und langwelligem sichtbarem Licht (Rot und Blau) erzeugt werden können.

Ein großer Vorteil des HSB-Farbmodells ist, dass man sich die Farbmischung mit Hilfe von Folien veranschaulichen kann, die in der folgenden Reihenfolge übereinandergelegt werden:

H wie Hue (Farbton): Man wählt eine Grundfolie mit einer Farbe aus dem Farbkreis aus, indem man den Winkel zwischen Rot und der jeweiligen Farbe angibt.

S wie Saturation (Sättigung): Nun wird eine Weiß-Folie hinzugefügt. Die Sättigung wird in Prozent angegeben. Diese bestimmt die Deckkraft. Die 100-%-Folie ist komplett transparent, die 0-%-Folie ist deckend weiß, verdeckt also die zuvor ausgesuchte Farbe vollständig. Alle Folien dazwischen sind teildurchlässig, machen die ausgesuchte Farbe also zu einem bestimmten Grad milchig.

B wie Brightness (Leuchtkraft): Als letztes wird eine Schwarz-Folie aufgelegt. Diese entspricht der Leuchtkraft. Das System funktioniert ähnlich wie bei der weißen Folie. Die 0-%-Folie ist komplett schwarz, die 100-%-Folie komplett durchsichtig.

HSL funktioniert grundsätzlich ähnlich wie HSB. Allerdings sind die Formel und damit die Interpretation von Helligkeit (L) und Sättigung (S) eine andere. Man kann sich die Farbmischung bei HSL besser veranschaulichen, wenn man die Größen in etwas anderer Reihenfolge beschreibt:

H wie Hue (Farbton): Genau wie bei HSB eine Farbe aus dem Farbkreis als Winkel von Rot aus gesehen.

L wie Lightness (Helligkeit): Das Besondere am HSL-Modell ist die Helligkeitsangabe von Schwarz bei 0 % und Weiß bei 100 %.

S wie Saturation (Sättigung): Die Sättigung ist bei HSL ein Mischungsverhältnis zwischen der Farbe in der in L angegebenen Helligkeit und einem Grauton in der gleichen Helligkeit. Eine Sättigung von 0 % ist ein reiner Grauton der Helligkeit L, 100 % die gewählte Farbe der Helligkeit L.

HSL und HSB haben unterschiedliche Vorteile. Der größte Vorteil von HSL ist der unabhängige Helligkeitsregler von komplettem Schwarz bei 0 % bis zu komplettem Weiß bei 100 %. HSB ist in dieser Beziehung komplizierter. Der größte Nachteil von HSL ist das nicht intuitive Konzept von Sättigung. Ein sehr helles Gelb beispielsweise ist kaum zu erkennen und man würde es üblicherweise nicht als gesättigt beschreiben. In HSL ist der S-Wert jedoch hoch. Ganz praktisch spricht für HSL, dass das Farbmodell in der CSS-Spezifikation des W3C verwendet wird. Damit kann im wichtigen Bereich des Webdesigns und der Farbgestaltung von Web-Anwendungen auf HSL zurückgegriffen werden.

Eine wichtige Einschränkung muss übrigens für beide Modelle bedacht werden: HSL und HSB/V betrachten nicht die unterschiedliche Ausstattung des Auges mit S-, M- und L-Zapfen. Eine Änderung des Hue von Blau zu Rot resultiert in einer viel helleren Farbe. Die Empfindlichkeit des Auges für Blau und Violett ist erheblich geringer als für die anderen Farben. Das bedeutet in der Konsequenz, dass es mit HSV und HSL zwar möglich ist, einen Farbton mit verschiedenen Helligkeiten und Sättigungen zu erzeugen. Mit diesem System kann man aber nicht Farben verschiedener Farbtöne mit gleicher wahrgenommener Helligkeit und Sättigung erzeugen. Es gibt Farbräume, in denen dies möglich ist. Ihre Besprechung würde aber über das hinausgehen, was für unsere Zwecke wichtig ist.

Anmerkungen

Grundlagen

1Der Begriff der Kognition umfasst alle Denk-, Lern- und Wahrnehmungsvorgänge und wird uneinheitlich benutzt. Da der Begriff auch oft für das Denken in einem umfassenden Sinn verstanden wird, betrachten wir die Begriffe Denken und Kognition in unserem Kontext als synonym, denn eine präzise Abgrenzung ist für unseren Gestaltungsansatz nicht erforderlich.

2Siehe hierzu Keil, Reinhard: Das Differenztheater. Koaktive Wissensarbeit als soziale Selbstorganisation. In: Bublitz, H., Marek, R., Steinmann, C., Winkler, H. (Hrsg.): Automatismen. Wilhelm Fink: München, 2010, S. 205-229, sowie insbesondere das Kapitel „Differential Experience“ in der Dissertation von Felix Winkelnkemper: Responsive Positioning: A User Interface Technique Based on Structured Space. Universität Paderborn, 2018.

3Erstveröffentlichung 1953, heute verfügbar etwa in: Wittgenstein, Ludwig: Philosophische Untersuchungen. Kritisch-genetische Edition. Herausgegeben von Joachim Schulte. Wissenschaftliche Buchgesellschaft. Frankfurt 2001.

4Gibson, James J.: The Ecologial Approach on Visual Perception. Taylor & Francis Group, New York, Hove, 1986, S. 257.

5Andernfalls kommt es zu einer Realitätsablösung, deren mögliche Konsequenzen Paul Watzlawik in seinem Buch „Wie wirklich ist die Wirklichkeit? – Wahn, Täuschung, Verstehen“ sehr anschaulich und unterhaltsam dargestellt hat.

6Es ist durchaus möglich, in Einzelfällen, z. B. bei Inselbegabungen, diese Beschränkungen zu durchbrechen. Der Neurologe Oliver Sacks berichtet in seinem Buch „Der Mann, der seine Frau mit einem Hut verwechselte“ von Zwillingen, die in der Lage waren, einen Sack Murmeln im Fallen zu zählen. Die Aussagen in unserem Buch beziehen sich ausdrücklich weder auf Personen, die mit außergewöhnlichen Begabungen ausgestattet sind, noch auf solche mit besonderen physischen oder kognitiven Herausforderungen; dazu wären jeweils gesonderte Betrachtungen erforderlich.

7Berman, Morris: Wiederverzauberung der Welt. Am Ende des Newton’schen Zeitalters. Dianus-Trikont Buchverlag. München. 1983.

8Die Erfindungen der Zahl Null und des Stellenwertsystems (räumliches Arrangement) sind entscheidende Faktoren dafür, dass schriftliches Rechnen performant möglich ist. Additive Zahlensysteme wie das römische oder das sumerische erfüllen diese Voraussetzungen nicht. Zwar kann man mit viel Mühe auch mit diesen Zahlensystemen schriftlich rechnen, der Prozess ist allerdings erheblich komplexer, sodass man in vielen Kulturen mit speziellen Geräten rechnete (Abakus oder Rechentisch) und nur die jeweiligen Ergebnisse schriftlich fixierte. Da hierbei keine schriftliche Spur des Rechenprozesses entsteht, erfordert eine Kontrolle des Rechenergebnisses die Wiederholung des gesamten Prozesses. Damit steigen die Fehleranfälligkeit sowie der Aufwand, Fehler zu korrigieren.

9Ifrah, Georges: Universalgeschichte der Zahlen. 2. Auflage. Campus Verlag Frankfurt am Main/New York. 1991. S. 28 f.

10Auch wenn wir uns in diesem Buch auf die ergonomischen Fragen der Gestaltung der Nutzungsschnittstelle beschränken, lassen sich diese Überlegungen auch auf den Bereich der Usability, also der Frage nach der Unterstützung der jeweiligen Arbeitsaufgaben, übertragen. Betrachtungen hierzu sind jedoch dann in hohem Maße kontextabhängig.

11Jacob Nielsen bezeichnet solche Objekte als Chrome. https://www.nngroup.com/articles/browser-and-gui-chrome/ (zuletzt besucht: 06. 03. 2023)

12Tognazzini, Bruce: Tog on Interface. Boston, MA. Addison-Wesley Longman Publishing Co. Inc., 1992.

13In der Informatik spricht man von einer „Abstraktionsschicht“. Wir halten den Begriff „Abstraktion“ an dieser Stelle aber nicht für besonders hilfreich, denn keine der beiden Seiten einer Nutzungsschnittstelle, die Objektwelt auf der Nutzungsseite und die technischen Gegebenheiten auf der Geräteseite, ist eine Abstraktion der jeweils anderen. Auf der einen Ebene gibt es lediglich physikalische Datenträger-Adressen und Bitströme, die auf einen Datenträger geschrieben oder von ihm gelesen werden sollen. Auf der Nutzungsebene gibt es hingegen Dateien und Verzeichnisse. Auf der hardwarenahen Seite der Schicht existieren keine Dateien, auf der Nutzungsseite hingegen ist es nicht mehr, als direkt durch Angabe einer Hardwareadresse auf einzelne Bytes eines Speichermediums zuzugreifen.

14Näheres dazu unter https://computergeschichte.net/.

15Von Neumann, John. First Draft of a Report on the EDVAC, 1945. Reprinted in IEEE Annals of the History of Computing 15.4 (1993): 27-75.

16Fernschreiber wie der ASR-33 verfügten über eine „Rubout“-Taste, die gedrückt werden konnte, um durchzugeben, dass das vorher gesendete Zeichen „ausgewischt“ werden soll. Tatsächlich wurde das vorherige Zeichen nicht vom Papier getilgt. Wenn ein solches Zeichen an den Computer geschickt wurde, löschte er die Eingabe intern und schickte zur Bestätigung ein neues Zeichen, häufig das Dollarzeichen, zurück, um darzustellen, dass die Eingabe akzeptiert wurde.

17Der Begriff „Direkte Manipulation“ wurde 1983 von Ben Shneiderman geprägt (Shneiderman, Ben. Direct Manipulation: A Step Beyond Programming Languages. In: ACM SIGSOC Bulletin. ACM, 1981. S. 143). Obwohl wir den Begriff an dieser Stelle etwas anders nutzen, schien uns diese Bezeichnung sinnvoll, weil die nachfolgend beschriebenen Qualitäten auch im Kern von Shneidermans Überlegungen stehen.

18Wegner, Peter: Why Interaction is More Powerful Than Algorithms. In: Communications of the ACM, Vol 40. No 5, 1997, pp. 80-91.

19Damit geht meist auch eine Akzentverschiebung weg vom grundlegenden Gestaltungswissen hin zu methodischen Vorgehensweisen einher. Eine breitere Darstellung zeigt die Dissertation von Florian Klompmaker „Entwicklung eines strukturierten Prozesses des Interaktionsdesigns für natürliche Benutzungsschnittstellen“, Universität Paderborn, 2015.

20Köhler, Wolfgang: Gestalt Psychology. Horace Liveright, New York, 1929.

21Man muss mit Begriffen wie „Lösung“ oder „Kompromiss“ vorsichtig sein, denn sie suggerieren, dass Evolution ein denkendes Wesen ist, das bewusste Entscheidungen trifft. Die Begriffe sind daher nur metaphorisch zu verstehen.

22Yarbus, Alfred L.: Eye Movements and Vision. Springer, 2013. Original von 1967.

23Beschrieben in Gregory, Richard L.: Eye and Brain. The Psychology of Seeing. Oxford: Oxford University Press, 1998. Deutsch: Auge und Gehirn. Psychologie des Sehens. Reinbek: Rowohlt, 2001.

24Umfangreich beschrieben in Gregory, Richard L.: Eye and Brain. The Psychology of Seeing. Oxford: Oxford University Press, 1998. Deutsch: Auge und Gehirn. Psychologie des Sehens. Reinbek: Rowohlt, 2001.

25Abbildung in Anlehnung an Teachsam – http://teachsam.de/psy/psy_wahrn/psy_wahrn_4_2_3_9.htm. Zeichnung des Gehirns: Freepik – https://www.freepik.com/free-psd/brain-outline-illustration_65105163.htm

26Hoffman, Donald D.: Visuelle Intelligenz. Wie die Welt im Kopf entsteht. Klett-Cotta, 2000.

27Dresp-Langley, Birgitta and Adam Reeves: Color and Figure-Ground: From Signals to Qualia. In: S. Magnussen, M. Greenlee, J. Werner, A. Geremek (Eds.): Perception Beyond Gestalt: Progress in Vision Research. Psychology Press, Abingdon (UK), pp. 159-171, 2013.

28Dresp-Langley, Reeves (siehe oben)

29Troscianko, Tom; Montagnon, Rachel; Le Clerc, Jaques; Malbert, Emmanuelle and Chanteau, Pierre-Louis (1991): The Role of Colour as a Monocular Depth Cue. Vision Research, Volume 31, No. 11, pp. 1923-1930. Pergamon Press. 1991.

30O’Shea, Robert P.; Blackburn, Shane G. and Ono, Hiroshi: Contrast as a Depth Cue. Vision Research, Volume 34, No. 12, pp. 1595-1604. 1994.

31Ichihara, Shigeru; Kitagawa, Norimichi and Akutsu, Hiromi: Contrast and Depth Perception: Effects of Texture Contrast and Area Contrast. In: Perception, Volume 36, No. 5, pp. 686-695. 2007.

32Sundet, Jon Martin: Effects of Colour on Perceived Depth: Review of Experiments and Evalutaion of Theories. Scandinavian Journal of Psychology, 19. Jg., Nr. 1, S. 133-143. 1978.

33Dresp-Langley, Reeves (siehe oben)

Ergonomische Nutzungsschnittstellen

1Nielsen, Jacob and Molich, Rolf: Heuristic evaluation of user interfaces, Proc. ACM CHI’90 Conference, Seattle, WA, 1-5 April 1990, 249-256. eine aktualisierte Fassung seiner heuristischen Regeln findet sich auf der Webseite seines Unternehmens: https://www.nngroup.com/articles/ten-usability-heuristics/.

2Shneiderman, Ben; Plaisant, Catherine; Cohen, Maxine; Jacobs, Steven and Elmqvist, Niklas: Designing the User Interface: Strategies for Effective Human-Computer Interaction. Sixth Edition, Boston: Pearson, 2016.

3Damit eine Lösung mit einem Button an dieser Stelle funktioniert, müssen das Aktualisierungsprogramm und die Anwendung selbst eine passende technische Schnittstelle anbieten, mittels derer ein Beenden möglich ist. Dies ist in diesem Beispiel sicherlich der Fall, denn das Installationsprogramm für eine komplett neue Programmversion verfügt über genau diese Funktionalität.

4Zu nicht irdischen Nutzungsschnittstellen verweisen wir auf Shedroff, Nathan und Noessel, Christopher: Make It So: Interaction Design Lessons from Science Fiction. Rosenfeld Media. 1. Auflage. 2012.

5Eine ausführlichere Auseinandersetzung mit dem Ansatz des flat design findet sich in Winkelnkemper, Felix und Keil, Reinhard: Zwischen Design und Flexibilität – Zur Ergonomie des Flat Design. 2014. In: Butz, A., Koch, M. & Schlichter, J. (Hrsg.), Mensch & Computer 2014 - Tagungsband. Berlin: De Gruyter Oldenbourg. (S. 255-264) und in einem entsprechenden Web-Magazin-Beitrag von t3n.

Präsentation

1Jack M. Carroll und Sandra A. Mazur wiesen bereits in der Frühphase der Entwicklung grafischer Nutzungsoberflächen darauf hin, dass es bei der Gestaltung in erster Linie auf die Unterstützung von Lernprozessen ankomme, da auch die Bedeutung bildhafter Objekte erst durch Handeln erschlossen werden muss: Lisa Learning. IEEE Computer; December 1986, 19(11):35-49.

2Siehe etwa Benway, Jan Panero: Banner Blindness: The Irony of Attention Grabbing on the World Wide Web. Proceedings of the Human Factors and Ergonomics Society Annual Meeting. Vol. 42. No. 5. Sage CA: Los Angeles, CA: SAGE Publications, 1998.

3Frankfurter Allgemeine Zeitung, 24.09.2003, Nr. 222 / Seite 9.

4Rawlinson, Graham E.: The Significance of Letter Position in Word Recognition (Dissertation, University of Nottingham). 1976.

5Psychological Science, Bd. 17, Nr. 3; S. 192.

6Radach, Ralph; Günther, Thomas und Huestegge, Lynn: Blickbewegungen beim Lesen, Leseentwicklung und Legasthenie. Lernen und Lernstörungen. 1. Auflage, Verlag Hans Huber, Hogrefe AG, Bern, S. 185-204.

7Es handelt sich um eine sinnvolle Technik für die Erzeugung von Icons und Symbolen. Ihre Implementierung ist jedoch nur ein technischer Kniff, denn man schreibt mit Icon-Fonts keine Texte, sondern verwendet vielmehr einzelne „Buchstaben“ zur Erzeugung von Piktogrammen. Mehr zu Piktogrammen erfahren Sie im folgenden Kapitel.

8Im deutschen Typographie-Sprachgebrauch wird oft der Begriff „Antiqua-Schrift“ verwendet. Wir bleiben aber beim Ausdruck „Serifenschrift“, denn dieser beschreibt besser, was die Schriftart ausmacht.

9Im deutschen Typographie-Sprachgebrauch wird von „Grotesk-Schriften“ gesprochen.

10Willberg, Hans-Peter: Wegweiser Schrift: Was passt – was wirkt – was stört? 5. überarbeitete Neuauflage, Verlag Hermann Schmidt, Mainz. 2017.

11Legge, Gordon E.; Rubin, Gary S.; Pelli, Denis G. and Schleske, Mary M.: Psychophysics of Reading. II. Low Vision. Vision Res. Vol. 25, No.2, pp. 253-266. Pergamon Press Ltd. UK. 1985.

12Greco, Massimo; Stucchi, Natale; Zavagno, Daniele and Marino, Barbara: On the Portability of Computer-Generated Presentations: The Effect of Text-Background Color Combinations on Text Legibility. In: Human Factors: The Journal of the Human Factors and Ergonomics Society. pp. 821-833. 2008.

13Dobres, Jonathan; Chahine, Nadine and Reimer, Bryan: Effects of Ambient Illumination, Contrast Polarity, and Letter Size on Text Legibility Under Glance-Like Reading. In: Applied Ergonomics, pp. 68-73. 2017.

14Auch die Geschwindigkeit, mit der man sich bewegt, spielt bei den Schildern eine Rolle, ist jedoch für unser Thema nicht relevant.

15https://docs.microsoft.com/en-us/windows/desktop/learnwin32/dpi-and-device-independent-pixels

16Daneben existiert bei Android die Einheit sp unter Berücksichtigung des Skalierungsfaktors.

17Siehe dazu die Abschnitte „Räumliche Objektarrangements“ und „Direkte Manipulation“ im historischen Teil Potenziale interaktiver Nutzungsschnittstellen. Bei der Entwicklung des Xerox-Star (1981), dem ersten kommerziellen Computer mit einer durchgehenden grafischen Nutzungsschnittstelle, waren die Möglichkeiten zum räumlichen Arrangement manipulierbarer Objekte das zentrale Feature für Direkte Manipulation: „Direct manipulation requires that distinct functions be invoked and controlled in spatially distinct locations, in ways that are specific and appropriate for the particular function being controlled…Similar functions should indeed have similar user interfaces across contexts. Direct manipulation requires, however, that different functions should have distinct interfaces.“ Johnson, Roberts (1989), S. 14). Quelle: Johnson, J., Roberts, T.L., Verplank, W., Smith, D.C., Irby, C.H., Beard, M., Mackey, K.: The Xerox Star: A Retrospective. IEEE Computer; Vol. 22, No.9; September 1989; S. 11 – 19

18Es ist daher nicht besonders verwunderlich, dass die Einrichtung zum Zwischenspeichern ausgeschnittener oder kopierter Objekte im Deutschen anders als im Englischen nicht „Klemmbrett“ (Clipboard), sondern viel allgemeiner „Zwischenablage“ genannt wird.

19Zwar gibt es immer wieder Entwicklungen von Icon-Sprachen, beispielsweise im Bereich der visuellen Programmierung, doch sind diese immer in einem speziellen Anwendungskontext zu sehen. Schwerer noch wiegt, dass eine solche Grammatik mit ihren syntaktischen und semantischen Regeln die grafischen Ausdrucksmöglichkeiten einschränkt. Wir gehen daher davon aus, dass Icons vom Grundsatz her keiner Grammatik unterliegen und in dieser Hinsicht frei gestaltbar sind.

20Die Kombination aus Icon und Text würde zusätzlich noch die Handhabbarkeit, die wir im Kapitel Eingaben besprechen, verbessern, da die anklickbare Fläche deutlich größer würde.

21Mit den Überlegungen, ob ein Zeichen abbildet, wofür es steht, ob es willkürlich ist oder ob es einen Hinweis auf etwas anderes verkörpert (wie etwa Rauch als Hinweis auf Feuer), befinden wir uns im Bereich der Semiotik, der Lehre der Zeichen und ihres Gebrauchs. Wie jede Wissenschaft hat die Semiotik eine Reihe von Grundbegriffen und, wie in vielen Bereichen, gibt es für all diese Begriffe die verschiedensten Definitionen. Um die Begriffe wissenschaftlich korrekt nutzen zu können, müssten wir eigentlich die Geschichte der Definition von Begriffen wie „Zeichen“, „Symbol“, „Icon“ und „Index“ genau untersuchen. Wir würden dabei feststellen, dass in der einen Variante ein Symbol ein Zeichen ist, das noch eine Ähnlichkeit mit dem Bezeichneten hat, während in einer anderen Variante das Symbol sich dadurch auszeichnet, gerade keinen eigenen Bezug zum Bezeichneten zu besitzen. Eine solche Gegenüberstellung mag interessant sein, doch führt sie uns an dieser Stelle nicht weiter. Wir gehen es deshalb pragmatisch an und verzichten im Weiteren darauf, die Worte „Zeichen“ oder „Symbol“ mit unterschiedlichen Bedeutungen zu belegen. Wenn Sie ein Icon benennen müssen, ist das Wort „Symbol“ übrigens im Deutschen die übliche Bezeichnung (zum Beispiel: „Klicken Sie auf das Speichern-Symbol!“).

22Siehe hierzu auch unsere Ausführungen zur räumlichen Zuordnung von Bildschirmobjekten im Kapitel Anordnung).

23Wandmacher, Jens; Müller, U.: On the Usability of Verbal and Iconic Command Representations. Zeitschrift für Psychologie, 9. Jahrgang, S. 35-45. 1987.

24Wandmacher und Müller führten noch ein zweites Experiment durch, bei dem es darum ging, aus dem Gedächtnis wiederzuerkennen, für welche Funktion ein Icon stand. Weil es jedoch praxisnäher ist, reicht uns für unsere Betrachtungen das erste Experiment.

25Arend, Udo und Wandmacher, Jens (1989): Gestaltungsprinzipien für Piktogramme und ihr Einfluss auf die Menüauswahl. Notizen zu Interaktiven Systemen. 17. 5-27. Wiedergabe nach Wandmacher, Jens: Software-Ergonomie. 1993. Begrifflichkeiten zwecks Konsistenz mit den von uns gewählten Ausdrücken angepasst.

26Arend, U., Muthig, K. P., & Wandmacher, J. (1987). Evidence for global feature superiority in menu selection by icons. Behaviour & Information Technology, 6(4), 411-426.

27Das Bild stammt aus unserem Archiv. Leider ist es uns aufgrund des generischen Titels nicht gelungen, die Software zu identifizieren. Wenn Sie in Ihrem Software-Archiv noch eine Kopie davon haben sollten, melden Sie sich doch bitte bei uns!

28Die in orange eingezeichneten Fluchtlinien stehen gewissermaßen außer Konkurrenz, denn sie verkörpern die linken Begrenzungen des Navigationsbereichs oben im Bild bzw. der Button-Leiste unten. Da diese jeweils verschiedene Handlungs- und Wahrnehmungsbereiche verkörpern, müssen die dortigen Objekte nicht unbedingt mit denen des Hauptbereichs in eine Flucht gebracht werden.

29Chapanis, Alphonse; Lindenbaum, Lionel E.: A Reaction Time Study of Four Control-Display Linkages. Human Factors 1.4: 1-7. 1959.

30Zusammengefasst in Dickens, Christopher D., Hollands, Justin G.: Engineering Psychology and Human Performance. 2000. S. 351 – Einzelne Untersuchungsergebnisse zum Beispiel in Hoffmann, Errol R. and Chan, Alan H.S.: Alternative approaches to the design of four-burner stoves. Ergonomics 54:9 (2011): 777-791 und Osborne, David W. and Ellingstad, Vernon S.: Using Sensor Lines to Show Control-Display Linkages on a Four Burner Stove. Proceedings of the Human Factors Society Annual Meeting. Vol. 31. No. 5. Sage CA: Los Angeles, CA: SAGE Publications, 1987.

31Dass Microsoft damals an dieser Stelle spezifische Buttons verwendet hat, hat uns beim Rückblick auf das System überrascht, denn im Großen und Ganzen war und ist Windows durchsetzt mit generischen Buttons.

32Diese Fünferbildung geht auf das römische Zahlensystem zurück, bei dem fünf Striche durch ein neues Zahlzeichen (V) ersetzt werden. Je nach Anwendungsfall gibt es für die Bildung von Gruppen internationale Konventionen und Normen wie z. B. die ISO-Norm ISO 13616-1:2020 für die IBAN oder Konventionen zur Darstellung von Postleitzahlen und Telefonnummern (DIN 5008), die grundsätzlich beachtet werden sollten. Diese Regelwerke behandeln zusätzliche Aspekte aus dem Bereich Gebrauchstauglichkeit wie die Nutzung von Sonderzeichen, die Gruppenbildung für den Fall, dass aufgrund der Anzahl die Aufteilung nicht gleichmäßig erfolgen kann, oder auch wie z. B. die Platzierung aufgrund semantischer Kriterien vorzunehmen ist. Diese Regelwerke beachten die von uns vorgestellten grundsätzlichen Aspekte des Gruppierens (Chunking). Sollte dies in einzelnen Fällen nicht der Fall sein, sind die bereichsspezifischen Regelungen vorrangig zu erfüllen.

33Wir haben uns die Freiheit genommen, alle Elemente beliebig anordnen zu können. An einem echten Automaten kann der Gestaltungsspielraum dagegen eingeschränkt sein, weil die enthaltenen technischen Komponenten nicht beliebig eingebaut werden können oder die Gruppenbildung sogar vorgeben.

Interaktion

1Eine Ausnahme bilden typische Tastenkombinationen wie Steuerung+S, um ein Dokument zu speichern. In diesen Fällen richtet sich die Eingabe nicht an ein spezielles Bildschirmelement, sondern an die Anwendung als Ganzes.

2An dieser Stelle sollen jetzt nicht die Vor- und Nachteile der Maus- oder Tastaturnutzung behandelt werden. Mehr zu diesem Thema findet sich im Kapitel Heterogenität.

3Dass der Slider in diesem Fall ungeeignet ist, liegt daran, dass die Software ursprünglich nicht für lange Spielfilme gedacht war, sondern für die Wiedergabe von Musikstücken, deren Länge in der Regel 2-5 Minuten beträgt.

4Die Schreibweise variiert oft. Auch die Schreibung „Fitts’ Law“ ist üblich.

5Fitts, Paul M.: The information capacity of the human motor system in controlling the amplitude of movement. In: Journal of Experimental Psychology, Issue 47, No. 6, p. 381. 1954.

6Das Experiment oder der Versuchsleiter

7Das „Subject“, also der Versuchskandidat

8MacKenzie, Ian Scott: A Note on the Validity of the Shannon Formulation for Fitts’ Index of Difficulty. In: Open Journal of Applied Sciences, Issue 3, No. 6, pp. 360-368. 2013.

9Radiobuttons sind den Knöpfen für die Stations- oder Bandwahl an alten Radios angelehnt. Bei diesen muss zu Beginn immer erst der Frequenzbereich ausgewählt werden, in dem der gewünschte Sender ausstrahlt. Diese Wahl ist alternativ, d. h. man kann z. B. entweder UKW oder Mittelwelle hören. Drückt man einen der Knöpfe hinein, springt der andere automatisch heraus.

10Die Apple Lisa war Apples erster Computer mit einer grafischen Nutzungsoberfläche. Er erschien ein Jahr vor dem Macintosh, dessen Nachfolger es noch heute gibt.

11Aktuelle Chrome-Versionen scheinen dieses Feature nicht mehr zu besitzen. Sucht man nach „Link Disambiguation Pop-up“, findet man eine Unmenge von Beschwerden und Fehlerbeschreibungen. Damit wird für uns aber nicht die Sinnhaftigkeit einer solchen Funktion an sich in Frage gestellt. Vielmehr verweist es auf die Schwierigkeit, im Vorhinein abschätzen zu können, wann eine Selektion mehrdeutig ist und wann nicht.

12Potter, Richard L.; Weldon, Linda J. and Shneiderman, Ben: Improving the Accuracy of Touch Screens: An Experimental Evaluation of Three Strategies. 1988.

13Der Ausdruck wird gelegentlich auch im Zusammenhang mit „natürlichen Nutzungsschnittstellen“ diskutiert, wobei unter dem Begriff natürlich in diesem Kontext Eingabeformen ohne Tastatur und Maus wie Gestik oder Sprache verstanden werden. Häufig verwendet wird er aber als Bezeichnung einer Führungsmethode, die darauf abzielt, Mitarbeitern und Untergebenen im Gespräch nicht nur mitzuteilen, was nicht so gut gelaufen ist, sondern mit ihnen konstruktiv herauszuarbeiten, wie ein Ziel erreicht werden könnte.

14Vielleicht ist Ihnen ein weiteres Problem aufgefallen, das wir im vorherigen Kapitel besprochen haben. Es läge im Sinne der Eingabeminimalität nahe, die Möglichkeit zum Speichern direkt an dieser Stelle anzubieten. Diese Option wird zwar im Text angesprochen, aber der Button zur Ausführung fehlt.

15Die Meldung entstammt einem realen Praxisbeispiel. Wir haben lediglich den Hintergrund der Anwendung ein bisschen ausgeschmückt, damit die Meldung gut verbessert werden kann.

16Die Erkenntnisse wurden in zwei studentischen Abschlussarbeiten erarbeitet: Petrausch, Vanessa: Reduction of Saccade Movements by Structured Design – An Experimental Analysis. Masterarbeit, 2015. Universität Paderborn. und Schlichtig, Michael: Evaluation von Gestaltungsempfehlungen im Rahmen einer hypothesengeleiteten Technikgestaltung. Bachelorarbeit, 2017. Universität Paderborn.

17Siehe oben.

18Gregory, Richard L.: Auge und Gehirn. Psychologie des Sehens. Rowohlt Taschenbuch Verlag: Reinbek bei Hamburg. 2001. S. 181 ff.

19Die Verzögerung ist mit analoger Technik realisiert worden. Das Bild der Fernsehkamera wird auf ein Videoband aufgezeichnet, aber an anderer Stelle abgetastet, um das Fernsehbild zu produzieren. Um die Verzögerung zu erreichen, wird die Strecke zwischen dem Aufnahmekopf und dem Lesekopf vergrößert, indem das Band nach außen umgelenkt wird.

20Seow, Steven C.: Designing and Engineering Time. The Psychology of Time Perception in Software. Addison Wesley: Boston, 2008.

21Harrison, Chris; Yeo, Zhiquan and Hudson, Scott E.: Faster Progress Bars: Manipulating Perceived Duration with Visual Augmentations. In: Proceedings of the 28th Annual SIGCHI Conference on Human Factors in Computing Systems (Atlanta, Georgia, April 10-15, 2010). CHI ‘10. ACM, New York, NY. 1545-1548.

22Sowohl beim Listening als auch beim Polling wird signalisiert, wenn etwas passiert. Sie sind zum Beispiel ein Listener zu Ihrem Telefon. Das Telefon meldet sich lautstark bei Ihnen, wenn jemand anruft.

23Würde das Telefon auf Polling basieren, würde es nicht klingeln. Stattdessen müssten Sie in regelmäßigen, meist sehr kleinen Abständen nachsehen, ob Sie gerade jemand anruft. Für das Telefonbeispiel mag das seltsam erscheinen, doch ist Polling ziemlich verbreitet und technisch viel einfacher zu realisieren.

24Nachzulesen etwa unter http://www.sueddeutsche.de/digital/zweite-basketball-bundesliga-wenn-ein-windows-update-zum-abstieg-fuehrt-1.2410410

Orientierung

1Unter einer Bildschirmseite verstehen wir ein Objektarrangement, das zu einem Zeitpunkt komplett auf einem Bildschirm dargestellt werden kann.

2Johnson, Jeff A.; Roberts, Theresa L.; Verplank, William; Smith, David C.; Irby, Charles H.; Beard, Marian and Mackey, Kevin: The Xerox Star: A Retrospective. IEEE Computer, Vol. 22, No. 9, 1981, pp. 11-28.

3Siehe https://web.archive.org/web/20120825022734/http://www.useit.com/alertbox/ui-chrome.html Der Ausdruck hat nichts mit dem fast gleichnamigen Browser von Google zu tun.

4Nicht berücksichtigt werden typische Hypertext-Techniken wie in den Text eingelassene Links, bei denen es keine explizite Nutzungsschnittstelle gibt. Ein Beispiel ist Wikipedia, wo es innerhalb eines Textes Verweise zu anderen Stichworten gibt. Wir lassen diese Navigationstechniken jedoch außen vor, weil es sich bei ihnen eher um einen Teil und eine Eigenschaft des Dokumentinhalts handelt als um eine explizite Nutzungsschnittstelle. Mit Hypertext und Hyperlinks sind eigene Probleme und Herausforderungen verbunden, die vor allem in der Hypertext-Literatur der 1990er Jahre intensiv aufgearbeitet worden sind.

5Miller, George A.: The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information. The Psychological Review, No. 63, 1956, pp. 81-97.

6Früher funktionierte dies auch in Word, doch aktuelle Word-Versionen unterstützen den Überschreiben-Modus nicht mehr. In OpenOffice und LibreOffice ist er – Stand Oktober 2023 – noch verfügbar.

7Genauer gesagt handelt es sich um die Software Lightroom Classic. Das ebenfalls existierende Lightroom ohne den Zusatz „Classic“ hat momentan weniger Funktionalität als der große, „alte“ Bruder und daher auch weniger mit Modusproblemen zu kämpfen.

Flexibilität

1Zum Beispiel in https://www.pcwelt.de/ratgeber/12-Machen-personalisierte-Menues-die-Bedienung-einfacher-67949.html

2Das Anpassungsfenster von Windows 2 verfügt über einen „Reset“-Knopf, erlaubt also ein Zurückkehren zu einer vorherigen Einstellung. Allerdings handelt es sich nicht um das Standardfarbschema. Reset stellt nur den Zustand vor dem Aufruf des Anpassungsfensters wieder her. Hat man zuvor ein schlechtes Farbschema konfiguriert und das Fenster anschließend geschlossen, hilft Reset nicht beim Wiederherstellen der Standardkonfiguration, sondern entspricht einem Undo.

3Johnson, Jeff A.; Roberts, Teresa L.; Verplank, William; Smith, David C.; Irby, Charles H.; Beard, Marian and Mackey, Kevin: The Xerox Star: A Retrospective. Computer, Issue 22, No. 9. pp. 11-26. 1989. Palo Alto, CA.

Konventionen

1Die Grenzen zwischen den vorgestellten Bereichen der Konventionen sind nicht trennscharf. Wir könnten zum Beispiel auch die Konventionen betrachten, die durch Organisationen und Firmen vorgegeben werden. Sie definieren Vorgaben für bestimmte Zeichen, Logos, Bezeichnungen und, sehr prominent, die Farbgestaltung. Wenn wir Organisationen mit in die obige Liste aufnähmen, würden wir allerdings nur Aspekte wiederholen, die bei den Aufgabenkonventionen und den kulturellen Konventionen bereits betrachtet werden.

2Was genau jeweils als Prozess bezeichnet wird, ist nicht einheitlich. Vereinfacht kann man sich einen Prozess als ein gerade laufendes Programm vorstellen. Wenn nun ein Programm ein anderes Programm verwendet, etwa eine Videoschnittsoftware ein Programm zum Komprimieren von Videos, dann ist das Komprimierungsprogramm der Kind-Prozess und die Videoschnittsoftware der Eltern-Prozess.

3Horton, William: The Icon Book: Visual Symbols for Computer Systems and Documentation. John Wiley & Sons. 1994.

Exkurse

1Shneiderman, Ben; Plaisant, Catherine; Cohen, Maxine; Jacobs, Steven, and Elmqvist, Niklas: Designing the User Interface: Strategies for Effective Human-Computer Interaction: Sixth Edition, Pearson. 2016.

2„Natural Scrolling Vs. Reverse Scrolling – Which Do You Prefer?“, http://www.johnchow.com/natural-scrolling-vs-reverse-scrolling-which-do-you-prefer - zuletzt aufgerufen im April 2019.

3Diese Möglichkeit war gerade der Grund hinter der Entwicklung der Textverarbeitung bzw. des Programmeditors. Mehr dazu im Unterkapitel Editor in unseren Grundlagen zu den Potenzialen interaktiver Nutzungsschnittstellen.

4Crawford, Chris: The Art of Interactive Design: A Euphonious and Illuminating Guide to Building Successful Software. San Francisco: No Starch Press, 2003. S. 5. (Übersetzung durch die Autoren)

5Freie Übersetzung von „I screwed up!“

6Crawford, Chris: The Art of Interactive Design: A Euphonious and Illuminating Guide to Building Successful Software. San Francisco: No Starch Press, 2003. S. 5. (Übersetzung durch die Autoren)

7Von Helmholtz, Hermann: Handbuch der physiologischen Optik. Voss. 1867.

8Goethe, Johann Wolfgang von: Zur Farbenlehre. 1810.

9Hering, Ewald: Zur Lehre vom Lichtsinn V – Grundzüge einer Theorie des Lichtsinnes. Sitzungsberichte der Kaiserlichen Akademie der Wissenschaften in Wien. Mathematisch-Naturwissenschaftliche Classe, Abth. 1874. 69. Jg. S. 85-144.

10Bild nach Welsch, Norbert und Liebmann, Claus Christian: Farben: Natur, Technik und Kunst. Springer Verlag. 2018.