Indexingtiefe und Aufwandsbetrachtung

Definition

Die Indexingtiefe (manchmal auch kurz Indextiefe genannt) wird gemäß ISO 5127/3a-1981 definiert als

„Der Detailgrad, mit dem der Inhalt eines Buchs im Index wiedergegeben wird“.

Das ist natürlich eine sehr allgemeine Definition. Was ist der Detailgrad der Wiedergabe?

Nach NISO Z39.4 ist die Indexingtiefe

„Das Ergebnis der kombinierten Effekte von erschöpfender und genauer Wiedergabe in einem Index.“

Dabei kann „erschöpfend“ aufgefasst werden als die optimale – in der Regel große – Zahl der Einträge im Index.

Eine „genaue“ Wiedergabe des Buchinhalts im Index liegt vor, wenn

  • nur registerrelevante Begriffe ausgewählt,
  • mehr als eine Indexebene (oder Indexstufe) verwendet
  • überall wo nötig Untereinträge erzeugt und
  • da, wo hilfreich, treffende Begriffszuweisungen vorgenommen

wurden.

Nach diesen Kriterien lässt sich ein Index im Nachhinein, also wenn er veröffentlicht ist, beurteilen, und man kann ihm eine hohe, mittlere oder niedrige (oder auch eine gute, schlechte, optimale usw. ) Indexingtiefe attestieren.

Absprache zur Indexingtiefe

In der Praxis besteht das Problem, dass Indexer im Vorfeld mit Autor, Herausgeber oder Verlag über etwas reden müssen, was der Indexingtiefe gleichkommt. Wurden keine Absprachen hinsichtlich der Indexingtiefe getroffen, kann es später zu Missverständnissen hinsichtlich der Qualität und des Aufwands (sprich: der Kosten) kommen.

Der erste Punkt, der geklärt werden muss, ist die Dichte der Fundstellen, also die Zahl der Fundstellen pro Seite, genauer: pro indexierbarer Seite. Ist die Fundstellendichte klar, ergibt sich zusammen mit dem bekannten oder geplanten Umfang des Werks die Gesamtzahl der Fundstellen, also auch die Zahl der Einträge im Index und letztlich die Zahl der Druckzeilen, die der Index beanspruchen wird (also der Umfang des Index).

Der zweite wichtige Punkt ist die Gliederungs- oder Verschachtelungstiefe (synonym verwendbar) eines Index. Damit ist die Zahl der Ebenen oder Stufen (synonym verwendbar) gemeint, die eingesetzt wird. Es geht also darum, ob man nur mit Haupteinträgen oder auch mit Untereinträgen oder sogar mit Unteruntereinträgen arbeitet. Je tiefer verschachtelt wird, umso genauer kann der Inhalt an einer Fundstelle beschrieben werden, aber umso aufwändiger wird die Indexerstellung und komplexer und schwerer lesbar wird der Index. Darüber hinaus steigt der Platzbedarf des Index mit der Gliederungstiefe.

Indexierbare Seiten

Nicht alle Inhalte eines Werkes sind indexwürdig. Bei den meisten Werken ist es möglich, vollständige Seiten vom Indexieren auszuschließen. So werden z. B. die Seiten mit Literaturlisten üblicherweise nicht indexiert. Das heißt, der Indexer sollte vor Beginn der eigentlichen Arbeit die Seiten auszählen, die indexiert werden sollen, also die Zahl der indexierbaren Seiten bestimmen.

Bei „Seiten“ kann wieder etwas missverständliches gemeint sein: Manuskriptseiten, Fahnenseiten, Umbruchseiten, Druckseiten. Alle diese Seitentypen unterscheiden sich voneinander, teilweise sogar sehr stark. Welche Seiten bei der Berechnung der indexierbaren Seiten genommen werden, hängt davon ab, in welcher Phase des Werkes mit dem Indexing begonnen wird (dass letztlich die Einträge der meisten Indexe auf Druckseiten verweisen, ist ein anderes Thema).

Manuskriptseiten in heutiger Zeit sind als Seiten im jeweiligen Textverarbeitungsprogramm (Word, OpenOffice usw.) zu verstehen, also als Seiten in dem Programm, das der Autor genutzt hat (und nicht mehr als handgeschriebene Seiten). Wenn im Manuskriptstadium mit dem Indexing begonnen wird, erhält der Indexer entweder die Textverarbeitungsdateien oder daraus erzeugte PDF-Dateien (u. U. auch Ausdrucke).

Fahnenseiten im klassischen Sinn gibt es heute so gut wie nicht mehr, denn Fahnen- und Umbruchseiten eines Werkes sind meistens identisch. Unter Fahne kann man aber auch z. B. Umbruchseiten verstehen, bei denen der Text zwar schon umbrochen ist, aber für die Bilder oder Tabellen nur Platzhalter eingebaut sind. Es gibt auch Indexingprojekte, bei denen aus dem Umbruch heraus spezielle Fahnen produziert werden, auf deren Basis der Indexer arbeiten soll. Das kann z. B. sinnvoll sein, wenn Absatznummern anstelle von Seitenzahlen verwendet werden, der Umbruch aber zwei- oder mehrspaltig angelegt ist. Dann ist eine spezielle einspaltige Ausgabe (aus dem Layoutprogramm heraus), in der alle Absätze linear hintereinander angeordnet sind, für den Indexer wesentlich leichter zu verarbeiten, weil die Absatznummern besser gefunden werden können. Der einfachste Weg, um z. B. aus InDesign heraus solche „Linear-Fahnen“ zu erzeugen führt über HTML. Die InDesign-Datei wird im HTML-Format abgespeichert (dadurch werden automatisch alle Spalten, Kästen, Bilder und Tabellen linear angeordnet), und aus der HTML-Datei wird im nächsten Schritt PDF erzeugt. PDF bietet gegenüber HTML den Vorteil, dass man wie gewohnt Kommentare einbauen kann.

Umbruchseiten  werden in der Regel mit den Druckseiten identisch sein. Man kann aber zeitlich unterscheiden: Von Umbruchseiten spricht man, während das Werk im Layoutprogramm bearbeitet wird. Es können dabei mehrere Versionen entstehen. Irgendwann sind alle Korrekturen ausgeführt und die jetzt vorhandenen Umbruchseiten entsprechen den Druckseiten.

Druckseiten sind die Seiten, die gedruckt werden.

Schätzung der Fundstellendichte

Wird bereits im Manuskriptstadium mit dem Indexing begonnen, kann die Fundstellendichte nur auf die indexierbaren Manuskriptseiten (IMS) bezogen werden. Da die Zahl der Manuskriptseiten üblicherweise größer ist als die Zahl der daraus entstehenden Druckseiten (über die man zu diesem Zeitpunkt aber noch nichts weiß), muss man sehr aufpassen, dass man bei der Absprache der Fundstellendichte keinen Fehler begeht. Vergleichbare Werke, die z. B. vom Verlag zu Rate gezogen werden, sind bereits erschienen; eine Fundstellendichte, die daraus abgeleitet wird, bezieht sich also auf die Druckseiten. In solchen Fällen bleibt nichts anders übrig, als für das anstehende Werk einen Umrechnungsfaktor Manuskriptseiten–Druckseiten abzuschätzen. Die Fundstellendichte von Manuskriptseiten wird in der Regel (wesentlich) kleiner sein als die von Druckseiten.

Steigt der Indexer erst in einer späteren Phase in das Projekt ein, dürften bereits Umbruchseiten (oder daraus abgeleitete Fahnenseiten) oder Druckseiten vorliegen. Damit lässt sich dann die Fundstellendichte, also die Zahl der Fundstellen pro indexierbarer Umbruchseite (IUS) oder pro indexierbarer Druckseite (IDS) angeben.

Zeichenzahldichte

Faktoren, die die Festlegung einer Ziel-Fundstellendichte beeinflussen, sind:

  • Schriftgröße
  • Seitenformat und Spaltenzahl
  • Verhältnis von Bild zu Text
  • der für den Index zur Verfügung stehende Platz.

Um diese Faktoren in den Griff zu bekommen, sollte man als Indexer so vorgehen, dass man mindestens 5 typische Seiten des Werkes betrachtet und eine mittlere Zahl von Zeichen pro Seite (also pro Manuskript-, Umbruch- oder Druckseite) bestimmt. Dazu kann man einfach die Zeichen- und Wörterzählmöglichkeiten eines Textverarbeitungsprogramms wie Word nutzen. Steht das Werk nur im PDF-Format zur Verfügung, einfach die entsprechenden Strecken markieren, kopieren und in Word (oder einem anderen Textprogramm) einfügen und hier die Zahl der Zeichen (inkl. Leerzeichen) anzeigen lassen. Aus den erhaltenen Werten wird dann der Mittelwert gebildet. Der kann z. B. 3500 Zeichen pro Seite betragen. Man mache sich klar: Kann man sich auf Druckseiten beziehen, umfasst dieser Wert die ersten drei Faktoren (Schriftgröße, Seitenformat und Spaltenzahl und das Verhältnis von Bild zu Text) auf einmal! Bei Manuskriptseiten wird die Rechnung etwas komplizierter, zumal man wahrscheinlich sowieso letztlich auf Druckseiten umrechnen muss. Ein Wert für die Zeichenzahl pro Seite (die Zeichenzahldichte), den man wie beschrieben bestimmt hat, erhält erst dann eine wirkliche Bedeutung, wenn wir ihn in Bezug setzen zu den Zeichenzahlen von anderen, bereits erschienenen Werken. Wenn wir bei anderen Werken sehen, dass die Fundstellendichte z. B. 8 Fundstellen pro Druckseite bei einer Zeichenzahl von 4000 Zeichen pro Druckseite beträgt, dann wissen wir, dass beim aktuellen Werk, das eine etwas kleinere Zeichenzahldichte hat, die Fundstellendichte auch etwas kleiner sein darf oder muss.

Die Zeichenzahldichte hat darüber hinaus Einfluss auf den zu erwartenden Gesamtaufwand zur Erstellung eines Index: Je dichter die Seiten mit Buchstaben gefüllt sind, umso mehr Zeit braucht man zum Lesen. Es kann durchaus sein, dass zwei Werke, die miteinander verglichen werden, unterschiedliche Zeichenzahldichten, aber identische Fundstellendichten aufweisen. Dann wird das Werk mit der höheren Zeichenzahldichte einen spürbar höheren Aufwand verursachen.

Gliederungs- oder Verschachtelungstiefe

Kommt nur eine einzige Ebene zum Einsatz, bedeutet das, dass ausschließlich mit Haupteinträgen gearbeitet wird. Viele einfache Indexe sind so aufbereitet. Ein Index mit der Gliederungstiefe 1 muss nicht schlecht sein. Es kommt auf die Zielgruppe an.

Indexe zu Kinder- oder Schulbüchern dürfen nicht mehrgliedrig sein, weil sonst die Gefahr besteht, die Leser zu überfordern.

Indexe zu Büchern für Erwachsene jedoch sollten immer mehrgliedrig sein, weil der Informationsgehalt sonst zu niedrig ist.

Ein eingliedriger Index zu einem Sach- oder Fachbuch für Erwachsene wird zwangsläufig Einträge mit mehr als 5 Seitenverweisen enthalten, was die Verwendbarkeit des gesamten Index deutlich reduziert; denn wenn ich als Leser erst beim 7. oder gar 15. Nachschlagen die Stelle finde, die mich interessiert, werde ich den Index nur selten zu Rate ziehen, sondern bevorzugt oder gar ausschließlich über das Inhaltsverzeichnis versuchen, zum Ziel zu gelangen. Damit aber ist der Index nutzlos.

Ein guter Index zu einem Sach- oder Fachbuch für Erwachsene hat mindestens zwei Ebenen (also Gliederungstiefe 2), nur in Ausnahmefällen sollten drei Ebenen vorkommen. Es gibt Werke, bei denen eine durchgehende Dreigliedrigkeit des Index sinnvoll ist (z. B. Lehrbücher für höhere Semester), mehr als drei Ebenen sollten aber grundsätzlich vermieden werden, weil dadurch ebenfalls die Verwendbarkeit stark herabgesetzt wird. Im Index sollte keinesfalls ein Klassifizierungssystem, etwa die Taxonomie eines Fachgebiets (wie die biologische Tier- oder Pflanzensystematik) abgebildet werden.

Was den Aufwand betrifft, so geht er aus meiner Erfahrung exponentiell mit der Zahl der Ebenen nach oben, wobei der Exponent aber kleiner als 2 ist. Bei gleicher Fundstellendichte ist ein durchgängig zweigliedriger Index etwa 1,5 mal so zeitaufwändig wie ein eingliedriger und ein durchgängig dreigliedriger Index etwa 1,33 mal so aufwändig wie ein zweigliedriger.

In zweigliedrig geplanten Indexen wird es immer Stellen geben, an denen die Notwendigkeit besteht, eine dritte Ebene aufzumachen, also Einträge zu erzeugen, die Haupt-, Unter- und Unterunterthema enthalten. Wenn es sich nur um wenige Stellen handelt und die Unterunterarrays (s. Array) kurz sind,  ist das durchaus erlaubt. Existieren viele solcher Stellen und/oder liegen lange Unterunterarrays vor, leidet die Lesbarkeit stark darunter. Oft besteht die Lösung einfach darin, das Unterthema zum Hauptthema hochzuziehen und dort von diesem durch ein Komma abzutrennen. Die Auswirkung dieser Maßnahme auf die Lesbarkeit ist frappierend positiv.

Genauigkeit und Qualität

Vergleichbarkeit von Werken bzgl. ihrer Indexe ist nur dann gegeben, wenn eine Grundvoraussetzung erfüllt ist: Die Inhalte der Werke müssen ähnlich genau in den Indexen abgebildet werden, wie es für den anstehenden Index geplant ist, die Qualitäten der Indexe müssen ähnlich sein. Dieser Punkt ist daher als nächstes zu klären.

Dazu muss bei den Vergleichsindexen festgestellt werden, welche Gliederungstiefen vorliegen und wie viele und auf welche Weise Untereinträge, Double Postings und Querverweise gebildet wurden. Soll der neue Index ähnlich oder evtl. anders angegangen werden?

Zum neu zu erstellenden Index liegen aber zunächst noch keine Einträge vor. Man kann nicht einfach im voraus rein theoretisch festlegen, dass der neue Index so und so viele Untereinträge, Double Postings oder Querverweise benötigt. Denn die Struktur zweier Werke wird sich immer mehr oder weniger voneinander unterscheiden. Das bedeutet aber, dass man immer erst ein oder zwei typische Kapitel indexmäßig bearbeiten sollte, um die spezifischen Eigenheiten des Werkes finden und beschreiben zu können. Erst nach Vorliegen eines auf diese Weise erstellten Teilindex können die Zielgenauigkeit und die spezifische erwartete Qualität festgelegt werden.

Nach Klärung dieser Punkte weiß man, ob der Wert für die Fundstellendichte, den man aus dem Vergleich der Zeichenzahldichten gewonnen hat, evtl. angepasst werden muss.

Umfang

Als letzter Punkt ist der für den Index zur Verfügung stehende Platz zu berücksichtigen. Manchmal steht so wenig Raum zur Verfügung, dass allein deswegen die Fundstellendichte verringert werden muss. Oder man ist gezwungen, bei der Zahl von Untereinträgen, Double Postings und Querverweisen Abstriche zu machen, also letztlich die Qualität des Index zu mindern. Damit es so weit nicht kommt, gibt es zum Glück oft eine Stellschraube, an der gedreht werden kann: die Schriftgröße im Index. Diese muss nämlich nicht unbedingt mit der Schriftgröße des Inhaltstextes (auch als Brotschrift bezeichnet) übereinstimmen, die meist zwischen 9 und 10 pt liegt. Im Index wird ja immer nur etwas nachgeschaut, nicht am Stück gelesen. Daher kann hier eine wesentlich kleinere Schrift zum Einsatz kommen (man spricht auch von Konsultationsschrift), die allerdings aus Gründen der Lesbarkeit nicht kleiner als 7 pt sein sollte. Die Schriftgröße im Index kann um bis zu 30 % kleiner sein als die Brotschrift, was aber heißt (und diese einfache Umrechnung ist gar nicht so falsch), dass 30 % mehr Platz zur Verfügung steht, als wenn mit der Brotschrift gearbeitet würde.

Wird eine kleine Schrift verwendet, ergibt sich fast zwangsläufig eine weitere Maßnahme: das Register kann 3-spaltig werden. Üblich bei den meisten Registern zu Sach- oder Fachbüchern sind 2 Spalten. Solche Bücher haben oft ein äußeres Format von 17 x 24 cm (manchmal auch größer, selten aber größer als DIN A 4, also 21 x 29,7 cm) und damit einen Satzspiegel von rd. 13 x 20 cm. In einen solchen Satzspiegel passen bei einer 7-pt-Schrift sehr gut 3 Spalten hinein. Würde man bei dieser Schriftgröße 2-spaltig setzen, ginge in den meisten Zeilen viel Platz verloren. Bei 3-spaltigem Satz dagegen treten verhältnismäßig wenige Lücken auf. Es könnte zwar Stellen geben, an denen ein vormals 2-zeiliger Eintrag nun 3-zeilig ist, aber deren Zahl wird sich in Grenzen halten und spielt bei der Gesamtbetrachtung so gut wie keine Rolle. 3-Spaltigkeit wäre also optimal. Was den Druckseitenumfang angeht, kann man grob mit einem Umrechnungsfaktor 1,4 zwischen 2- und 3-spaltigem Register rechnen. Das entspricht noch einmal einer Reduzierung um 30 %.

Schriftverkleinerung und Übergang zu 3-spaltigem Satz verringern zusammengenommen den Umfang also um einen Faktor 0,7 * 0,7 = 0,49. Es lassen sich somit rd. 50 % gegenüber dem Ausgangswert (10-pt-Schrift) einsparen!

Fazit

Erst nachdem all diese sehr vielfältigen Überlegungen angestellt worden sind, können die Fundstellendichte und die Indexingtiefe für das anstehende Indexing-Projekt festgelegt werden.

Um ein Beispiel zu geben: Bei Lehrbüchern im Bereich Physik liegt die FundstellendichteIDS üblicherweise zwischen 4 und 7, im Bereich Chemie oder Pharmazie kann sie Werte von bis zu 30 erreichen (bei einem Buchformat von 17 x 24 cm, zweispaltig, 3500 bis 4000 Zeichen pro Druckseite).

Beispielrechnung zu Fundstellendichte und Indexingaufwand

Parameter Wert Anmerkungen
Seiten (DS) 520 darin enthalten: 12 Kapitelanfänge mit je 2 DS, auf denen keine registerrelevante Information steht; außerdem: insgesamt 56 DS Literatur
indexierbare Druckseiten (IDS) 440 520 – 80 = 440
Zeichen/S. 3400 ergibt sich z. B. durch Auswertung einiger typischer Seiten; wenn PDF-Datei vorliegt, wird jede dieser typischen Seiten komplett markiert, kopiert und in Word eingefügt; in Word wird die Zeichenzahl (inkl. der Leerzeichen) der jeweiligen Seite mit der Word-eigenen Funktion „Wörter zählen“ festgestellt und notiert; aus den erhaltenen Werten (z. B. zu 5 Seiten) wird der Mittelwert gebildet.
Fundstellen/S. 7 diesen Wert zu ermitteln, ist am aufwändigsten, denn dazu sollten mindestens 30 – 40 Seiten aus zwei typischen Kapiteln indexmäßig bearbeitet werden; es sollte also ein Probeindex erstellt werden
Fundstellen gesamt 3080 = 7 * 440
Verarbeitungszeit: Fundstellen/Stunde (für einen zweigliedrigen Index; bei einem durchgängig dreigliedrigen wäre diese Zahl durch 1,33 zu dividieren) 60 auch diesen Wert kann man erst realistisch abschätzen, wenn man den Probeindex erstellt hat; zusätzlich sollte man die Erfahrungen aus anderen Registern einfließen lassen
Gesamtzeit (Std.) 51,3 = 3080/60
Stundensatz (EUR) 35,00 hier muss ein Kompromiss aus zwei Werten angesetzt werden: a) was ist zur Deckung der eigenen Kosten nötig, b) was wird vom Auftraggeber akzeptiert
Kosten aufgrund Zeitaufwand und Stundensatz (EUR) 1795,5 = 51,3 * 35

Dieser Wert sollte dem Auftraggeber nicht genannt werden, es sei denn, man ist aufgefordert, ein Pauschalangebot über alles abzugeben; besser ist es, Kosten pro IDS als Angebot abzugeben, weil man dann als Indexer flexibler ist (z. B. für den Fall, dass am Ende mehr IDS zu bearbeiten sind, als zunächst gedacht)

Kosten/Fundstelle (EUR) (für einen zweigliedrigen Index; bei einem durchgängig dreigliedrigen wäre diese Zahl mit 1,33 zu multiplizieren) 0,56 bei diesem Wert sind mehrere Parameter zu berücksichtigen, u.a. die Kosten aufgrund des zu erwartenden Zeitaufwands (hier: 1795,5 EUR/3080 = 0,59 EUR), aber auch die Erfahrungen, die man mit anderen ähnlichen Registern gesammelt hat; der Wert kann nach meiner Erfahrung im Bereich Naturwissenschaft/Technik/Medizin/Pharmazie schwanken zwischen 0,45 EUR und 1,00 EUR
Kosten/IDS (EUR) 3,92 = 7 * 0,56;

dieser Wert sollte dem Auftraggeber genannt werden

Kosten gesamt (EUR) auf Basis der Kosten/IDS 1725,00 = 3,92 * 440

auch dieser Wert sollte genannt werden, aber mit dem Hinweis, dass er sich mit der Zahl der IDS ändern kann;

der IDS-bezogene Wert ist etwas kleiner als der Wert, der sich aus erwartetem Zeitaufwand und Stundensatz ergibt, aber in den IDS-Kostenwert sind auch die Erfahrungen mit anderen ähnlichen Registern eingeflossen, von daher kann er als realistischer betrachtet werden

Wichtig: Die Zahl der zu erwartenden Einträge spielt für die Aufwandsbetrachtung keine Rolle! Denn man weiß ja nicht im voraus, zu wievielen Einträgen eine einzelne Fundstelle führen wird, wie viele Einträge sich also insgesamt ergeben werden. Zum Unterschied zwischen  Fundstellen und Einträgen siehe den Beitrag „Fundstelle“. Darüber hinaus hängt die Zahl der Einträge, genauer: die Zahl der gedruckten Einträge, noch von ganz anderen Faktoren ab, nämlich z. B. davon, wie viel Platz am Ende (also kurz vor dem Drucken) zur Verfügung steht (es kann passieren, dass die ursprünglich eingeplanten Registerseiten aufgrund bestimmter Zwänge reduziert werden müssen).

Schreibe einen Kommentar

*