Indexing mit Word: Makrocodes, Teil 3

Makros zum Thema „Seitenbereichsangaben“

Weitere Makros sind in Teil 1 und Teil 2 zu finden.

Sub pagefeld_zwischenablage()


‚fügt hilfsweise das Page-Feld am Anfang des Dokuments ein und schneidet es dann aus, womit es sich in der Zwischenablage befindet; mehr lesen

Indexing mit Word: Makrocodes, Teil 2

Verschiedene weitere Makrocodes

In Teil 1 werden die Makrocodes aus Kapitel 6.12 gezeigt. Makros zum Thema „Seitenbereichsangaben“ sind in Teil 3 zu finden.

Sub querverweis()


‚ Makro zum Einfügen der Querverweis-Syntax mehr lesen

Indexing mit Word: Makrocodes, Teil 1

Makros aus Unterkapitel 6.12

Weitere Makrocodes zu verschiedenen Themen sind in Teil 2 und Teil 3 zu finden.

Sub leeresxefeld()


‚ Makro zum Einfügen eines leeren XE-Feldes; Makro wurde aufgezeichnet und nicht nachbearbeitet; zur mehr lesen

Indexing mit Word: Buchankündigung

Mit dem Titel „Indexing mit Word“ wird im Herbst 2019 (wahrscheinlich im November) der zweite Band der Reihe „Walters Textprofi-Bibliothek“ erscheinen.

Neuer voraussichtlicher Erscheinungstermin: 1. Quartal 2020.

Das Buch wird etwa 250 Seiten haben und alle interessanten Themen rund um das Indexing mit Word beschreiben. Ansprechen möchte ich damit

  • Profi-Indexer, die einen Überblick über das Indexing mit Word oder eine detaillierte Beschreibung spezifischer Abläufe und Techniken suchen,
  • Personen, die

mehr lesen

Indexingtiefe und Aufwandsbetrachtung

Definition

Die Indexingtiefe (manchmal auch kurz Indextiefe genannt) wird gemäß ISO 5127/3a-1981 definiert als

„Der Detailgrad, mit dem der Inhalt eines Buchs im Index wiedergegeben wird“.

Das ist natürlich eine sehr allgemeine Definition. Was ist der Detailgrad der Wiedergabe?

Nach NISO Z39.4 ist die Indexingtiefe

„Das Ergebnis der kombinierten Effekte von erschöpfender und genauer Wiedergabe in einem Index.“

Dabei kann „erschöpfend“ aufgefasst werden als die optimale – in der Regel große – Zahl der Einträge im Index.

Eine „genaue“ Wiedergabe des Buchinhalts im Index liegt vor, wenn

  • nur registerrelevante Begriffe ausgewählt,
  • mehr als eine Indexebene (oder Indexstufe) verwendet
  • überall wo nötig Untereinträge erzeugt und
  • da, wo hilfreich, treffende Begriffszuweisungen vorgenommen

wurden.

Nach diesen Kriterien lässt sich ein Index im Nachhinein, also wenn er veröffentlicht ist, beurteilen, und man kann ihm eine hohe, mittlere oder niedrige (oder auch eine gute, schlechte, optimale usw. ) Indexingtiefe attestieren.

Absprache zur Indexingtiefe

In der Praxis besteht das Problem, dass Indexer im Vorfeld mit Autor, Herausgeber oder Verlag über etwas reden müssen, was der Indexingtiefe gleichkommt. Wurden keine Absprachen hinsichtlich der Indexingtiefe getroffen, kann es später zu Missverständnissen hinsichtlich der Qualität und des Aufwands (sprich: der Kosten) kommen.

Der erste Punkt, der geklärt werden muss, ist die Dichte der Fundstellen, also die Zahl der Fundstellen pro Seite, genauer: pro indexierbarer Seite. Ist die Fundstellendichte klar, ergibt sich zusammen mit dem bekannten oder geplanten Umfang des Werks die Gesamtzahl der Fundstellen, also auch die Zahl der Einträge im Index und letztlich die Zahl der Druckzeilen, die der Index beanspruchen wird (also der Umfang des Index).

Der zweite wichtige Punkt ist die Gliederungs- oder Verschachtelungstiefe (synonym verwendbar) eines Index. Damit ist die Zahl der Ebenen oder Stufen (synonym verwendbar) gemeint, die eingesetzt wird. Es geht also darum, ob man nur mit Haupteinträgen oder auch mit Untereinträgen oder sogar mit Unteruntereinträgen arbeitet. Je tiefer verschachtelt wird, umso genauer kann der Inhalt an einer Fundstelle beschrieben werden, aber umso aufwändiger wird die Indexerstellung und komplexer und schwerer lesbar wird der Index. Darüber hinaus steigt der Platzbedarf des Index mit der Gliederungstiefe.

Indexierbare Seiten

Nicht alle Inhalte eines Werkes sind indexwürdig. Bei den meisten Werken ist es möglich, vollständige Seiten vom Indexieren auszuschließen. So werden z. B. die Seiten mit Literaturlisten üblicherweise nicht indexiert. Das heißt, der Indexer sollte vor Beginn der eigentlichen Arbeit die Seiten auszählen, die indexiert werden sollen, also die Zahl der indexierbaren Seiten bestimmen.

Bei „Seiten“ kann wieder etwas missverständliches gemeint sein: Manuskriptseiten, Fahnenseiten, Umbruchseiten, Druckseiten. Alle diese Seitentypen unterscheiden sich voneinander, teilweise sogar sehr stark. Welche Seiten bei der Berechnung der indexierbaren Seiten genommen werden, hängt davon ab, in welcher Phase des Werkes mit dem Indexing begonnen wird (dass letztlich die Einträge der meisten Indexe auf Druckseiten verweisen, ist ein anderes Thema).

Manuskriptseiten in heutiger Zeit sind als Seiten im jeweiligen Textverarbeitungsprogramm (Word, OpenOffice usw.) zu verstehen, also als Seiten in dem Programm, das der Autor genutzt hat (und nicht mehr als handgeschriebene Seiten). Wenn im Manuskriptstadium mit dem Indexing begonnen wird, erhält der Indexer entweder die Textverarbeitungsdateien oder daraus erzeugte PDF-Dateien (u. U. auch Ausdrucke).

Fahnenseiten im klassischen Sinn gibt es heute so gut wie nicht mehr, denn Fahnen- und Umbruchseiten eines Werkes sind meistens identisch. Unter Fahne kann man aber auch z. B. Umbruchseiten verstehen, bei denen der Text zwar schon umbrochen ist, aber für die Bilder oder Tabellen nur Platzhalter eingebaut sind. Es gibt auch Indexingprojekte, bei denen aus dem Umbruch heraus spezielle Fahnen produziert werden, auf deren Basis der Indexer arbeiten soll. Das kann z. B. sinnvoll sein, wenn Absatznummern anstelle von Seitenzahlen verwendet werden, der Umbruch aber zwei- oder mehrspaltig angelegt ist. Dann ist eine spezielle einspaltige Ausgabe (aus dem Layoutprogramm heraus), in der alle Absätze linear hintereinander angeordnet sind, für den Indexer wesentlich leichter zu verarbeiten, weil die Absatznummern besser gefunden werden können. Der einfachste Weg, um z. B. aus InDesign heraus solche „Linear-Fahnen“ zu erzeugen führt über HTML. Die InDesign-Datei wird im HTML-Format abgespeichert (dadurch werden automatisch alle Spalten, Kästen, Bilder und Tabellen linear angeordnet), und aus der HTML-Datei wird im nächsten Schritt PDF erzeugt. PDF bietet gegenüber HTML den Vorteil, dass man wie gewohnt Kommentare einbauen kann.

Umbruchseiten  werden in der Regel mit den Druckseiten identisch sein. Man kann aber zeitlich unterscheiden: Von Umbruchseiten spricht man, während das Werk im Layoutprogramm bearbeitet wird. Es können dabei mehrere Versionen entstehen. Irgendwann sind alle Korrekturen ausgeführt und die jetzt vorhandenen Umbruchseiten entsprechen den Druckseiten.

Druckseiten sind die Seiten, die gedruckt werden.

Schätzung der Fundstellendichte

Wird bereits im Manuskriptstadium mit dem Indexing begonnen, kann die Fundstellendichte nur auf die indexierbaren Manuskriptseiten (IMS) bezogen werden. Da die Zahl der Manuskriptseiten üblicherweise größer ist als die Zahl der daraus entstehenden Druckseiten (über die man zu diesem Zeitpunkt aber noch nichts weiß), muss man sehr aufpassen, dass man bei der Absprache der Fundstellendichte keinen Fehler begeht. Vergleichbare Werke, die z. B. vom Verlag zu Rate gezogen werden, sind bereits erschienen; eine Fundstellendichte, die daraus abgeleitet wird, bezieht sich also auf die Druckseiten. In solchen Fällen bleibt nichts anders übrig, als für das anstehende Werk einen Umrechnungsfaktor Manuskriptseiten–Druckseiten abzuschätzen. Die Fundstellendichte von Manuskriptseiten wird in der Regel (wesentlich) kleiner sein als die von Druckseiten.

Steigt der Indexer erst in einer späteren Phase in das Projekt ein, dürften bereits Umbruchseiten (oder daraus abgeleitete Fahnenseiten) oder Druckseiten vorliegen. Damit lässt sich dann die Fundstellendichte, also die Zahl der Fundstellen pro indexierbarer Umbruchseite (IUS) oder pro indexierbarer Druckseite (IDS) angeben.

mehr lesen

Separate-File Indexing

Definition und Abgrenzung

Separate-File Indexing (SFI) ist die Aufnahme und Sammlung der registerrelevanten Begriffe in einer vom Layout (von der „Quelle des Registers“) getrennt gehaltenen Datei.

Das Gegenteil von SFI ist das Embedded Indexing, bei dem die registerrelevanten Begriffe als sog. Indexmarken in den Layouttext eingebettet werden. Beim Embedded Indexing sind demnach Quelle (Inhalt) und Register in ein und derselben Datei.

Im Grunde wurde jahrhundertelang – seit es Register gibt – immer analog zum SFI gearbeitet: Denn der Umbruch und das System der Register-Karteikarten waren vollständig voneinander getrennt. Erst durch moderne Textverarbeitungs- und Layoutprogramme und vor allem durch das Einbinden der Autoren in den technischen Prozess der Buchentstehung ist Embedded Indexing möglich geworden. Heute kommen beim SFI natürlich keine Karteikarten mehr zum Einsatz, sondern alles geschieht digital.

Das Kennzeichen des SFI ist die separate Datei, in der das Register entsteht. Da nichts eingebettet wird, also keine Indexmarken vorhanden sind, muss der gesamte Inhalt, also alle Begriffe und Seitenzahlen, eingegeben oder aus der Zwischenablage eingefügt werden. Man sagt auch: Der Index wird geschrieben, und der Indexer ist der Autor des Index.

Formate/Programme

Für das SFI werden nicht unbedingt spezielle Programme benötigt. Prinzipiell können Textformate wie .txt (etwa Notepad), .doc oder .docx (Word), .odt (Open Office, Libre Office), Layoutformate wie .indd (InDesign) und .fm (FrameMaker), Tabellenkalkulationsformate wie .xlsx und Datenbankformate wie .fp12 (Filemaker) oder .accdb (Access) zur Erstellung einer separaten Index-Datei verwendet werden. Am komfortabelsten geschieht SFI aber mit Programmen, die speziell für das Indexing entwickelt wurden, sog. Dedicated Indexing Software; dazu zählen die Programme Cindex (.ucdx), Sky (.sk7) und Macrex.

Dedicated-Indexing-Programme können nichts anders als Indexe zu erzeugen. Das aber können sie besonders gut, da in ihnen viele hilfreiche Funktionen eingebaut sind, die Unterstützung bei der Sortierung, Bearbeitung, Formatierung und Ausgabe eines Registers bieten. SFI mit einem solchen Programm kann für sich stehen: Alles was zum Indexing nötig ist, kann mit Dedicated-Indexing-Programmen erledigt werden. Daher spricht man hier auch vom Stand-Alone-Indexing.

Im Unterschied dazu kommen die anderen Formate nicht alleine zurecht: Um mit ihnen SFI machen zu können, sind immer zusätzliche Aktivitäten nötig:

  • Eine Konvertierung in ein weiteres Format (z. B. von .docx nach .xlsx oder umgekehrt).
  • Das Erstellen von Makros (in Word) oder Skripts (in In Design), mit denen Indexing-Funktionalität in die Programme hineingebracht wird, die von Hause aus nicht in ihnen vorhanden ist. (Die kommerziell erhältlichen Indexing-Add-Ins für Word, InDesign und FrameMaker sind beim SFI mit diesen Programmen nur bedingt hilfreich, da sie speziell zur Unterstützung des Embedded Indexing entwickelt worden sind.)
  • Unter Umständen müssen viele Schritte manuell vorgenommen werden, weil man sich als Register-Autor nicht mit Konvertierung und Programmierung auskennt.

SFI mit Textverarbeitungs- und Layoutprogrammen

Manchmal werden Personen – Autoren, Herausgeber, freie Lektoren – gebeten, Register zu erstellen und in digitaler Form abzuliefern, die technisch nur rudimentär ausgestattet sind: Das einzige Programm, das sie beherrschen, ist ein Textverarbeitungsprogramm. Und es kann hinzukommen, dass aus bestimmten Gründen kein Embedded Indexing angewendet werden soll, etwa weil der Text nicht in digitaler Form vorliegt oder weil lediglich eine Aktualisierung eines Index aus der Vorauflage vorgenommen werden soll. Die Indexing-Arbeit kann dann darin bestehen, einen Text durchzugehen, registerrelevante Begriffe zu identifizieren und in eine neue Liste oder in den alten Index einzubauen, die sich in einer vom Text getrennt gehaltenen Word-Datei befinden. Mit anderen Worten: In Word wird SFI betrieben.

Ein solches Sammeln von Registerbegriffen ist in gewisser Hinsicht der manuellen Arbeit mit Registerkarten ähnlich, denn das Sortieren oder besser: Einsortieren muss im Wesentlichen von Hand geschehen. Im Unterschied zum Karteikartenverfahren kann aber im Word-Register immerhin gesucht werden, sodass man relativ schnell an der Stelle ist, an der ein Begriff eingebaut werden soll. Das heißt: SFI mit Word ist auf jeden Fall besser, als mit Karteikarten zu arbeiten. Das Erzeugen eines Indexeintrags geschieht durch Eintippen von Begriff (evtl. neben dem Haupt- auch Unterbegriff oder sogar  Unterunterbegriff) und Seitenzahl. Die gesamte Formatierung von Texthervorhebungen bis zu  Einrückungen und/oder Spiegelstrichen muss der Ersteller des Registers, der Register-Autor, selbst vornehmen, und zwar bei jedem einzelnen Registereintrag, darüber hinaus muss er die Entscheidung fällen, ob ein kompletter neuer Eintrag zu erstellen ist oder evtl. nur bei einem bestehenden Eintrag Seitenzahlen zu ergänzen sind.

So entsteht nach und nach das gesamte Register. Da es sich bereits in einer Word-Datei befindet, kann es direkt an ein Layoutprogramm übergeben werden. Auch daran zeigt sich der immense Vorteil gegenüber dem Karteikartenverfahren: Es fallen keine Erfassungsarbeiten im technischen Betrieb (beim Setzer, Layouter) mehr an.

Mit einem anderen Szenario haben Setzer oder Layouter aber selbst heute nicht selten zu tun: Sie bekommen die von Autoren, Herausgebern oder Lektoren vorgenommenen Registeranstriche auf Papier und erfassen die Begriffe in ein InDesign- oder FrameMaker-Dokument, das zunächst separat vom eigentlichen Textinhalt gehalten wird. Zum Schluss wird die Index-Datei mit der Buchfunktion des Layoutprogramms mit den Inhaltsdateien (meist kapitelweise) zu einer Einheit verbunden. Das Erfassen in einem separaten Dokument ist wesentlich kostengünstiger, als die Begriffe in die einzelnen Layoutdateien einzubetten; hinzu kommt, dass Korrekturen in der separaten Indexdatei wesentlich schneller (und wieder kostengünstiger) auszuführen sind als in den Indexeintragsfenstern der Embedded-Indexing-Methode. Das, was Autoren, Herausgebern oder Lektoren einerseits und Setzer oder Layouter andererseits damit machen, ist aus technischer Sicht nichts anders als SFI!

Der aus meiner Sicht größte Nachteil dieser Verfahren besteht darin, dass Textverarbeitungs- und Layoutprogramme kaum Hilfen zur Bearbeitung von Registern bieten. Vom Suchen und Ersetzen abgesehen, muss im Grunde alles, was an Bearbeitung anfällt, von Hand ausgeführt werden. Das betrifft insbesondere das Finden von Inkonsistenzen – ein Vorgang, der komplett auf Papier geschieht: Das Register wird ausgedruckt und Korrektur gelesen, die Korrekturen werden anschließend in die Datei übertragen. Üblicherweise wird diese Art der Bearbeitung und Korrektur erst in einer späten Phase des Indexing-Projekts vorgenommen, sodass hohe Kosten etwa durch die Übertragung der Korrekturen in das Layoutprogramm entstehen können. Eine gewisse technische Unterstützung im Indexing-Prozess ist nur durch das Erstellen von Word-Makros oder Skripts in den Layoutprogrammen zu erreichen, wozu einige Setzer und Layouter in der Lage sind, Autoren und freie Lektoren in der Regel aber nicht.

Beim  Einsatz von Tabellenkalkulations-, Datenbank- und Dedicated-Indexing-Programmen dagegen können Bearbeitung und Korrekturausführung vor der Übernahme ins Layoutprogramm geschehen. Zur Bearbeitung, insbesondere zum Finden von Inkonsistenzen, lassen sich in diesen Programmen darüber hinaus Selektionsfunktionen nutzen, mit deren Hilfe in kürzerer Zeit deutlich bessere Indexe erzeugt werden können.

SFI mit Excel und mit Datenbankprogrammen

Excel ist ein Tabellenkalkulationsprogramm, seine wesentlichen Merkmale stecken bereits in der Programmbezeichnung:

  • Tabelle und
  • Kalkulieren.

Beide Aspekte lassen sich beim Indexieren ausnutzen.

Will man Excel zum Sammeln von Indexbegriffen verwenden, muss man zunächst umdenken, was die Struktur eines Indexeintrags angeht. Anders als beim oben beschriebenen SFI mit Textverarbeitungs- oder Layoutprogrammen sollte man in Excel bei jedem Eintrag die vollständige Information mitführen. Das heißt, jeder Eintrag bildet eine Zeile der Excel-Tabelle, wobei im ersten Feld der Hauptbegriff steht, im Feld daneben der Untereintrag, daneben der Unteruntereintrag (falls es einen gibt) und daneben schließlich die Seitenzahl. Wenn man eine weitere Fundstelle im Text hat, an der ein bereits vorhandener Begriff erneut auftritt, wird in Excel wieder eine komplette Zeile mit Hauptbegriff, Unterbegriff, Unterunterbegriff und Seitenzahl erzeugt. Im Grunde führt jede Fundstelle zu einem kompletten Eintrag in der Excel-Tabelle. Man verwendet damit Excel wie eine Datenbank, denn Datenbanken zeichnen sich genau dadurch aus, dass in jedem Datensatz die vollständige Information enthalten ist. Nur wenn man so verfährt, kann man in Excel z. B. auf einfache Weise sortieren. Der entscheidende Vorteil von Excel oder Datenbankprogrammen ist, das man mit ihnen Selektionen vornehmen kann. Excel bietet mit den sog. Filtern eine sehr einfach zu handhabende Selektionsfunktion, darüber hinaus lassen sich auch komplexe Selektionen ohne Mühe zusammenstellen. Damit lässt sich der Fokus der Bearbeitung auf Untermengen des Gesamtregisters setzen, was zu einer immensen Qualitätssteigerung gegenüber Embedded Indexing oder SFI per Word/Layoutprogrammen führt. Die Kalkulationsmöglichkeiten von Excel lassen sich nutzen, um z. B. per Textformeln Inkonsistenzen im Register zu finden.

Da sich Autoren, Herausgeber und freie Lektoren heutzutage einigermaßen mit Excel auskennen, können sie das Programm grundsätzlich nach einer kleinen Einweisung zum Indexing einsetzen. Ein gewisses Problem ist die Ausgabe des Index, insbesondere das Zusammenführen von Seitenzahlen bei Einträgen, die mehrere Fundstellen aufweisen. Am einfachsten gelöst werden kann das Problem, indem man den Index als Tabelle in Word einbaut, dann manuell die Seitenzahlen herumhebt und nicht mehr benötigte Zeilen löscht. Ebenfalls manuell zu erledigen wäre das Ersetzen von mehrfach vorhanden Haupteinträgen durch Spiegelstriche. Zum Schluss wird die Tabelle in Text umgewandelt und nicht benötigte Tabulatoren werden per Suchen/Ersetzen gelöscht bzw. in Leerzeichen umgewandelt. Das Verfahren bietet gegenüber SFI mit Word den großen Vorteil, dass sowohl das Sortieren wesentlich vereinfacht wird als auch die Bearbeitung des Index komplett erledigt werden kann, bevor die Daten ausgegeben werden.

Datenbankprogramme wie FileMaker bieten dieselben Möglichkeiten wie Excel, lassen sich aber noch viel stärker eigenen Bedürfnissen anpassen und erhöhen damit den Komfort des SFI.

Wird etwas Programmieraufwand betrieben, kann auch die Ausgabe des Index aus Excel und Datenbankprogrammen automatisiert werden. Üblicherweise kommen dann txt- oder RTF-Dateien heraus, die in Word oder einem Layoutprogramm lediglich in die endgültige Form zu bringen sind.

Professionelle Indexer, die sich evtl. auch ein wenig im Programmieren auskennen, können mit Excel oder Datenbankprogrammen sehr gute Ergebnisse erzielen. Ein großer Vorteil gegenüber allen anderen Verfahren (selbst gegenüber Dedicated Indexing Software) ist die große Flexibilität. So lassen sich zum Beispiel Merkmale mitführen, auf deren Basis unterschiedliche Typen von Registern (Sach-, Personen-, Ortsregister usw.) ausgegeben werden können, es ist möglich, simultan unterschiedliche Locatorangaben (neben Seitenzahlen z.B. Locators, die sich aus Kapitel- oder Absatznummern ergeben) zu verwalten, und es können Register mehrer Titel z.B. verlagsübergreifend zu einem Gesamtregister zusammengeführt werden. Weitere Szenarien sind denkbar.

SFI mit Dedicated Indexing Software

Dedicated-Indexing-Programme wie Cindex oder Sky stellen, wie gesagt, alle Funktionen zur Verfügung, die beim Indexing benötigt werden. Mit ihnen kann erfasst, bearbeitet, sortiert, selektiert und formatiert ausgegeben werden. Meist wird am Ende eine RTF-Datei erzeugt, die zwecks Publikation in ein Textverarbeitungs- oder Layoutprogramm eingeladen werden kann. Es sind dann lediglich einige Anpassungen bei den Format- oder Stilvorlagen vorzunehmen, und das Register ist fertig.

Professionelle Indexer arbeiten üblicherweise mit Dedicated Indexing Software. Spezielle Technik- oder Programmierkenntnisse sind nicht nötig.

Besondere Methoden des

mehr lesen