Cluster - Indexing and more

Ein Cluster (oder ein Block oder Haufen, hier wird bevorzugt von Cluster gesprochen) ist eine Menge von Einträgen, bei denen die Hauptthemen in den ersten Buchstaben übereinstimmen. Cluster bilden sich während der Registererstellung von allein und vollkommen zufällig: Je mehr Einträge ein Register hat, umso größer wird die Wahrscheinlichkeit, dass Begriffe zusammentreffen, deren Anfänge identisch sind. Die Übereinstimmung kann von wenigen Buchstaben bis zu ganzen Wortteilen reichen. Typische Elemente von Clustern sind z. B. Begriffe, die denselben Wortstamm haben. Solche Clustereinträge gehören oft inhaltlich zusammen.

Ein Array kann Untereinheit eines Clusters sein, aber nicht umgekehrt. Im Unterschied zu Clustern entstehen Arrays immer durch bewusste Entscheidungen des Indexers.

Ein Cluster muss nicht notwendigerweise ein oder mehrere Arrays enthalten, sondern kann auch aus einer Mischung von Arrays und Einzeleinträgen oder sogar nur aus Einzeleinträgen bestehen, die lediglich in den ersten Buchstaben übereinstimmen.

Cluster bilden Untermengen des Gesamtregisters, sie stellen, wenn man so will, die Tertiärstruktur eines Registers dar, nach den Arrays, die die Sekundärstruktur bilden, und den einzelnen Einträgen (und Untereinträgen), die die Primärstruktur formen.

Bsp. für ein/einen Cluster zum Thema „Nano“ (Ausschnitt aus einem in Bearbeitung befindlichen Register):

nanocubes 174
nanomaterials
– anisotropic bimetallic 197–240
– bimetallic see bimetallic nanomaterials
– biofuel cell applications 57–103
– for environmental remediation 139–161
nanoparticles see also nanorods; nanowires
– anisotropically shaped 209–224
– dendrimer-encapsulated 225–228
– synthesis 71–73
nanorods 45–48, 209–224, see also nanowires
– bimetallic 45–46
– detection and sensing applications 220–224
– functionalization by DNA 218–219
– surface modifications 210–211
– synthesis 241–280
nanostructures
– alloy 179–185
– biofunctionalization 206–209
– core-shell 162–163
nanotechnology
– promises for biological detection 105–111
nanowires 47–48, 209–224, see also nanorods
– bimetallic 47
– synthesis 241–280

Hierin befindet sich z. B. das Array „nanostructures“:

nanostructures
– alloy 179–185
– biofunctionalization 206–209
– core-shell 162–163

Daneben lassen sich noch die Arrays

„nanomaterials“,
„nanoparticles“,
„nanorods“ und
„nanowires“

erkennen.

Darüber hinaus gehören die Einzeleinträge

„nanocubes“ und
„nanotechnology, promises for biological detection“

zum Cluster „nano“.

Weshalb kann es wichtig sein, die Clustereigenschaften eines Registers zu betrachten?

Schaut man sich Cluster gezielt an, können inhaltliche Zusammenhänge zwischen Begriffen, insbesondere Redundanzen, Inkonsistenzen oder andere Fehler schneller gefunden werden als sonst. Ein typischer Fehler, der nur bei Betrachtung von Clustern zu finden ist, sind Redundanzen und Inkonsistenzen zwischen Einträgen innerhalb und außerhalb von Arrays.

Nachfolgend wird ein Ausschnitt aus dem (tatsächlich so veröffentlichten) Register zu einem Handbuch (zu einem Textverarbeitungsprogramm) gezeigt, in dem sehr schön solche Fehler zu sehen sind:

Abbildung
– Beschriften 313
Abbildungsverzeichnis 330
Absatz 104, 107
– Absätze zusammenhalten 113
– Absatzkontrolle 112
– Abstand 111
– Ausrichtung 105
– Einzug 106
– Hängender Einzug 108
– Initial 109
– Seitenwechsel 109, 114,141
– Vertikale Ausrichtung 109
– Zeilen zusammenhalten 113
– Zeilenabstand 111
Absatzabstand 330
Absatzformate 104
Absatzkontrolle 112
Absatzmarken 104
Abschnittsumbruch 114
Absturz 360

Hier können wir das Cluster „Absatz“ identifizieren, das mit dem Array „Absatz“ beginnt und zu dem noch einige separate Einträge gehören, die alle mit dem Wortstamm „Absatz“ beginnen.

Fehler, die schnell zu entdecken sind:

„Absatzkontrolle“ kommt innerhalb und außerhalb des Arrays vor, und zwar mit derselben Seitenzahl.
„Absatzabstand“ kommt ebenfalls innerhalb und außerhalb des Arrays vor, aber mit anderen Seitenzahlen.
Innerhalb des Arrays gibt es die Einträge „Abstand“ und „Zeilenabstand“, außerhalb den Eintrag „Absatzabstand“. Ist immer dasselbe gemeint?
Weshalb befinden sich überhaupt einige Einträge außerhalb des Arrays? Können nicht alle als Untereinträge zum Array „Abstand“ geführt werden?

Beginnen wir beim letzten Punkt: Bei diesem Index gibt es keinen Grund, einige Einträge außerhalb des Arrays anzuordnen, alle sollten in das Array aufgenommen werden.

Weitere Bearbeitungsschritte:

Ein Eintrag „Absatzkontrolle“ wird gestrichen.
Das Problem mit den „Abstands“-Begriffen kann nur durch Nachschauen im Text gelöst werden. Und dabei stellt sich heraus, dass mit „Abstand“ der Abstand vor und hinter einem Absatz gemeint ist, der Zeilenabstand also als separater Untereintrag erhalten bleiben muss.

Nach endgültiger Überarbeitung sollte dieser Ausschnitt des Registers z. B. wie folgt aussehen:

Abbildungen beschriften 313
Abbildungsverzeichnis 330
Absatz 107
– Absätze zusammenhalten 113
– Abstand 111, 330
– Ausrichtung 105
– Einzug 106–109
– Format 104
– Gestaltung 104–113
– hängender Einzug 108
– Initial 109–110
– Kontrolle 112–113
– Marke 104
– Seitenwechsel 109, 114, 141
– vertikale Ausrichtung 109
– Zeilen zusammenhalten 113
– Zeilenabstand 111–112
Abschnitte
– Seitennummerierung 304–305
– Umbrüche 114
– vertikale Ausrichtung auf der Seite 109
– siehe auch manuelle Umbrüche
Absturz 360

Hier gibt es kein Cluster „Absatz“ mehr, sondern nur noch ein Array. Daneben existiert ein Cluster „Abbildung“ (aus zwei Einträgen), ein Array „Abschnitte“ (gegenüber der Vorversion ergänzt um einige Einträge) sowie ein einzelner Eintrag „Absturz“, der weder zu einem Array noch zu einem Cluster gehört.

Damit keine Missverständnisse entstehen: Es geht nicht darum, in allen Fällen Cluster aufzulösen und lediglich Arrays zuzulassen. Das war nur im gezeigten „Absatz“-Beispiel das Mittel der Wahl. Vielmehr ist das Ziel, Fehler wie Redundanzen und Inkonsistenzen zwischen Einträgen innerhalb und außerhalb von Arrays zu erkennen und zu bereinigen. Auch nach der Bereinigung kann (wie im obigen „Nano“-Beispiel) ein Cluster vorhanden sein, das z. B. aus mehreren Einzeleinträgen oder auch Arrays besteht.

Weshalb kann es wichtig sein, die Clustereigenschaften eines Registers zu betrachten?

Teilen mit:

Schreibe einen Kommentar Antworten abbrechen