Dr.phil. Eberhardt Gering
Formalisierung des Erschließens von Sachverhaltsinformationen
aus gesellschaftswissenschaftlichen Texten
Vortrag auf dem 14. Oberhofer Kolloquium über
Information und Dokumentation
vom 26. bis 28. November 1985
Gliederung
| 1. |
Problemsituation |
| 2. |
Beiträge zur Problemlösung |
| 3. |
Abgeleitete Aufgabenstellungen |
| x |
Literatur |
| x |
Autoreninformation |
Zur
Themenübersicht Informationswissenschaft
1. Problemsituation
Die Informationsbedürfnisse vieler Fachwissenschaftler
richten sich häufig als erstes auf direkte Informationen über
konkrete Objekte und Sachverhalte, das heißt auf Sachverhaltsinformationen
ihres Forschungsgebietes. Um seitens der Informationseinrichtungen oder
des Informationsnutzers diesen Bedürfnissen gerecht zu werden, müssen
die relevanten Informationen in der Regel aus mehr oder weniger umfangreichen
Quellen erschlossen und in verwendbare Formen umgewandelt werden.
Beim Erschließen von Sachverhaltsinformationen
aus Informationsquellen ( hier Dokumententexten ) geht es zunächst
um eine an den Zielstellungen des jeweiligen Informationssystems oder an
den Vorhaben des Nutzers orientierte Auswahl von
Textpassagen ( vom einzelnen Aussagesatz bis zu ganzen Textabschnitten
).
Die Beziehung der entnommenen Textpassagen zum Gesamttext
wird durch paralleles Erfassen der auf bibliographische Mindestangaben
reduzierten
Dokumenteninformationen
gesichert.
Das Durchsuchen eines Textes nach relevanten Passagen
und Einzelaussagen ist an ein bestimmtes, im Bewußtsein des Informationserschließenden
( des Textrezipienten ) vorhandenes Suchmuster
gebunden. Einfache Suchmuster enthalten die Begriffe von wenigen, deutlich
bestimmten Objekten oder Objektklassen bzw. die auf bestimmte Objekte bezogenen
Abbilder einfach strukturierter Sachverhalte. Das gilt z.B. für das
Durchsuchen von philosophischen Abhandlungen nach
-
Namen bestimmter Philosophen und den mit diesen Namen
verknüpften Aussagen ( Suchmuster = Begriffe von Einzelobjekten );
-
Namen von Philosophen und den mit diesen Namen verbundenen
Aussagen ( Suchmuster = Begriff einer Objektklasse );
-
Aussagen über Beziehungen zwischen bestimmten Philosophen
( Suchmuster = Aussage über einen bestimmten Sachverhalt ).
|
Such- bzw. Auswahlprozesse dieser Art sind zum Beispiel
erforderlich, wenn es um Aufbau oder Ergänzung von Personen-,
Institutionen- oder Erzeugnisdateien geht. Auch die Suche nach Klassen
von bestimmten Zeichenfolgen , z.B. Folgen von Ziffern oder von Großbuchstaben
/1,
S. 203/ mit dem Ziel des Extrahierens dadurch signalisierter
spezieller Fakteninformationen kann zu den auf einfachen Suchmustern
beruhenden Auswahlprozessen gezählt werden.
Ein wesentliches Merkmal der meisten dieser
Suchmuster ist es, daß sie direkt in der natürlichen Sprache
der Dokumententexte ( der Objektsprache ) formulierbar sind.
Bedeutend komplizierter ist das Erschließen von
relevanten Sachverhaltsinformationen, wenn die Suchmuster in einer Metasprache
ausgedrückt werden. Das ist beispielsweise der Fall, wenn ganz allgemein
gefordert wird, aus den Texten solche Aussagen zu erschließen, die
über die von den Autoren gewonnenen neuen Erkenntnisse,
angewandten Methoden, aufgezeigten Widersprüche u.ä. informieren.
| Das Durchsuchen philosophischer Texte nach neuen Begriffsdefinitionen
oder nach sich widersprechenden Auffassungen unterschiedlicher philosophischer
Schulen, wären konkrete Beispiele für die Anwendung metasprachlich
formulierter Suchmuster. |
Die auf metasprachlichen Suchmustern beruhende
Informationserschließung erfordert ein verstehendes Durcharbeiten
der Dokumententexte. Das ist mit hohen Anforderungen an die intellektuelle
Leistungsfähigkeit des Informationsspezialisten verbunden Es geht
dabei nicht nur um einen Erkenntnisvorgang, sondern
auch
um einen kommunikativen Prozeß, zu dem das Aufdecken
der kommunikativen Absichten des Textautors ebenso gehört wie
das Berücksichtigen der beim Informationserschließenden bestehenden
kommunikativen
Situation ( z.B. für wofür oder für wen die Informationen
erforderlich sind ).
Das wachsende Bedürfnis nach verschiedensten
Fonds mit aktuellen, wissenschaftlich zuverlässigen Sachverhaltsinformationen
steht gegenwärtig noch im Widerspruch
zu den Möglichkeiten für das Realisieren solcher Leistungen,
insbesondere infolge des Mangels an Spezialisten für die Erschließungstätigkeit.
Ein Lösungsweg wird häufig in der Automatisierung
der Erschließungsprozesse gesehen, zumal für bestimmte
Anwendungsfälle bereits entsprechende Technologien vorliegen./1/,
/2/ Es ist jedoch erforderlich, die gegenwärtigen
Grenzen
der Automatisierbarkeit des Erschließens von Sachverhaltsinformationen
deutlich zu machen, um Erwartungen, für deren Erfüllung einfach
noch keine Lösungen in Sicht sind, zu vermeiden.
In diese Kategorie des (noch) nicht Automatisierbaren
gehören die meisten der mit metasprachlichen Suchmustern durchzuführenden
Erschließungsprozesse.
Zur Gliederung
2. Beiträge zur Problemlösung
Zur Lösung des oben genannten Widerspruchs
ist es erforderlich, neben der Vervollkommnung des Automatisierens einfacherer
Erschließungsarbeiten, diejenigen Erschließungstätigkeiten
zu intensivieren, die nach wie vor dem Menschen vorbehalten sind. Das ist
durch eine generelle Anhebung des Niveaus der Organisiertheit
der Informationserschließung erreichbar, indem möglichst
viele Teile des Erschließungsprozesses in routinemäßig
vollziehbare Tätigkeiten umgewandelt werden. Mittels entsprechender
Formalisierung
auch der noch nicht automatisierbaren Teilprozesse läßt sich
das Durchsuchen von Texten und das Herausziehen relevanter Textteile beschleunigen
und letztendlich eine höhere Produktivität beim Erschließen
von SVI aus Texten erzielen.
Formalisierung geistiger Arbeitsprozesse
bedeutet ganz allgemein, den Ablauf dieser Prozesse auf der Grundlage fester
Regeln zu gestalten, das heißt auf wiederkehrende, gleichartige Tätigkeiten
dieselben Regeln anzuwenden. Solche Regeln können sowohl selbständig
als auch in Form eines Algorithmus
(Menge miteinander verbundener Regeln, die in einer
vorgegebenen Schrittfolge abgearbeitet werden) Verwendung finden. |
Auf das Formalisieren von Erschließungsprozessen
wirkt sich erschwerend aus, daß die auszuwertenden wissenschaftlichen
Texte hinsichtlich des inhaltlichen Aufbaus und der formalen Gliederung
sehr vielgestaltig sind. Es ist offensichtlich nicht möglich, einen
Lösungsansatz zu entwickeln, der für alle Dokumentenarten gleichermaßen
gültig wäre. Vielmehr müssen für die einzelnen Arten
jeweils spezifische Wege zur Formalisierung des Gewinnens von Sachverhaltsinformationen
gesucht werden. Ausgangspunkt dafür muß eine Typologie
von Texten sein, die sich auf die Erkenntnisse der Textlinguistik
( eine Teildisziplin der Sprachwissenschaft ) stützt. Hauptkriterien
für die Differenzierung von Texten im Rahmen einer solchen Typologie
sind vor allem textexterne Faktoren wie Kommunikationsbereich,
Kommunikationssituation und kommunikative Zielsetzung eines Textes,
da insbesondere diese Faktoren die Eigentümlichkeit der inhaltlichen
und sprachlichen Textgestaltung bewirken.
Die Autoren von /3/unterscheiden
fünf
Kommunikationsbereichemit informativer Spezifik :
-
Alltag, Amtsverkehr, Wissenschaft,
Ideologie und Kunst.
Diesen Bereichen entspricht in der obersten Ebene
eine Gliederung der Texte nach funktionalem Inhaltstyp in
alltägliche, amtliche,
wissenschaftliche, publizistische und künstlerische Texte.
-
Innerhalb eines Kommunikationsbereiches erfolgt eine weitere
Untergliederung in der Stufenfolge „Textart – Textgenre
( oder Textsorte ) – Texttyp – konkretes Textexemplar“.
-
Beispielsweise werden innerhalb des Kommunikationsbereiches
„Amtsverkehr“ als Textartendiplomatische,
gesetzgebende und verwaltungsamtliche Dokumente unterschieden.
-
Durch Berücksichtigung der unterschiedlichen
Kommunikationsziele lassen sich innerhalb einer Textart spezielle
Textgenres
( synonym Redegenre, Textsorte; vergleichbar mit Dokumentenart ) bestimmen.
|
| Ein in /3/genanntes
Beispiel ist das Textgenre „Kommuniqué“ innerhalb der Textart „diplomatische
Dokumente“. Weitere Untersetzung nach engeren Kommunikationszielen führt
zu den durch die gesellschaftliche Praxis bestimmten Varianten eines Textgenres
– den Texttypen. Als solche Varianten
des Textgenres „Kommuniqué“ sind die Texttypen „Kommuniqué-Bericht“
und „Kommuniqué-Mitteilung“ aufzufassen. |
Diese Beispiele machen sichtbar, daß
eine auf das Erschließen von Sachverhaltsinformationen anwendbare
Texttypologie nicht nur wissenschaftliche, sondern auch bestimmte amtliche
und publizistische Texte einschließen muß.
Die Hauptmenge der zu berücksichtigenden
Dokumentenarten – nach Quelle /4/mehr
als 100 Textgenres fachspezifischer Ausprägung – wird jedoch
den Bereichen der Wissenschaft und der Technik zu entnehmen sein.
Eine umfassende und wissenschaftlich fundierte Texttypologie
wird gezielte Untersuchungen ermöglichen, ob bestimmte, für eine
einzelne Dokumentenart aufgestellte Regeln der Informationserschließung
sich auch auf andere Textgenres anwenden lassen und welche Spezifika andererseits
nur für jeweils eine Dokumentenart gültig sind.
Um Regeln für das Erschließen von Sachverhaltsinformationen
aufstellen zu können, muß bei jedem Textgenre zunächst
davon ausgegangen werden, daß der Text eines konkreten Dokumentes
„ein ganzheitliches, zusammenhängendes, dem Sinn nach abgeschlossenes,
strukturiertes, autonomes und kommunikativ ausgerichtetes Produkt der Sprache“
darstellt.
/5/ Das
bedeutet auch, daß jede Aussage innerhalb eines Textes mehr oder
weniger stark kontextabhängig ist. Methoden des formalisierten Erschließens
müssen daher vor allem die semantischen Beziehungen
im Gesamttext, zwischen einzelnen Textabschnitten und zwischen einzelnen
Sätzen in Betracht ziehen.
Es ist unter diesem Aspekt zweckmäßig,
den Erschließungsprozeß in drei Etappen zu untergliedern:
| (1) |
das Eingrenzen der unter
den Bedingungen des jeweiligen Informationssystems am meisten interessierenden
Textkomponenten; |
| (2) |
das Extrahieren der als
SVI benötigten Textfragmente oder Sätze aus den eingegrenzten
Textkomponenten (unter Beachtung der Kontextbeziehungen); |
| (3) |
das Bearbeiten der extrahierten
Textteile (Vereinfachen, Kürzen, Hinzufügen metasprachlicher
Bestandteile) mit dem Ziel der Gewinnung qualitätsgerechter SVI. /6,
S.53/ |
Zweifellos stellt das Eingrenzen relevanter Textkomponenten
besondere intellektuelle Anforderungen an den als Textrezipient fungierenden
Informationsspezialisten. Hilfestellungen können dabei bestimmte,
auf den Text als Ganzes gerichtete
Arbeitsverfahren
von Rezeptionshandlungen geben. Nach /7/werden
diesbezüglich Verfahren zum
Erfassen der Textbedeutung,
richtigen Verstehen des Textinhalts,
Zerlegen des Textinhalts in Teilinhalte,
Erfassen des Gedankenganges und
Entnehmen der Hauptinformation
|
unterschieden. Welche dieser hauptsächlich
für Unterrichtszwecke vorgesehenen Verfahren auf das Erschließen
von Sachverhaltsinformationen in wissenschaftlichen Informationsprozessen
übertragbar sind, bedarf genauerer Untersuchungen.
Wesentliche Unterstützung beim Eingrenzen
relevanter Textabschnitte können Textmuster
geben, die jeweils für eine bestimmte Klasse von Texten (Textgenre
oder Textart) Gültigkeit besitzen und die inhaltliche Struktur von
Texten dieser Klasse in verallgemeinerter Form darstellen. Sie verdeutlichen
die logische Folge und die Wechselbeziehungen der Hauptkomponenten eines
Textes der betreffenden Klasse, wie sie mit einer bestimmten Wahrscheinlichkeit
im konkreten Text zu erwarten sind.
Mit dem Textmuster korrespondierende inhaltliche und
formale Textgliederungsmittel ermöglichen
es, interessierende Inhaltskomponenten in einem auszuwerten Text relativ
schnell aufzufinden und zu markieren.
Obwohl noch keine geschlossene Theorie der Textmuster
existiert, konnte auf empirischem Wege bereits eine Reihe derartiger Muster
ermittelt werden. Eines davon gilt für "Beschreibungen
experimenteller Ergebnisse" und weist folgende Textkomponenten entsprechender
Fachtexte aus:
-
Themenbeschreibung,
-
Ausgangspunkte für Themenbearbeitung,
-
Herangehen an die Themenbearbeitung,
-
Ausgangshypothese,
-
Schrittfolge der Bearbeitung,
-
Ergebnisdokumentation,
-
Ergebnisbeschreibung,
-
weiterführende Themen. /8/
|
Analoge, aus einer Analyse von 200 Artikeln
zur Informatik abgeleitete Ergebnisse werden in /9/
nachgewiesen. Weitere als Beiträge zur Theorie und Praxis von Textmustern
anzusehende Aussagen sind in /3/
und
/5/ enthalten.
Das Auffinden der in einem Textmuster aufgeführten
Komponenten im konkreten Text wird durch sprachliche
Indikatoren ( grammatische, syntaktische, semantische Merkmale )
erleichtert.
Spezielle Indikatoren, welche auf Beziehungen zwischen
Sätzen bzw. Textabschnitten hinweisen, können auch das auf das
Eingrenzen bestimmter Textabschnitte folgende Extrahieren
relevanter
Aussagesätze aus den eingegrenzten Textabschnitten unterstützen.
In der letzten Etappe des Erschließungsprozesses,
dem Bearbeiten, werden die extrahierten Textbestandteile
so verändert, daß sie, bei Wahrung des vollen Informationsgehaltes,
die für Sachverhaltsinformationen erforderlichen Qualitätsmerkmale
besitzen. Eine wesentliche Aufgabe ist hierbei das Hinzufügen bestimmter
Zusatzinformationen unter Verwendung metasprachlich formulierter kurzer
Standardaussagen. /6, S. 55-59, 62/
Zur Gliederung
3. Abgeleitete Aufgabenstellungen
Es kann nicht ohne weiteres davon ausgegangen
werden, daß zu den beschriebenen und im Komplex anzuwendenden Methoden
bereits die für den Prozeß der Informationserschließung
notwendigen Algorithmen verfügbar sind. Die einschlägigen textlinguistischen
Untersuchungen, denen diese und andere Methoden zu entnehmen sind, erfolgten
bisher kaum unter dem Aspekt wissenschaftlicher Dokumentation und Informationt.
Um so mehr ist es jetzt notwendig, durch zielstrebiges interdisziplinäres
Zusammenwirken
von Informationswissenschaftlern und Textlinguisten praktikable Lösungen
für das Formalisieren der Informationserschließung zu entwickeln.
Die textlinguistischen Forschungen, die in diesem Beitrag nur punktuell
angedeutet werden können, bilden dafür eine wertvolle Vorleistung.
Zu den Aufgaben, die in dieser Gemeinschaftsarbeit
als nächstes gelöst werden sollten, gehört insbesondere
die Ausarbeitung einer
Typologie aller für
die Informationserschließung in Betracht kommenden Dokumentenarten
(unter Verwendung der dazu bereits vorhandenen Übersichten). Darauf
aufbauend müssen Untersuchungen mit dem Ziel erfolgen, für Dokumentenarten,
die am häufigsten als Quelle von Sachverhaltsinformationen dienen,
die charakteristischen Textmuster aufzudecken
sowie Indikatoren zu fixieren, die das Auffinden
einzelner Komponenten dieser Textmuster in konkreten Texten erleichtern.
Diese und weitere Untersuchungen müssen von möglichst
breit angelegten praktischen Erprobungen der gewonnenen theoretischen Erkenntnisse
begleitet werden, um bei der angestrebten Formalisierung des Erschließens
von Sachverhaltsinformationen praxisreife Resultate zu erreichen.
Zur Gliederung
Literaturverzeichnis
.
| /1/ |
Extraktion faktographischer Angaben / B. Scheller.
– In: Dokumentation / Information. – Ilmenau (1979) 45. – S. 202-204 |
| /2/ |
MOSAIC – A Method of Automatic Extraction of Technical
Terms in Texts. – In: The Prague Bulletin of Mathematical Linguistics.
– Prag (1982)37. – S. 5-27 (englisch)
MOSAIC – eine Methode des automatischen Extrahierens
technischer Termini aus Texten |
| /3/ |
Das Redegenre Kommuniqué und sein kompositorischer
Aufbau / N.W. Bessmertnaja; S.M. Mankovskaja. – In: Textlinguistik. – Dresden
(1983)10. – S. 23-33 |
| /4/ |
Textsorten und Texttypen in der Wissenschaftssprache
/ G. Weise. – In: Aus dem philosophischen Leben der DDR. – Berlin 19(1983)8/3.
– S.182-183 |
| /5/ |
Strukturell-semantische und kompositorische Besonderheiten
des Textes / G. Artemcuk; V. Buchbinder. – In: Textlinguistik. – Dresden
(1983)10. – S. 1-7 |
| /6/ |
Probleme der Bereitstellung von Sachverhaltsinformationen
zur Leitung gesellschaftswissenschaftlicher Forschungsprozesse und Möglichkeiten
des Einsatzes eines Frage-Antwort-Systems / E. Gering. – 1982. – 153 Bl.
Berlin, Humboldt-Universität, Dissertation A |
| /7/ |
Rezeptionsaufgaben und Rezeptionsverfahren / B. Bieberle.
– In: Wissenschaftliche Zeitschrift der Pädagogischen Hochschule „Clara
Zetkin“ Leipzig. – Leipzig (1984)III. – S. 11-12 |
| /8/ |
Rezultaty eksperimenta po avtomaticeskomu izvleceniju
vyderzek i problemy ispol´zovanija szatyh tekstov v avtomatizirovannyh
informacionnyh sistemah / J. Janos. – In: Mezdunar. forum inform. dokum.
– Moskva (1978)1. – S. 13-16 (russisch)
Resultate eines Experiments zur automatischen Gewinnung
von Auszügen und Probleme der Nutzung komprimierter Texte in automatisierten
Informationssystemen |
| /9/ |
Vyjavlenie aspektov soderzanija dokumentov s pomo^sju
formalnyh tekstovyh priznakov / N.I. Gendina. – In: Naucno-tehniceskaja
informacija. Ser. 2. – Moskva (1979)4. – S. 7-12 (russisch)
Das Herausheben der Inhaltsaspekte von Dokumenten
mittels formaler Textmerkmale |
Zur Gliederung
Autoreninformation
Veröffentlichung der Erstfassung in: Dokumentation
/ Information. – Schriftenreihe des Instituts für Informationswissenschaft,
Erfindungswesen und Recht der Technischen Hochschule Ilmenau, Heft 65.
– Ilmenau 1985. – S. 26-34
Aufbereitung für das World Wide Web: September
2005
Inhaltliche Bearbeitung: Juni 2009
Zur
Themenübersicht Informationswissenschaft
|