Software

Die Publikation edition humboldt digital wird von der Erfassung bis hin zur Publikation in ediarum erstellt. Die digitale Arbeitsumgebung ediarum ist eine von der DH-Initiative TELOTA seit 2012 entwickelte Lösung, die es den Wissenschaftlern erlaubt, Transkriptionen von Manuskripten in TEI-konformem XML zu bearbeiten, mit einem Text- und Sachapparat zu versehen und anschließend im Druck und im Web zu veröffentlichen. Dabei besteht ediarum aus mehreren Softwarekomponenten, die zur Erarbeitung einer digitalen Edition entsprechend angepasst wurden: Zur Eingabe und Bearbeitung der Daten wird eine eigens angepasste Version des oXygen XML Author benutzt. Die Speicherung der Daten erfolgt in der freien XML-Datenbank existdb. Sie dient gleichzeitig – zusammen mit dem Webserver Jetty – auch als Basis der digitalen Edition, die mit XQuery, XSLT und XPath realisiert wurde. Zur Anzeige der Faksimiles wird die am MPI für Wissenschaftsgeschichte entwickelte Software digilib eingesetzt.

Daten(-modell)

Historische Quellen

Die Metadaten und Texte der zu edierenden Schriften (Reisetagebücher, Dokumente und Briefe) werden nach den Richtlinien der Text Encoding Initiative (TEI) kodiert. Dabei wird weitgehend das Basisformat des Deutschen Textarchivs (DTABf) verwendet, das u.a. im Rahmen dieses Editionsvorhabens für die Kodierung von handschriftlichen Texten erweitert wurde. Für einige wenige projektspezifische Belange wurden Ergänzungen und Erweiterungen zum Tagset vorgenommen, die konform zu den TEI-Richtlinien sind. Diese Erweiterung betrifft insbesondere projektspezifische Anforderungen, die sich durch das Material ergeben, wie z.B. die Auszeichnung von Maßangaben. Alle Personen-, Orts- und Institutionsnamen sowie Literaturangaben in den Quellentexten (und ihren Metadaten) werden mit ihren jeweiligen Registereinträgen verknüpft.

Begleittexte

Alle weiteren Texte, wie z.B. die einführenden Forschungsbeiträge zum Tagebuch-Fragment „Isle de Cube. Antilles en général“, wurden ebenfalls in TEI-XML gemäß dem Basisformat des Deutschen Textarchivs erfasst.

Register

Die Register zu Personen, Orten und Institutionen werden in TEI-XML bearbeitet und vorgehalten. Jeder Eintrag verfügt über eine eigene, eindeutige und permanente Identifizierungsnummer. Er soll darüber hinaus aber mit einer oder ggf. mehreren IDs aus den entsprechenden Normdateien versehen werden (sofern ein Eintrag in der Normdatei existiert), um eine projektübergreifende Identifizierung der Personen, Orte etc. zu ermöglichen. Zusätzlich zu den Basisdaten eines Eintrags wird außerdem eine Kurzbeschreibung vorgehalten. Darüber hinaus wurden im Rahmen des Projekts die Registerangaben von 25 zwischen 1973 und 2016 veröffentlichten Editionen (Briefe, Dokumente, Tagebuch-Exzerpte) der Alexander von Humboldt-Forschung retrodigitalisiert und zusätzlich bereitgestellt. Die Registerinformationen der gedruckten Editionen sind Teil der zunächst im Akademie-Verlag und schließlich bei De Gruyter veröffentlichten Reihe Beiträge zur Alexander von Humboldt-Forschung, herausgegeben von der Alexander-von-Humboldt-Forschungsstelle (1970–2014) der BBAW. Verknüpfungen zu anderen Registereinträgen und den edierten Materialien werden automatisiert aus der Datenbank ausgelesen.

 

Pflanzenregister

Für das Pflanzenregister werden keine eigenen Einträge in TEI-XML-Registerdateien angelegt (wie bei den anderen Registern). Stattdessen werden die wissenschaftlichen Pflanzennamen in den edierten Texten mit Hilfe der entsprechenden TEI-Kodierung normalisiert und dann automatisch ausgelesen. Das Pflanzenregister wird somit komplett dynamisch erstellt. Zu jedem distinkten Pflanzennamen werden die Belegstellen in den Texten gelistet und automatisiert mit verschiedenen taxonomischen Datenbanken verlinkt (siehe unten, Abschnitt Globale Indizes für wissenschaftliche Namen). Aufgrund der dynamischen Erstellung dieses Registers können hier bislang noch keine Permalinks angeboten werden.

Bibliographie

Die Bibliographie der Edition wird in der Literaturverwaltungssoftware Zotero gepflegt. Die öffentlich einsehbare Zotero-Gruppe ermöglicht die kollaborative Pflege der Daten und kann von allen Interessierten abgerufen werden– auch in verschiedenen Zitierstilen und Exportformaten.

Verwendete Daten & Webservices

Große Ansicht (Digilib)Das vernetzte Datenmodell der edition humboldt digital. Erstmals veröffentlicht als Dumont, Stefan/Kraft, Tobias. (2017). Edition Humboldt Digital Vernetzt. Zenodo.

Für die digitale Edition wurden an mehreren Stellen Daten aus Drittprojekten nachgenutzt bzw. externe Webservices verwendet.

Cascaded Analysis Broker des Deutschen Textarchiv (DTA::CAB)

Die normale Suche kann um eine Funktion erweitert werden, die auch historische Schreibweisen und andere Wortformen findet. Zu diesem Zweck werden die edierten Texte mit Hilfe des Webservices DTA::CAB linguistisch analysiert und annotiert. Dabei werden u.a. auch alle Wörter lemmatisiert, so dass auf Basis dieses Lemma gesucht werden kann. Der DTA::CAB wird im Rahmen des Deutschen Textarchivs von Bryan Jurish entwickelt.

Für weitere Informationen siehe die Dokumentation oder B. Jurish: Finite-state Canonicalization Techniques for Historical German. PhD thesis, Universität Potsdam, 2012. URN urn:nbn:de:kobv:517-opus-55789.

Humboldts Schriften im Deutschen Textarchiv

Im Deutschen Textarchiv sind etwa 170 Schriften Alexander von Humboldts TEI-XML-kodiert im Volltext verfügbar. In der Chronologie wurde eine Funktion implementiert, die die Titeldaten dieser Schriften mitanzeigt bzw. durchsucht. Dafür wird die vom Deutschen Textarchiv bereitgestellte D* OpenSearch API verwendet. So können die Volltexte von Humboldts Schriften nicht nur angezeigt, sondern auch durchsucht werden: Die Suchfunktion erlaubt, die Anzahl der Treffer mitanzugeben und direkt auf die Trefferliste zu verlinken.

Digitalisate-Bibliographie auf avhumboldt.de

Im Rahmen des Portals avhumboldt.de wird unter der Leitung von Tobias Kraft seit 2009 eine Digitalisate-Bibliographie der selbständig erschienenen Schriften Alexander von Humboldts bereitgestellt. Die Daten dieser Bibliographie wurden in XML konvertiert und in die Datenbank der edition humboldt digital integriert, um in der Chronologie angezeigt werden zu können.

correspSearch

Der Webservice correspSearch aggregiert maschinenlesbare Briefverzeichnisse von gedruckten oder digitalen Briefeditionen und macht sie zentral recherchierbar. Darüber hinaus bietet er eine Schnittstelle an, die es ermöglicht, diese Daten auch automatisiert abzufragen und in eigenen Programmen nachzunutzen. Da Humboldts Korrespondenz nicht in einer Gesamtausgabe erscheint, sind die in correspSearch aggregierten Daten zu Briefen an und von Alexander von Humboldt für die Forschung sehr nützlich.

In der edition humboldt digital werden diese Daten über die API von correspSearch an zwei Stellen abgefragt: zum einen in der Chronologie (bei entsprechender Aktivierung dieser Option), zum anderen in der Einzelansicht eines Briefes unter „Briefnetz erkunden“. Dort werden Briefe von und an Alexander Humboldt aus anderen Editionen abgefragt, um sichtbar zu machen, mit welchen anderen Korrespondenzpartnern Humboldt im jeweiligen Zeitraum noch Kontakt hatte. Darüber hinaus wird auch angezeigt, welche Briefe der jeweilige Korrespondenzpartner im entsprechenden Zeitraum empfangen und versendet hat. Auf diese Weise soll der „erweiterte Korrespondenzkontext“ des Briefnetzes sichtbar gemacht werden.

GeoNames & OpenStreetMap

Die im Register verzeichneten Orte und Institutionsstandorte sind in der Regel mit einer ID der freien geographischen Datenbank GeoNames versehen. So können die Orte projektübergreifend identifiziert werden, was die Nachnutzung der Daten erheblich vereinfacht. Darüber hinaus werden anhand der GeoNames-ID Koordinaten bezogen, auf deren Basis mit Hilfe des freien Kartendienstes OpenStreetMap eine entsprechende Karte bei den Orts- und Institutionseinträgen angezeigt werden kann.

Gemeinsame Normdatei & BEACON

Anhand der in den Registereinträgen zu Personen notierten ID, die in der Regel der Gemeinsamen Normdatei (GND) entnommen wird, können weitere Daten über den GND-Webservice „Entity Facts“ bezogen werden. So können vor allem die (familiären) Beziehungen zwischen Personen im Register angezeigt werden.

Die GND-ID erlaubt darüber hinaus, weitere Editionen, Lexika und Projekte zu verlinken, die im Themenbereich der edition humboldt digital relevant sind. Hierfür werden die BEACON-Schnittstellen dieser Projekte genutzt. So ist es etwa möglich, thematische Überschneidungen mit anderen Projekten des Zentrums Preußen-Berlin an der BBAW über die Verbindungen in den Registerdaten zu identifizieren und der Forschung bereitzustellen (Beispiel Wilhelm von Humboldt oder Aloys Hirt).

 

Globale Indizes für wissenschaftliche Namen

Im Pflanzenregister (siehe oben) werden verschiedene Webservices und APIs benutzt, um wissenschaftliche Pflanzennamen aus Texten der edition humboldt digital automatisiert mit passenden Einträgen aus taxonomischen Datenbanken zu verknüpfen. Mithilfe des Webservices Global Names Resolver verlinkt das Pflanzenregister wissenschaftliche Namen mit Einträgen in der Encylopedia of Life, Tropicos - Missouri Botanical Garden, The International Plant Names Index (IPNI) oder der englischen Wikipedia. Darüber hinaus werden der Catalogue of Life, die Biodiversity Heritage Library und die Global Biodiversity Information Facility anhand ihrer eigenen Schnittstellen abgefragt und ebenfalls verknüpft. Weitere Datenbanken können, sofern sie über entsprechende technische Schnittstellen verfügen, in Zukunft ergänzt werden.

Die Abfrage der verschiedenen Datenbanken und automatisierte Verlinkung erfolgt dabei auf Basis des wissenschaftlichen Pflanzennamens, der im edierten Text entsprechend kodiert und ggf. normalisiert wird.

Lizenzierung & API

Die edition humboldt digital nutzt nicht nur externe Daten und Webservices nach, sondern stellt ihre Daten wiederrum unter der freien Creative Commons-Lizenz CC BY-SA 4.0 über eine Schnittstelle zur Verfügung. Desweiteren werden die Metadaten über mehrere Schnittstellen (OAI-PMH, CMIF und BEACON) angeboten.

Mehr Informationen zur API

Langzeitverfügbarkeit und Permalinks

Die in edition humboldt digital bereitgestellten Texte und Daten sind mit Permalinks versehen, die auf die jeweilige Version referenzieren, z.B.: http://edition-humboldt.de/v1/H0002656. Alle Versionen werden von der BBAW zum Abruf vorgehalten. Darüber hinaus sind die einzelnen Texte und Datensätze auch mit einer kanonischen URL versehen, die stets auf die aktuellste Version weiterleitet. Dabei entfällt einfach der Versionshinweis im Pfad, z.B. http://edition-humboldt.de/H0002656.

Zitierhinweis

Dumont, Stefan: Digitale Methodik. Ein Überblick über Datenmodellierung und verwendete Technologien. In: edition humboldt digital, hg. v. Ottmar Ette. Berlin-Brandenburgische Akademie der Wissenschaften, Berlin. Version 7 vom 07.09.2021. URL: https://edition-humboldt.de/v7/H0016212


Download

 Dieses Dokument als TEI-XML herunterladen

Kanonische URLDieser Link führt stets auf die aktuelle Version.

https://edition-humboldt.de/H0016212