Die Bedeutung von FAIR-Daten in der Geowissenschaft

Jans Aasman, Ph.D.13 September 2019

Die Bewertung von Daten als Unternehmensvermögen wird mit der Zeit am akutesten realisiert. Bei ordnungsgemäßer Verwaltung unterstützt dasselbe Dataset eine Vielzahl von Anwendungsfällen, ist auf Anfrage sofort verfügbar und kann zwischen Abteilungen oder Organisationen ausgetauscht werden, um den Ertrag bei jeder Bereitstellung systematisch zu steigern.

Diese Bestrebungen, Daten als Unternehmensressourcen zu nutzen, sind die Grundlage der Prinzipien von GO FAIR für auffindbare, zugängliche und interoperable, wiederverwendbare Daten (Findable Accessible Interoperable Reusable, FAIR), die sich tiefgreifend auf die Datenmanagementanforderungen der Geologie auswirken. Zahlreiche Organisationen in diesem Bereich haben sich diesen Grundsätzen verschrieben, um schnell Informationen zwischen einer Vielzahl von Disziplinen auszutauschen und die Verantwortung der Erde sicher zu lenken.

Laut Dr. Annie Burgess, Labordirektorin von Earth Science Information Partners (ESIP), können die „dringendsten globalen Herausforderungen nicht von einer einzigen Organisation gelöst werden. Wissenschaftler benötigen Daten, die in verschiedenen Disziplinen gesammelt werden und oft von vielen verschiedenen Behörden und Institutionen verwaltet werden. “Wie zahlreiche Mitglieder der geowissenschaftlichen Gemeinschaft feststellen, ist die Verwendung der semantischen Standards das effektivste Mittel, um diese unterschiedlichen Daten nach den FAIR-Grundsätzen zu verwalten Wissensgraphen untermauern.

Diese einheitlichen Ansätze zur Verwaltung von Metadaten, Datenmodellen und Terminologie sind der Kern der FAIR-Datenbewegung und stellen sicher, dass die Daten als wertvolles Gut der wissenschaftlichen Gemeinschaft angesehen werden.

Kommunalwissenschaft
Die semantischen Standards, die Wissensgraphen unterstützen, dienen dazu, Daten in einem maschinenlesbaren Format eindeutig zu identifizieren, sofort darauf zuzugreifen und gemeinsam zu nutzen. Sie sind dieselben Standards, die für die Ermöglichung dieser Vorteile im World Wide Web verantwortlich sind, und sie sind für die Wiederverwendung von Daten im Bereich der Geowissenschaften von großem Vorteil. Dieses Gebiet ist eines der schwierigeren wissenschaftlichen Gebiete, da es so umfangreich ist und Meereslebewesen, atmosphärische Bedenken, Landmassen und unterirdische Entwicklungen umfasst. Die Möglichkeit, Daten in diesen verschiedenen Spezialisierungen schnell gemeinsam zu nutzen, ist ein wesentlicher Aspekt für die Weiterentwicklung des gesamten Bereichs, ebenso wie die anderen Vorteile der eindeutigen Identifizierung von Daten und des schnellen Zugriffs auf diese Daten über maschinenlesbare Techniken.

Dr. Lewis McGibbney, Datenwissenschaftler am Jet Propulsion Laboratory des California Institute of Technology und Co-Vorsitzender der ESDSWG-Arbeitsgruppe für Suchrelevanz der NASA, stellte fest: „Wir befinden uns in einem aufregenden Stadium, in dem es eine kritische Masse von Experten und Organisationen in der Umgebung gibt Globus mit ähnlichen Zielen sowie der Erkenntnis, dass wir wissensintensive Anwendungen benötigen. Der semantische Technologie-Stack ist ein entscheidender Baustein für die Erstellung intelligenter Apps für wissensintensive Anwendungsfälle im Bereich der Geowissenschaften. “Darüber hinaus ermöglichen semantische Standards diesen Organisationen, Daten und Ergebnisse in einem wiederverwendbaren Format zu veröffentlichen, sodass verschiedene Organisationen direkt von der Arbeit des jeweils anderen profitieren.

Menschen und Maschinen verbinden
Beim FAIR-Ansatz geht es darum, verschiedene Daten in einem Wissensgraphen zu verknüpfen. Diese Wissensdiagramme können wiederum zwischen verschiedenen Organisationen verknüpft oder für den universellen Zugriff im Web „veröffentlicht“ werden - was für die Interoperabilität von entscheidender Bedeutung ist. Dieser Ansatz erfordert nicht nur, dass jedes einzelne Datum eine eigene eindeutige Kennung hat, sondern auch eine umfassende Beschreibung seiner Metadaten, die auf standardisierten Vokabularen und Taxonomien basiert, die schnell verstanden werden und über Maschinen zugänglich sind. Semantische Datenmodelle (Ontologien) standardisieren inhärente Unterschiede im Schema, die von verschiedenen Organisationen für verschiedene Anwendungen verwendet werden, und tragen so zur Interoperabilität von IT-Systemen nach FAIR-Prinzipien bei.

Carlos Rueda, Senior Software Engineer des Monterey Bay Aquarium Research Institute, erklärte: „Das Marine Metadata Interoperability Project hat das MMI Ontology Registry and Repository (ORR) entwickelt, das AllegroGraph nutzt, um leistungsstarke interoperable semantische Dienste bereitzustellen, mit denen die Inhalte im Web auf sinnvolle Weise miteinander verbunden werden Dies ermöglicht es verschiedenen wissenschaftlichen Organisationen des Marine Metadata Interoperability Project, Ontologien ihrer unzähligen Repositorys auf diese standardisierte Weise zu registrieren, und beschleunigt die Datenintegration und die Zugänglichkeit.

Einheitliche Vielfalt

Vielleicht ist der Hauptvorteil der Aktivierung von FAIR-Prinzipien mit Wissensgraphen in der geowissenschaftlichen Gemeinschaft die Fähigkeit, das Sortiment verschiedener Daten, die für Wissenschaftler relevant sind, zu standardisieren. Die schiere Anzahl unterschiedlicher Spezialisierungen in diesem Bereich erfordert Daten von scheinbar unendlichen Variationen. Zu den Quellen gehören Sensordaten von Wasser-, Luft- und Landquellen sowie Satellitendaten und Daten von physischen Proben. Darüber hinaus zeichnen sich diese Daten durch viele verschiedene räumliche und zeitliche Auflösungen aus, was die Komplexität ihrer homogenen Verwaltung insgesamt erhöht. In dieser Hinsicht wird semantischen Datenmodellen erheblich geholfen, einheitliche Vokabeln zur Beschreibung von Daten zu verwenden. Dr. Burgess wies auf das Verdienst des „ESIP Community Ontology Repository“ hin, einer Community-Plattform zum Verwalten und Austauschen von Begriffen und Vokabeln, mit denen Wissenschaftler Daten veröffentlichen, entdecken und wiederverwenden können.

Langzeitvermehrung
Wie die zahlreichen Anwendungsfälle in der Gemeinschaft der Geowissenschaftler zeigen, basiert die Wertschätzung von Daten auf ihrer dauerhaften Wiederverwendbarkeit und sofortigen Verfügbarkeit. Diese Prioritäten haben die FAIR-Bewegung hervorgebracht, deren Umsetzung von semantischen Technologien abhängt. Dieser Ansatz bietet den gleichen Vorteil, wenn er auf zeitgemäße Organisationen angewendet wird: eine Steigerung des Werts von Daten als Unternehmensressource.

Über den Autor
Jans Aasman ist ein Ph.D. Psychologe, Experte für Kognitionswissenschaft und CEO von Franz Inc., einem frühen Innovator der künstlichen Intelligenz und Anbieter von AllegroGraph, der führenden semantischen Graphendatenbank. Als Wissenschaftler und CEO ist Dr. Aasman weiterhin führend in den Bereichen künstliche Intelligenz und Wissensgraphen, da er Hand in Hand mit zahlreichen Fortune-500-Organisationen sowie Regierungen in den USA und anderen Ländern zusammenarbeitet. Dr. Aasman hat einen großen Teil seiner beruflichen Laufbahn mit den Schwerpunkten Angewandte Künstliche Intelligenz, Intelligente Benutzerschnittstellen und Telekommunikationsforschung verbracht. Er hat Patente in den Bereichen Sprachtechnologie, multimodale Benutzerinteraktion und Empfehlungsmaschinen gesammelt und gleichzeitig die Vorläufertechnologie für Tablets und persönliche Assistenten entwickelt. Er war Professor in der Abteilung für Industriedesign der Technischen Universität Delft und ein bekannter Konferenzredner bei Veranstaltungen wie Smart Data, NoSQL Now, Internationale Semantic Web-Konferenz, GeoWeb, AAAI, Enterprise Data World, Global Graph Summit, Text Analytics, und TTI Vanguard.