You are on page 1of 32

Hochschule der Medien Stuttgart Bibliotheks- und Informationsmanagement (Bachelor) Wintersemester 2013/14

Forschungsdatenmanagement in den Naturwissenschaften

Schriftliche Studienarbeit im Seminar Forschungsdatenmanagement Bibliothek- und Informationsmanagement Prof. Magnus Pfeffer

Vorgelegt von: Tobias Thelen Email: XXXXX Matr.-Nr.: XXXXX

Abgabedatum: 15. Januar 2014

Inhaltsverzeichnis

Inhaltsverzeichnis
Inhaltsverzeichnis ....................................................................................................... 2 Abbildungsverzeichnis ............................................................................................... 3 1 2 3 3.1 3.2 3.3 3.4 4 4.1 4.2 4.3 4.4 5 5.1 5.2 5.3 5.4 6 7 7.1 7.2 7.3 7.4 Einleitung .......................................................................................................... 4 Problematik....................................................................................................... 6 Fachbereich Chemie ........................................................................................ 8 Forschungsgegenstand der Chemie ................................................................... 8 Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in der Chemie ............................................................................................................... 8 Metadaten und Metadatenstandards .................................................................. 9 Beispiel International Crystallographic Structure Database .............................. 11 Fachbereich Astronomie................................................................................ 15 Forschungsgegenstand der Astronomie ........................................................... 15 Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in der Astronomie ....................................................................................................... 15 Metadaten und Metadatenstandards ................................................................ 16 Beispiel Sloan Digital Sky Survey ..................................................................... 17 Fachbereich Geowissenschaften .................................................................. 19 Forschungsgegenstand der Geowissenschaften .............................................. 19 Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in den Geowissenschaften .......................................................................................... 19 Metadaten und Metadatenstandards ................................................................ 20 Beispiel PANGAEA .......................................................................................... 21 Fazit ................................................................................................................. 24 Relevante Forschungsliteratur ...................................................................... 26 Forschungsdatenmanagement Allgemein......................................................... 26 Literatur zum jetzigen Stand des Forschungsdaten-managements in den Naturwissenschaften ........................................................................................ 26 Literatur zu den Datenformaten und Standards ................................................ 27 Literatur zu den einzelnen Repositorien ........................................................... 27

Glossar....................................................................................................................... 28 Literaturverzeichnis .................................................................................................. 29 Ehrenerklrung.......................................................................................................... 32

Abbildungsverzeichnis

Abbildungsverzeichnis
Abb. 1 ScienceDirect-Vorschauseite auf einen Artikel mit Verlinkung der Forschungsdaten auf PANGAEA (rechts im Bild) ............................................... 7 Abb. 2 Graphische Darstellung der Messkurve eines spektrographischen Datensatzes ....................................................................................................... 9 Abb. 3 Aufbau eines einfachen Blocks einer JCAMP-DX-Datei mit Core- und Notes-Feldern .................................................................................................. 11 Abb. 4 Struktur einer JCAMP-DX-Datei mit mehreren unabhngigen Blcken ............ 11 Abb. 5 Suchinterface der Webanwendung der ICSD ................................................... 13 Abb. 6 Darstellung eines Datensatzes in der Webanwendung der ICSD ..................... 13 Abb. 7 Bildersuche im Webinterface des SDSS Data Release 7 ................................. 18 Abb. 8 Suchformular des PANGAEA-Webinterfaces ................................................... 22

1 Einleitung

Einleitung

Die Naturwissenschaften versuchen Naturphnomene und die Natur an sich durch Beobachtungen, Messungen und Analysen zu erklren. Auerdem versuchen Forscher die Natur fr den Menschen nutzbar zu machen. Durch ihre Forschung bilden die Naturwissenschaften die theoretischen Grundlagen fr Technik, Medizin und viele weitere Felder des tglichen Lebens.1 Es unterscheiden sich mehrere Hauptrichtungen wie die Astronomie, Geowissenschaften, die Biologie, Chemie und die Physik. Die Methoden zum Erkenntnisgewinn in den Fachbereichen knnen sehr unterschiedlich sein, jedoch gilt fr einen Groteil, dass Daten, die durch Messungen, Beobachtungen und Experimente entstehen die Grundlage fr die wissenschaftliche Forschung in den Naturwissenschaften sind. Sie dienen der Beweisfhrung, Kontrolle und auch der Inspiration fr neue Forschungsanstze. Die Forschungsdaten sind so unterschiedlich wie die Fachbereiche an sich. Jedoch haben sie oft gemeinsam, dass ihre Gewinnung oft mit einem hohen personellen und auch finanziellen Aufwand verbunden ist. In einigen Disziplinen knnen Daten auch mglicherweise nur einmal und sonst nie wieder erhoben werden, wie etwa bei der Beobachtung von Sternenkonstellationen in der Astronomie. Diese Tatsachen machen Forschungsdaten so wertvoll und allein das sollte schon Grund genug sein, sich ber die Erschlieung, Aufbereitung, Archivierung und Zugnglichkeit, kurz also dem Forschungsdatenmanagement, Gedanken zu machen. Auerdem wurde erkannt, dass Forschungsdaten, die aus ffentlichen Geldern finanziert wurden, auch der wissenschaftlichen ffentlichkeit zur Verfgung stehen sollten. Oftmals knnen Daten unabhngig von ihrem ursprnglichen Verwendungszweck als Grundlage eigenstndiger Forschung wiederverwendet werden. Dieser Ansatz im Zeichen des Gemeinsinns bildet laut der Denkschrift Grundstze zum Umgang mit Forschungsdaten der Allianz der deutschen Wissenschaftsorganisationen eine strategische Aufgabe, zu der Wissenschaft, Politik und andere Teile der Gesellschaft gemeinsam beitragen mssen.2 Die Sicherung von Daten, die aus ffentlich gefrderten Projekten hervorgehen und deren grundstzlich offener Zugang3 ist ein wichtiges Ziel um die Qualitt, Produktivitt und Konkurrenzfhigkeit der Wissenschaft in Deutschland zu frdern. Die vorliegende Arbeit soll einen Einblick in den aktuellen Stand des Forschungsdatenmanagements in den Naturwissenschaften geben. Da die Disziplinen zu zahlreich und unterschiedlich fr den Umfang dieser Arbeit sind, musste der Autor sich auf ein-

1 2

Vgl. Ledoux, S. F. (2002): Defining Natural Sciences, S. 34 Allianz der deutschen Wissenschaftsorganisationen (2010): Grundstze zum Umgang mit Forschungsdaten, S.2 Ebd., S. 2

1 Einleitung

zelne Fachbereiche beschrnken, um so exemplarisch den jetzigen Stand zu vermitteln. Bevor die Beispiele aus den Disziplinen erlutert werden, soll in Kapitel 2 auf die Problematiken, die einem effektiven Forschungsdatenmanagement im Wege stehen, eingegangen werden. Es folgt die Bestandsaufnahme in den Bereichen Chemie, Astronomie und den Geowissenschaften. Fr jedes Forschungsgebiet sollen die disziplinspezifischen Anforderungen an das Forschungsdatenmanagement beschrieben werden, die ntigen Metadaten und Metadatenstandards. Die Kapitel schlieen mit der Vorstellung eines Repositoriums4 aus dem jeweiligen Fachbereich.

Repositorium (engl. Repository): Verzeichnis zur Verwaltung von Forschungsdaten und/oder Publikationen.

2 Problematik

Problematik

Die von der DFG5 aufgestellten Empfehlungen zur Sicherung guter wissenschaftlicher Praxis besagen, dass Forschungsdaten, die Grundlage einer wissenschaftlichen Publikation sind, fr zehn Jahre von den zustndigen Institutionen aufbewahrt und zugnglich gemacht werden sollen, um die berprfung von Forschungsergebnissen zu ermglichen.6 Auch verschiedene wissenschaftliche Institutionen haben hier mit speziellen institutional policies nachgezogen, die den Umgang mit den Forschungsergebnissen regeln sollen. Allerdings werden die Daten aus Zeitgrnden hufig nur in ihrer Rohform archiviert und sind ohne die entsprechenden Metadaten nur schwer zu interpretieren. Die hohe Fluktuation von Forschern an den Hochschulen sorgt dafr, dass der Forscher, der die Daten erhoben hat, in vielen Fllen schon lngst in einem anderen Projekt an einer anderen Hochschule arbeitet und bei der Entschlsselung der Daten nicht mehr behilflich sein kann. Grundstzlich besteht in den Wissenschaften durchaus die Bereitschaft Forschungsdaten interdisziplinr zu verffentlichen und zugnglich zu machen. Allerdings ist es zur Zeit unblich, dass die erforderliche Mehrarbeit fr Aufbereitung, Kontextdokumentation und Qualittssicherung im Wissenschaftsbetrieb anerkannt wird.7 Die Leistung eines Wissenschaftlers wird vorwiegend durch die Anzahl seiner Verffentlichungen und vor allem durch die Hufigkeit, mit der diese von seinen Kollegen in deren Publikationen zitiert werden, bewertet. Hierfr werden die citation indexes8 herangezogen, in dem die Zitierungen seiner wissenschaftlichen Arbeiten aufgefhrt sind. Von ihm erzeugte Forschungsdaten, die von anderen Wissenschaftlern genutzt und entsprechend zitiert wurden, werden in einem solchen Index in der Regel nicht bercksichtigt. Deshalb besteht in dieser Hinsicht nur ein geringer Anreiz fr den Forscher den Mehraufwand fr eine vollstndige, mit Metadaten versehene Verffentlichung von Datenstzen zu betreiben. Generell lsst sich sagen, dass Forscher ihre Zeit am liebsten mit Forschung verbringen, da auch der Druck zu verffentlichen sehr hoch ist und sich die Anzahl seiner Verffentlichungen direkt auf die zuknftige Vergabe von Forschungsgeldern auswirken kann. Michael Diepenbroek und Hannes Grobe, die am AlfredWegener-Institut fr Polar- und Meeresforschung fr die in den Geowissenschaften bekannte PANGAEA-Datenbank verantwortlich sind, vertreten die Meinung, dass die Trennung von wissenschaftlichen Publikationen und zugrunde liegenden Primrdaten
5

DFG: kurz fr Deutsche Forschungsgemeinschaft. Eine Einrichtung zur Frderung der Wissenschaft und Forschung in Deutschland. Vgl. Deutsche Forschungsgesellschaft (2013): Sicherung Guter Wissenschaftlicher Praxis : Empfehlungen der Kommission "Selbstkontrolle in der Wissenschaft", S. 21 Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 35 citation index: Datenbank, die Zitationen von wissenschaftlichen Publikationen untereinander verzeichnet. Kann als Messinstrument fr die Produktivitt und Qualitt eines Wissenschaftlers herangezogen werden.

2 Problematik

[] als gravierendes strukturelles Problem in den empirischen Wissenschaften gesehen werden [kann].9 Inzwischen gibt es Projekte, die sich bemhen eine Lsung fr diese Problematik zu finden. Der Elsevier-Verlag ist einer der weltweit fhrenden Verlage fr wissenschaftliche Zeitschriften und Fachbcher und bietet mit dem Internetportal ScienceDirect einen Online-Dokumentenlieferdienst an. In einer Kooperation mit PANGAEA wird bei jeder Publikation, die auf diesem Portal verfgbar ist, automatisch geprft, ob fr diesen Artikel Forschungsdaten verfgbar sind, die mit einem DOI10 registriert wurden, und ggf. [wird] ein Verweis direkt auf die Vorschauseite des Artikels platziert.11

Abb. 1 ScienceDirect-Vorschauseite auf einen Artikel mit Verlinkung der Forschungsdaten auf PANGAEA (rechts im Bild)12

Dieses Beispiel knnte ein Schritt in die Zukunft sein, denn sollte es sich in den Naturwissenschaften durchsetzen, dass Forschungsdaten zitierfhig werden, so wrde ein Anreiz fr den Wissenschaftler geschaffen, seine Daten in den entsprechenden Strukturen zu publizieren. Die Anerkennung von Forschungsdaten als eigenstndige wissenschaftliche Leistung erscheint hier durchaus als gerecht, da viel Zeit und Forschungsgelder in deren Gewinnung flieen.

Diepenbroek, M., Grobe, H. (2007): PANGAEA als vernetztes Verlags- und Bibliothekssystem fr wissenschaftliche Daten, S. 149 10 DOI: kurz fr Digital Object Identifier. Ein eindeutiger, standortunabhngiger Identifikator fr digitale Objekte, um ber lange Zeitrume und eventuelle Systemwechsel hinweg einen zuverlssigen Zugriff auf diese Ressourcen gewhrleisten zu knnen. 11 Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 59 12 Abb. vom Autor selbst auf der Internetseite von ScienceDirect aufgenommen. URL: http://www.sciencedirect.com/science/article/pii/S0025322704000829 (10.01.2014)

3 Fachbereich Chemie

3
3.1

Fachbereich Chemie
Forschungsgegenstand der Chemie

Forscher in der Chemie beschftigen sich mit dem Aufbau, den Eigenschaften und der Umwandlung von Stoffen. Traditionell unterscheidet man innerhalb des Fachbereichs zwischen der organischen und der anorganischen Chemie. Es gibt sehr spezifischen Teildisziplinen und interdisziplinre Forschungsgebiete wie die Biochemie, theoretische Chemie, prparative Chemie, analytische Chemie und technische Chemie.

3.2

Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in der Chemie

In den Laboren fallen tagtglich groe Mengen der unterschiedlichsten Daten von den Mess- und Grogerten an. Ein Groteil dieser speziellen Messergebnisse dienen nicht dem wissenschaftlichen Erkenntnisgewinn, sondern eher der Qualittskontrolle laufender Prozesse. Die eigenstndige Publikation fr Forschungsdaten in der Chemie ist als eher zweitrangig anzusehen.13 Die Daten sind fr die wissenschaftliche Gemeinschaft eher von geringer Bedeutung. Hier bietet sich die Speicherung in institutionellen Repositorien an. Erst wenn chemische Messdaten die Grundlagen fr wissenschaftliche Forschungen sind ist die Verffentlichung interessant. Kooperative Strukturen sind in der Chemie weniger weit verbreitet als in anderen naturwissenschaftlichen Disziplinen, weshalb der Austausch von Forschungsdaten hier in der Vergangenheit keine allzu groe Rolle gespielt hat. Die hngt natrlich auch damit zusammen, dass ein groer Teil der Forschung in Industriekonzernen stattfindet und dort unter Verschluss gehalten wird. Das Bestreben Betriebsgeheimnisse zu bewahren ist hier natrlich verstndlich, wenn man bedenkt, dass die Chemieindustrie eine der innovativsten und auch lukrativsten Industriezweige darstellt. Nichtsdestotrotz gibt es Bemhungen eine Infrastruktur fr den Austausch von Forschungsdaten zu schaffen. In einer Studie von 2010 haben die Technische Informationsbibliothek Hannover, das Fachinformationszentrum Chemie Berlin und die Universitt Paderborn den aktuellen Stand des Forschungsdatenmanagements in der Chemie untersucht und ein Konzept fr die Langzeitarchivierung chemischer Primrdaten erstellt, das aber durch die Abwicklung des FIZ Chemie Berlins im Jahr 2011 so noch nicht in die Tat umgesetzt werden konnte.14

13

14

Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 30 Der Bund und das Land Berlin, die bisherigen Eigentmer, zogen sich 2011 aus dem FIZ Chemie zurck, da man nach man es nach deren Meinung versumt hatte sich auf dem

3 Fachbereich Chemie

3.3

Metadaten und Metadatenstandards

So vielfltig die verschiedenen Fachbereiche der Chemie sind, so vielfltig sind auch die Methoden, die zur Gewinnung von Daten angewandt werden. Die verwendeten Datenstandards der verschiedenen Fachbereiche zu betrachten wrde den Rahmen dieser Arbeit bersteigen. Aus diesem Grund soll nur exemplarisch ein Format genauer vorgestellt werden. Die Spektrographie gehrt zu den gngigsten Analysemethoden in der Chemie und so entsteht ein groer Teil der Daten in spektrographischen Laboren der verschiedensten Forschungseinrichtungen. Diese Messdaten dienen der genauen Beschreibung der Zusammensetzung eines, meist im Labor synthetisierten, Stoffes. Die Rohdaten werden hufig direkt nach der Erfassung in einen an das Messgert angeschlossenen Server hochgeladen. Der Zugang auf die Daten ist zu diesem Zeitpunkt uerst eingeschrnkt. Die Rohdaten werden im Anschluss so aufbereitet, dass es im Anschluss mglich ist mittels spezieller Software eine graphische Reprsentation der Messung darzustellen.

Abb. 2 Graphische Darstellung der Messkurve eines spektrographischen Datensatzes

15

Problematisch ist hierbei, dass potentiell jeder Hersteller, zum Teil auch jedes Gert, ein eigenes, hufig proprietres Dateiformat nutzt. Dies ist fr die Verffentlichung der Daten ein groes Problem. Hierzu ist ein Austauschformat ntig, das es ermglicht die Daten mit den erforderlichen Metadaten zu versehen und so unabhngig von ihrem ursprnglichen Dateiformat lesbar zu machen. Man kann die Metadaten grob in zwei
Markt zukunftsgerecht zu positionieren. 2013 wurden Teile des FIZ vom Wiley-Verlag bernommen, der Rest wurde abgewickelt. Abb. entnommen aus Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 68

15

3 Fachbereich Chemie

10

Kategorien unterteilen interne und externe Metadaten. Die externen Metadaten entsprechen in etwa den Daten eines Bibliothekskatalogs. Sie umfassen den Identifier, mit dessen Hilfe die Daten eindeutig identifiziert werden knnen (z.B. DOI), die technischen Daten (Formatangabe und Datentyp), Inhaltsbeschreibung (Titel, Thema, Abstract, Fachrichtung), Personenangaben (Urheber der Datei, Herausgeber) und Vernetzung der Daten.16 Interne Metadaten beziehen sich unmittelbar auf die Probe und die Erzeugung chemischer Forschungsdaten [].17 In der Chemie ist es blich, dass die Forschungsdaten und die Metadaten in einer Datei gespeichert werden. Ein einziges Standardformat gibt es noch nicht, allerdings ist bei spektrographischen Messungen das JCAMP-DX-Format18 weit verbreitet. Dieses Format wurde 1988 mit dem Ziel eingefhrt ein Dateiformat anzubieten, mit welchem Infrarotspektrometer und die dazugehrigen chemischen und physikalischen Informationen ausgetauscht werden knnen. Schon bei der Einfhrung wurde bereits Wert darauf gelegt, dass auch andere Spektrometer, die mit anderen Messmethoden gewonnen wurden, dargestellt werden knnen. Die Daten werden in definierten Textfeldern mit beliebiger Lnge gespeichert und knnen mit einem einfachen Texteditor verndert und erweitert werden. Um die Informationen zu schreiben werden ausschlielich ASCII-Zeichen verwendet, um eine Kompatibilitt mit allen damaligen Computer- und Datensystemen zu gewhrleisten. Eine JCAMP-DX-Datei kann entweder eine einfache oder eine zusammengesetzte Struktur aufweisen. Bei der einfachen Struktur besteht die Datei aus einem Block der aus Core-Metadaten und Notes besteht. Die Core-Daten sind essentiell und mssen zwingend maschinenlesbar sein und knnen von Notes ergnzt werden. Sie enthalten generelle und methodenspezifische Informationen und relevante technische Spezifikationen des benutzten Spektrometers. Notes sind von Menschen lesbare Dateien, die das Experiment und die zu Grunde liegende Methodik genauer beschreiben. Sie knnen sehr stark in ihrem Umfang variieren, da sie von der Messtechnik und dem Forscher, der sie erstellt, abhngig sind.19 Die Abbildung 3 auf der nchsten Seite zeigt die Struktur, die einer JCAMP-DX-Datei zugrunde liegt.

16

Vgl. Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 48ff 17 Ebd. S. 60 18 JCAMP-DX: kurz fr Joint Committee of Atomic and Molecular Physical Data Exchange 19 McDonald, R. S., Wilks Jr., P. A. (1988): JCAMP-DX. A Standard Format for Exchange of Infrared Spectra in Computer Readable Form, S. 151ff

3 Fachbereich Chemie

11

Abb. 3 Aufbau eines einfachen Blocks einer JCAMP-DX-Datei mit Core- und Notes-Feldern

20

Weist die Datei eine zusammengesetzte Struktur auf, so werden mehrere solcher Blcke, die jeweils Core- und Notes-Informationen erhalten, in einer Datei gespeichert. So ist es mglich auch mehrere Datenstze unterschiedlicher Messmethoden innerhalb eines Projekts in diesem Format zu speichern. Eine solche Struktur ist in Abbildung 4 dargestellt.

Abb. 4 Struktur einer JCAMP-DX-Datei mit mehreren unabhngigen Blcken

21

Obwohl das Format inzwischen ber 25 Jahre alt ist, ist es auch heute noch das am Weitesten verbreitete Austauschformat fr spektroskopische Dateien. Jeder relevante Softwarehersteller bietet Programme an mit denen JCAMP-DX-Files ausgewertet und dargestellt werden knnen. Somit ist davon auszugehen, dass JCAMP-DX auch in Zukunft das wichtigste Dateiformat in diesem speziellen Forschungszweig bleiben wird.

3.4

Beispiel International Crystallographic Structure Database

Das Fachinformationszentrum Karlsruhe stellt die weltweit grte kristallographische Datenbank fr die Wissenschaft und Industrie zur Verfgung. Da der Groteil chemischer Literatur auf Englisch verffentlicht wird, ist dies auch die Sprache der Datenbank. Sie enthlt Datenstze kristallographischer Strukturen, die vor allem fr materialwissenschaftliche Untersuchungen herangezogen werden. Die Informationen in der International Crystallographic Structure Database (kurz ICSD) umfassen die Struktur20

Abb. entnommen aus aus Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie, S. 60 21 Abb. entnommen ebd., S. 61

3 Fachbereich Chemie

12

daten von Elementen, Mineralen und Metallen. Seit 2003 werden auch organische Strukturen in begrenztem Ausma aufgenommen.22 Zustzlich werden noch bibliographische Daten bereitgestellt, die Aufschluss ber die ursprngliche Verffentlichung der Strukturdaten geben. Um in die Datenbank aufgenommen zu werden, muss ein Datensatz sehr ausfhrlich durch eine Vielzahl von Parametern beschrieben sein. Diese sehr strikten Anforderungen und die berprfung durch ein Team wissenschaftlicher Mitarbeiter gewhrleisten eine hohe Qualitt der angebotenen Daten. Eintrge die den Anforderungen nicht entsprechen werden so bald wie mglich gelscht. Die im Moment mehr als 166 000 Eintrge in der ICSD sind nur in Ausnahmefllen standardisiert. Grundstzlich gilt, dass Datenstze in der Form gespeichert werden, in der sie von ihrem Urheber verffentlicht wurden.23 In der Regel werden vor allem Datenstze aufgenommen, die bereits in Fachzeitschriften verffentlicht wurden. Nur sehr selten stammen die Eintrge aus privaten Quellen.24 Die ICSD ist ein kostenpflichtiges Repositorium und kann entweder ber eine DVDRom oder ein Webportal benutzt werden. Die jhrlichen Lizenzkosten betragen zwischen 460 Euro fr den akademischen Nutzer bis zu 3850 Euro pro Jahr fr Mehrfachlizenzen industrieller Forschungseinrichtungen.25 Es besteht die Mglichkeit einen Probeaccount ber 30 Tage einzurichten, bei dem das Angebot der ICSD in begrenztem Ausma getestet werden kann. Der Nutzer kann ber ein Webinterface die verschiedensten Parameter bei seiner Suche bercksichtigen. Zur Erluterung der Suchfunktionen wurde vom FIZ Karlsruhe eine Anleitung herausgegeben. Es kann ganz regulr ber den chemischen Namen (z.B. Natriumchlorid) oder die chemische Formel (z.B. NaCl) einer Verbindung gesucht werden. Wie oben schon erwhnt, stammen die meisten Eintrge aus Verffentlichungen, weshalb auch nach Datenstzen aus bestimmten Journals gesucht werden kann. Natrlich ist auch die Suche nach dem Urheber der Daten mglich. Dem Forscher stehen auerdem noch eine groe Anzahl von fachspezifischen Parametern wie Zellparameter, Dichte, Atomkoordinaten und Wyckoff-Positionen zur Verfgung. Zustzlich knnen auch Remarks (dt. Anmerkungen) durchsucht werden, die vom Verfasser, der wissenschaftlichen Redaktion oder vom Testprogramm an den Datensatz angefgt wurden. Die Abbildung auf der nchsten Seite zeigt einen Screenshot des Suchinterfaces des Webangebots.

22 23

Vgl. FIZ Karlsruhe, Hrsg. (2008): Inorganic Crystal Structure Database. Scientific Manual, S.4 Vgl. FIZ Karlsruhe, Hrsg. (o.J.): Inorganic Crystal Structure Database 24 Vgl. FIZ Karlsruhe, Hrsg. (2008): Inorganic Crystal Structure Database. Scientific Manual, S.4 25 Preise entnommen von der Webseite der International Crystallographic Structure Database: http://www.fiz-karlsruhe.de/icsd_price_list.html?&L=hjiaxatprkt ( 10.01.2014)

3 Fachbereich Chemie

13

Abb. 5 Suchinterface der Webanwendung der ICSD

26

Bei einer Suchanfrage werden die Ergebnisse dann in einer Liste angezeigt, aus der ein Datensatz fr die Detailansicht ausgewhlt werden kann.

Abb. 6 Darstellung eines Datensatzes in der Webanwendung der ICSD


26

27

Abb. wurde vom Verfasser selbst auf der Seite der ICSD aufgenommen. URL: http://icsd.fizkarlsruhe.de/ (10.01.2014)

3 Fachbereich Chemie

14

Der Datensatz enthlt neben Namen, Strukturformeln, Journal-Referenz und spezifischen Messdaten auch verschiedene graphische Darstellungen. So kann die dreidimensionale chemische Struktur der Verbindung mit dem Java-Plugin Jmol angezeigt werden. Andere graphische Darstellungen sind zum Beispiel Diffraktogramme28 die der Identifizierung kristalliner Substanzen dienen (in Abbildung 6 mit dem englischen Begriff Powder Pattern bezeichnet). Der gesamte Datensatz kann mittels einer CIFDatei29 aus der Datenbank exportiert werden.

27

28

29

Abb. wurde vom Verfasser selbst auf der Webseite der ICSD aufgenommen. URL: http://icsd.fiz-karlsruhe.de/ (10.01.2014) Diffraktogramm: graphische Aufzeichnung einer chemischen Untersuchung in der Kristallographie CIF: kurz fr Crystallographic Information File. Standardformat fr Textdateien, die kristallographische Daten enthalten.

4 Fachbereich Astronomie

15

4
4.1

Fachbereich Astronomie
Forschungsgegenstand der Astronomie

Die Astronomie untersucht die Eigenschaften der Himmelskrper im Universum, der interstellaren Materie und der im Weltall auftretenden Strahlung. Die Forschung strebt danach, das Universum und seinen Aufbau als Ganzes zu verstehen. Der groe Forschungsbereich der Astronomie unterteilt sich in verschiedene Fachgebiete, unter anderem die beobachtende Astronomie, die Astrophysik, die Astrometrie und die Himmelsmechanik.

4.2

Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in der Astronomie

Im Gegensatz zu den meisten anderen Naturwissenschaften knnen in der Astronomie nur in Ausnahmefllen Experimente durchgefhrt werden. Schon seit den Anfngen dieser Wissenschaft beobachten Forscher Ereignisse im Weltall, sammeln Daten und versuchen diese zu verstehen, zu interpretieren und auf dieser Basis Vorhersagen zu treffen. Auch aufgrund der Tatsache, dass viele Ereignisse im Weltall nur einmal oder sehr selten auftreten und manchmal nur von bestimmten Orten und mit bestimmten Mitteln zu beobachten sind, ist der Austausch von Forschungsergebnissen schon immer Bestandteil der astronomischen Forschungsgemeinschaft. Die Forscher haben schon frh die Vorteile von kooperativer und vernetzter Forschung erkannt und dementsprechend sind kooperative Infrastrukturen in der Astronomie im Vergleich zu anderen Wissenschaften sehr gut ausgebaut. In Deutschland wurde beispielsweise bereits 1863 die Astronomische Gesellschaft gegrndet. Kooperationen haben hufig auch konomische Grnde, da die Messgerte, die zu detaillierten Beobachtungen ntig sind, sehr hohe Kosten in der Beschaffung und der Instandhaltung verursachen. Moderne Teleskope werden meist von internationalen Forschungskooperationen betrieben und so ist es wichtig, dass die gewonnen Daten auch schnell fr alle Forscher verfgbar sind, die zum Teil ber den ganzen Globus verteilt sitzen. Forschungsdaten entstehen in der Astronomie auf verschiedene Art und Weise. Zum einen durch Einzelbeobachtungen von Forschern und kleineren Arbeitsgruppen. Hier werden die Daten meist durch den Forscher selbst in seinem Institut nach den DFGRichtlinien archiviert. Die hier anfallenden Datenmengen sind verhltnismig gering. Anders verhlt es sich bei systematischen Beobachtungen und Surveys, die von greren internationalen Forschungskooperationen und Satellitenmissionen durchgefhrt werden. Hier ist das Forschungsdatenmanagement hufig schon eine eigene Position

4 Fachbereich Astronomie

16

im Gesamtplan des Projekts. Leider muss festgestellt werden, dass es hufig versumt wird dieser Position spezielle Mittel zuzuteilen. Ein Groteil der Daten fllt auerdem bei Computersimulationen an. Die grten Simulationen bentigen so viel Rechenleistungen, dass sie nicht von einem einzelnen Supercomputer, sondern von einem globalen Netzwerk an Supercomputern durchgefhrt werden mssen. Die Simulation von grorumigen Strukturen im Universum bentigt bis zu 20 50 Millionen CPURechenstunden. Das Datenvolumen ist entsprechend gro und kann beim jetzigen Stand einen Umfang von bis zu einem Petabyte haben.30

4.3

Metadaten und Metadatenstandards

Computer spielen in der Astronomie schon seit ihrer Einfhrung eine wichtige Rolle. Das kann unter Umstnden bedeuten, dass viele der genutzten IT-Strukturen schon sehr lange genutzt werden und zum Teil nicht mehr auf dem aktuellen Stand der Technik sind. Viele Standards funktionieren in diesen Strukturen sehr gut und so haben es neue Formate hufig schwer sich bei der Forschungsgemeinschaft durchzusetzen. Ein weit verbreiteter Standard in der Astronomie ist das FITS Flexible Image Transport System. Dieses Standardformat wurde in den spten siebziger Jahren fr den Austausch von Daten zwischen verschiedenen Observatorien entwickelt. Obwohl das Wort Image Bestandteil des Namens ist, enthalten viele FITS hufig auch Datenstze die keine Bilder sind. Bilder in der Astronomie sind fr die Forscher mehr als eine Aufnahme, die man sich anschauen kann, sie sind die Basis der wissenschaftlichen Forschung dieses Fachbereichs. Der Inhalt der Dateien knnen eindimensionale Spektren, zweidimensionale Bilder, mehrdimensionale Datenanordnungen oder Tabellen sein.31 Ein typisches FITS besteht aus einem oder mehreren Headern (berschrift) und den Data Units (Datenstzen). Diese Kombination aus Header und Data Unit wird als HDU bezeichnet. Die erste HDU wird primary HDU genannt und enthlt den eigentlichen Datensatz in Form von Pixelanordnungen von Spektren, Bildern und mehrdimensionalen Datenanordnungen. Die folgenden HDUs werden extensions (Erweiterungen) genannt und knnen aus Tabellen und Bilderweiterungen bestehen.32 Ein Problem fr ein effektives Forschungsdatenmanagement ist die Mglichkeit eine Vielzahl von eigenen Metadaten hinzuzufgen, ohne dass es eine vorgegebene Systematik gibt. Diese Parameter werden so geschrieben, dass sie von Mensch und Computer gleichermaen gelesen werden knnen.33 Dadurch sind Metadaten sehr inhomogen, da jeder Forscher die Daten sehr individuell gestaltet. FITS-Dateien sind weit ver30 31

Vgl. Enke, H., Wambsgan,. (2012): Astronomie und Astrophysik, S. 289

Vgl. Wells, D. C., Greisen, E. W., Harten, R. H. (1981): FITS - a Flexible Image Transport System, S. 363 32 Vgl. Library of Congress (o.J.): Flexible Image Transport System (FITS). Version 3.0 33 Vgl. Wells, D. C., Greisen, E. W., Harten, R. H. (1981): FITS - a Flexible Image Transport System, S. 363

4 Fachbereich Astronomie

17

breitet und knnen von den meisten astronomischen Anwendungen und Instrumenten erzeugt und gelesen werden. Sie sind ebenfalls mit den in den Fachrichtungen verbreiteten Bildverarbeitungsprogrammen und Script-Sprachen kompatibel. Aufgrund der weiten Verbreitung des Formats, wird das FITS auch in Zukunft der Standard in der Astronomie bleiben.

4.4

Beispiel Sloan Digital Sky Survey

Die Sloan Digital Sky Survey (SDSS) war eine internationales Projekt, bei der ungefhr ein Viertel des Himmels systematisch durchmustert wurde. In einer Kooperation von Forschungsinstituten aus den USA, Japan, Sdkorea und Deutschland lieferte das eigens fr dieses Projekt gebaute Teleskop am Apache Point Observatory in New Mexico, USA, von 2000 bis 2008 hinweg Daten, die von Forschern auf der ganzen Welt fr ihre Verffentlichungen herangezogen wurden. Zum Zeitpunkt ihrer Durchfhrung verwendete die SDSS die modernste Technik und war so in der Lage Messungen von einer Qualitt zu machen, wie es bei vorigen Surveys noch nicht mglich war.34 Um Daten aufzunehmen wurde entweder das Teleskop benutzt oder Kameras, die darauf montiert wurden. Das Endprodukt waren entweder Bilder oder photometrische Spektren von Objekten im Weltall. Auerdem wurde ein Katalog von den in den Aufnahmen abgebildeten Objekten angefertigt. Whrend der Projektlaufzeit entstanden so Bilder, Spektren und ein- und zweidimensionale Karten von mehr als 930 000 Galaxien. Diese Daten wurden von den Forschern der SDSS aufbereitet und jhrlich verffentlicht, so dass es der Forschungsgemeinschaft stets mglich war auf aktuelle und qualitativ hochwertige Daten zuzugreifen. Jedes der so genannten Data Releases hat eine eigene Homepage, auf der ihr Inhalt und eventuelle Neuerungen in den Standards beschrieben werden. Fr die Verffentlichung der Datenstze wurde das in Kapitel 4.3 vorgestellte FITSFormat verwendet. Zugriff auf die Inhalte der Data Releases ist ber diverse Webinterfaces mglich. Hierbei wird unterschieden ob es sich um Bilddaten (auch Spektren) oder Objektdaten handelt. Die in Tabellen gespeicherten Objektdaten wurden auf dem Catalog Archive Server (CAS) abgelegt. Dabei handelt es sich um eine leistungsstarke, auf SQL basierende Datenbank.35 Deshalb ist es auch mglich SQL-Anfragen ber das Webinterface oder direkt mit einem Client an den Server zu stellen. Zur Vereinfachung steht eine Liste mit vorgefertigten Suchanfragen zur Verfgung, die der Nutzer nach Belieben modifizieren kann. Dateien wie Bilder und Spektren sind auf dem Data Archive Server (DAS) abgelegt. Auch hier wird die Suche ber das Webinterface abgewickelt. Der Nutzer hat die Mglichkeit ein Suchformular speziell fr den von ihm gesuchten Datentyp auszuwhlen. Das bedeutet, dass es unterschiedliche Suchformulare fr Bilder und Spektren gibt, bei

34 35

Vgl. Sloan Digital Sky Survey (o.J.): The Sloan Digital Survey. Mapping the Universe Vgl. Sloan Digital Sky Survey (2008): SDSS Data Release 7. SDSS Data Products

4 Fachbereich Astronomie

18

denen eine Vielzahl von Parametern zur Verfgung steht, um so die Suche einzuschrnken.

Abb. 7 Bildersuche im Webinterface des SDSS Data Release 7

36

Die Webseiten der Data Releases sind so gestaltet, dass sie vor allem den Ansprchen professioneller Astronomen gengen. Die Suchfunktionen sind sehr komplex und deshalb fr Laien schwer verstndlich. Interessierte Amateurforscher knnen jedoch ber den Sky Server auf die Daten der SDSS zugreifen. Auf dieser Webseite wurden die Forschungsdaten so aufbereitet, dass sich auch Laien einen berblick ber die Arbeit des Projektes verschaffen knnen und vereinfacht Zugriff auf die Ergebnisse der Survey erhalten.

36

Abb. vom Autor selbst aufgenommen auf der Internetseite des SDSS Data Release 7. URL: http://cas.sdss.org/astrodr7/en/tools/search/IQS.asp (10.01.2014)

5 Fachbereich Geowissenschaften

19

5
5.1

Fachbereich Geowissenschaften
Forschungsgegenstand der Geowissenschaften

Die Geowissenschaften widmen sich der Erforschung der naturwissenschaftlichen Aspekte des Erdsystems. Sie unterteilen sich in viele Teildisziplinen wie Geodsie, Geographie, Geophysik, Glaziologie, Geologie, Meteorologie, Hydrologie und Ozeanographie, um nur einige Bereiche zu nennen. Die Forschung ist stark interdisziplinr geprgt. Die Ergebnisse der geowissenschaftlichen Forschung haben eine hohe Relevanz fr die Umwelt, da sie eine tragende Rolle dabei spielen, die Natur fr den Menschen nutzbar zu machen. Es gibt neben den bereits oben genannten Teilbereichen auch sehr anwendungsbezogene Forschungsgebiete wie die Hydrogeologie, bei der das Flieverhalten und die Wasserqualitt untersucht werden oder die Ingenieurgeologie, die sich mit der Statik von Untergrnden befasst. Auerdem spielen die Geowissenschaften eine tragende Rolle fr die Energie- und Rohstoffversorgung.

5.2

Disziplinspezifische Eigenheiten beim Umgang mit Forschungsdaten in den Geowissenschaften

Die Daten, die in den Geowissenschaften gewonnen werden, haben hufig gemein, dass sie durch die Beobachtung und Untersuchung von Phnomenen entstehen, die hufig einzigartig und nicht wiederholbar sind. Diese Tatsache macht solche Daten besonders wertvoll fr die Forschungsgemeinschaft. Des Weiteren knnen Forschungsdaten hufig nur durch einen groen finanziellen und personellen Aufwand gewonnen werden, da sich die Messorte oft an sehr abgelegenen Orten der Erde befinden. Deshalb findet Forschung hufig in groen kooperativen Projekten statt, um so die Kosten zu verteilen und die logistischen Herausforderungen zu bewltigen. Beispielweise werden in der Antarktis mehrere internationale Forschungsstationen betrieben um Messungen und Experimente durchzufhren. Die Kosten fr die Unterhaltung solcher Stationen sind immens und machen die dort gewonnen Daten sehr wertvoll. Deshalb wre die erneute Gewinnung beim Verlust von Daten zwar theoretisch mglich, ist aber aus konomischen Gesichtspunkten unbedingt zu vermeiden.37 In der 2012 erschienenen Bestandsaufnahme zur Langzeitarchivierung von Forschungsdaten des nestor-Projekts unterscheidet bei den Geowissenschaften drei verschiedenen Arten der Datenentstehung: Daten aus Sensorsystemen, Dateninfrastrukturen und Groinstrumenten mit automatisierter Prozessierung, Daten aus numerischer Modellierung, und individuell hergestellte Datenstze aus Labordaten, Felderhebungen

37

Vgl. Klump, J. (2012): Forschungsdaten in den Geowissenschaften, S. 180

5 Fachbereich Geowissenschaften

20

und Literaturrecherchen.38 In den automatisierten Prozessen der Groinstrumente fallen sehr groe Mengen an Daten an, die meist ber standardisierte Daten- und Metadatenformate verfgen. Diese Tatsache begnstigt die Archivierung dieser Daten. Allerdings wurde in den letzten Jahren festgestellt, dass auch hier, wie in anderen naturwissenschaftlichen Fachbereichen, die Kapazitt zur Erzeugung neuer Daten schneller wchst als die Mglichkeit, diese lngerfristig zu speichern.39 Die Datenmengen die von einzelnen Forschern individuell erzeugt werden, sind im Vergleich hierzu uerst gering. Nicht das Volumen ist hier problematisch, sondern die Art der Erfassung, die sich eher an den Anforderungen des einzelnen Forschers orientiert. Deshalb kommen standardisierte Datenformate eher selten zur Anwendung.40 Die Archivierung und der Austausch von Forschungsdatenmanagement haben eine lange Tradition in den Geowissenschaften. Anlsslich des geophysikalischen Jahres 1957 grndeten sich mehrere weltweit verteilte Datenzentren. Dieses System der World Data Centers (WDC) existiert auch heute noch und gab Impulse fr den Auf- und Ausbau neuer Systeme zum Management von Forschungsdaten.41 Eines davon ist das PANGAEA-Netzwerk, das im Unterpunkt 5.5 noch genauer vorgestellt werden soll. Die noch in den 1970er-Jahren verbreitete Praxis Forschungsdaten im Anhang von wissenschaftlichen Publikationen mit zu verffentlichen, wurde aufgrund der immer umfangreicheren Datenmengen und den damit einhergehenden steigenden Druckkosten als impraktikabel eingestuft und zugunsten von elektronischen Publikationen aufgegeben.42

5.3

Metadaten und Metadatenstandards

Wie in den anderen Disziplinen auch, sind in den Geowissenschaften die Messmethoden zahlreich und darum gibt es eine Vielzahl von verschiedenen Daten- und Metadatenformaten, die zu beschreiben den Rahmen dieser Arbeit sprengen wrden. Aus diesem Grund soll auch hier nur ein Beispiel stellvertretend genauer vorgestellt werden. Das Format GeoTIFF findet vor allem in der Fernerkundung Anwendung und ist eine Erweiterung des TIFF (Tagged Image File Formats). Normale TIFF-Dateien sind aufgrund der Mglichkeit Bilddateien verlustfrei zu archivieren in der Printindustrie weit verbreitet. Die hohe Auflsung macht dieses Format auch fr die Geowissenschaften interessant, da es so mglich ist, extrem detailreiche Satellitenaufnahmen zu speichern und auszutauschen. Hierzu werden allerdings noch Daten bentigt, die es ermglichen die Aufnahme z.B. im Koordinatensystem der Erde zu referenzieren. Die zustzlichen
38 39

Klump, J. (2012): Forschungsdaten in den Geowissenschaften, S. 184 Vgl. ebd. S. 184 40 Vgl. ebd. S. 185 41 Vgl. Diepenbroek, M., Grobe, H. (2007): PANGAEA als vernetztes Verlags- und Bibliothekssystem fr wissenschaftliche Daten, S. 148f 42 Vgl. ebd. S. 149

5 Fachbereich Geowissenschaften

21

Informationen werden direkt in Metadatentags der TIFF-Datei gespeichert. Es sind keine zustzlichen Dateien mit Referenzdaten ntig. Dies kann bei einfachen Bildformaten durch die Ergnzung mit einer kleinen Textdatei, einem World File43, erreicht werden oder aber durch das Format GeoTIFF, bei dem die Georeferenzdaten direkt in den Metatags des TIFFs gespeichert werden. Das Anhngen einer Extradatei entfllt. Der Grundstein fr das GeoTIFF-Format wurde in den neunziger Jahren durch Diskussionen in geowissenschaftlichen Mailinglisten gelegt und die Spezifikationen des neuen Formats wurden 1995 auf einer Konferenz von Vertretern verschiedener Institutionen festgelegt.44 Auch heute noch ist GeoTIFF das in den Geowissenschaften am weitesten verbreitete Bildformat.

5.4

Beispiel PANGAEA

Entstanden ist das Publishing Network for Geoscientific and Environmental Data, kurz PANGAEA, im Jahr 1992 als Reaktion auf die immer umfangreicheren Datenmengen, die mit dem informationstechnischen Fortschritt und der Verbreitung des Internets einhergingen.45 Initiatoren des Projekts waren Forscher des Alfred-Wegener-Instituts fr Polar- und Meeresforschung in Bremerhaven, das auch heute noch in Zusammenarbeit mit dem Zentrum fr Marineforschung der Universitt Bremen (MARUM) die Datenbank betreibt. Die Daten die in den Geowissenschaften anfallen sind meist ortsbezogene Messdaten, bei denen es sich anbietet sie in Tabellen einzutragen. Diesen Vorteil macht sich PANGAEA zu Nutze. Die Archivierung von Forschungsdaten in PANGAEA wird mithilfe von relationalen Datenbanken realisiert. Hierzu wird das Datenmanagementsystem SYBASE des Softwareherstellers SAP genutzt. Der Datenimport durch dieses proprietre Programm ist das zentrale Werkzeug der Datenkuratoren, der Export von Forschungsdaten wird ber verschiedene webbasierende Clients durchgefhrt.46 Forscher, die ihre Messdaten in PANGAEA verffentlichen wollen, knnen sich ber die Webseite der Datenbank direkt an die Kuratoren wenden. Diese bieten dem Forscher im Gegenzug eine Langzeitarchivierung und die Referenzierbarkeit seiner Daten ber DOI. Die Metadatenstrukturen in PANGAEA sind ber lange Zeit erprobt und auch das Vokabular der, fr die Beschreibung der Forschungsdaten ntigen, Parameter ist auf dem neusten Stand. Mit Hilfe der Websuchmaschine PangaVista kann jeder ber die Internetseite www.pangaea.de auf die hinterlegten Daten zugreifen. Es ist mglich ber eine einzel-

43

World File: kleine Textdatei die Georeferenzdaten eines Bildes enthlt und als Ergnzung zu einfachen Bildformaten dient. 44 Vgl. Ritter, N., Ruth, M. (2000): GeoTIFF Format Specification 45 Vgl. Diepenbroek, M., Grobe, H. (2007): PANGAEA als vernetztes Verlags- und Bibliothekssystem fr wissenschaftliche Daten, S. 149 46 Vgl. Grobe, H., Diepenbroek, M., Dittert, N., Reinke, M., Sieger, R. (2006): Archiving and Distributing Earth-Science Data with the PANGAEA Information System, S. 2

5 Fachbereich Geowissenschaften

22

ne Suchzeile die Datenbestnde zu durchforsten oder man nutzt die komplexere Advanced Search.

Abb. 8 Suchformular des PANGAEA-Webinterfaces

47

Hier kann man den Zeitraum der Messdaten einschrnken oder nach bestimmten Forschungsprojekten, Parametern und Referenzierungen suchen. Der Nutzer kann auch auswhlen ob die Forschungsdaten nach Wasser-, Luft-, Gesteins- oder Eisproben durchsucht werden soll. Es ist auch mglich mithilfe eines Googlemaps-Plugins das Gebiet, aus dem die Proben stammen sollen, auszuwhlen. Der Groteil der Daten in PANGAEA ist frei verfgbar und nur einige wenige Datenstze sind passwortgeschtzt, zumeist deshalb weil das zugehrige Projekt noch nicht abgeschlossen ist.48 Die Messdaten werden in streng normierten Tabellen gespeichert und sind georeferenziert in Zeit und Raum. Die Integration neuer Messgren ist unproblematisch, da das Datenformat schon bei seiner Konzipierung so offen wie mglich gehalten wurde. Aus diesem Grund kann es jederzeit um neue Parameter erweitert werden und sich damit neuen wissenschaftlichen Entwicklungen anpassen [].49

47

Abb. vom Autor selbst auf der PANGAEA-Website aufgenommen. http://www.pangaea.de/ (10.01.2014) 48 Vgl. PANGAEA (o.J.): PANGAEA. Datapublisher for Earth & Environmental Science 49 Vgl. Grobe, H., Diepenbroek, M. (2007): Datenpublikation im Internet, S. 2

URL:

5 Fachbereich Geowissenschaften

23

PANGAEA ist ein gutes Beispiel wie die Zukunft des Datenmanagements in anderen Fachgebieten der Naturwissenschaften aussehen knnte. Es gehrt in den Geowissenschaften inzwischen zur guten Praxis die Daten aus Forschungsprojekten hier zu verffentlichen. Das bedeutet, dass hier die Wissenschaftler auf die Betreiber des Repositoriums zugehen um ihre Daten zu verffentlichen und nicht andersherum.

6 Fazit

24

Fazit

Der Stand des Forschungsdatenmanagements in den Naturwissenschaften ist so unterschiedlich wie die Disziplinen selbst. Fachbergreifend lsst sich festhalten, dass durch den technischen Fortschritt die Masse an Daten betrchtlich gestiegen ist und die technischen Mittel zur Speicherung in manchen Feldern, wie den Geowissenschaften, geradeeben noch ausreichend sind. Das Forschungsdatenmanagement funktioniert besonders in jenen naturwissenschaftlichen Disziplinen gut, in denen kooperative Strukturen schon vor lngerer Zeit als Notwendigkeit erkannt wurden. Dafr wurden schon frh Infrastrukturen geschaffen, die den Austausch von Forschungsdaten begnstigen. Die Gewinnung von Daten in Disziplinen wie der Astronomie und den Geowissenschaften ist meist mit einem hohen personellen, logistischen und finanziellen Aufwand verbunden, weshalb sich Wissenschaftler aus diesen Fachgebieten schon immer untereinander austauschen. Luft die Forschung einer Wissenschaft vor allem in der Industrie ab und bedeuten Forschungsdaten eventuell einen Vorsprung gegenber der Konkurrenz, so fllt den Wissenschaftler die Verffentlichung von Forschungsdaten verstndlicherweise schwer, wie das Beispiel aus der Chemie in Kapitel 2 zeigt. Aufgrund der vielen verschiedenen Messmethoden in den Naturwissenschaften und der Vielfalt der Messgerte ist es schwierig einheitliche Standards fr Metadaten zu finden. Auch hier sind die Wissenschaften im Vorteil, die schon lnger eine gut funktionierende Kooperationsstruktur besitzen. Dadurch sind viele Formate schon seit langem im Einsatz und wurden idealerweise im Laufe der Jahre an die neuen technischen Mglichkeiten und Anforderungen angepasst. Allerdings wurden manche Formate, die heute noch als Standard gelten, ohne den Gedanken an die Langzeitarchivierung der Daten im Hinterkopf entwickelt. Im Falle von FITS in der Astronomie, hat dies zur Folge, dass das Format zu offen gehalten wurde, so dass eine Interpretation der Daten hufig schwierig ist, wenn die vom Datenersteller eingegeben Parameter nicht mehr zu deuten sind. Bei den Repositorien fllt vor allem PANGAEA auf, das es geschafft hat zum Standard in den Geowissenschaften zu avancieren. Hier gehrt es inzwischen zur Standardprozedur, dass die Forschungsdaten die einer Publikation zu Grunde liegen auf PANGAEA publiziert werden. Dieser Idealzustand kann natrlich nicht in allen Disziplinen erreicht werden. In der Astronomie werden hufig projektbezogene Datenbanken angelegt, da man es hier hufig mit riesigen Datenmengen und einer Vielzahl von komplexen Dateiformaten zu tun hat, wie die Data Releases der Sloan Digital Sky Survey zeigen. Es scheint so als habe in den Naturwissenschaften ein Umdenken begonnen, so dass vielerorts die Notwendigkeit von Forschungsdatenmanagement erkannt wurde. Trotzdem wird vorrausichtlich in Zukunft noch viel berzeugungsarbeit ntig sein, die nti-

6 Fazit

25

gen Mittel fr effektive und qualitativ hochwertige Infrastrukturen zu werben. Informationsdienstleister sollten hier nicht den Anschluss verlieren, da in diesem Bereich sicherlich Bettigungsfelder fr die Zukunft liegen.

7 Relevante Forschungsliteratur

26

7
7.1

Relevante Forschungsliteratur
Forschungsdatenmanagement Allgemein

Allianz der deutschen Wissenschaftsorganisationen (2010): Grundstze zum Umgang mit Forschungsdaten. URL: http://www.allianzinitiative.de/de/handlungsfelder/forschungsdaten (10.01.2014) Bttner, S., Hobohm, H.-C., Mller, Lars (2011): Handbuch Forschungsdatenmanagement. Bad Honnef, Bock und http://www.forschungsdatenmanagement.de/ (10.01.2014) Herchen. URL:

Deutsche Forschungsgemeindschaft (2013): Sicherung Guter Wissenschaftlicher Praxis : Empfehlungen der Kommission "Selbstkontrolle in der Wissenschaft". Ergnzte Auflage. Weinheim, Wiley. URL: http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/em pfehlung_wiss_praxis_1310.pdf (10.01.2014) Pampel, H., Goebelbecker, H.-J., Vierkant, P. (2012): re3data.org. Aufbau eines Verzeichnisses von Forschungsdatenrepositorien. Ein Werkstattbericht. In: Mittermaier, B. (Hrsg.): Vernetztes Wissen Daten, Menschen, Systeme. 6. Konferenz der Zentralbibliothek, Forschungszentrum Jlich 5. 7. November 2012. Jlich, Forschungszentrum, S.: 61-74. URL: http://juwel.fzjuelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf (10.01.2014)

7.2

Literatur zum jetzigen Stand des Forschungsdatenmanagements in den Naturwissenschaften


http://nestor.sub.uni-

Neuroth, Heike, Hrsg. (2012): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme. Boizenburg, Hlsbusch. URL: goettingen.de/bestandsaufnahme/index.php (10.01.2014)

Klump, Jens (2012): Forschungsdaten in den Geowissenschaften. In: Altenhner, R., Oellers, Claudia, Hrsg.: Langzeitarchivierung von Forschungsdaten. Standards und disziplinspezifische Lsungen. Berlin, Scivero, S.169-179. Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie. Hannover, Technische Informationsbibliothek. URL: http://www.tibhannover.de/fileadmin/projekte/primaerchemie/Konzeptstudie_Forschungsdaten_Chemie.pdf (10.01.2014)

7 Relevante Forschungsliteratur

27

7.3

Literatur zu den Datenformaten und Standards

Brase, J., Klump, J. (2007): Zitierfhige Datenstze. Primrdaten-Management durch DOIs. In: WissKom 2007. Wissenschaftskommunikation der Zukunft. 4. Konferenz der Zentralbibliothek. Jlich, Forschungszentrum, S. 159-167. URL: http://juser.fzjuelich.de/record/58948/files/Ball_2007.Wisskom.pdf (10.02.2014) Library of Congress (o.J.): Flexible Image Transport System (FITS). Version 3.0 URL: http://www.digitalpreservation.gov/formats/fdd/fdd000317.shtml (10.01.2014) Ritter, N., Ruth, M. (2000): GeoTIFF Format Specification. URL: http://www.remotesensing.org/geotiff/spec/geotiffhome.html (10.01.2014) McDonald, Robert S., Wilks Jr., Paul A. (1988): JCAMP-DX. A Standard Format for Exchange of Infrared Spectra in Computer Readable Form. In: Applied Spectroscopy. Vol. 42/1, S. 151-162. URL: http://jcamp-dx.org/protocols/dxir01.pdf (10.01.2014) Technische Informationsbibliothek Hannover, Hrsg. (o.J.): Digital Object Identifier fr Technik und Naturwissenschaften. Ein Service der TIB. URL: http://www.tibhannover.de/fileadmin/aktuell/DOI_Folder_online.pdf (10.01.2014) Wells, D. C., Greisen, E. W., Harten, R. H. (1981): FITS - a Flexible Image Transport System. In: Astronomy and Astrophysics Supplement, Vol. 44, S. 363-370. URL:http://articles.adsabs.harvard.edu/cgi-bin/nphiarticle_query?1981A%26AS...44..363W&defaultprint=YES&page_ind=0&filetype=.pdf (10.01.2010)

7.4

Literatur zu den einzelnen Repositorien

Diepenbroek, Michael, Grobe, Hannes (2007): PANGAEA als vernetztes Verlagsund Bibliothekssystem fr wissenschaftliche Daten. In: WissKom 2007. Wissenschaftskommunikation der Zukunft. 4. Konferenz der Zentralbibliothek. Jlich, Forschungszentrum, S. 147-158. URL: http://juser.fzjuelich.de/record/58948/files/Ball_2007.Wisskom.pdf (10.02.2014) FIZ Karlsruhe, Hrsg. (2008): Inorganic Crystal Structure Database. Scientific Manual. Karlsruhe, FIZ. URL: http://juwel.fzjuelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf (10.01.2014) Grobe, H., Diepenbroek, M., Dittert, N., Reinke, M., Sieger, R. (2006): Archiving and Distributing Earth-Science Data with the PANGAEA Information System. In: Ftterer, D.K. [], Hrsg.: Antarctica. Contributions to Global Earth Sciences. Berlin, Springer, S. 403-406. URL: http://epic.awi.de/10983/1/Gro2004f.pdf (10.01.2014) Grobe, H., Diepenbroek, M. (2007): Datenpublikation im Internet. Sybase. URL: http://epic.awi.de/17005/1/Gro2007g.pdf (09.12.2013)

Glossar

28

Glossar
Citation Index (dt. Zitationsdatenbank): Datenbank, die Zitationen von wissenschaftlichen Publikationen untereinander verzeichnet. Knnen als Messinstrument fr die Produktivitt und die Qualitt der Forschung eines Wissenschaftlers herangezogen werden. Je hufiger der Forscher von seinen Kollegen zitiert wird, desto besser. Beispiele fr solche Datenbanken sind der Science Citation Index oder auch Google Scholar. CIF (kurz fr Crystallographic Information File): Standardformat fr Textdateien, die kristallographische Daten enthalten. Viele Programme zur Ansicht von Moleklstrukturen (z.B. Jmol) sind kompatibel mit diesem Format. Diffraktogramm: Die graphische Aufzeichnung in der Kristallographie. Entsteht bei der Untersuchung von kristallinen Substanzen in Pulverform mit dem Debye-ScherrerVerfahren. Jede kristalline Struktur hat ein ganz spezifisches Diffraktogramm. Digital Object Identifier (kurz: DOI): siehe Identifier Identifier (auch: persistent identifier): eindeutige, standortunabhngige Identifikatoren fr digitale Objekte, um ber lange Zeitrume und eventuelle Systemwechsel hinweg einen zuverlssigen Zugriff auf diese Ressourcen gewhrleisten zu knnen. Beispiel: Digital Object Identifier (DOI). Institunional Policy (dt.): Hochschul- oder institutsinterne Richtlinien, die den Umgang mit Forschungsdaten reglementieren. nestor-Projekt Kompetenznetzwerk in dem Bibliotheken, Archive und Museen gemeinsam an Konzepten mit dem Thema digitale Langzeitarchivierung arbeiten. nestor bietet auerdem Aus-, Fort- und Weiterbildungen in diesem Bereich an. Repositorium (engl. repository): Verzeichnis zur Verwaltung von Forschungsdaten und/oder Publikationen. Hufig auch mit Suchfunktion mittels Software- oder Webinterface. World File: Eine kleine Textdatei die Georeferenzdaten eines Bildes enthlt und als Ergnzung zu einfachen Bildformaten wie JPEG, GIF und TIFF dient. Anbieter ist der US-amerikanische Softwareanbieter ESRI.

Literaturverzeichnis

29

Literaturverzeichnis
Allianz der deutschen Wissenschaftsorganisationen (2010): Grundstze zum Umgang mit Forschungsdaten. URL: http://www.allianzinitiative.de/de/handlungsfelder/forschungsdaten (10.01.2014) Apache Point Observatory (o.J.): Welcome to Apache Point Observatory. URL: http://www.apo.nmsu.edu/ (10.01.2014) Bttner, S., Hobohm, H.-C., Mller, Lars (2011): Handbuch Forschungsdatenmanagement. Bad Honnef, Bock und http://www.forschungsdatenmanagement.de/ (10.01.2014) Herchen. URL:

Brase, J., Klump, J. (2007): Zitierfhige Datenstze. Primrdaten-Management durch DOIs. In: WissKom 2007. Wissenschaftskommunikation der Zukunft. 4. Konferenz der Zentralbibliothek. Jlich, Forschungszentrum, S. 159-167. Deutsche Forschungsgemeindschaft (2013): Sicherung Guter Wissenschaftlicher Praxis : Empfehlungen der Kommission "Selbstkontrolle in der Wissenschaft". Ergnzte Auflage. Weinheim, Wiley. URL: http://www.dfg.de/download/pdf/dfg_im_profil/reden_stellungnahmen/download/em pfehlung_wiss_praxis_1310.pdf (10.01.2014) Diepenbroek, Michael, Grobe, Hannes (2007): PANGAEA als vernetztes Verlagsund Bibliothekssystem fr wissenschaftliche Daten. In: WissKom 2007. Wissenschaftskommunikation der Zukunft. 4. Konferenz der Zentralbibliothek. Jlich, Forschungszentrum, S. 147-158. URL: http://juser.fzjuelich.de/record/58948/files/Ball_2007.Wisskom.pdf (10.02.2014) Enke, Harry, Wambsgan, Joachim (2012): Astronomie und Astrophysik. In: Neuroth, Heike, Hrsg.: ): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme. Boizenburg, Hlsbusch, S. 275-294. URL: http://nestor.sub.unigoettingen.de/bestandsaufnahme/index.php (10.01.2014) FIZ Karlsruhe, Hrsg. (o.J.): Inorganic Crystal Structure Database. URL: http://www.fizkarlsruhe.de/icsd_content.html?&L=hjiaxatprkt (10.01.2014) FIZ Karlsruhe, Hrsg. (2008): Inorganic Crystal Structure Database. Scientific Manual. Karlsruhe, FIZ. URL: http://juwel.fzjuelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf (10.01.2014) Grobe, H., Diepenbroek, M., Dittert, N., Reinke, M., Sieger, R. (2006): Archiving and Distributing Earth-Science Data with the PANGAEA Information System. In: Ftterer, D.K. [], Hrsg.: Antarctica. Contributions to Global Earth Sciences. Berlin, Springer, S. 403-406. URL: http://epic.awi.de/10983/1/Gro2004f.pdf (10.01.2014) Grobe, H., Diepenbroek, M. (2007): Datenpublikation im Internet. Sybase. URL: http://epic.awi.de/17005/1/Gro2007g.pdf (09.12.2013)

Literaturverzeichnis

30

Klump, Jens (2012): Forschungsdaten in den Geowissenschaften. In: Neuroth, Heike (Hrsg.): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme. Boizenburg, Hlsbusch, S. 179-194. URL: http://nestor.sub.unigoettingen.de/bestandsaufnahme/index.php (10.01.2014) Ledoux, Stephen F. (2002): Defining Natural Sciences. In: Behaviorology Today. Vol. 5. Number 1. Arizona, TIBI, S.: 34-36. URL: http://www.faculty.english.vt.edu/Collier/sciwrite/pdfs/ledoux_2002.pdf (10.01.2014) Library of Congress (o.J.): Flexible Image Transport System (FITS). Version 3.0 URL: http://www.digitalpreservation.gov/formats/fdd/fdd000317.shtml (10.01.2014) McDonald, Robert S., Wilks Jr., Paul A. (1988): JCAMP-DX. A Standard Format for Exchange of Infrared Spectra in Computer Readable Form. In: Applied Spectroscopy. Vol. 42/1, S. 151-162. URL: http://jcamp-dx.org/protocols/dxir01.pdf (10.01.2014) Neuroth, Heike, Hrsg. (2012): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme. Boizenburg, Hlsbusch. URL: http://nestor.sub.unigoettingen.de/bestandsaufnahme/index.php (10.01.2014) PANGAEA (o.J.): PANGAEA. Data Publisher for Earth & Environmental Sciences. About. URL: http://www.pangaea.de/about/ (10.01.2014) Pampel, H., Goebelbecker, H.-J., Vierkant, P. (2012): re3data.org. Aufbau eines Verzeichnisses von Forschungsdatenrepositorien. Ein Werkstattbericht. In: Mittermaier, B. (Hrsg.): Vernetztes Wissen Daten, Menschen, Systeme. 6. Konferenz der Zentralbibliothek, Forschungszentrum Jlich 5. 7. November 2012. Jlich, Forschungszentrum, S.: 61-74. URL: http://juwel.fzjuelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf (10.01.2014) Pfeiffenberger, H. (2007): Offener Zugang zu wissenschaftlichen Primrdaten. In: Zeitschrift fr Bibliothekswesen und Bibliographie 54, S. 207-210 Ritter, N., Ruth, M. (2000): GeoTIFF Format Specification. http://www.remotesensing.org/geotiff/spec/geotiffhome.html (10.01.2014) URL:

Sloan Digital Sky Survey (o.J.): The Sloan Digital Survey. Mapping the Universe. URL: http://www.sdss.org/ (10.01.2010) Sloan Digital Sky Survey (2008): SDSS Data Release 7. SDSS Data Products. URL: http://www.sdss.org/dr7/products/index.html (10.01.2014) Technische Informationsbibliothek Hannover, Hrsg. (o.J.): Digital Object Identifier fr Technik und Naturwissenschaften. Ein Service der TIB. URL: http://www.tibhannover.de/fileadmin/aktuell/DOI_Folder_online.pdf (10.01.2014) Technische Informationsbibliothek Hannover, Hrsg. (2010): Konzeptstudie. Vernetzte Primrdaten-Infrastruktur fr den Wissenschaftler-Arbeitsplatz in der Chemie. Hannover, Technische Informationsbibliothek. URL: http://www.tibhannover.de/fileadmin/projekte/primaerchemie/Konzeptstudie_Forschungsdaten_Chemie.pdf (10.01.2014) Wells, D. C., Greisen, E. W., Harten, R. H. (1981): FITS - a Flexible Image Transport System. In: Astronomy and Astrophysics Supplement, Vol. 44, S. 363-370. URL:http://articles.adsabs.harvard.edu/cgi-bin/nphiarti-

Literaturverzeichnis

31

cle_query?1981A%26AS...44..363W&defaultprint=YES&page_ind=0&filetype=.pdf (10.01.2010)

Ehrenerklrung

32

Ehrenerklrung
Name: Thelen Matrikel-Nr.: 23720 Vorname: Tobias Studiengang: BI

Hiermit versichere ich, Tobias Thelen, dass ich die beiliegende Arbeit ohne Hilfe Dritter und ohne Benutzung anderer als der angegebenen Quellen und Hilfsmittel einschlielich des Internets angefertigt und die den benutzten Quellen wrtlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe.

Stuttgart, 15.01.2014 Ort, Datum Unterschrift