W.
G. Berendsohn, C. Häuser &
K.-H. Lampe
(1999)
Biodiversitätsinformatik in Deutschland: Bestandsaufnahme und
Perspektiven
Bonner Zoologische Monographien 45. Zool. Forschungsinstitut und Museum
Alexander Koenig, Bonn.
Diese Schrift soll Biologen aller Fachrichtungen, Informatiker und wissenschaftspolitische Entscheidungsträger gleichermaßen ansprechen. In interdisziplinären Artikeln, die an ein solchermaßen breites Publikum gerichtet sind, sind bisweilen Einführungen in Themengebiete notwendig, die dem Spezialisten als unnötige Längen vorkommen werden, dem anderen Spezialisten aber erst den Zugang zum Gesamtthema ermöglichen. Solche Längen bitten wir den Leser, uns nachzusehen.
Grundlage dieser Arbeit war ein von den Autoren im August 1998 im Auftrag des Bundesministeriums für Bildung, Wissenschaft, Forschung und Technologie (BMBF, Referat 422) fertiggestelltes Gutachten zu Prioritäten in der Biodiversitätsinformatik unter Berücksichtigung vorhandener internationaler und nationaler Strukturen.
Die gesamte Vielfalt organismischen Lebens ("Biodiversität") stellt die für die Sicherung der menschlichen Existenz bei weitem wichtigste und zugleich die am kompliziertesten strukturierte, natürliche Ressource unseres Planeten dar. Verfügbarkeit und allgemeiner Zugang zu grundlegenden Informationen über die globale Biodiversität sind daher von entscheidender Bedeutung für die zukünftige Entwicklung der Menschheit und werden zunehmend von politischer Seite gefordert, so z.B. im Rahmen der Biodiversitätskonvention, durch das OECD Megascience Forum und verschiedene Initiativen der G7-Staaten.
Vereinfachend lassen sich fast alle biologischen Daten und Kenntnisse zur Biodiversität drei auch intuitiv greifbaren Ebenen zuordnen, die sowohl von ihrer wissenschaftlichen Erforschung her als auch hinsichtlich ihrer gegenwärtigen informationstechnischen Betreuung gut zu trennen sind:
Hier werden Nukleinsäuren und andere zelluläre Verbindungen und die dazwischen wirkenden Steuerungsmechanismen untersucht. Auf diesem Gebiet liegen die Hauptaufgaben der Fachgebiete der molekularen Genetik, Gentechnologie, Biochemie und Physiologie. Große Datenmengen sind vor allem im Bereich der Genom- und Proteinsequenzierung und Modellierung entstanden.
Der ganze Organismus, seine Interaktion mit anderen gleichartigen Organismen (Populationen) und die Klassifikation der Organismen in ein von Verwandschaftsverhältnissen bestimmtes System steht im Fokus der Forschung in diesem Bereich (die aber durchaus zunehmend auch mit molekularbiologischen Methoden betrieben wird). Die Gebiete der Systematik und Taxonomie definieren sich über diese Aufgaben, aber auch die Populationsgenetik (einschl. ecological genetics) ist hier anzusiedeln. Die Züchtungsforschung, der Artenschutz, sowie wichtige Teilgebiete der Land- und Forstwirtschaft und des Fischereiwesens stellen angewandte Fachgebiete auf dieser Ebene dar.
Hier geht es um das Zusammenwirken verschiedenartiger Organismen und Populationen mit ihrer Umwelt (Klima, Hydrologie, Boden, andere Organismen) und ihre Organisation in Form von differenzierbaren Systemen. Als Wissenschaftszweige sind vor allem die Ökologie und eine sich herausbildende, über den Bereich der Biologie hinausreichende Umweltforschung zu nennen. Im angewandten Bereich sind große Teile der Land-, Forst- und Fischereiwirtschaft sowie die meisten Aufgaben des Natur- bzw. Umweltschutzes hier angesiedelt.
Letztendlich ist eine Überwindung dieser Trennung im Rahmen eines umfassenden Systems der Biodiversitätsinformation anzustreben, welches die Biodiversität selbst in ihrem hierarchischen Aufbau (Moleküle, Zellen, Gewebe, Individuen, Populationen, Arten, Gesellschaften, Ökosysteme) abbildet und modelliert. Wir stehen aber erst am Anfang der Biodiversitätsforschung und das Feld der Biodiversitätsinformatik ist noch jünger. Die Trennung in die drei Bereiche bleibt daher bis auf weiteres sinnvoll. So ist z.B. eine unmittelbare Herleitung aller Eigenschaften und Leistungen bestimmter Organismen allein auf Grundlage der Kenntnis ihrer konstitutiven Moleküle derzeit nicht absehbar; ebenso lassen sich komplexe organismische Funktionen nach wie vor meist nicht direkt einzelnen Molekülen zuordnen (obwohl wir zunehmend Gene kennen, welche bestimmte Eigenschaften kodieren, z.B. Wuchsform, Farbe oder Substratabbau). Die Vorhersagbarkeit wichtiger Ökosystemeigenschaften ist dagegen teilweise bereits heute auf der Grundlage der Kenntnis physiologischer Leistungen einzelner Organismen zumindest grob möglich. Die Tragfähigkeit bzw. Vorhersagekraft der hier vorhandenen Modelle leidet jedoch oft an der unzureichenden Informationsbasis auf der Ebene der Organismen, also dem Fehlen von auf das Taxon bezogener Information zu eben diesen Leistungen. Die Beseitigung dieses Informationsdefizits, also die unmittelbare Verknüpfung der vorliegenden Informationen zur organismischen und synökologischen Ebene ist daher drängend, wobei vor allem die Ökosystemforschung auf (neue) Daten aus dem organismischen Bereich angewiesen ist.
Die Informatik ist "die Wissenschaft von der systematischen Verarbeitung von Informationen, besonders der automatischen Verarbeitung mit Hilfe von Digitalrechnern" (Duden Informatik 1993). Die Verarbeitung von Biodiversitätsinformation sollte daher als Biodiversitätsinformatik (engl. biodiversity informatics) bezeichnet werden (siehe 2.1). Der Begriff Bioinformatik (bioinformatics) ist als Terminus von der molekularen Biodiversitätsinformatik belegt. Die ökosystemare Ebene findet sich in der Umweltinformatik (environmental informatics), ebenfalls ein bereits geprägter Begriff. Für die organismische Ebene wird teilweise der neuere Begriff Biodiversitätsinformatik direkt verwendet, man sollte hier aber besser von organismischer Biodiversitätsinformatik sprechen. Entwicklungsstand und Datenverfügbarkeit in diesen drei Bereichen stellen sich wie folgt dar.
Für den molekularen Bereich existieren in Deutschland bereits umfangreiche, international meist gut eingebundene Datenbankprojekte. Der Informationszugang bzw. -austausch ist hier vergleichsweise gut organisiert, bis hin zur Einbindung privatwirtschaftlicher Sektoren. In diesem Zusammenhang sei das European Molecular Biology Laboratory (EMBL) genannt, mit zentralem Sitz in Heidelberg und Außenstellen in Hamburg, in Grenoble (Frankreich) und schließlich mit dem European Bioinformatics Institute (EBI) in Hinxton (England). Das EMBL wird von 15 Mitgliedsländern finanziert, der Jahresetat 1997 lag bei ca. 75 Mio. DM; der mittlere deutsche Finanzierungsanteil (1975-1996) betrug ca. 25% (http://www.embl-heidelberg.de/ExternalInfo/ public_relations/Facts.html). Nach einer Einschätzung der OECD Megascience Forum Working Group on Biological Informatics sind im molekularen Bereich bereits heute mehr als 95% der Daten digitalisiert, im organismischen Bereich hingegen weniger als 5% [Meredith Lane (Vortrag): Informatics in the service of biodiversity: Overcoming the barriers. - Conference on Biological Informatics, 6-8 July 1998, Australian Academy of Sciences, Canberra/Australia]. Die 50jährige Geschichte der Molekularbiologie verlief parallel mit der Entwicklung der Informatik. Die enge Verzahnung beider Wissenschaftsbereiche wird z.B. an den im mehrjährigen Rhythmus aktualisierten und immer weitreichenderen Zielen des Human Genome Project deutlich (Collins et Galas 1993, Collins et al. 1998). Die informations- und labortechnische Entwicklung, aber vor allem auch die gut funktionierende internationale Zusammenarbeit führte zu einer exponentiellen Informationszunahme im molekularen Bereich. So war z.B. letztlich in GenBank, einer der großen internationalen Sammelstellen von Daten aus dem molekularen Bereich, der Datenzuwachs in 10 Wochen größer als in den ersten 10 Jahren des Projekts (Robbins 1998). 1998 wurde die Marke von 2 Milliarden Basenpaaren überschritten, im August 1999 waren es bereits über 3,4 Milliarden in 4,6 Millionen Sequenzen (NCBI 1999a, b).
Große Datenmengen werden hier in Form von Umweltinformationssystemen zusammengetragen. Für die Ökosystemebene existieren auf nationaler Ebene bedeutende Datenbank- und Informationssysteme (s. Abschnitt 4.2) und erfolgversprechende Ansätze zu einer Koordinierung zeichnen sich zumindest auf europäischer Ebene erkennbar ab.
Dagegen ist der Datenzugang und die Integration von Informationen auf der organismischen Ebene mit wenigen Ausnahmen als defizitär zu kennzeichnen, obwohl (oder gerade weil) in diesem Bereich schon seit ca. 250 Jahren biodiversitätsbezogene Daten erhoben und gespeichert werden, so z.B. in den weltweit auf etwa 3 Milliarden Exemplare (Lane 1998) geschätzten Beständen naturkundlicher Forschungssammlungen. Daher erscheint eine Konzentration neuer Förderungsmaßnahmen auf diesen Bereich dringend geboten, was im Einklang mit kürzlich erhobenen Forderungen auf internationaler Ebene steht. (z.B. COP-4, SA2000, OECD Megascience Forum, Diversitas; siehe Abschnitt 3.1).
Innerhalb dieses Bereichs dominiert vordergründig das Problem der enormen Vielfalt existierender Lebensformen, die, von einzelnen Individuen ausgehend, eine sichere Zuordnung bzw. Verknüpfung von Information und Erkenntnissen massiv zu erschweren scheint. Die als Folge der biologischen Evolution in der Abstammungsgeschichte (Phylogenese) entstandene, natürliche hierarchische Ordnung aller Organismen bietet jedoch einen hervorragenden Schlüssel, diese ansonsten unüberschaubare Vielfalt der Lebensformen zu ordnen und damit auch nutzbar zu machen (vergl. Steininger 1996). Die Charakterisierung und Benennung dieser natürlichen Einheiten der Organismen (Taxa: Varietäten, Unterarten, Arten, Gattungen, Familien, etc.) ist Aufgabe der Taxonomie, die mit Hilfe international verbindlicher Regeln für die biologische Nomenklatur (siehe unter Abschnitt 3.3) den verschiedenen Taxa eindeutige Namen zuordnet und diese in ein hierarchisches Klassifikationssystem stellt. Dieses universelle Referenzsystem in der organismischen Biologie bietet ideale Voraussetzungen für die Verknüpfung getrennt vorliegender, qualitativ unterschiedlicher Informationen und Daten zu einzelnen Organismen, wie auch zur Überprüfung der Gültigkeit bzw. des Wertebereichs bestimmter Erkenntnisse und Hypothesen. In dieser Funktion hat sich das bestehende System der Organismen einerseits seit langem bewährt, andererseits besteht ein erheblicher Forschungsbedarf zur weiteren Verfeinerung und Vervollständigung des Systems (Taxonomic Impediment, vergl. Darwin Declaration, Environment Australia 1998). Aber auch für die vorhandenen Erkenntnisse sind bisher die Speicherungs-, Organisations-, und Analysemöglichkeiten, die sich aus der Entwicklung der modernen Informationstechnik ergeben, nur ansatzweise ausgeschöpft worden. Eine Entwicklung der Biodiversitätsinformatik auf der organismischen Ebene, unter Beteiligung taxonomischer, informatischer und geographischer Kompetenz, ist daher eine vordringliche Aufgabe.
Biologische Sammlungen umfassen sowohl Lebendsammlungen wie Botanische oder Zoologische Gärten und Kultursammlungen (Bakterien, Pilze, Protisten, Algen), als auch die konservierten Präparatesammlungen in Naturkundemuseen, Universitäten und anderen ökologischen Forschungsstellen. Sie bilden einerseits die materielle Arbeitsgrundlage der biologischen Systematik, andererseits sichern sie (zumeist als konservierte Belege) die wissenschaftliche Überprüfbarkeit von Forschungsergebnissen verschiedenster Teilbereiche der Biologie bzw. ermöglichen die Reproduzierbarkeit einzelner Befunde. Besonders die Lebendsammlungen stellen daneben ein beträchtliches Reservoir genetischer Ressourcen dar, das z.B. für medizinische oder biotechnologisch ausgerichtete Forschungen eingesetzt wird. Aber die biodiversitätsinformatische Bedeutung der Sammlungen geht weit über diese Verwendungen hinaus. Die Belege selbst und die mit ihnen assoziierten Daten (Etiketten, Veröffentlichungen) sind zugleich Träger wesentlicher primärer Information über Aufbau und Beschaffenheit, geographische Verbreitung und Lebensweise einzelner Organismen sowie der Zusammensetzung der Ökosysteme, denen sie angehören bzw. angehörten; und dies in einer sich über mehrere Jahrhunderte erstreckenden zeitlichen Dimension. So bilden diese Sammlungsbelege, sowohl als Informationsträger als auch materiell, einen wesentlichen nationalen Beitrag zur Bewältigung der im Rahmen des Globalen Wandels anstehenden Probleme der Erhaltung und nachhaltigen Nutzung der natürlichen Biodiversität im internationalen Rahmen.
Dieser generellen Bedeutung der primären Belege unseres Biodiversitäts-Wissens wird in neuerer Zeit zunehmend Rechnung getragen. Im Rahmen der von der Biodiversitätsinformatik-Arbeitsgruppe des OECD-Megascience Forum vorgeschlagenen Global Biodiversity Information Facility (GBIF) nimmt Sammlungsinformation eine zentrale Position ein (Anonym 1999). Hier sollten auch die Darwin Declaration (Environment Australia 1998) und die Beschlüsse der Vertragsstaatenkonferenz der Biodiversitätskonvention (COP 1998) Erwähnung finden. In den USA wird seit Jahren mit einem speziellen Förderprogramm der National Science Foundation die Erschließung derartiger, in Institutionen der USA vorhandener Belege gezielt vorangetrieben (vgl. NSF 1998). Analog hierzu wird heute immer nachdrücklicher auch eine biodiversitätsinformatische Erschließung der in Deutschland besonders umfangreich vorhandenen Belege (vgl. Biologische Sammlungen unter 3.3) gefordert, so z.B. von der Direktorenkonferenz Naturkundlicher Forschungssammlungen, DNFS (Naumann et Greuter 1997).
Inhalt | 1. Biodiversitätsinformation | 2. Biodiversitätsinformatik | 3. Internationale Strukturen: 3.1. Politischer Rahmen; 3.2. Umsetzung international, 3.3. Initiativen; 3.4. Standardisierung | 4. Strukturen in Deutschland: 4.1. Umsetzung internationaler Übereinkommen; 4.2. Umweltinformationssysteme; 4.3. Genetischen Ressourcen; 4.4. Gobale Biodiversität; 4.5. Zusammenfassung | 5. Strategie und Prioritäten: 5.1. National koordinierte Forschungsförderung; 5.2. Verbesserung der Infrastruktur; 5.3. Informationserschließung | Danksagung | Zitierte Literatur | Abkürzungen | Home
© Zoologisches Forschungsinstitut und Museum Alexander Koenig, Bonn 2000. WWW-Ausgabe mit freundlicher Genehmigung des ZFMAK, © Botanischer Garten und Botanisches Museum Berlin-Dahlem 2000