Künstliche Intelligenz entschlüsselt genetische Codes: Deep-Learning-Algorithmen enthüllen Regeln der Genregulation



Teilen: 

18.02.2021 17:02

Künstliche Intelligenz entschlüsselt genetische Codes: Deep-Learning-Algorithmen enthüllen Regeln der Genregulation

Mit Hilfe künstlicher Intelligenz (KI) ist es einem deutsch-amerikanischen Wissenschaftsteam gelungen, komplexe Anweisungen der Genregulation in der DNA zu entschlüsseln. Sie trainierten ihr neuronales Netzwerk mit hochauflösenden Protein-DNA-Bindungsdaten . Mit Hilfe neu entwickelter Techniken zur Modellinterpretation gelang es ihnen, die relevanten DNA-Sequenzmuster aufzudecken. Die Ergebnisse liefern ein tieferes Verständnis dafür, wie DNA Sequenzen organisiert sind, um Gene zu regulieren.

Literature advertisement

Plötzlich gesund

Fortschreitende Naturerkenntnis, ganz allgemein gesprochen, ‘Wissenschaft’, ist der stärkste Feind des medizinischen Wunders. Was unseren Vorfahren als Wunder erschien, was einfache Naturvölker heute noch in heftige Erregung versetzt, das berührt den zivilisierten Menschen längst nicht mehr.
Doch es gibt einen Gegensatz, der jedem Denkenden sofort auffällt: der unerhörte, durchaus nicht abgeschlossene Aufstieg der wissenschaftlichen Heilkunde und die ebenso unerhörte Zunahme der Laienbehandlung und der Kurpfuscherei. Man schätzt die Zahl der Menschen, die der Schulmedizin kein Vertrauen schenken, auf immerhin 50 Prozent.
Wie kann es sein, daß Laienbehandler und Kurpfuscher immer wieder spektakuläre Erfolge aufweisen, von denen die Sensationspresse berichtet?
Der Autor geht dieser Frage nach und kommt zu interessanten Erkenntnissen, aus denen er Vorschläge für eine bessere Krankenbehandlung durch seine ärztlichen Standesgenossen ableitet.

Hier geht es weiter …

Algorithmen für künstliche Intelligenz sind äußerst leistungsfähig, um umfangreiche und komplexe Datensätze zu erschließen. Wie die Maschine zu bestimmten Vorhersagen kommt, wenn eine bestimmte Eingabe präsentiert wird, ist jedoch nicht einfach zu verstehen. Da nachvollziehbare Interpretationen in der medizinischen Diagnostik wichtig sind, steht dieses Black-Box-Verhalten der KI einer breiten Akzeptanz entgegen und schränkt ihre Nützlichkeit in Naturwissenschaften ein, in denen das Verständnis von Mechanismen das Ziel ist.

Ein interdisziplinäres Forschungsteam aus Biologie und Informatik der Technischen Universität München, des Stowers Institute for Medical Research und der Stanford University hat nun gezeigt, dass die Anwendung neuronaler Netze, wie sie zur Gesichtserkennung verwendet werden, zusammen mit neu entwickelten Techniken zur Modellinterpretation verwendet werden kann, um komplexe Anweisungen zu entschlüsseln, die in der DNA kodiert sind.

Eines der großen ungelösten Probleme in der Biologie ist der zweite Code des Genoms, der regulatorische Code. Denn die Abfolge der DNA-Basen beinhaltet nicht nur die Anweisungen zum Aufbau von Proteinen, sondern auch wann und wo diese Proteine in einem Organismus hergestellt werden.

Der regulatorische Code wird von Proteinen gelesen, die Transkriptionsfaktoren genannt werden und an kurze DNA-Abschnitte binden, die als Motive bezeichnet werden. Wie bestimmte Kombinationen und Anordnungen von Motiven die regulatorische Aktivität beeinflussen, ist jedoch ein äußerst komplexes Problem, das bisher nicht lösbar war.

DNA-Bindungsexperimente und Computermodellierung gehen Hand in Hand

Ein wichtiger Schlüssel zum Erfolg war es, Transkriptionsfaktor-DNA-Bindungsexperimente und Computermodellierungen mit der höchstmöglichen Auflösung durchzuführen, also auf der Ebene einzelner DNA-Basen. Die hohe Auflösung ermöglichte es dem Team, nicht nur hochpräzise neuronalen Netzwerkmodelle zu trainieren, sondern auch die Schlüsselelemente und Muster aus den Modellen zu extrahieren, einschließlich der Bindungsmotive für Transkriptionsfaktoren und der kombinatorischen Regeln, nach denen sie zusammen als Code fungieren.

„Neuronale Netze gelten als schwer durchschaubare Black Box, sie können aber digital befragt werden. Mit einer großen Zahl virtueller Experimente gelingt es so, die Regeln herauszufinden, die das neuronale Netz gelernt hat,“ sagt Erstautor Dr. Žiga Avsec, Mitarbeiter im Labor von Julien Gagneur, Professor für Computational Molecular Medicince an der TU München. Zusammen mit Anshul Kundaje, Professor an der Stanford University, schuf er die erste Version des Modells, als er Stanford als Gastwissenschaftler besuchte.

Das Team wandte den Ansatz auf die Hauptregulatoren embryonaler Stammzellen der Maus an und bestätigte die Ergebnisse durch CRISPR-Genom-Edition experimentell. Die entdeckten Muster zeigten klare Regeln, die unter anderem auf eine präzise Positionierung entlang der DNA-Doppelhelix hinwiesen und eine bevorzugte Reihenfolge der Transkriptionsfaktoren beinhalten.

„Das war äußerst befriedigend,“ sagt Projektleiterin Julia Zeitlinger, Forscherin am Stowers Institute und Professorin am Medical Center der University of Kansas, „da die Ergebnisse hervorragend zu den vorhandenen experimentellen Ergebnissen passen, aber auch neue, überraschende Erkenntnisse enthüllen.“

Ein Muster wird sichtbar: Wie Nanog an die DNA bindet

Zum Beispiel fand das Forschungsteam heraus, dass ein gut untersuchter Transkriptionsfaktor namens Nanog bevorzugt an DNA bindet, wenn mehrere seiner Motive periodisch angeordnet sind, so dass sie auf derselben Seite der spiralförmigen DNA-Helix erscheinen.

„Es gibt eine Menge experimenteller Hinweise, dass eine solche Motivperiodizität im Regulierungscode manchmal vorkommt,“ sagt Zeitlinger. „Die genauen Umstände waren jedoch bisher schwer zu erfassen. Es war daher eine Überraschung, dass Nanog ein solches Muster zeigt, insbesondere da wir nicht speziell nach diesem Muster gesucht haben. “

„Dies ist der Hauptvorteil der Verwendung neuronaler Netze für diese Aufgabe. Ein klassisches Rechenmodell basiert auf handgefertigten, starren Regeln, um sicherzustellen, dass es interpretiert werden kann “, sagt Avsec. „Die Biologie ist jedoch äußerst reich und kompliziert. Indem wir darauf verzichten, einzelne Parameter zu interpretieren, können wir viel flexiblere und vielschichtigere Modelle trainieren, die alle biologischen Phänomene erfassen, einschließlich der noch unbekannten.“

Ein leistungsstarker Bottom-up Ansatz

Dieses neuronale Netzmodell, Base Pair Network genannt, oder kurz BPNet, ist ein leistungsstarker Bottom-up-Ansatz, der der Gesichtserkennung in Bildern ähnelt. Das neuronale Netzwerk erkennt zuerst Kanten in den Pixeln, dann lernt es, wie Kanten Gesichtselemente wie Auge, Nase oder Mund formen, und schließlich, wie Gesichtselemente zusammen ein Gesicht bilden.

Anstatt aus Pixeln zu lernen, lernt BPNet aus der DNA-Sequenz. Es lernt zuerst Motive zu erkennen und dann die kombinatorischen Regeln, nach denen die Elemente zusammen die Bindungsdaten vorhersagen.

Die Arbeitsgruppen von Julia Zeitlinger und Anshul Kundaje verwenden BPNet bereits, um Bindungsmotive für andere Zelltypen zuverlässig zu identifizieren, Motive mit biophysikalischen Eigenschaften in Verbindung zu bringen und andere strukturelle Merkmale im Genom zu analysieren. Damit andere Wissenschaftler BPNet verwenden und an ihre eigenen Bedürfnisse anpassen können, haben die Forscher die gesamte Software mit Dokumentation und Tutorials zur Verfügung gestellt.

„Diese Arbeit ist eine technologische Tour de Force,“ sagt Julien Gagneur. „Sie kombiniert Deep-Learning-Modellierung genomweiter Daten in höchster Auflösung mit neuentwickelten erklärbaren KI-Techniken, mit denen interpretiert werden kann, was die „Black Box“ gelernt hat. Die Methodik wird der biologischen Forschung helfen, die vollständige regulatorische Grammatik zu studieren.“

###

Diese Arbeit wurde vom Stowers Institute for Medical Research und dem National Human Genome Research Institute sowie dem National Institute of General Medical Sciences der National Institutes of Health (NIH) unterstützt. Zusätzliche Unterstützung erhielten das Bundesministerium für Bildung und Forschung sowie ein Stanford BioX-Stipendium und ein internationales Studentenforschungsstipendium des Howard Hughes Medical Institute.

Die Gensequenzierung wurde am Stowers Institute for Medical Research und am Genomics Core des Medical Center der Universität Kansas durchgeführt, unterstützt durch die NIH-Förderung des Nationalen Instituts für Kindergesundheit und menschliche Entwicklung und des Nationalen Instituts für allgemeine medizinische Wissenschaften der USA.


Wissenschaftliche Ansprechpartner:

Prof. Dr. Julien Gagneur
Professur für Computational Molecular Medicine
Technische Universität München
Grillparzerstr. 16, 81675 München, Germany
Tel.: +49 89 4140 4350 – E-Mail: gagneur@in.tum.de


Originalpublikation:

Base-resolution models of transcription factor binding reveal soft motif syntax
Žiga Avsec, Melanie Weilert, Avanti Shrikumar, Sabrina Krueger, Amr Alexandari, Khyati Dalal, Robin Fropf, Charles McAnany, Julien Gagneur, Anshul Kundaje, and Julia Zeitlinger
nature genetics, Feb. 18, 2021 – DOI: 10.1038/s41588-021-00782-6


Weitere Informationen:

https://www.nature.com/articles/s41588-021-00782-6 Originalpublikation
https://www.tum.de/nc/die-tum/aktuelles/pressemitteilungen/details/36454/ Presseinformation auf der TUM Website
https://www.in.tum.de/gagneurlab/ Website der Arbeitsgruppe von Prof. Gagneur


Merkmale dieser Pressemitteilung:
Journalisten, Lehrer/Schüler, Studierende, Wissenschaftler, jedermann
Biologie, Chemie, Informationstechnik, Medizin
überregional
Forschungsergebnisse, Wissenschaftliche Publikationen
Deutsch


Quelle: IDW