MIT-Wissenschaftler bauen ein System, das KI-Modelle für die Biologieforschung generieren kann

Vorheriges Bild Nächstes Bild

Ist es möglich, Modelle für maschinelles Lernen ohne Fachkenntnisse im Bereich maschinelles Lernen zu erstellen?

Jim Collins, Termeer-Professor für Medizintechnik und Naturwissenschaften am Department of Biological Engineering am MIT und Leiter der Fakultät für Biowissenschaften an der Abdul Latif Jameel Clinic for Machine Learning in Health (Jameel Clinic), beschlossen zusammen mit einer Reihe von Kollegen, sich der Herausforderung zu stellen dieses Problem, wenn man vor einem ähnlichen Rätsel steht. Ein Open-Access-Artikel zu ihrem Lösungsvorschlag mit dem Titel BioAutoMATED wurde am 21. Juni in Cell Systems veröffentlicht.

Die Rekrutierung von Forschern für maschinelles Lernen kann für wissenschaftliche und technische Labore ein zeitaufwändiger und finanziell kostspieliger Prozess sein. Selbst mit einem Experten für maschinelles Lernen kann die Auswahl des geeigneten Modells, die Formatierung des Datensatzes für das Modell und die anschließende Feinabstimmung die Leistung des Modells dramatisch verändern und erfordern viel Arbeit.

„Wie viel Zeit werden Sie in Ihrem maschinellen Lernprojekt normalerweise für die Datenvorbereitung und -transformation aufwenden?“ fragt einen Google-Kurs 2022 zu den Grundlagen des maschinellen Lernens (ML). Die beiden angebotenen Optionen sind entweder „Weniger als die Hälfte der Projektzeit“ oder „Mehr als die Hälfte der Projektzeit“. Wenn Sie Letzteres erraten hätten, hätten Sie Recht; Google gibt an, dass die Formatierung der Daten über 80 Prozent der Projektzeit in Anspruch nimmt, und dabei ist noch nicht einmal die Zeit berücksichtigt, die benötigt wird, um das Problem in Begriffen des maschinellen Lernens zu formulieren.

„Es würde viele Wochen dauern, das passende Modell für unseren Datensatz herauszufinden, und das ist für viele Leute, die maschinelles Lernen oder Biologie nutzen wollen, ein wirklich unerschwinglicher Schritt“, sagt Jacqueline Valeri, eine Doktorandin im fünften Jahr für Biotechnik in Collins‘ Labor, der erste Co-Autor der Arbeit.

BioAutoMATED ist ein automatisiertes maschinelles Lernsystem, das ein geeignetes Modell für einen bestimmten Datensatz auswählen und erstellen und sogar die mühsame Aufgabe der Datenvorverarbeitung übernehmen kann, wodurch ein monatelanger Prozess auf nur wenige Stunden verkürzt wird. Automatisierte maschinelle Lernsysteme (AutoML) befinden sich noch in einem relativ jungen Entwicklungsstadium, wobei sich die derzeitige Nutzung hauptsächlich auf die Bild- und Texterkennung konzentriert, in Teilbereichen der Biologie jedoch weitgehend ungenutzt bleibt, betont der erste Co-Autor und Postdoktorand der Jameel Clinic, Luis Soenksen PhD '20.

„Die grundlegende Sprache der Biologie basiert auf Sequenzen“, erklärt Soenksen, der am MIT Department of Mechanical Engineering promovierte. „Biologische Sequenzen wie DNA, RNA, Proteine und Glykane haben die erstaunliche Informationseigenschaft, dass sie wie ein Alphabet intrinsisch standardisiert sind. Viele AutoML-Tools werden für Text entwickelt, daher war es sinnvoll, sie auf [biologische] Sequenzen zu erweitern.“

Darüber hinaus können die meisten AutoML-Tools nur reduzierte Modelltypen untersuchen und erstellen. „Aber Sie können nicht gleich zu Beginn eines Projekts wissen, welches Modell für Ihren Datensatz am besten geeignet ist“, sagt Valeri. „Durch die Integration mehrerer Tools unter einem Dachtool ermöglichen wir wirklich einen viel größeren Suchraum, als jedes einzelne AutoML-Tool allein erreichen könnte.“

Das Repertoire an überwachten ML-Modellen von BioAutoMATED umfasst drei Typen: binäre Klassifizierungsmodelle (Aufteilung von Daten in zwei Klassen), Mehrklassen-Klassifizierungsmodelle (Aufteilung von Daten in mehrere Klassen) und Regressionsmodelle (Anpassung kontinuierlicher numerischer Werte oder Messung der Stärke von Schlüsselbeziehungen zwischen Variablen). BioAutoMATED kann sogar dabei helfen, zu bestimmen, wie viele Daten erforderlich sind, um das ausgewählte Modell angemessen zu trainieren.

„Unser Tool untersucht Modelle, die sich besser für kleinere, spärlichere biologische Datensätze sowie komplexere neuronale Netze eignen“, sagt Valeri. Dies ist ein Vorteil für Forschungsgruppen mit neuen Daten, die möglicherweise für ein Problem des maschinellen Lernens geeignet sind oder nicht .

„Die Durchführung neuartiger und erfolgreicher Experimente an der Schnittstelle von Biologie und maschinellem Lernen kann viel Geld kosten“, erklärt Soenksen. „Derzeit müssen auf Biologie ausgerichtete Labore in erhebliche digitale Infrastruktur und KI-ML-geschultes Personal investieren, bevor sie überhaupt dazu in der Lage sind.“ Sehen Sie, ob ihre Ideen in die Tat umgesetzt werden können. Wir wollen diese Hürden für Fachexperten in der Biologie senken.“ Mit BioAutoMATED haben Forscher die Freiheit, erste Experimente durchzuführen, um zu beurteilen, ob es sich lohnt, einen Experten für maschinelles Lernen zu engagieren, um ein anderes Modell für weitere Experimente zu erstellen.

Der Open-Source-Code ist öffentlich verfügbar und, wie Forscher betonen, einfach auszuführen. „Wir würden uns freuen, wenn die Leute unseren Code übernehmen, ihn verbessern und mit größeren Communities zusammenarbeiten, um ihn zu einem Werkzeug für alle zu machen“, sagt Soenksen. „Wir wollen die biologische Forschungsgemeinschaft stärken und ein Bewusstsein für AutoML-Techniken schaffen, als einen wirklich nützlichen Weg, der strenge biologische Praxis besser mit der schnellen KI-ML-Praxis verbinden könnte, als dies heute möglich ist.“

Collins, der leitende Autor des Artikels, ist außerdem mit dem MIT Institute for Medical Engineering and Science, dem Harvard-MIT Program in Health Sciences and Technology, dem Broad Institute of MIT and Harvard und dem Wyss Institute verbunden. Zu den weiteren MIT-Mitarbeitern des Artikels gehören Katherine M. Collins '21; Nicolaas M. Angenent-Mari PhD '21; Felix Wong, ehemaliger Postdoc in der Abteilung für Biotechnik, IMES und dem Broad Institute; und Timothy K. Lu, Professor für Biotechnik sowie Elektrotechnik und Informatik.

Diese Arbeit wurde teilweise durch ein Stipendium der Defense Threat Reduction Agency, das SD2-Programm der Defence Advance Research Projects Agency, die Paul G. Allen Frontiers Group, das Wyss Institute for Biologically Inspired Engineering der Harvard University; ein MIT-Takeda-Stipendium, ein Siebel Foundation-Stipendium, ein CONACyT-Stipendium, ein MIT-TATA Center-Stipendium, ein Johnson & Johnson Undergraduate Research Scholarship, ein Barry Goldwater-Stipendium, ein Marshall-Stipendium, Cambridge Trust und das National Institute of Allergy and Infectious Krankheiten der National Institutes of Health. Diese Arbeit ist Teil des Antibiotics-AI-Projekts, das vom Audacious Project, Flu Lab, LLC, der Sea Grape Foundation, Rosamund Zander und Hansjorg Wyss für die Wyss Foundation sowie einem anonymen Spender unterstützt wird.

Vorheriger Artikel Nächster Artikel