Generative künstliche Intelligenz kann Tierversuchszahl deutlich verringern

FRANKFURT. In frühen Phasen der Arzneimittelentwicklung werden neue Wirkstoffe – neben zahlreichen anderen Versuchsmethoden – auch in Tieren getestet. Dabei stehen die Forschenden vor einem Dilemma: Einerseits halten sie aus ethischen Gründen die Zahl der Tiere, die in einem Experiment verwendet werden, möglichst klein. Andererseits müssen Tierversuche genug Tiere einschließen, damit das Experiment zu verlässlichen und repräsentativen Ergebnissen führt, die zum Beispiel darauf schließen lassen, ob ein neuer Arzneimittelkandidat eine bestimmte Wirkung erzeugt oder nicht.

Prof. Jörn Lötsch, Datenwissenschaftler und klinischer Pharmakologe an der Goethe-Universität, hat in Kooperation mit dem Informatiker Prof. Alfred Ultsch von der Philipps-Universität Marburg, die beide selbst nicht tierexperimentell arbeiten, eine generative Künstliche Intelligenz namens genESOM entwickelt. genESOM basiert auf einem Netzwerk Tausender künstlicher Neuronen, dass die innere Struktur eines Datensatzes „erlernt“. Dadurch kann sie das experimentell gewonnene Datenvolumen vergrößern und simulieren, dass die Zahl der Tiere im Versuch größer war als in Wirklichkeit.

Integrierte Fehlerüberwachung

Zum Training der KI nutzten die Wissenschaftler vorhandene Daten aus einer am Fraunhofer ITMP in Mäusen durchgeführten und bereits veröffentlichten Studie. Dabei gelangen dem Forschungsteam zwei entscheidende Innovationsschritte: Zum einen die KI darauf zu trainieren, neue Datenpunkte auf Grundlage der Studiendaten zu generieren, die sich so in die erlernte Datenstruktur einfügen, als wären sie in echten Experimenten gewonnen worden.

Der zweite Innovationsschritt war die Integration einer Fehlerüberwachung direkt in den Generierungsprozess der neuen Datenpunkte. Generative KI-Methoden riskieren generell, neben dem relevanten Signal auch Rauschen und Zufallsvariation zu verstärken. Dieses Problem ist als Fehlerinflation bekannt und kann dazu führen, dass eigentlich nicht bedeutsame Variablen fälschlicherweise als behandlungsrelevant erscheinen (so genannte falsch-positive Variablen).

Durch eine gezielte Trennung der Lernphase von der Synthesephase ist es möglich, ein künstliches Fehlersignal in den Prozess einzuspeisen, dessen Ausbreitung präzise gemessen wird. Daraus ergibt sich ein datengesteuertes Abbruchkriterium, das die Datengenerierung stoppt, bevor die wissenschaftliche Validität beeinträchtigt wird.

KI-Training mit veröffentlichten Studiendaten

Einen Praxistest bestand genESOM mit Daten aus einer präklinischen Studie zum Multiplen Sklerose-Modell. In der Originalstudie waren 26 Mäuse in drei Behandlungsgruppen aufgeteilt worden, um die Effekte eines experimentellen Wirkstoffs zu untersuchen. Lötsch und Ultsch reduzierten den Datensatz auf 18 Tiere (sechs pro Gruppe), um ein kleineres Experiment zu simulieren. Als sie diesen reduzierten Datensatz auswerteten, verschwanden alle zuvor nachgewiesenen Behandlungseffekte vollständig: Statistische Tests signalisierten nichts Signifikantes, und maschinelle Lernverfahren konnten die Behandlungsgruppen nicht voneinander unterscheiden. Nachdem der reduzierte Datensatzes mithilfe von genESOM weitere Datenpunkte erhalten hatte, traten alle Effekte des vollständigen Experiments auf dem ursprünglichen Signifikanzniveau wieder auf, ohne das relevante falsch positive Befunde dazu kamen. Alternative KI-Methoden bis hin zu komplexen „deep-learning“ neuronalen Netzwerken, die die Forscher testeten, versagten hier.

Lötsch erläutert: „Wir haben mittlerweile eine Reihe von Datensätzen ähnlich getestet und können heute sagen: Mit genESOM lässt sich die die Zahl genutzter Tiere bei explorativen Forschungsfragen um 30 bis 50 Prozent reduzieren, und die Ergebnisse bleiben wissenschaftlich valide.“ Der Datenwissenschaftler weist jedoch darauf hin, dass genESOM nur aus den Daten lernen könne, die in realen Tierexperimenten gewonnen worden seien. Auch lasse sich die Zahl der Versuchstiere nicht beliebig reduzieren: „Wenn man zu wenige Tiere ins Experiment aufnimmt und die Anzahl dann durch generative KI einfach ergänzt, könnte das Experiment wegen der Verstärkung von Zufallsbefunden sehr schnell wissenschaftlich wertlos werden.“ Trotzdem ist Lötsch überzeugt: „Mit genESOM können wir einen wichtigen Beitrag zur Reduktion der Tierversuchszahlen in großen Bereichen der präklinischen Forschung leisten.“

Das Projekt wurde durch die Deutsche Forschungsgemeinschaft (DFG) unter dem Titel „Generative artificial intelligence-based algorithm to increase the predictivity of preclinical studies while keeping sample sizes small“ gefördert.

https://www.uni-frankfurt.de/de/newsroom/meldungen/pressemitteilungen/2026/generative-kuenstliche-in...

Jörn Lötsch, Benjamin Mayer, Natasja de Bruin, Alfred Ultsch: Self-organizing neural network-based generative AI with embedded error inflation control enhances effective knowledge extraction from preclinical studies with reduced sample size. Pharmacological Research (2026) https://doi.org/10.1016/j.phrs.2026.108159

Jörn Lötsch, André Himmelspach, Dario Kringel: Dimensionality-modulated generative AI for safe biomedical dataset augmentation. iScience (2026) https://doi.org/10.1016/j.isci.2025.114321

Alfred Ultsch, Jörn Lötsch: Augmenting small biomedical datasets using generative AI methods based on self-organizing neural networks Open Access. Briefings in Bioinformatics (2024) https://doi.org/10.1093/bib/bbae640

11/05/2026 Goethe-Universität Frankfurt am Main

Regions: Europe, Germany, United Kingdom

Keywords: Science, Chemistry, Life Sciences

Disclaimer: AlphaGalileo is not responsible for the accuracy of content posted to AlphaGalileo by contributing institutions or for the use of any information through the AlphaGalileo system.

Latest Publications

Testimonials