
Im Jahr 1969 lösten Marvin Minsky und Seymour Papert mit ihrem bahnbrechenden Werk „Perceptrons: An Introduction to Computational Geometry“ (Minsky & Papert, 1969) eine tiefe Krise in der Forschung zu neuronalen Netzen aus. In diesem Buch analysierten sie die Grenzen der damaligen „Perzeptron“-Modelle, die von Frank Rosenblatt entwickelt worden waren. Ihre scharfe Kritik offenbarte insbesondere, dass diese einfachen Modelle nicht in der Lage waren, grundlegende nicht-lineare Probleme wie das Exklusive-ODER (XOR)-Problem zu lösen. Dieses scheinbar triviale Problem, bei dem ein Perzeptron zwei Eingaben verarbeiten und nur dann eine „wahr“-Ausgabe liefern soll, wenn genau eine der Eingaben wahr ist, konnte von den einschichtigen Perzeptronen (Das Perzeptron – nach engl. perception, „Wahrnehmung“ – ist ein vereinfachtes künstliches neuronales Netz, das zuerst von Frank Rosenblatt 1957 vorgestellt wurde.) nicht gemeistert werden. Die Erkenntnis, dass diese Modelle nicht in der Lage waren, komplexe Muster zu erkennen, die nicht linear trennbar waren, führte zu einem massiven Rückzug von Investitionen und einem Stillstand bei Konferenzen. Dies markierte den Beginn einer mehr als zehnjährigen „KI-Winterphase“; eine Periode des Forschungsstillstands und der Desillusionierung, in der das Interesse an neuronalen Netzen stark abnahm. Das Ende dieser „Eiszeit“ wurde nicht durch erhöhte Rechenleistung oder mehr Daten eingeläutet, sondern durch einen entscheidenden strukturellen Durchbruch: die Backpropagation-Methode, die von Rumelhart, Hinton und Williams 1986 in ihrem einflussreichen Artikel „Learning representations by back-propagating errors“ (Rumelhart, Hinton, & Williams, 1986) detailliert beschrieben wurde. Diese Methode ermöglichte es mehrschichtigen neuronalen Netzen, ihre internen Gewichte effizient anzupassen, um komplexe, nicht-lineare Beziehungen in Daten zu lernen, und veränderte somit die Architektur und das Potenzial neuronaler Netze grundlegend.
Droht nun eine neue KI-Eiszeit?
Heute scheinen wir auf dem besten Weg, in eine ähnliche Falle zu tappen.
Aktuelle Sprachmodelle haben eine bemerkenswerte Sprachgewandtheit erreicht. Modelle wie GPT-4 haben juristische Prüfungen bestanden, produktionsreifen Code geschrieben, Essays verfasst und scheinbar komplexe Schlussfolgerungen gezogen. Die Anzahl der Parameter ist in die Hunderte von Milliarden gegangen, und die Trainingskosten erreichten zweistellige Millionenbeträge. Benchmarks stiegen, und die Benutzeroberflächen verbesserten sich erheblich. Doch das zugrunde liegende System bleibt in seiner Tiefe begrenzt.
Diese immensen Trainingskosten sind nur ein Teil der Gleichung. Sie spiegeln den gigantischen Ressourcenverbrauch wider, der für den Betrieb und die Skalierung moderner KI-Rechenzentren notwendig ist. Der Bau und Unterhalt dieser spezialisierten Rechenzentren für KI erfordert nicht nur massive Investitionen in Hardware wie GPUs, sondern auch in die entsprechende Infrastruktur. Ein typisches grosses KI-Rechenzentrum kann Dutzende oder Hunderte von Megawatt Strom verbrauchen, was dem Verbrauch einer Kleinstadt entspricht. Dies führt zu erheblichen Betriebskosten, insbesondere für Energie und Kühlung. Darüber hinaus sind die Umweltauswirkungen beträchtlich: Die energieintensive Natur dieser Zentren trägt signifikant zu den globalen CO2-Emissionen bei. Eine einzelne grosse Modellschulung kann so viel CO2 ausstossen wie mehrere Autos in einem Jahr (Strubell et al., 2019). Zudem sind der Bedarf an sauberem Wasser für die Kühlung und die Menge an Elektroschrott, die durch den schnellen Hardware-Turnus entsteht, ernste Umweltbedenken. Die International Energy Agency (IEA) prognostiziert ebenfalls einen stark steigenden Energiebedarf für Rechenzentren, was die Dringlichkeit dieses Problems unterstreicht (IEA, Data Centres and Digitalisation).
Nach wie vor sind Halluzinationen – also das Erzeugen von faktisch falschen Informationen – häufig. Lange logische Ketten brechen unter Druck zusammen. Die Erinnerung über verschiedene Interaktionen hinweg ist schwach. Fine-Tuning (das Anpassen eines Modells an spezifische Aufgaben) führt oft nicht zu dauerhaften Verbesserungen. Der Einsatz von Tools durch die Modelle ist oft skriptbasiert und instabil. Die Modelle bilden keine echten Abstraktionen, verstehen keine Kausalität und können keine internen Modelle von Zeit, Absicht oder Umgebung aufbauen. Sie sind im Wesentlichen „Musterabgleicher“, die Korrelationen erzeugen und Token (Texteinheiten) ausgeben.
Anstatt sich diesen grundlegenden Beschränkungen zu stellen, hat die Industrie den Weg gewählt, sie zu verschleiern. Die neue Welle von LLM-basierten Agenten versucht, diese Defizite durch die Verkettung von Abrufen (z.B. Chain of Thoughts) aus externen Speichern (Long Term Memory), Tool-Aufrufen (Embedded Tool Calling) und Wiederholungsschleifen (Repetition Loops) zu kompensieren. Das Ergebnis ist eine Art von Automation, die intelligent wirkt. Doch im Kern des Modells hat sich nichts geändert: Es bleibt eine reine Vorhersagemaschine. Der Agent plant nicht, zerlegt keine komplexen Ziele, überarbeitet seinen internen Zustand nicht und bildet keine kohärente Sicht auf seine Handlungen. Was wir hier beobachten, ist eher Koordination ohne tatsächliche Kognition (echte Wahrnehmung und Selbstprojektion).
Ein neuer Weg der Forschung
Abseits dieses Scaffolding-Wettrüstens zeichnet sich jedoch ein anderer Pfad ab, der auf grundlegenden architektonischen Innovationen statt auf blosser Skalierung basiert. An der Stanford University erforschen Wissenschaftler Optimierungsgraphen, die lernen, wie man Werkzeuge durch Systeme wie DSPy (Liang et al., 2023, ein Framework zur Programmierung von Sprachmodellen) zusammensetzt, was eine effizientere und zielgerichtetere Nutzung von Modellen ermöglicht.
An der University of California, Berkeley, wird mit MemGPT (Pati et al., 2023) an Architekturen gearbeitet, die über lange Zeiträume hinweg Gedächtnis bewahren können, indem sie externe Speichersysteme intelligent integrieren, statt alle Informationen in den Modellparametern zu kodieren.
Zusätzlich zu diesen Ansätzen gibt es weitere vielversprechende Richtungen:
- Neue LLM-Architekturen jenseits von Transformers: Forscher entwickeln Modelle wie Mamba’s State Space Models, die eine effizientere Verarbeitung langer Kontextlängen ermöglichen und die quadratische Skalierung der Transformer-Architektur umgehen, was zu schnelleren und ressourcenschonenderen Modellen führen kann (Apolo.us Blog). Auch Diffusion-basierte LLMs werden erforscht, die Text parallel generieren können, um Geschwindigkeit und Kontrolle zu verbessern.
- Neuro-symbolische KI: Über die Arbeiten von IBM hinaus ist die Integration von neuronalen Netzen und symbolischer Logik ein aktives Forschungsfeld. Ziel ist es, die Stärken datengesteuerter Mustererkennung mit der Präzision und Interpretierbarkeit regelbasierter Systeme zu verbinden. Dies verspricht robustere und erklärbarere KI-Systeme, die sowohl lernen als auch logisch schlussfolgern können (ResearchGate, Integrating Neural Networks and Symbolic Reasoning).
- Kausales Repräsentationslernen: Während Yoshua Bengio ein prominenter Verfechter ist (Bengio, 2021), wird die Forschung an kausalen Modellen breit vorangetrieben, um über reine Korrelationen hinauszugehen. Dies beinhaltet die Entwicklung von kausalen Graphen und „Do-Operatoren“, um tatsächliche Ursache-Wirkungs-Beziehungen in Daten zu identifizieren, was für Anwendungen in Wissenschaft, Medizin und Wirtschaft von entscheidender Bedeutung ist (Statsig, Causal inference: Beyond correlation).
- Simulationsbasierte Intelligenz und KI für wissenschaftliche Entdeckung: DeepMind kehrt zur simulationsbasierten Intelligenz zurück (Silver et al., 2017 für AlphaGo). Darüber hinaus wird KI zunehmend als „Co-Wissenschaftler“ eingesetzt, der in der Lage ist, Hypothesen zu generieren, Experimente zu entwerfen und riesige Datensätze zu analysieren, um neue wissenschaftliche Erkenntnisse zu gewinnen. Dies erfordert oft die Entwicklung neuer KI-Paradigmen, die über die blosse Datenanalyse hinausgehen und komplexe Problemlösungsfähigkeiten in spezifischen Domänen ermöglichen (ResearchGate, How AI is Reshaping Scientific Discovery).
Diese Projekte setzen nicht auf die Skalierung bestehender Modelle, sondern auf eine Neugestaltung der Lernmechanismen, die potenziell ressourceneffizienter sein könnten und auf ein tieferes Verständnis von Intelligenz abzielen.
Die Gefahr einer „falschen“ Entwicklung
Das eigentliche Risiko besteht darin, dass die breite Akzeptanz von KI in die falsche Richtung geht.
Kapital und Talent sind massiv in Skalierungspipelines gebunden, die nicht nur eine fehlerhafte Architektur verlängern, sondern auch einen unhaltbaren ökologischen Fussabdruck hinterlassen. Die marginalen Gewinne, die durch immer grössere Modelle erzielt werden, mögen beeindrucken, doch sie verzögern tiefgreifenden, nachhaltigen Fortschritt. Die Kosten sind nicht nur finanzieller, sondern auch struktureller und ökologischer Natur. Die Notwendigkeit, immer grössere KI-Rechenzentren zu bauen und zu betreiben, um marginale Leistungssteigerungen zu erzielen, ist ein klares Zeichen für einen Irrweg, der sowohl die Forschung als auch unsere Umwelt belastet.
Wir befinden uns noch nicht in einer ausgewachsenen Krise, aber die Trajektorie ist eindeutig. Der nächste KI-Eiszeit wird vermutlich nicht mit einem abrupten Kollaps beginnen, wie es in der Vergangenheit einmal der Fall war. Er wird wahrscheinlich schleichend kommen, wenn der Fortschritt stagniert und die Grenzen der aktuellen Ansätze unbestreitbar werden, verstärkt durch die steigenden Kosten und den ökologischen Fussabdruck dieser Skalierungsstrategie.
Nicht, weil die Modelle versagt haben, sondern weil wir Menschen weiterhin auf dem falschen Fundament aufgebaut haben.
(This article has been revised by a language model for the purpose of consistent rhetoric. The article was created by Orkan Yoksulabakan, inspired by a publication in the field of AI by Sebastian Barros, Managing Director at Circles, AI Author and former Google employee.)
Referenzen:
- Bengio, Y. (2021). Towards Causal Representation Learning. arXiv preprint arXiv:2105.01358.
- Garcez, A. S. D. A., Lamb, L. C., & Shayegan, M. (2019). Neuro-Symbolic Artificial Intelligence. In: Handbook of Artificial Intelligence (pp. 23-44). Springer, Cham.
- Liang, J., et al. (2023). DSPy: Domainspecific Language for Programmable Large Language Models. arXiv preprint arXiv:2310.03714.
- Minsky, M., & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press.
- Pati, A., et al. (2023). MemGPT: Towards LLMs as Operating Systems. arXiv preprint arXiv:2310.08560.
- Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533-536.
- Silver, D., et al. (2017). Mastering the game of Go without human knowledge. Nature, 550(7676), 354-359.
- Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL).