Wir bei Cogita sind der Überzeugung, dass die nächste Generation der KI modularer, spezialisierter, effizienter, besser überprüfbar und einfacher zu debuggen sein sollte – und nicht einfach nur umfangreicher und undurchsichtiger. Um dieses Ziel zu erreichen, müssen praktische Anwendungen mit Grundlagenforschung darüber kombiniert werden, wie neuronale Netze Informationen darstellen und nutzen.
Im folgenden Artikel stellt unser AI‑Leiter, Maciej Satkiewicz, „Semantic Pullbacks“ vor: einen neuen Ansatz zum Verständnis tiefer neuronaler Netze, der im Rahmen seiner Forschung bei der 314 Foundation entwickelt wurde. Diese Arbeit ist ein frühes Beispiel für die Brücke, die wir zwischen Grundlagenforschung und KI‑Systemen schlagen wollen, die überprüft, verbessert und in der Praxis eingesetzt werden können.
Wir sind der Ansicht, dass diese Art der technischen Differenzierung für Europa besonders wichtig ist, da Europa möglicherweise neue Wege beschreiten muss, anstatt ausschließlich durch die Skalierung der in den Vereinigten Staaten und China entwickelten Ansätze zu konkurrieren. Der Artikel ist zwar technisch geprägt, doch die übergeordnete Frage ist einfach: Können wir eine KI entwickeln, die nicht nur leistungsstark, sondern auch verständlicher und besser kontrollierbar ist?
Wie tiefe neuronale Netze die Welt sehen
Tiefe neuronale Netze sind leistungsstark, aber nach wie vor schwer zu verstehen. Wir können sie trainieren, einsetzen, feinabstimmen und ihre Leistung messen. Doch wenn wir eine einfache Frage stellen – Was genau hat die Modellentscheidung beeinflusst? - Die Antwort ist oft überraschend zerbrechlich.
In einem linearen Modell liegt die Erklärung auf der Hand. Ein Gewichtsvektor zeigt in die vom Modell bevorzugte Eingaberichtung. Wenn wir diesen Vektor visualisieren, erkennen wir, wonach das Modell sucht. Das Modell berechnet das Skalarprodukt zwischen der Eingabe und dem Gewichtsvektor, sodass der Gewichtsvektor uns direkt verrät, welches Muster die Punktzahl erhöht.
Die Frage ist: Wie lässt sich diese Art der Erklärungen auf komplexere Modelle übertragen?
Der übliche Ansatz besteht darin, den Gradienten zu verwenden, da dieser bei linearen Modellen mit dem Gewichtsvektor übereinstimmt. Es gibt jedoch einen natürlicheren Kandidaten – einen Pullback.
Das Problem mit Farbverläufen
Ein Gradient gibt Auskunft darüber, wie sich die Ausgabe bei einer infinitesimalen Änderung der Eingabe verändert. Das ist ein Maß für die Sensitivität. Es ist jedoch nicht unbedingt die beste Beschreibung dessen, was das Neuron erwartet. Eine solche Beschreibung sollte uns im Idealfall Aufschluss darüber geben, welches Muster im Eingaberaum das Neuron lokal als seine bevorzugte Richtung nutzt – ähnlich wie der Gewichtsvektor des linearen Modells.
Beachten Sie, dass sich bei einer bestimmten Eingabe viele Schichten so verhalten wie eingabebedingte affine Operatoren. ReLU‑Gates werden ein- und ausgeschaltet. Pooling-Schichten wählen Routen aus. Attention-Schichten entscheiden, welche Tokens miteinander interagieren. Normalisierungsschichten verändern die lokale Geometrie der Berechnung. Bei einer gegebenen Eingabe sind all diese Schalter jedoch fest vorgegeben.
Daher kann das Netzwerk als eine eingangsabhängige lineare (oder – bei Vorhandensein von Vorspannungen – affine) Berechnung betrachtet werden. Die naheliegende Interpretation eines Zielneurons ist dann nicht der Gradient, sondern die punktweise Transposition dieses effektiven Operators, d. h. seine adjungierte Wirkung. Das bezeichne ich als ein Rückgang, inspiriert von der Differentialgeometrie.
Pullback: das richtige Analogon zum linearen Gewichtsvektor
In einem linearen Modell gilt:
score =
Der Gewichtsvektor ist die Erklärung, da er die vom Modell bevorzugte Eingaberichtung darstellt.
Bei einem tiefen Netzwerk lässt sich die Berechnung für eine feste Eingabe oft lokal wie folgt darstellen:
Ausgabe = W(x) x
wobei W(x) ist der effektive dynamische affine Operator des Netzwerks am Eingang x.
Wählen wir ein Zielneuron oder eine Klassenrichtung u, so lässt sich dessen Wert als Skalarprodukt im Eingaberaum darstellen:
score =
Der Rücklauf wird erzielt, indem die Zielrichtung durch die Transponierte des effektiven Operators rückwärts transportiert wird:
pullback = W(x)^T u
Dies ist die direkte Verallgemeinerung der Erklärung des linearen Modells.
Der entscheidende Punkt ist subtil, aber wichtig: Der Rückzug entspricht im Allgemeinen nicht dem Gradienten.
Der Gradient hängt davon ab, wie sich der effektive Operator in Abhängigkeit von der Eingabe verändert. Er umfasst zusätzliche Terme, die aus Gatterfunktionen, Routing-Entscheidungen, Schichtstatistiken, Attention-Maps und anderen eingabebedingten Mechanismen stammen.
Der Pullback funktioniert anders. Er fragt: Angesichts der Berechnung, die das Netzwerk bei dieser Eingabe tatsächlich durchgeführt hat, welcher Vektor im Eingaberaum repräsentiert die Aktivität dieses Zielneurons?
Das entspricht eher der ursprünglichen Idee hinter der Visualisierung eines linearen Filters.
Sanfter Rückzug: Neuronen repräsentieren Merkmale lokal und teilweise
Ein Standard-Pullback entspricht bereits eher der dynamisch-affinen Sichtweise auf neuronale Berechnungen. Doch es gibt noch ein weiteres Problem.
Neuronale Merkmale kommen an einem einzelnen Eingangspunkt oft nicht vollständig zum Ausdruck. Sie können teilweise aktiv sein, durch ein hartes Gate unterdrückt werden oder auf mehrere schwach beitragende Komponenten verteilt sein. Eine ReLU‑Einheit kann knapp unterhalb des Schwellenwerts liegen. Eine Pooling-Schicht kann den Großteil des Signals über einen Punkt leiten, während benachbarte Alternativen weiterhin semantisch relevante Informationen enthalten.
Dies deutet darauf hin, dass die aussagekräftige Erklärung nicht immer der reine punktweise Pullback ist, sondern der vor Ort erwartete Korrektur: der Rückzug, den wir erhalten würden, wenn wir eine kleine Umgebung um den Eingabewert betrachten würden.
Stichprobenbasierte Methoden wie beispielsweise SmoothGrad deuten bereits auf diese Intuition hin. Sie fügen dem Eingabesignal Rauschen hinzu, berechnen zahlreiche Gradienten und mitteln diese. Dies führt oft zu Erklärungen, die besser mit der Wahrnehmung übereinstimmen, ist jedoch rechenintensiv und heuristisch.
Semantische Pullbacks verfolgen denselben Ansatz auf direktere Weise.
Anstatt viele gestörte Eingaben zu untersuchen, ändern wir lediglich die Rückwärtsberechnung. Harte oder steile Rückwärtsgates werden abgeschwächt. So kann beispielsweise eine harte ReLU‑Maske im Rückwärtsdurchlauf durch ein glattes Gate ersetzt werden. Die Vorwärtsberechnung bleibt dabei unverändert. Die Vorhersage des Modells ändert sich nicht. Lediglich die Erklärungsregel ändert sich.
Damit erhalten wir ein Leichter Rückgang: eine handhabbare Näherung des lokal erwarteten Pullbacks.
Es gewinnt schwache, aber beständig beitragende Komponenten wieder, die beim standardmäßigen Backward-Pass möglicherweise unterdrückt werden. In der Praxis verwandelt dies oft verrauschte, fragmentierte Erklärungen in kohärentere Strukturen.
Pullback-Ascent: Stärkung der lokal bevorzugten Richtung
Sobald wir ein Pullback-Vektorfeld haben, können wir die Eingabe leicht in die Richtung verschieben, die von einem Zielneuron lokal bevorzugt wird, und das Pullback neu berechnen. Wiederholt man dies für einige Schritte, erhält man Rückzug und Anstieg.
Dies entspricht dem Gradientenanstieg, allerdings mit einer entscheidenden Änderung: Wir bewegen uns entlang der Rückzugsrichtung und nicht entlang der Gradientenrichtung.
Der Unterschied ist deutlich zu erkennen. Der Gradientenanstieg in modernen Netzwerken erzeugt oft verrauschte, adversarial anmutende Muster. Der Pullback-Anstieg neigt dazu, kohärentere, klassenabhängige Strukturen aufzudecken. Er verstärkt die lokal bevorzugte Richtung des Zielneurons, anstatt lediglich die rohe Empfindlichkeit zu verstärken.
Dadurch eignet es sich nicht nur für die Attribution, sondern auch für lokale Kontrafaktika. Wir können fragen: Was müsste in diesem Bild deutlicher hervortreten, damit das Modell zu einer anderen Klasse tendiert? Pullback Ascent liefert eine strukturierte Antwort darauf.
Empirische Bestätigung
In Experimenten mit vortrainierten Standard-Bildverarbeitungsmodellen, darunter konvolutionelle Architekturen und Transformer-basierte Modelle, lieferten „Semantic Pullbacks“ Erklärungen, die genauer, stabiler, zielgerichteter und in wahrnehmungsbezogener Hinsicht deutlich besser abgestimmt waren als herkömmliche, auf Gradienten basierende Referenzmodelle.
Die wichtigste Erkenntnis ist konzeptioneller Natur: Gradienten sind nicht das einzige natürliche Rückwärtssignal im Deep Learning. Wenn wir verstehen wollen, was ein neuronales Netzwerk „sieht“, sollten wir nicht nur fragen, wie sich die Ausgabe ändert, wenn sich die Eingabe ändert. Wir sollten vielmehr fragen, welche Richtung im Eingaberaum die aktuelle Berechnung des Netzwerks für das Zielneuron darstellt.
Diese Richtung scheint der „Semantic Pullback“ zu sein.
Eine einheitliche Sichtweise auf die Erklärbarkeit
Eines der interessantesten Ergebnisse dieser Arbeit ist, dass semantische Pullbacks mehrere Konzepte miteinander verbinden, die zuvor unabhängig voneinander zu sein schienen; dieser Zusammenhang ist jedoch spezifischer, als einfach nur zu sagen, dass sie alle “Gradienten verbessern”.
Modelle im B‑Cos-Stil entsprechen unserer Sichtweise besonders stark. Sie nutzen bereits den Standard-Pullback als Erklärung: Sie übertragen die Ausgabedirektion rückwärts durch den effektiven linearen Operator des Netzwerks. Ihr zusätzlicher Schritt ist architektonischer Natur und basiert auf dem Training: Sie modifizieren das Modell und fügen Ausrichtungsziele hinzu, sodass der Standard-Pullback besser auf die Eingabe abgestimmt wird.
Semantische Pullbacks verfolgen einen anderen Ansatz. Wir ändern das Vorwärtsmodell nicht und nehmen auch keine Feinabstimmung daran vor. Stattdessen prüfen wir, ob sich eine bessere Erklärung erzielen lässt, indem wir einen lokal erwarteten Pullback direkt auf einem vortrainierten Standardnetzwerk berechnen.
Dadurch wird auch der Zusammenhang zu Methoden der Gradientenglättung wie beispielsweise SmoothGrad verdeutlicht. Diese Methoden lassen sich so interpretieren, dass sie versuchen, einen lokalen Erwartungswert zu rekonstruieren, indem sie verrauschte Störungen abtasten und die daraus resultierenden Erklärungen mitteln. Semantische Pullbacks verfolgen ein ähnliches Ziel, approximieren den lokal erwarteten Pullback jedoch nicht durch stochastische Stichproben, sondern durch geschlossene, schichtweise Rückwärtsregeln.
„Pullback Ascent“ verknüpft die Methode mit Hervorhebung von Merkmalen. Die Hervorhebung von Standardmerkmalen folgt Gradienten und erfordert daher in der Regel eine starke Regularisierung, um rauschbehaftete oder adversarial anmutende Muster zu vermeiden. Durch das Ersetzen der Gradientenrichtung durch die (weiche) Pullback-Richtung ergibt sich ein kohärenteres lokales Aufstiegsverfahren: Es verstärkt die bevorzugte Richtung des Zielneurons, ohne auf aufwendige Nachbearbeitung angewiesen zu sein.
Es gibt auch einen Zusammenhang mit robuste Optimierung. Robuste Modelle weisen oft Gradienten auf, die stärker an der Wahrnehmung ausgerichtet sind, da ihre Entscheidungsfunktionen im Umfeld der Datenmannigfaltigkeit lokal stabiler werden. Aus der Perspektive des Pullbacks deckt sich dies mit der Vorstellung, dass Modelle an den Eingaben ausgerichtete Merkmale nicht unbedingt an einem einzelnen Punkt, sondern im lokalen Erwartungswert erlernen. Semantische Pullbacks legen diese Struktur direkt offen, ohne dass ein adversariales Training erforderlich ist.
Die übergeordnete Botschaft lautet, dass viele erfolgreiche Erklärungsmethoden als unterschiedliche Versuche verstanden werden können, eine stabile Richtung im Eingaberaum wiederherzustellen, die mit einem Zielneuron, einer Klasse oder einem Merkmal assoziiert ist. Semantische Pullbacks machen dieses Objekt explizit: nicht als Gradienten, sondern als lokal erwarteten Rückzug der effektiven Berechnung des Netzwerks.
Sollten Pullbacks Gradienten ersetzen?
Heutzutage behandeln Deep-Learning-Bibliotheken Gradienten als Primitive erster Klasse. Sind tiefe Netzwerke jedoch dynamische affine Systeme, dann sollte neben der Ableitung auch der adjungierte Transport der Neuronenaktion verfügbar sein. Mit anderen Worten: Der Pullback sollte neben dem Gradienten zu einem festen Bestandteil von Deep-Learning-Bibliotheken werden.
Dazu wäre keine Neugestaltung der neuronalen Netze erforderlich. In vielen Schichten stimmen Pullback und Gradient bereits überein. Für lineare Schichten, Faltungen und Residualverbindungen reicht der standardmäßige Rückwärtsdurchlauf aus. Die geringen Unterschiede ergeben sich aus einem relativ kleinen Katalog von Mechanismen: Gates, Routing-Operationen, Normalisierungsschichten und Attention.
Das macht die Idee praktikabel. Semantische Pullbacks lassen sich als benutzerdefinierte Rückwärtsregeln implementieren, während der Vorwärtsdurchlauf unverändert bleibt. Wenn sich Pullbacks als besser für die Optimierung erweisen (siehe unten), könnten sie wohl sogar Gradienten gänzlich ersetzen, da sie sich bereits als besser für die Erstellung von Erklärungen erwiesen haben!
Wie geht es weiter?
Semantische Pullbacks bieten einen neuen Ansatz zur Erforschung und Gestaltung des Repräsentationsraums. Über die Attribution hinaus lässt sich „Pullback Ascent“ dazu nutzen, zu untersuchen, welche Strukturen ein Modell mit einem Neuron, einer Klasse oder einem internen Merkmal assoziiert. Dies könnte die Wissensgewinnung in wissenschaftlichen Bereichen, aussagekräftigere kontrafaktische Szenarien und Interpolationen sowie eine bessere Diagnose von Fehlermodi unterstützen.
Diese Sichtweise lässt sich nahtlos auf Text übertragen. Semantische Pullbacks könnten dabei helfen, die einer Vorhersage zugrunde liegenden Belege zu extrahieren, argumentative Strukturen zu identifizieren und kontrafaktische Varianten zu generieren, die aufzeigen, was sich ändern müsste, damit ein Modell eine andere Behauptung, Einstufung oder Antwort stützen könnte.
Sie könnten auch für Sprach- und multimodale Modellierung nützlich sein. Bei Sprachmodellen könnte eine auf Pullback basierende Attribution die Frage stellen, welche Token, Passagen oder internen Merkmale die Vorhersage des nächsten Tokens am stärksten beeinflusst haben. Bei Videos und anderen sequenziellen Modalitäten könnte derselbe Ansatz dabei helfen, nachzuvollziehen, welche Frames, Objekte oder zeitliche Hinweise die Fortsetzung oder Entscheidung eines Modells beeinflussen.
Die gleiche Perspektive kann auch bei der Modellbearbeitung, der Modellbereinigung und dem kontinuierlichen Lernen eine Rolle spielen. Wenn Rückverfolgungen aufzeigen, welche Komponenten kohärente semantische Belege liefern, können sie dabei helfen, festzustellen, welche Teile eines Modells nützlich, redundant, instabil oder für ein neues Verhalten verantwortlich sind.
Ein weiterer offener Ansatz ist die Ausbildung selbst. Aktuelle Arbeiten legt nahe, dass eine Änderung des Rückwärtsdurchlaufs das Lernen verbessern kann. Semantische Pullbacks bieten eine umfassendere Erklärung dafür: Adjunkte Rückwärtssignale könnten eine klarere Darstellung der Richtung liefern, die ein Neuron lokal nutzt, anstatt diese mit Effekten von Gates, Routing, Normalisierung oder Attention zu vermischen. Dies hat das Potenzial, nicht nur die Erklärungen, sondern auch die Generalisierung selbst zu verbessern!
Lass uns reden!
Wenn Sie sich für semantische Pullbacks, alternative Rückwärtsdurchläufe, die Interpretierbarkeit von Sprachmodellen oder pullback-basiertes Training und Anpassung interessieren, würden wir uns über einen Austausch mit Ihnen freuen!
Anmerkung: Die in diesem Artikel beschriebene Forschungsarbeit wurde bei der 314 Foundation in Zusammenarbeit mit der American University und der AGH‑Universität Krakau durchgeführt. Cogita veröffentlicht diesen Artikel als freundlicher Gastgeber und Partner innerhalb der breiteren KI‑Community. Der Vorabdruck des Artikels ist hier zu finden: https://arxiv.org/abs/2507.22832 mit der interaktiven Demo hier: https://huggingface.co/spaces/msat/SemanticPullbacks.
