W firmie Cogita wierzymy, że sztuczna inteligencja nowej generacji powinna być bardziej modułowa, wyspecjalizowana, wydajna, podlegająca audytowi i łatwiejsza do debugowania — a nie po prostu większa i mniej przejrzysta. Osiągnięcie tego celu wymaga połączenia praktycznych wdrożeń z podstawowymi badaniami nad tym, w jaki sposób sieci neuronowe reprezentują i wykorzystują informacje.
W poniższym artykule nasz kierownik ds. sztucznej inteligencji, Maciej Satkiewicz, przedstawia „semantyczne cofnięcia” (Semantic Pullbacks) – nowe podejście do zrozumienia głębokich sieci neuronowych, opracowane w ramach jego badań prowadzonych w Fundacji 314. Praca ta stanowi wczesny przykład pomostu, jaki chcemy zbudować między badaniami podstawowymi a systemami sztucznej inteligencji, które można analizować, ulepszać i wdrażać w praktyce.
Uważamy, że tego rodzaju zróżnicowanie techniczne ma szczególne znaczenie dla Europy, która być może powinna poszukiwać nowych kierunków rozwoju, zamiast konkurować wyłącznie poprzez skalowanie rozwiązań opracowanych w Stanach Zjednoczonych i Chinach. Artykuł ma charakter techniczny, ale szersze pytanie jest proste: czy potrafimy stworzyć sztuczną inteligencję, która będzie nie tylko potężna, ale także bardziej zrozumiała i łatwiejsza do kontrolowania?
Głębokie sieci neuronowe są potężnym narzędziem, ale wciąż trudno je zrozumieć. Możemy je trenować, wdrażać, dostrajać i mierzyć ich wydajność. Jednak gdy zadamy proste pytanie – Co dokładnie wpłynęło na decyzję dotyczącą modelu? - odpowiedź jest często zaskakująco krucha.
W modelu liniowym wyjaśnienie jest oczywiste. Wektor wag wskazuje preferowany przez model kierunek danych wejściowych. Jeśli wyobrazimy sobie ten wektor, zobaczymy, czego szuka model. Model oblicza iloczyn skalarny między danymi wejściowymi a wektorem wag, więc wektor wag bezpośrednio wskazuje nam, który wzór zwiększa wynik.
Pytanie brzmi: jak przenieść ten styl wyjaśnień na bardziej złożone modele?
Powszechnie stosowanym podejściem jest wykorzystanie gradientu, ponieważ pokrywa się on z wektorem wag w modelach liniowych. Istnieje jednak bardziej naturalna alternatywa – pullback.
Gradient informuje nas, jak zmienia się wartość wyjściowa przy nieskończenie małej zmianie wartości wejściowej. Jest to miara wrażliwości. Niekoniecznie jednak stanowi to najlepszy opis tego, czego oczekuje neuron. Taki opis powinien w idealnym przypadku wskazywać, jaki wzór w przestrzeni wejściowej neuron lokalnie traktuje jako swój preferowany kierunek, podobnie jak wektor wag w modelu liniowym.
Należy zauważyć, że dla danego sygnału wejściowego wiele warstw zachowuje się tak, jakby operatory afine uwarunkowane danymi wejściowymi. Bramki ReLU włączają się i wyłączają. Warstwy agregujące wybierają ścieżki. Warstwy uwagi wybierają tokeny, które mają ze sobą współdziałać. Warstwy normalizujące zmieniają lokalną geometrię obliczeń. Jednak dla danego sygnału wejściowego wszystkie te przełączniki mają stałe ustawienia.
W związku z tym sieć można postrzegać jako obliczenie liniowe (lub afińskie, w przypadku obecności przesunięć) zależne od danych wejściowych. Naturalnym wyjaśnieniem działania neuronu docelowego nie jest zatem gradient, lecz punktowa transpozycja tego operatora efektywnego, tj. jego działanie sprzężone. To właśnie nazywam cofnięcie, zainspirowane geometrią różniczkową.
W modelu liniowym mamy:
wynik =
Wektor wagowy stanowi wyjaśnienie, ponieważ odzwierciedla preferowany przez model kierunek danych wejściowych.
W przypadku sieci głębokiej, przy stałym wejściu, obliczenia można często zapisać lokalnie w następujący sposób:
wynik = W(x) x
gdzie W(x) jest efektywnym dynamicznym operatorem afinicznym sieci na wejściu x.
Jeśli wybierzemy neuron docelowy lub kierunek klasy u, to jego wynik można przedstawić jako iloczyn skalarny w przestrzeni wejściowej:
wynik =
Odwrócenie uzyskuje się poprzez przeniesienie kierunku docelowego do tyłu za pomocą transpozycji operatora efektywnego:
pullback = W(x)^T u
Jest to bezpośrednie uogólnienie wyjaśnienia opartego na modelu liniowym.
Kluczowa kwestia jest subtelna, ale istotna: cofnięcie nie jest zazwyczaj to samo, co nachylenie.
Gradient odzwierciedla sposób, w jaki operator efektywny zmienia się w zależności od danych wejściowych. Obejmuje on dodatkowe składniki wynikające z bramek, decyzji dotyczących routingu, statystyk warstw, map uwagi oraz innych mechanizmów zależnych od danych wejściowych.
Krok wstecz działa nieco inaczej. Zadaje pytanie: biorąc pod uwagę obliczenia, które sieć faktycznie zastosowała dla tego wkładu, jaki wektor przestrzeni wkładów reprezentuje działanie tego neuronu docelowego?
To jest bliższe pierwotnej intuicji stojącej za wizualizacją filtra liniowego.
Standardowe cofnięcie jest już bardziej zgodne z dynamiczną, afiniczną koncepcją obliczeń neuronowych. Pojawia się jednak jeszcze jedna kwestia.
Cechy neuronowe często nie są w pełni wyrażone w pojedynczym punkcie wejściowym. Mogą być częściowo aktywne, stłumione przez twardą bramkę lub rozłożone na kilka składników o słabym wkładzie. Jednostka ReLU może znajdować się tuż poniżej progu. Warstwa agregacji może kierować większość sygnału przez jedno miejsce, podczas gdy pobliskie alternatywy nadal zawierają istotne semantycznie informacje.
Wskazuje to, że sensownym wyjaśnieniem nie zawsze jest surowe punktowe odwzorowanie wsteczne, lecz przewidywana na lokalnym rynku korekta: cofnięcie, które uzyskamy, analizując niewielką okolicę wokół wartości wejściowej.
Metody oparte na próbkowaniu, takie jak SmoothGrad już teraz wskazują na tę intuicję. Dodają szum do danych wejściowych, obliczają wiele gradientów i uśredniają je. Często pozwala to uzyskać wyjaśnienia bardziej zgodne z postrzeganiem, ale jest to metoda kosztowna i oparta na heurystyce.
Pullbacki semantyczne realizują tę samą ideę w bardziej bezpośredni sposób.
Zamiast generować wiele próbnych wartości wejściowych z zakłóceniami, modyfikujemy wyłącznie obliczenia wsteczne. Sztywne lub strome bramki wsteczne są łagodzone. Na przykład sztywną maskę ReLU można w przebiegu wstecznym zastąpić płynną bramką. Obliczenia bezpośrednie pozostają dokładnie takie same. Prognoza modelu nie ulega zmianie. Zmienia się jedynie reguła wyjaśniająca.
W ten sposób otrzymujemy Łagodne cofnięcie: łatwe do obliczenia przybliżenie lokalnie oczekiwanego pullbacku.
Pozwala to odzyskać słabe, ale konsekwentnie przyczyniające się do wyniku składniki, które standardowa iteracja wsteczna może pomijać. W praktyce często przekształca to zakłócone i fragmentaryczne wyjaśnienia w bardziej spójne struktury.
Gdy już dysponujemy polem wektorowym pullbacku, możemy nieznacznie przesunąć dane wejściowe w kierunku preferowanym lokalnie przez neuron docelowy i ponownie obliczyć pullback. Powtórzenie tej operacji przez kilka kroków daje Wzrost po korekcie.
Jest to analogiczne do metody wznoszenia się wzdłuż gradientu, ale z jedną istotną zmianą: poruszamy się wzdłuż kierunku cofnięcia, a nie wzdłuż kierunku gradientu.
Różnica jest widoczna. Metoda gradientowego wzrostu w nowoczesnych sieciach często generuje zakłócone, przypominające ataki wzorce. Metoda „Pullback Ascent” zazwyczaj ujawnia bardziej spójne struktury uwarunkowane klasą. Wzmacnia ona lokalnie preferowany kierunek neuronu docelowego, zamiast jedynie zwiększać surową czułość.
Dzięki temu metoda ta sprawdza się nie tylko w analizie atrybucji, ale także w tworzeniu lokalnych scenariuszy kontrfaktycznych. Możemy zadać pytanie: co musiałoby stać się bardziej widoczne na tym obrazie, aby model zaklasyfikował go do innej klasy? Metoda Pullback Ascent dostarcza uporządkowanej odpowiedzi.
W eksperymentach przeprowadzonych na standardowych, wstępnie wytrenowanych modelach wizualnych, w tym na architekturach konwolucyjnych i modelach opartych na transformatorach, metoda Semantic Pullbacks dostarczyła wyjaśnienia, które były bardziej wierne, stabilne, dostosowane do konkretnego obiektu oraz znacznie lepiej zgodne z postrzeganiem zmysłowym niż standardowe modele odniesienia oparte na gradiencie.
Najważniejszy wniosek ma charakter koncepcyjny: gradienty nie są jedynym naturalnym sygnałem wstecznym w uczeniu głębokim. Jeśli chcemy zrozumieć, co widzi sieć neuronowa, nie powinniśmy pytać jedynie o to, jak zmienia się wynik w odpowiedzi na zmianę danych wejściowych. Powinniśmy raczej zapytać, jaki kierunek w przestrzeni wejściowej odzwierciedla bieżące obliczenia sieci dotyczące danego neuronu docelowego.
Wydaje się, że tym kierunkiem jest „semantyczny pullback”.
Jednym z najciekawszych wniosków płynących z tej pracy jest to, że pullbacki semantyczne łączą kilka koncepcji, które wcześniej wydawały się odrębne, jednak związek ten jest bardziej konkretny niż zwykłe stwierdzenie, że wszystkie one “poprawiają gradienty”.
Modele w stylu B-cos są szczególnie zbliżone do naszego podejścia. Autorzy ci już wykorzystują standardowy pullback jako wyjaśnienie: przenoszą kierunek wyjścia wstecz za pomocą efektywnego operatora liniowego sieci. Ich dodatkowy krok ma charakter architektoniczny i dotyczy uczenia: modyfikują model i dodają cele dostosowujące, tak aby standardowy pullback był lepiej dopasowany do danych wejściowych.
Pullbacki semantyczne opierają się na innym podejściu. Nie modyfikujemy modelu prognozującego ani nie poddajemy go dostrajaniu. Zamiast tego sprawdzamy, czy można uzyskać lepsze wyjaśnienie, obliczając lokalnie oczekiwany pullback bezpośrednio na standardowej, wstępnie wytrenowanej sieci.
Wyjaśnia to również związek z metodami wygładzania gradientu, takimi jak SmoothGrad. Metody te można interpretować jako próbę odtworzenia lokalnej wartości oczekiwanej poprzez próbkowanie zakłóceń z szumem i uśrednianie uzyskanych w ten sposób wyjaśnień. Semantyczne pullbacki dążą do podobnego celu, ale aproksymują lokalnie oczekiwany pullback za pomocą zamkniętych reguł wstecznych dla poszczególnych warstw, a nie poprzez próbkowanie stochastyczne.
Pullback Ascent łączy tę metodę z podkreślenie cech. Standardowe podkreślanie cech opiera się na gradientach i dlatego zazwyczaj wymaga silnej regularyzacji, aby uniknąć generowania wzorów zawierających szum lub przypominających ataki przeciwnika. Zastąpienie kierunku gradientu kierunkiem (miękkiego) cofnięcia zapewnia bardziej spójną procedurę lokalnego wzrostu: wzmacnia preferowany kierunek neuronu docelowego bez konieczności stosowania intensywnej obróbki końcowej.
Istnieje również związek z optymalizacja robustna. Modele odporne często charakteryzują się gradientami bardziej dostosowanymi do percepcji, ponieważ ich funkcje decyzyjne stają się bardziej stabilne lokalnie w pobliżu rozmaitości danych. Z perspektywy pullbacku pokrywa się to z koncepcją, zgodnie z którą modele uczą się cech dostosowanych do danych wejściowych niekoniecznie w jednym punkcie, ale w ujęciu lokalnym. Pullbacki semantyczne bezpośrednio ujawniają tę strukturę, nie wymagając przy tym uczenia przeciwstawnego.
Ogólny wniosek jest taki, że wiele skutecznych metod wyjaśniających można postrzegać jako różne próby odtworzenia stabilnego kierunku w przestrzeni wejściowej, powiązanego z docelowym neuronem, klasą lub cechą. Semantyczne pullbacki ujawniają ten obiekt w sposób wyraźny: nie jako gradient, ale jako lokalnie oczekiwany pullback efektywnego obliczenia sieci.
Obecnie biblioteki do głębokiego uczenia traktują gradienty jako elementy pierwszorzędne. Jeśli jednak sieci głębokie są dynamicznymi układami afinicznymi, to obok pochodnej powinno być dostępne również sprzężone odwzorowanie działania neuronu. Innymi słowy, pullback powinien stać się elementem pierwszorzędnym bibliotek do głębokiego uczenia, obok gradientu.
Nie wymagałoby to przeprojektowywania sieci neuronowych. W wielu warstwach pullback i gradient już się pokrywają. W przypadku warstw liniowych, konwolucji i połączeń rezydualnych wystarcza standardowe przejście wsteczne. Niewielkie różnice pojawiają się w stosunkowo niewielkim zestawie mechanizmów: bramkach, operacjach routingu, warstwach normalizacyjnych i mechanizmie uwagi.
To sprawia, że pomysł ten jest praktyczny. Pullbacki semantyczne można zaimplementować jako niestandardowe reguły wsteczne, pozostawiając przejście do przodu bez zmian. Można by nawet powiedzieć, że jeśli pullbacki okażą się lepszym rozwiązaniem pod względem optymalizacji (patrz poniżej), mogą one całkowicie zastąpić gradienty, ponieważ już udowodniły swoją przewagę w generowaniu wyjaśnień!
Pullbacki semantyczne proponują nowy sposób eksploracji i kształtowania przestrzeni reprezentacji. Poza atrybucją, metoda Pullback Ascent może służyć do badania, jakie struktury model kojarzy z neuronem, klasą lub cechą wewnętrzną. Może to wspierać odkrywanie wiedzy w dziedzinach naukowych, tworzenie bardziej znaczących scenariuszy kontrfaktycznych i interpolacji oraz lepszą diagnostykę trybów awarii.
To samo podejście w naturalny sposób można zastosować do tekstu. Funkcje „semantic pullbacks” mogą pomóc w wydobyciu dowodów leżących u podstaw danej prognozy, zidentyfikowaniu struktur argumentacyjnych oraz wygenerowaniu wariantów kontrfaktycznych, które pokazują, co musiałoby ulec zmianie, aby model mógł poprzeć inne twierdzenie, oznaczenie lub odpowiedź.
Mogą one również okazać się przydatne w modelowaniu językowym i multimodalnym. W przypadku modeli językowych atrybucja oparta na cofaniu mogłaby pozwolić ustalić, które tokeny, fragmenty tekstu lub cechy wewnętrzne miały największy wpływ na przewidywanie następnego tokenu. W przypadku wideo i innych modalności sekwencyjnych ta sama koncepcja mogłaby pomóc w ustaleniu, które klatki, obiekty lub wskazówki czasowe determinują dalsze działanie modelu lub jego decyzję.
Ta sama perspektywa może również znaleźć zastosowanie w edycji modeli, ich redukcji oraz ciągłym uczeniu się. Jeśli analizy cofania ujawnią, które składniki zawierają spójne dowody semantyczne, mogą one pomóc w zidentyfikowaniu, które części modelu są użyteczne, zbędne, niestabilne lub odpowiedzialne za nowe zachowanie.
Kolejnym obszarem wymagającym dalszego rozwoju jest sama edukacja. Najnowsze prace sugeruje, że zmiana przebiegu wstecznego może poprawić proces uczenia się. Pullbacki semantyczne oferują szerszą interpretację tego zjawiska: sygnały wsteczne z funkcji sprzężonej mogą zapewniać czystszą reprezentację kierunku, z którego lokalnie korzysta neuron, zamiast mieszać go z efektami wynikającymi z bramek, routingu, normalizacji czy uwagi. Ma to potencjał poprawy nie tylko wyjaśnień, ale także samej generalizacji!
Jeśli interesują Cię badania nad semantycznymi pullbackami, alternatywnymi przejściami wstecznymi, interpretowalnością modeli językowych lub uczeniem i adaptacją opartymi na pullbackach, chętnie z Tobą porozmawiamy!
Uwaga: Badania opisane w niniejszym artykule zostały przeprowadzone w Fundacji 314 we współpracy z American University oraz Akademią Górniczo-Hutniczą w Krakowie. Cogita publikuje ten artykuł jako przyjazny gospodarz i partner w szerszej społeczności zajmującej się sztuczną inteligencją. Preprint artykułu można znaleźć tutaj: https://arxiv.org/abs/2507.22832 z interaktywną wersją demonstracyjną dostępną tutaj: https://huggingface.co/spaces/msat/SemanticPullbacks.