{"id":2415,"date":"2026-06-30T14:37:04","date_gmt":"2026-06-30T12:37:04","guid":{"rendered":"https:\/\/cogita.ai\/?p=2415"},"modified":"2026-07-10T10:53:23","modified_gmt":"2026-07-10T08:53:23","slug":"how-deep-neural-networks-see-the-world","status":"publish","type":"post","link":"https:\/\/cogita.ai\/pl\/how-deep-neural-networks-see-the-world\/","title":{"rendered":"Jak g\u0142\u0119bokie sieci neuronowe widz\u0105 \u015bwiat"},"content":{"rendered":"<p class=\"wp-block-paragraph\">W Cogicie wierzymy, \u017ce kolejna generacja AI powinna by\u0107 bardziej modularna, wyspecjalizowana, efektywna, audytowalna i \u0142atwiejsza do debugowania - a nie tylko coraz wi\u0119ksza i coraz bardziej trudna w utrzymaniu. Osi\u0105gni\u0119cie tego celu wymaga \u0142\u0105czenia praktycznych wdro\u017ce\u0144 z badaniami podstawowymi nad tym, jak sieci neuronowe reprezentuj\u0105 i wykorzystuj\u0105 informacje.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">W poni\u017cszym artykule nasz AI Research Lead, Maciej Satkiewicz, przedstawia Semantic Pullbacks: nowe podej\u015bcie do rozumienia g\u0142\u0119bokich sieci neuronowych, opracowane w ramach jego bada\u0144 prowadzonych w Fundacji 314. Ta praca jest przyk\u0142adem mostu, kt\u00f3ry chcemy budowa\u0107 mi\u0119dzy badaniami podstawowymi a systemami AI, kt\u00f3re s\u0105 \u0142atwiejsze w analizie, utrzymaniu i praktycznych wdro\u017ceniach.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Uwa\u017camy, \u017ce tego rodzaju zr\u00f3\u017cnicowanie techniczne ma szczeg\u00f3lne znaczenie dla Europy, kt\u00f3ra powinna poszukiwa\u0107 nowych kierunk\u00f3w rozwoju, zamiast konkurowa\u0107 wy\u0142\u0105cznie poprzez skalowanie rozwi\u0105za\u0144 opracowanych w Stanach Zjednoczonych i Chinach. Artyku\u0142 ma charakter techniczny, ale szersze pytanie jest proste: czy potrafimy stworzy\u0107 sztuczn\u0105 inteligencj\u0119, kt\u00f3ra b\u0119dzie nie tylko pot\u0119\u017cna, ale tak\u017ce bardziej zrozumia\u0142a i \u0142atwiejsza do kontrolowania?<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong><strong>Jak g\u0142\u0119bokie sieci neuronowe widz\u0105 \u015bwiat<\/strong><\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">G\u0142\u0119bokie sieci neuronowe s\u0105 bardzo pot\u0119\u017cne, ale wci\u0105\u017c trudno je zrozumie\u0107. Mo\u017cemy je trenowa\u0107, wdra\u017ca\u0107, doucza\u0107 i mierzy\u0107 ich skuteczno\u015b\u0107. Kiedy jednak zadajemy proste pytanie <em>- co dok\u0142adnie wp\u0142yn\u0119\u0142o na decyzj\u0119 modelu? -<\/em> odpowied\u017a okazuje si\u0119 cz\u0119sto zaskakuj\u0105co krucha.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">W modelu liniowym wyja\u015bnienie jest naturalne. Wektor wag wskazuje preferowany przez model kierunek w przestrzeni wej\u015b\u0107. Je\u015bli zwizualizujemy ten wektor, zobaczymy, czego model \u201eszuka\u201d - poniewa\u017c oblicza iloczyn skalarny mi\u0119dzy wej\u015bciem a wektorem wag, wektor wag bezpo\u015brednio m\u00f3wi nam, jaki wzorzec zwi\u0119ksza wynik modelu.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pytanie brzmi: jak uog\u00f3lni\u0107 ten spos\u00f3b wyja\u015bniania na g\u0142\u0119bsze sieci?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Powszechnie stosowanym podej\u015bciem jest wykorzystanie gradientu, poniewa\u017c pokrywa si\u0119 on z wektorem wag w modelach liniowych. Istnieje jednak bardziej naturalna alternatywa - pullback.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Problem z gradientami<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Gradient m\u00f3wi nam, jak wynik modelu zmienia si\u0119 pod wp\u0142ywem niesko\u0144czenie ma\u0142ej zmiany wej\u015bcia. Jest to wi\u0119c miara lokalnej wra\u017cliwo\u015bci na zaburzenia. Nie musi jednak by\u0107 najlepszym opisem tego, czego \u201eoczekuje\u201d neuron. Taki opis powinien idealnie m\u00f3wi\u0107 nam, jaki wzorzec w przestrzeni wej\u015b\u0107 neuron lokalnie traktuje jako sw\u00f3j preferowany kierunek - podobnie jak wektor wag w modelu liniowym.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Zauwa\u017cmy, \u017ce sie\u0107 z\u0142o\u017cona z wielu warstw zachowuje si\u0119 jak <strong><em>operator afiniczny warunkowany wej\u015bciem:<\/em><\/strong>&nbsp;bramki ReLU w\u0142\u0105czaj\u0105 si\u0119 i wy\u0142\u0105czaj\u0105; warstwy poolingowe wybieraj\u0105 \u015bcie\u017cki przep\u0142ywu sygna\u0142u; warstwy attention decyduj\u0105, kt\u00f3re tokeny wchodz\u0105 ze sob\u0105 w interakcj\u0119, ustalaj\u0105c ich score; warstwy normalizacyjne s\u0105 wprost skalowaniem afinicznym. Dla danego sygna\u0142u wej\u015bciowego wszystkie te prze\u0142\u0105czniki s\u0105 jednak ustalone.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dlatego sie\u0107 mo\u017cna postrzega\u0107 jako obliczenie liniowe zale\u017cne od wej\u015bcia (albo afiniczne, je\u015bli uwzgl\u0119dnimy biasy). Naturalnym wyja\u015bnieniem neuronu docelowego nie jest wtedy gradient, lecz punktowa transpozycja tego efektywnego operatora, czyli jego dzia\u0142anie sprz\u0119\u017cone. To w\u0142a\u015bnie nazywam <strong><em>pullbackiem,<\/em><\/strong>&nbsp;inspiruj\u0105c si\u0119 geometri\u0105 r\u00f3\u017cniczkow\u0105.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Pullback: w\u0142a\u015bciwy odpowiednik wektora wag z modelu liniowego<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">W modelu liniowym mamy:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-light-green-cyan-color\"><code><code>score = &lt; weight, input &gt;<\/code><\/code><\/mark><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wektor wag jest wyja\u015bnieniem, poniewa\u017c reprezentuje preferowany przez model kierunek w przestrzeni wej\u015b\u0107.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dla g\u0142\u0119bokiej sieci, przy ustalonym wej\u015bciu, cz\u0119sto mo\u017cemy lokalnie zapisa\u0107 obliczenie jako:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-light-green-cyan-color\"><code><code>output = W(x) x <\/code><\/code><\/mark><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">gdzie <mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-light-green-cyan-color\"><code><code>W(x)<\/code><\/code><\/mark> jest efektywnym, dynamicznym operatorem afinicznym sieci dla wej\u015bcia <mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-light-green-cyan-color\"><code><code>x<\/code><\/code><\/mark>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Je\u015bli wybierzemy neuron docelowy (np. kierunek klasy u w przestrzeni wyj\u015bciowej), jego wynik mo\u017cna przedstawi\u0107 jako iloczyn skalarny w przestrzeni wej\u015b\u0107:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-light-green-cyan-color\"><code><code>score = &lt; pullback, input &gt;<\/code><\/code><\/mark><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pullback otrzymujemy, przenosz\u0105c kierunek docelowy wstecz przez transpozycj\u0119 efektywnego operatora:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><mark style=\"background-color:rgba(0, 0, 0, 0)\" class=\"has-inline-color has-light-green-cyan-color\"><code><code>pullback = W(x)^T u <\/code><\/code><\/mark><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">To bezpo\u015brednie uog\u00f3lnienie wyja\u015bnienia modelu liniowego.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Kluczowy punkt jest subtelny, ale wa\u017cny: pullback zasadniczo nie jest tym samym co gradient.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Gradient r\u00f3\u017cniczkuje r\u00f3wnie\u017c to, jak efektywny operator zmienia si\u0119 wraz z wej\u015bciem. Zawiera wi\u0119c dodatkowe sk\u0142adniki pochodz\u0105ce z bramek, routingu, statystyk warstw, map attention i innych mechanizm\u00f3w zale\u017cnych od wej\u015bcia.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pullback robi co\u015b innego. Pyta: bior\u0105c pod uwag\u0119 obliczenie, kt\u00f3rego sie\u0107 faktycznie u\u017cy\u0142a dla tego wej\u015bcia, jaki wektor w przestrzeni wej\u015b\u0107 reprezentuje (lokalnie) dzia\u0142anie tego neuronu docelowego?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">To jest bli\u017csze pierwotnej intuicji stoj\u0105cej za wizualizacj\u0105 filtra liniowego.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Soft Pullback: neurony reprezentuj\u0105 cechy lokalne tylko cz\u0119\u015bciowo<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Standardowy pullback jest ju\u017c lepiej dopasowany do dynamicznie afinicznego spojrzenia na obliczenia neuronowe. Ale pozostaje jeszcze jeden problem.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Cechy kodowane przez neuron cz\u0119sto nie s\u0105 w pe\u0142ni wyra\u017cone w pojedynczym punkcie wej\u015bciowym. Mog\u0105 by\u0107 cz\u0119\u015bciowo aktywne, np. t\u0142umione przez tward\u0105 bramk\u0119 albo rozproszone mi\u0119dzy wieloma s\u0142abo kontrybuuj\u0105cymi komponentami. Jednostka ReLU mo\u017ce znajdowa\u0107 si\u0119 tu\u017c poni\u017cej progu aktywacji. Warstwa poolingowa mo\u017ce przekierowa\u0107 wi\u0119kszo\u015b\u0107 sygna\u0142u przez jedn\u0105 lokalizacj\u0119, podczas gdy pobliskie alternatywy nadal zawieraj\u0105 semantycznie istotn\u0105 informacj\u0119.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">To sugeruje, \u017ce sensowne wyja\u015bnienie nie zawsze jest surowym, punktowym pullbackiem, ale raczej <strong><em>lokalnie oczekiwanym pullbackiem:<\/em><\/strong>&nbsp;pullbackiem, kt\u00f3ry otrzymaliby\u015bmy, u\u015bredniaj\u0105c po ma\u0142ym otoczeniu danego wej\u015bcia.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Metody samplingowe, takie jak <a href=\"https:\/\/arxiv.org\/abs\/1706.03825\" rel=\"nofollow noopener\" target=\"_blank\">SmoothGrad<\/a> ju\u017c wskazuj\u0105 na t\u0119 intuicj\u0119. Dodaj\u0105 szum do wej\u015bcia, obliczaj\u0105 wiele gradient\u00f3w i je u\u015bredniaj\u0105. Cz\u0119sto daje to wyja\u015bnienia bardziej sp\u00f3jne z ludzk\u0105 percepcj\u0105, ale to jest kosztowna heurystyka.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Semantic Pullbacks realizuj\u0105 t\u0119 sam\u0105 ide\u0119 bardziej bezpo\u015brednio: zamiast pr\u00f3bkowa\u0107 wiele zaburzonych wej\u015b\u0107, modyfikujemy wy\u0142\u0105cznie propagacj\u0119 wst\u0119czn\u0105.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Twarde albo strome bramki w backward pass zostaj\u0105 zmi\u0119kczone. Na przyk\u0142ad tward\u0105 mask\u0119 ReLU mo\u017cna zast\u0105pi\u0107 w przej\u015bciu wstecznym g\u0142adk\u0105 bramk\u0105 warunkowan\u0105 wej\u015bciem, np. sigmoidem preaktywacji. Obliczenie w prz\u00f3d (forward pass) pozostaje dok\u0142adnie takie samo, wi\u0119c predykcja modelu si\u0119 nie zmienia. Zmienia si\u0119 tylko regu\u0142a wyja\u015bniania.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">W ten spos\u00f3b otrzymujemy <strong><em>Soft Pullback:<\/em><\/strong>&nbsp;praktyczn\u0105 aproksymacj\u0119 lokalnie oczekiwanego pullbacku.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Soft Pullback odzyskuje s\u0142abe, ale konsekwentnie kontrybuuj\u0105ce komponenty, kt\u00f3re standardowy backward pass mo\u017ce t\u0142umi\u0107. W praktyce cz\u0119sto zamienia to zaszumione, pofragmentowane wyja\u015bnienia w bardziej sp\u00f3jne struktury.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Pullback Ascent: wzmacnianie lokalnie preferowanego kierunku<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Gdy mamy ju\u017c pole wektorowe (zmi\u0119kczonych) pullback\u00f3w, mo\u017cemy lekko przesun\u0105\u0107 wej\u015bcie w kierunku lokalnie preferowanym przez neuron docelowy i ponownie obliczy\u0107 pullback. Powt\u00f3rzenie tego przez kilka krok\u00f3w daje <em><strong>Pullback Ascent<\/strong>.<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Jest to analogiczne do gradient ascent, ale z kluczow\u0105 zmian\u0105: poruszamy si\u0119 w kierunku pullbacku, a nie gradientu.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">R\u00f3\u017cnica jest widoczna go\u0142ym okiem. Gradient ascent w nowoczesnych sieciach cz\u0119sto tworzy zaszumione wzorce przypominaj\u0105ce perturbacje adwersaryjne. Pullback Ascent cz\u0119\u015bciej ujawnia sp\u00f3jne i zrozumia\u0142e dla cz\u0142owieka struktury warunkowane klas\u0105 wyj\u015bciow\u0105. Wzmacnia lokalnie preferowany kierunek neuronu docelowego, zamiast jedynie amplifikowa\u0107 surow\u0105 wra\u017cliwo\u015b\u0107 na perturbacje.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dzi\u0119ki temu metoda jest u\u017cyteczna nie tylko dla atrybucji, ale tak\u017ce dla lokalnych kontrfaktycznych przyk\u0142ad\u00f3w. Mo\u017cemy zapyta\u0107: co musia\u0142oby sta\u0107 si\u0119 bardziej widoczne na tym obrazie, aby model przesun\u0105\u0142 predykcj\u0119 w stron\u0119 innej klasy? Pullback Ascent daje na to zrozumia\u0142\u0105 dla cz\u0142owieka odpowied\u017a.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Potwierdzenie empiryczne<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">W eksperymentach na standardowych pretrenowanych modelach wizyjnych, obejmuj\u0105cych zar\u00f3wno architektury konwolucyjne, jak i modele transformerowe, Semantic Pullbacks daj\u0105 wyja\u015bnienia bardziej wierne, stabilne i specyficzne wzgl\u0119dem&nbsp;klasy docelowej, a przy tym znacznie bardziej sp\u00f3jne wizualnie ni\u017c standardowe baseline\u2019y oparte na gradientach.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Najwa\u017cniejszy wynik jest jednak konceptualny: gradienty nie s\u0105 jedynym naturalnym sygna\u0142em wstecznym w deep learningu. Je\u015bli chcemy zrozumie\u0107, co \u201ewidzi\u201d sie\u0107 neuronowa, nie powinni\u015bmy pyta\u0107 wy\u0142\u0105cznie o to, jak wynik zmienia si\u0119, gdy zmienia si\u0119 wej\u015bcie. Powinni\u015bmy zapyta\u0107, jaki kierunek w przestrzeni wej\u015b\u0107 reprezentuje aktualne obliczenie sieci dla neuronu docelowego.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Tym kierunkiem jest Semantic Pullback.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Wsp\u00f3lna perspektywa na wyja\u015bnialno\u015b\u0107 g\u0142\u0119bokich sieci<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Jednym z najciekawszych rezultat\u00f3w tej pracy jest to, \u017ce Semantic Pullbacks \u0142\u0105cz\u0105 kilka idei, kt\u00f3re wcze\u015bniej wygl\u0105da\u0142y na odr\u0119bne. To po\u0142\u0105czenie jest jednak bardziej konkretne ni\u017c proste stwierdzenie, \u017ce wszystkie te metody \u201epoprawiaj\u0105 gradienty\u201d.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"http:\/\/semanticscholar.org\/paper\/cb7738a3b0a7df34d4febee9295b08d835f98e10\" rel=\"nofollow noopener\" target=\"_blank\">B-cos<\/a> modele s\u0105 szczeg\u00f3lnie bliskie naszej perspektywie. One ju\u017c u\u017cywaj\u0105 standardowego pullbacku jako wyja\u015bnienia: przenosz\u0105 kierunek wyj\u015bciowy wstecz przez efektywny operator liniowy sieci. Jednak autorzy dodatkowo modyfikuj\u0105 model i dodaj\u0105 cele alignmentowe podczas treningu, aby standardowy pullback by\u0142 lepiej wyr\u00f3wnany z wej\u015bciem.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Semantic Pullbacks wybieraj\u0105 inn\u0105 drog\u0119. Nie zmieniamy forward pass i nie douczamy modelu. Zamiast tego obliczamy lokalnie oczekiwany pullback bezpo\u015brednio na standardowym, pretrenowanym modelu.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">To t\u0142umaczy tak\u017ce relacj\u0119 do metod wyg\u0142adzania gradient\u00f3w, takich jak SmoothGrad. Metody te mo\u017cna interpretowa\u0107 jako pr\u00f3b\u0119 odzyskania lokalnej warto\u015bci oczekiwanej przez pr\u00f3bkowanie zaszumionych zaburze\u0144 i u\u015brednianie otrzymanych wyja\u015bnie\u0144. Semantic Pullbacks d\u0105\u017c\u0105 do podobnego celu, ale aproksymuj\u0105 lokalnie oczekiwany pullback za pomoc\u0105 jednego, zmodyfikowanego backward pass, zamiast przez stochastyczne pr\u00f3bkowanie.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Z kolei Pullback Ascent \u0142\u0105czy t\u0119 metod\u0119 z <a href=\"https:\/\/arxiv.org\/abs\/2402.10039\" rel=\"nofollow noopener\" target=\"_blank\">feature accentuation.<\/a>&nbsp;Standardowo, metoda ta u\u017cywa gradient\u00f3w i dlatego zwykle wymaga silnej regularyzacji, aby unikn\u0105\u0107 zaszumionych wzorc\u00f3w. Zast\u0105pienie kierunku gradientu kierunkiem soft pullbacku daje bardziej sp\u00f3jn\u0105 procedur\u0119 lokalnego wzmacniania: dzieki temu nie polegamy na ci\u0119\u017ckim postprocessingu.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Istnieje te\u017c zwi\u0105zek z <a href=\"https:\/\/arxiv.org\/abs\/1706.06083\" rel=\"nofollow noopener\" target=\"_blank\">robust optimization.<\/a>&nbsp;Modele trenowane adwersaryjnie cz\u0119sto maj\u0105 bardziej sp\u00f3jne percepcyjnie gradienty, poniewa\u017c ich funkcje decyzyjne staj\u0105 si\u0119 bardziej lokalnie stabilne wok\u00f3\u0142 rozmaito\u015bci, na kt\u00f3rej \u017cyj\u0105 dane. Z naszej perspektywy jest to sp\u00f3jne z ide\u0105, \u017ce modele ucz\u0105 si\u0119 cech dopasowanych do wej\u015bcia niekoniecznie w pojedynczym punkcie, ale w lokalnej warto\u015bci oczekiwanej. Semantic Pullbacks ods\u0142aniaj\u0105 t\u0119 struktur\u0119 bez konieczno\u015bci kosztownej optymalizacji.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Szerszy mora\u0142 jest taki, \u017ce wiele skutecznych metod wyja\u015bniania mo\u017cna rozumie\u0107 jako r\u00f3\u017cne pr\u00f3by odzyskania stabilnego kierunku w przestrzeni wej\u015b\u0107, kt\u00f3ry reprezentuje dzia\u0142anie neuronu docelowego. Semantic Pullbacks czyni\u0105 ten obiekt jawnym: nie jako gradient, ale jako lokalnie oczekiwany pullback efektywnego obliczenia sieci.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Czy pullbacki powinny zast\u0105pi\u0107 gradienty?<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Dzi\u015b gradienty s\u0105 fundamentalnym komponentem bibliotek deep learningowych. Je\u015bli jednak g\u0142\u0119bokie sieci s\u0105 dynamicznymi systemami afinicznymi, to sprz\u0119\u017cone przenoszenie dzia\u0142ania neuronu powinno by\u0107 dost\u0119pne obok pochodnej. Innymi s\u0142owy, pullback powinien by\u0107 r\u00f3wnorz\u0119dnym elementem bibliotek, obok gradientu.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Nie wymaga\u0142oby to istotnego przeprojektowania sieci neuronowych. W wielu warstwach pullback i gradient ju\u017c si\u0119 pokrywaj\u0105. Dla warstw liniowych, konwolucji i po\u0142\u0105cze\u0144 rezydualnych standardowy backward pass wystarczy. Niewielkie r\u00f3\u017cnice pojawiaj\u0105 si\u0119 w stosunkowo ma\u0142ym katalogu mechanizm\u00f3w: bramkach, operacjach routingu, warstwach normalizacyjnych i attention.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dzi\u0119ki temu pomys\u0142 jest praktyczny. Semantic Pullbacks mo\u017cna zaimplementowa\u0107 jako opcjonalne regu\u0142y propagacji wstecznej, pozostawiaj\u0105c forward pass bez zmian. Mo\u017cna wr\u0119cz argumentowa\u0107, \u017ce je\u015bli pullbacki oka\u017c\u0105 si\u0119 lepsze dla optymalizacji, mog\u0105 pewnego dnia zast\u0105pi\u0107 gradienty tak\u017ce podczas treningu - skoro ju\u017c okaza\u0142y si\u0119 lepsze w generowaniu wyja\u015bnie\u0144.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Co dalej<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Semantic Pullbacks sugeruj\u0105 nowy spos\u00f3b pracy z przestrzeni\u0105 reprezentacji modelu. Poza atrybucj\u0105, Pullback Ascent mo\u017ce s\u0142u\u017cy\u0107 do badania, jakie struktury model kojarzy z neuronem, klas\u0105 albo wewn\u0119trzn\u0105 cech\u0105 (neuronem ukrytym). Mo\u017ce to wspiera\u0107 odkrywanie wiedzy w domenach naukowych (knowledge discovery), bardziej sensowne kontrfaktyczne przyk\u0142ady i interpolacje oraz lepsz\u0105 diagnostyk\u0119 b\u0142\u0119d\u00f3w modeli.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Te same pomys\u0142y naturalnie rozszerzaj\u0105 si\u0119 na tekst. Semantic Pullbacks mog\u0105 pomaga\u0107 w wydobywaniu evidence stoj\u0105cego za predykcj\u0105, identyfikowaniu struktur argumentacyjnych i generowaniu kontrfaktycznych wariant\u00f3w pokazuj\u0105cych, co musia\u0142oby si\u0119 zmieni\u0107, aby model wspiera\u0142 inn\u0105 tez\u0119, etykiet\u0119 lub odpowied\u017a.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Mog\u0105 te\u017c by\u0107 u\u017cyteczne w modelowaniu j\u0119zyka i modelowaniu multimodalnym. W przypadku modeli j\u0119zykowych, atrybucja oparta na pullbackach mo\u017ce wskazywa\u0107, kt\u00f3re tokeny, fragmenty tekstu albo wewn\u0119trzne cechy najmocniej ukszta\u0142towa\u0142y predykcj\u0119 nast\u0119pnego tokenu. W wideo i innych modalno\u015bciach sekwencyjnych ta sama idea mo\u017ce pom\u00f3c \u015bledzi\u0107, kt\u00f3re klatki, obiekty lub sekwencje wp\u0142ywaj\u0105 na kontynuacj\u0119 albo decyzj\u0119 modelu.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ta perspektywa mo\u017ce r\u00f3wnie\u017c wesprze\u0107 model editing, pruning i continual learning. Je\u015bli pullbacki ujawniaj\u0105, kt\u00f3re komponenty nios\u0105 sp\u00f3jne semantyczne evidence, mog\u0105 pom\u00f3c wskaza\u0107, kt\u00f3re cz\u0119\u015bci modelu s\u0105 u\u017cyteczne, redundantne, niestabilne albo odpowiedzialne za nowe zachowanie.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Kolejnym otwartym kierunkiem jest sam trening. <a href=\"https:\/\/arxiv.org\/abs\/2505.22074\" rel=\"nofollow noopener\" target=\"_blank\">Najnowsze prace<\/a> sugeruj\u0105, \u017ce zmiana backward passu mo\u017ce poprawia\u0107 uczenie. Semantic Pullbacks oferuj\u0105 szersz\u0105 interpretacj\u0119 tego zjawiska: sprz\u0119\u017cone sygna\u0142y wsteczne mog\u0105 dawa\u0107 czystsz\u0105 reprezentacj\u0119 kierunku, kt\u00f3rego neuron lokalnie u\u017cywa - zamiast miesza\u0107 go z efektami bramek, routingu, normalizacji czy attention. To ma potencja\u0142 poprawi\u0107 nie tylko wyja\u015bnienia, ale tak\u017ce sam\u0105 generalizacj\u0119.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Porozmawiajmy!<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Je\u017celi interesuj\u0105 Ci\u0119 Semantic Pullbacks, alternatywne backward passy, interpretowalno\u015b\u0107 modeli j\u0119zykowych albo trening i adaptacja oparte na pullbackach, odezwij si\u0119 do nas!<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong><em>Nota redakcyjna:<\/em><\/strong>&nbsp;Badania opisane w tym artykule zosta\u0142y przeprowadzone w <strong><em>Fundacja 314<\/em><\/strong> &nbsp;we wsp\u00f3\u0142pracy z American University i AGH University of Krak\u00f3w. Cogita publikuje ten artyku\u0142 jako zaprzyja\u017aniony partner w szerszej spo\u0142eczno\u015bci AI. Preprint pracy mo\u017cna znale\u017a\u0107 na <a href=\"https:\/\/arxiv.org\/abs\/2507.22832\" rel=\"nofollow noopener\" target=\"_blank\">arxiv,<\/a> a interaktywne demo na <a href=\"https:\/\/huggingface.co\/spaces\/msat\/SemanticPullbacks\" rel=\"nofollow noopener\" target=\"_blank\">HuggingFace<\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>","protected":false},"excerpt":{"rendered":"<p>Wprowadzenie<\/p>","protected":false},"author":2,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[48],"tags":[],"class_list":["post-2415","post","type-post","status-publish","format-standard","hentry","category-research"],"acf":[],"_links":{"self":[{"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/posts\/2415","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/comments?post=2415"}],"version-history":[{"count":24,"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/posts\/2415\/revisions"}],"predecessor-version":[{"id":2452,"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/posts\/2415\/revisions\/2452"}],"wp:attachment":[{"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/media?parent=2415"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/categories?post=2415"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cogita.ai\/pl\/wp-json\/wp\/v2\/tags?post=2415"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}