Ebook i audiobook dostępne w abonamencie bez dopłat od 25.08.2026
Oferta wyłącznie dla osób z aktywnym abonamentem Legimi. Uzyskujesz dostęp do książki na czas opłacania subskrypcji.
29,98 zł
14,99 zł
Najniższa cena z 30 dni przed obniżką: 29,98 zł
Gdzie dziś jest miejsce człowieka w świecie coraz bardziej zdominowanym przez sztuczną inteligencję?
Autor prowadzi nas przez kolejne obszary życia - od pozyskiwania i tworzenia informacji, ewolucji języka, rynku pracy i polityki, po relacje, pamięć i śmierć - pokazując, jak media generowane przez sztuczną inteligencję zmieniają relacje międzyludzkie, nasze emocje, sposób podejmowania decyzji, a nawet poczucie tożsamości.
Pisząc o rozwoju technologii, konsekwentnie stawia na pierwszym miejscu człowieka. Zamiast technicznego wykładu proponuje atrakcyjny storytelling - serię mocnych, reporterskich historii i kulturowych odniesień, które konfrontują czytelnika zarówno z obietnicami, jak i kosztami rzeczywistości, w której granica między światem prawdziwym i syntetycznym staje się coraz mniej widoczna.
To książka niezwykle aktualna, mierząca się z pytaniem: jak zachować podmiotowość w rzeczywistości, którą coraz częściej ktoś lub coś generuje za nas.
To nie jest kolejna opowieść o sztucznej inteligencji, lecz przenikliwa diagnoza świata, w którym rzeczywistość staje się negocjowalna, a „prawda” coraz częściej ma charakter syntetyczny. Autor prowadzi nas przez ten przełom z wyczuciem, pokazując, że stawką nie jest technologia, lecz człowiek, a dokładnie jego uwaga, emocje i zdolność odróżniania tego, co autentyczne, od tego, co tylko dobrze wygenerowane.
Prof. Aleksandra Przegalińska
Ebooka przeczytasz w aplikacjach Legimi na:
Liczba stron: 563
Rok wydania: 2026
Audiobooka posłuchasz w abonamencie „ebooki+audiobooki bez limitu” w aplikacjach Legimi na:
Copyright © by Mateusz Łabuz, 2026
Copyright © by Grupa Wydawnicza FILIA, 2026
Wszelkie prawa zastrzeżone.
Żaden z fragmentów tej książki nie może być publikowany w jakiejkolwiek formie bez wcześniejszej pisemnej zgody Wydawcy. Dotyczy to także fotokopii i mikrofilmów oraz rozpowszechniania za pośrednictwem nośników elektronicznych.
Wydanie I, Poznań 2026
Wstępny projekt okładki wykonany przy użyciu ChatGPT © Mateusz Łabuz
Opracowanie okładki © Brand Kingdom
Redakcja, korekta, skład i łamanie: Editio
Wydawczyni: Małgorzata Ochab
PR i Marketing: Karolina Czwojdzińska
ISBN: 978-83-8441-406-4
Grupa Wydawnicza Filia sp. z o.o.
ul. Kleeberga 2
61-615 Poznań
wydawnictwofilia.pl
Seria: FILIA NA FAKTACH
Trzy lata intensywnej nauki i niekończących się prób. Setki straconych gońców, wież i hetmanów. Jedna rozbita szachownica. Wszystko to, żeby wreszcie móc triumfalnie powiedzieć: „Mat!”. Doskonale pamiętam dzień, kiedy po raz pierwszy ograłem tatę w szachy. Gdy uścisnął mi dłoń i pogratulował wygranej, wiedziałem, że oto wkroczyliśmy w nowy rozdział naszej szachowej relacji, że nastąpił przełom i nic już nie będzie takie samo. Ten dzień stał się moją osobistą cezurą.
*
Mniej więcej w tym samym czasie w Nowym Jorku rosyjski arcymistrz szachowy Garri Kasparow po pięciu partiach remisował 2,5:2,5 ze stworzonym przez firmę IBM superkomputerem Deep Blue. Szósta partia miała rozstrzygnąć pojedynek. Wielokrotny mistrz świata popełnił w niej nietypowe dla siebie błędy, najwyraźniej próbując zaskoczyć maszynę nieszablonowymi posunięciami. Wiedząc, że mat jest kwestią kilku lub kilkunastu ruchów, Kasparow poddał partię i przegrał cały mecz. Komputer po raz pierwszy pokonał szachowego mistrza świata w turniejowej rozgrywce1.
Kasparow nie mógł podać ręki swojemu przeciwnikowi, a ten ani się nie cieszył, ani nie myślał o kolejnych wyzwaniach. Może gdyby w tamtych czasach istniały duże modele językowe, ChatGPT lub podobny mu algorytm skleciłby za Deep Blue kilka zdań podsumowania. Może nawet napisałby, że to dla niego najważniejszy dzień w życiu, starannie dobierając słowa wyrażające najgłębsze emocje. Albo, jak zawsze nadgorliwie pomocny, zaproponowałby Kasparowowi rozwijanie szachowego warsztatu.
Co robimy dalej, Garri?
Możemy teraz:
A. Prześledzić razem moją strategię.
B. Przeanalizować, gdzie popełniłeś błędy.
Napisz A lub B.
Daj znać, którą opcję wolisz.
Kasparow z 1997 roku raczej zamknąłby okno dialogowe. Sporo czasu zajęło mu pogodzenie się z porażką i przyznanie przed sobą samym, że faktycznie była przełomem. Cezurą dla nowej ery w relacjach człowiek – maszyna, do której obowiązkowo będzie się później odwoływać każda publikacja z historią sztucznej inteligencji w tle.
W udzielonym w 2024 roku wywiadzie stwierdził: „Wygłaszam wiele prelekcji i zawsze powtarzam, że to, co w 1997 roku było dla mnie przekleństwem, okazało się błogosławieństwem, ponieważ stałem się częścią czegoś naprawdę wyjątkowego. To był inspirujący moment dla informatyki. Naprawdę, bycie częścią czegoś takiego jest wspaniałe. Pomogło mi to również lepiej zrozumieć, że rywalizacja między ludźmi a maszynami wkrótce się skończy i nadszedł czas, aby szukać współpracy”2.
Kasparow z 2024 roku brzmiał całkiem przekonująco, ale odniosłem wrażenie, że potrzebował sporo samozaparcia, by przede wszystkim przekonać samego siebie, iż w 1997 roku warto było zmierzyć się z algorytmem od IBM.
Końcowa uwaga o konieczności współpracy z maszynami, która brzmi nieco jak godzenie się starego mistrza z rzeczywistością, ma jeszcze jeden wymiar. To parafraza klasycznej zasady: „jeśli nie możesz kogoś pokonać, dołącz do niego” (ang. if you can’t beat them, join them).
Blisko trzydzieści lat później, nie zdając sobie z tego sprawy, zaczynamy wcielać ją w życie na dużą skalę.
Więcej, szybciej, mocniej
Nie pamiętam, gdzie byłem 11 maja 1997 roku. Nie miałem pojęcia, że gdzieś daleko od naszej nowosądeckiej wioski Kasparow i Deep Blue pośrednio rozstrzygają o przyszłym kształcie relacji człowieka z technologią. I o wpływie technologii na przyszłość ludzkości.
To były tylko szachy, niby nic wielkiego w kontekście istotnych spraw świata – wojen, głodu i chorób. A jednak to właśnie poddana przez Kasparowa szósta partia meczu z Deep Blue była sygnałem, że algorytmy przekraczają kolejne granice i będą upominać się o obszary, w których to my, ludzie, mieliśmy być niepokonani, jedyni i wyjątkowi.
*
Historia ludzkości to pasmo nieustannego rozwoju technologicznego. Rozwoju, który w XX i XXI wieku przyniósł nam niemal całkowitą technologizację życia. Komputery, zaawansowane systemy wspomagające naszą pracę, telefony komórkowe czy internet. Szybsze procesory, większe zasoby danych. Zdigitalizowane urzędy obsługują nasze sprawy online. Półautonomiczne pojazdy jeżdżą już po naszych drogach. Inteligentne domy i urządzenia monitorujące zdrowie dbają o nasz komfort i bezpieczeństwo. Na horyzoncie pojawiają się humanoidalne roboty, które miałyby wyręczać nas w codziennych czynnościach.
Klasyczne prawo Moore’a oparte na badaniach, które w latach sześćdziesiątych przeprowadził amerykański informatyk i współzałożyciel korporacji Intel, Gordon Moore, mówi o podwajaniu się liczby tranzystorów w mikroprocesorach co 18–24 miesiące przy jednoczesnym zmniejszaniu ich rozmiaru3. Często prawo to jest utożsamiane wprost z tempem rozwoju technologicznego. Pędzimy do przodu i przebijamy kolejne bariery tego, co jeszcze niedawno wydawało się nieprawdopodobne lub wręcz niemożliwe. A przecież za kolejne dwa lata będziemy mogli dwa razy więcej, dwa razy szybciej.
W pędzie za postępem możemy przegapić, że właśnie zrobiliśmy kolejny „wielki krok dla ludzkości”4. Że wydarzyło się coś niezwykłego, nieodwracalnego, wyznaczyliśmy nową cezurę.
Takim momentem był 30 listopada 2022 roku. Dzień, w którym zadebiutował ChatGPT, stworzony przez OpenAI.
Pozornie zyskaliśmy wówczas nową technologię. W rzeczywistości – nowego współuczestnika życia społecznego. Algorytm, który całkowicie zmienił sposób, w jaki do tej pory wchodziliśmy w interakcje z maszynami. Wykonaliśmy technologiczny skok, który dotknął samego rdzenia komunikacji i poznania, dotąd zarezerwowanych niemal wyłącznie dla człowieka.
*
ChatGPT nie był pierwszym modelem przetwarzającym język naturalny. Duże modele językowe (nawet jeśli wówczas ich tak nie nazywano), oznaczane akronimem LLM od angielskiego large language models, były konsekwentnie rozwijane od ponad dekady i notowanych wówczas przełomów w badaniach nad sztucznymi sieciami neuronowymi. Są one jednym z fundamentów współczesnej generatywnej sztucznej inteligencji, określanej jako AI (od angielskiego terminu artificial intelligence). Generatywnej, czyli zdolnej do tworzenia nowych treści.
Wcześniejsze przełomy naukowe nie zainicjowały jednak tak gwałtownej zmiany w skali społecznego oddziaływania systemów zaprojektowanych do bezpośredniej interakcji językowej z człowiekiem. Nagle nie trzeba już było programować, by porozumiewać się z maszyną. Wystarczyło promptowanie, wydawanie poleceń w języku naturalnym5.
W listopadzie 2022 roku po raz pierwszy miliony ludzi mogły doświadczyć rozmowy z systemem, który nie tylko przetwarzał dane, lecz sprawiał wrażenie partnera w pisaniu, myśleniu i rozumieniu świata. Odpowiadał jak człowiek, zachowywał się jak człowiek. I, podobnie jak człowiek, mógł samodzielnie tworzyć informacje.
Zaledwie dwa miesiące po debiucie ChatGPT osiągnął barierę 100 milionów aktywnych użytkowników. Coś, co TikTokowi udało się w dziewięć miesięcy, a Instagramowi zajęło grubo ponad dwa lata. Rekord nie utrzymał się długo – podobny model, DeepSeek R1, zbudowany przez chińską firmę technologiczną DeepSeek, przebił granicę 100 milionów użytkowników w tydzień po publicznej premierze 20 stycznia 2025 roku6. W tym momencie jasne już było, że interakcje z dużymi modelami językowymi nie są jakąś technologiczną ciekawostką i stały się masowym nawykiem komunikacyjnym.
W ciągu ostatnich dwóch–trzech dekad zaawansowanie kolejnych algorytmów przeszło drogę od poziomu marzeń wizjonerów do rzeczywistej technologii, która kształtuje naszą codzienność i dotyka niemal każdego aspektu życia. W drugiej połowie 2025 roku ChatGPT notował już niemal 800 milionów użytkowników dziennie, którzy w ciągu tygodnia wysyłali 18 miliardów wiadomości. To 10% całej populacji, 107 milionów wiadomości na godzinę i blisko 30 tysięcy wiadomości na sekundę7.
Miliony ludzi na całym świecie zaczęły traktować rozmowę z algorytmem jak codzienną czynność, tak naturalną jak wysłanie SMS-a czy rozmowa telefoniczna.
Dwie rewolucje informacyjne
ChatGPT, największy i najpopularniejszy duży model językowy, to symbol istotnej zmiany tego, w jaki sposób pozyskujemy wiedzę i w jaki sposób mogą powstawać informacje. Izraelski historyk Yuval Noah Harari w transformacji formy tworzenia informacji dopatruje się kluczowej rewolucji związanej z rozwojem sztucznej inteligencji. Jak argumentuje, historycznie ludzie chętnie posługiwali się wspólnymi mitami, aby móc funkcjonować jako zbiorowość8. Z różnych względów „opowieści”, choćby były fikcyjne, podnoszono do rangi „wspólnych prawd” – czasem objawionych, czasem narzuconych, a czasem wypracowanych w toku społecznych negocjacji. Niezależnie od tego, czy te „prawdy” miały swoje źródło w religii, tradycji, naukowych obserwacjach czy nakazach władzy, służyły do budowania istotnych więzi społecznych, a ludzie mieli monopol na ich generowanie i interpretowanie.
Pojęcie prawdy nie było jednak oczywiste i nawet najbardziej utrwalone poglądy mogły zostać zakwestionowane. Ewoluowały wraz z rozwojem kultury, nauki, a także technologii. Wraz z progresem narzędzi prezentowania świata zmieniał się także sposób, w jaki świat mógł być pojmowany i interpretowany. Pierwsi malarze jaskiniowi w Europie postrzegali malowane przez siebie zwierzęta jako część rytuału, który pomagał im w komunikacji, ale i oswajaniu rzeczywistości. Tysiące lat później najpierw pismo, a potem druk pozwalały społeczeństwom zachować wiedzę dla przyszłych pokoleń i opisywać świat słowami. Fotografia i film wyniosły naszą zdolność dokumentowania rzeczywistości na jeszcze wyższy poziom.
Na ludzkość czekały jednak pułapki – interpretacji, subiektywizmu, czasem celowej manipulacji. Informacja od zawsze była bowiem narzędziem, a wyobrażanie i rekonstruowanie rzeczywistości – potrafiliśmy ją coraz lepiej rozumieć i opisywać – stawało się coraz bardziej swobodne i płynne. Nie zostaliśmy bowiem zaprogramowani do posługiwania się wyłącznie prawdą.
Nawet produkowanie tzw. fake newsów nie było zjawiskiem, które narodziło się w XXI wieku. Oszukiwanie i dezinformacja towarzyszyły nam od zawsze, zmieniając jedynie formy i narzędzia.
Co jednak istotne, przez stulecia to ludzie decydowali o tym, co zostanie powiedziane, napisane i w jaki sposób zostanie to przedstawione odbiorcom.
*
Sytuacja zaczęła się diametralnie zmieniać wraz z rozwojem internetu i powstaniem mediów społecznościowych, które wpłynęły nie tylko na tempo obiegu informacji, lecz również na sposób ich selekcji i prezentacji. Zaczęliśmy żyć strumieniem treści tworzonych w czasie rzeczywistym przez miliony użytkowników, które wymykały się klasycznym mechanizmom kontroli. Kluczową rolę w ich wyświetlaniu odgrywały z kolei systemy rekomendacyjne oparte na sztucznej inteligencji.
Przez tysiące lat to władze, kościoły czy media decydowały, jakie informacje do nas docierają, pełniąc rolę tzw. gate-keeperów – swego rodzaju „strażników informacji”. Instytucje te mogły się mylić i wykorzystywać swoją siłę do kolportowania określonej ideologii, ale przynajmniej częściowo działały jako filtry i narzędzia kontroli jakości9.
Pierwsza istotna rewolucja informacyjna związana z rozwojem sztucznej inteligencji nadeszła zatem nie wtedy, gdy straciliśmy monopol na tworzenie informacji, lecz wtedy, gdy algorytmy zaczęły decydować o tym, co widzimy, czytamy i jak to interpretujemy, odbierając w tym zakresie palmę pierwszeństwa ludziom i stworzonym przez nich instytucjom. W teorii chodziło o personalizację treści, a więc ich lepsze dopasowanie do naszych oczekiwań i zainteresowań. W praktyce to algorytmy zaczęły przejmować rolę gatekeeperów, decydując o tym, co będzie nam pokazywane częściej, a co zginie niewidoczne w niekończącym się potoku treści.
Zaczęło się od wyszukiwarek zaprogramowanych do promowania tych stron internetowych, które najlepiej wpisywały się w wewnętrzne, nie do końca jasne kryteria trafności. Często bardziej dopasowane do logiki maszyn niż do rzeczywistych potrzeb użytkowników. Z czasem ten model rozlał się na cały ekosystem informacyjny, tworząc środowisko, w którym to nie najważniejsze, najtrafniejsze i najlepsze treści zaczęły wyznaczać rytm naszej codziennej konsumpcji informacji, lecz te najbardziej „klikalne”.
Twórcy internetowych platform, w szczególności mediów społecznościowych, szybko zrozumieli znaczenie „klikalności”. Paliwem okazały się emocje, a nie informacje. Na samym szczycie hierarchii celów architekci nowych mediów postawili naszą uwagę, zaangażowanie i czas spędzany na platformach, łącząc to z generowaniem dochodów, głównie z wyświetlanych nam reklam. To z tego powodu algorytmy karmią nas dzisiaj treściami wywołującymi silne emocje, skandalicznymi, a często wprost fałszywymi, umiejętnie wykorzystując nasze zainteresowanie i wciągając nas w świat monetyzacji czasu i uwagi10.
Taki model prezentowania treści zaczął oddziaływać także na nasze zachowanie. Na przestrzeni wieków jednostki regularnie podlegały ocenom. Nigdy wcześniej jednak nasze zaangażowanie i zachowanie nie były tak systematycznie i konsekwentnie kwantyfikowane. Liczba lajków, komentarzy, udostępnień jest współcześnie istotnym miernikiem sukcesu i przepustką do kolejnych osiągnięć. I tutaj rolę drogowskazu przejęły na siebie algorytmy premiujące widoczność, wciągając nas w pułapkę uzależniania własnej wartości od cyfrowych wskaźników będących rzekomym świadectwem tego, kim jesteśmy i do czego powinniśmy aspirować. A przy tym przesuwają kolejne granice oczekiwań czy osiągnięć i dopingują nas do ich nieustannego przekraczania.
Jeszcze przed pojawieniem się ChataGPT i jemu podobnych modeli językowych doszło więc do przełomu: ludzie stracili wyłączność na selekcję informacji. To pierwszy z dwóch fundamentalnych zwrotów związanych z rozwojem sztucznej inteligencji – przejęcie kontroli nad dystrybucją informacji przez systemy napędzane algorytmami rekomendacyjnymi.
Drugi miał nadejść wraz z rozwojem generatywnej sztucznej inteligencji, choć tutaj w dwóch powiązanych ze sobą wymiarach obejmujących: zniesienie monopolu człowieka na tworzenie informacji, jak widzi to choćby Harari, i powstanie możliwości kreowania alternatywnych rzeczywistości przez algorytmy lub z ich wydatnym udziałem. Ten drugi zwrot i jego konsekwencje – związane z rozwojem generatywnej sztucznej inteligencji i mediów syntetycznych – stoją w centrum zainteresowania tej książki.
Głęboka fałszywość
W kwietniu 2018 roku w internecie zaczęło krążyć nagranie wideo, na którym Barack Obama przestrzegał przed zagrożeniami związanymi z dezinformacją. Do pewnego momentu wszystko wyglądało naturalnie – ot, kolejna próba budowania społecznej świadomości wobec narastającego problemu fałszywych treści rozpowszechnianych online. Nagle jednak były prezydent USA powiedział coś, co nie przystawało do jego stylu i powściągliwego tonu. Obama, niezależnie od tego, co myślał o swoim następcy, prawdopodobnie nigdy publicznie nie nazwałby Donalda Trumpa „kompletnym idiotą”. Powód tej zmiany tonu stał się jasny, gdy na ekranie pojawił się filmowiec Jordan Peele, ujawniając, że głos i twarz Obamy zostały odtworzone przez sztuczną inteligencję, a twórcą całej wypowiedzi był on, a nie prawdziwy Obama11. Celem niezwykle sugestywnego eksperymentu było ostrzeżenie świata przed nowym rodzajem wizualnej manipulacji, który dzisiaj powszechnie znamy pod nazwą deepfake, co na język polski można by dosłownie przełożyć jako „głęboką podróbkę”.
Pierwsze komentarze internautów pod filmem Peele’a wyrażały coś między niepokojem i fascynacją możliwościami nowej technologii, która pozwala odtworzyć dowolną postać i włożyć jej w usta słowa, których nigdy nie powiedziała. A przecież przez ponad sto lat nagrania wideo były uznawane za wiarygodne odzwierciedlenie rzeczywistości i służyły za kluczową formę dokumentacji zdarzeń. Nasze podejście do mediów było konsekwentnie budowane na zaufaniu w to, co widzimy, oraz na założeniu, że „kamera nie kłamie”.
Nagle to założenie straciło rację bytu. Klasyczne przekonanie, że „widzieć znaczy wierzyć” (z ang. seeing means believing) zaczęło tracić swoją moc12.
*
Trudno powiedzieć, w którym dokładnie momencie zaczęła się historia syntetycznych – a więc tworzonych lub współtworzonych przez sztuczną inteligencję – mediów. W ciągu ostatniej dekady stały się integralną częścią środowiska informacyjnego i wyznaczają jeden z punktów zwrotnych rozwoju technologii. Wydawać by się mogło, że mieliśmy wystarczająco dużo czasu, by przygotować się na nową rzeczywistość, w której tworzone przez człowieka treści będą współdzielić przestrzeń z tymi generowanymi przez maszyny, a nasz monopol na tworzenie informacji będzie zagrożony. Możliwe jednak, że przegapiliśmy kilka sygnałów ostrzegawczych, bagatelizując ich znaczenie i szeroko otwierając drzwi przed tym, w czym upatrywaliśmy postępu.
Niektórzy praźródeł takiego stanu rzeczy szukaliby w latach pięćdziesiątych i pracach pionierów sztucznej inteligencji, którzy już wtedy zakładali, że docelowo będzie ona w stanie samodzielnie tworzyć treści. Pierwsze chatboty pozwalające na imitowanie rozmowy z drugim człowiekiem powstały zaledwie dekadę później i, mimo swoich ograniczonych możliwości, już wtedy były w stanie wyprowadzić w pole przynajmniej część interagujących, a więc wchodzących z nimi w interakcje użytkowników13. Inni stopniowej syntetyzacji tworzonych treści doszukiwaliby się w pierwszych filtrach pozwalających na automatyczne korekty obrazu uwiecznianego okiem aparatu. Co bardziej dociekliwi w poszukiwaniu źródeł trafiliby do Japonii, gdzie w latach dziewięćdziesiątych prawdziwym hitem okazały się Purikura, maszyny do robienia selfie, które prócz uchwycenia twarzy były w stanie dokleić wizualne nakładki, pierwowzór dzisiejszych filtrów14. Pozornie Purikura były tylko fotobudkami, które dzisiaj nie są niczym niezwykłym. Pełniły jednak istotną rolę społeczną, pokazując, jak chętnie sięgamy po ulepszoną wersję siebie. W tych małych kabinach rodziło się coraz śmielsze oczekiwanie, że obraz powinien być nie tylko prawdziwy, dostępny od ręki, ale też trochę lepszy od oryginału.
Być może jeszcze ważniejsze były przełomy w kinematografii, gdzie efekty specjalne i obrazy generowane komputerowo oswajały nas z istnieniem rzeczywistości, których nigdy nie było. Przez wiele lat komputery wspomagały proces produkcji, będąc przede wszystkim narzędziem w rękach filmowców.
Z czasem jednak zaczęliśmy tracić pełną kontrolę, mniej lub bardziej świadomie przenosząc odpowiedzialność na maszyny i algorytmy. Filtry upiększające i automatyczne korekty obrazu stały się naturalnym elementem wyrażania nas samych. Tego typu narzędzia są dzisiaj powszechnie zintegrowane z aparatami i kamerami i stanowią stałe tło naszych cyfrowych tożsamości.
W pewnym więc sensie syntetyczny świat zaczął się od naszych własnych twarzy i od pokusy tworzenia lepszych wersji siebie. Drzwi do zrealizowania tych pragnień otworzyły nam nowe technologie. Kumulatywnie stały się one narzędziem subtelnego warunkowania psychologicznego i z czasem zmieniły nasze oczekiwania i wyobrażenia. Wobec siebie, innych, a nawet wobec tego, co w ogóle oznacza być człowiekiem.
Być może nieco nieświadomie oddawaliśmy maszynom i algorytmom coraz więcej odpowiedzialności za to, jak wygląda cyfrowe odzwierciedlenie rzeczywistości, ufając, że odtworzą ją za nas szybciej i lepiej. Z czasem zaczęliśmy traktować ich podpowiedzi nie jako sugestie, lecz jako domyślne ustawienia dla rekonstruowanego w ten sposób świata. Pożądaną wersję tego, jak powinny wyglądać obrazy, twarze czy wydarzenia. Deepfake’i, takie jak ten wyprodukowany przez Jordana Peele’a, były zatem naturalną konsekwencją coraz większej swobody w kreowaniu alternatywnych rzeczywistości. Nowe technologie stały się katalizatorem naszego pragnienia rekonstruowania świata bez konieczności zmieniania nas samych, tworząc alternatywy równie łatwo, jak kiedyś wierne kopie.
Długość dźwięku samotności
„Znowu w życiu mi nie wyszło…” – śpiewał kiedyś Myslovitz, a „Długość dźwięku samotności” stała się hymnem pokolenia, które próbowało oswoić własną kruchość. W tamtych czasach samotność miała swoją temperaturę, swój rytm i swój dźwięk – zapisany w muzyce, relacjach i niewypowiedzianych słowach.
Dokładnie taką podpowiedź dostałem od ChataGPT, gdy zapytałem go, jak zinterpretowałby kultowy hit Myslovitz zatytułowany „Długość dźwięku samotności”. Ten krótki akapit wypluty przez model językowy może stanowić zgrabne podsumowanie tego, dokąd zaprowadziłaby nas generatywna sztuczna inteligencja, gdybyśmy dzisiaj bezgranicznie jej zaufali.
„Znowu w życiu mi nie wyszło” nie ma przecież nic wspólnego z Myslovitz. To słowa otwierające jeden z największych przebojów Budki Suflera, „Sen o dolinie”, który każdy miłośnik polskiego rocka rozpozna bez pudła. Ten oczywisty błąd, określany mianem „halucynacji sztucznej inteligencji”, to swego rodzaju znak naszych czasów i nowej, coraz bardziej naznaczonej przez syntetyczne treści rzeczywistości, w której musimy mozolnie nawigować, by móc oddzielić prawdę od fałszu, a coraz częściej także ludzi od maszyn.
Będąc nastolatkiem, faktycznie zasłuchiwałem się w muzyce oraz tekstach Myslovitz i po latach wciąż chętnie wracam do ich największego przeboju. Gdy rozpoczynałem pracę nad tą książką, w głowie dźwięczał mi fragment, w którym Artur Rojek śpiewa o „chemicznym świecie, pachnącym szarością, z papieru miłością…”.
Mój „syntetyczny świat”, o którym tak często będę pisał na kartach tej książki, to właściwie parafraza lirycznego ujęcia pewnej sztuczności, udawania, może nawet swego rodzaju syntetyczności lat dziewięćdziesiątych. Nawet jeśli wtedy nikt nie myślał jeszcze o kreowaniu swojego wizerunku w mediach społecznościowych, zmienianiu rysów twarzy za pomocą filtrów dostępnych w telefonach komórkowych czy zlecaniu sztucznej inteligencji wygenerowania hiperrealistycznych filmików z kotami grającymi na instrumentach muzycznych. Wówczas także okłamywaliśmy otoczenie i siebie samych, ale nie mieliśmy do dyspozycji całego przemysłu udawania, fałszu i cichego społecznego przyzwolenia na przekłamywanie rzeczywistości.
*
Właśnie dlatego „Długość dźwięku samotności” wraca do mnie w 2026 roku, przypominając mi o świecie lat dziewięćdziesiątych, w którym doświadczanie, choćby samotności, było procesem nienaznaczonym przez algorytmizację codzienności. Dziś samotność coraz częściej próbujemy zagłuszyć wirtualnymi emocjami, które mają wypełnić pustkę po tym, co od tysiącleci stanowiło fundament naszego życia – potrzebie wspólnoty, bliskości i bycia częścią grupy – a co ucieka nam w świecie indywidualizmu i internetowych zbiorowości.
Wyniki badań przeprowadzanych w ostatnich latach nie pozostawiają wątpliwości. Jesteśmy coraz bardziej samotni15. Wszystko to w dobie największych możliwości wymiany informacji, jakimi kiedykolwiek dysponowała ludzkość. W dobie internetu, telefonów komórkowych, mediów społecznościowych i niemal nieograniczonego połączenia komunikacyjnego, gdy interakcje z osobami znajdującymi się po drugiej stronie kuli ziemskiej można załatwić jednym kliknięciem. Paradoksalnie właśnie teraz naukowcy mówią o „epidemii samotności”, dla której nie znajdujemy rozwiązania16.
Coraz częściej o pomoc prosimy duże modele językowe. Tak bowiem łatwiej i wygodniej. Sztuczna inteligencja daje poczucie bycia wysłuchanym, nie potępia i nie ocenia. Jest pod ręką przez cały czas. A nam brakuje bezpiecznej przestrzeni do bycia sobą, bez konieczności ciągłego udawania. Żyjemy przecież w świecie nieustannego porównywania i podtrzymywania pozorów. W takim świecie łatwo uwierzyć, że rozmowa z algorytmem będzie mniej ryzykowna niż rozmowa z drugim człowiekiem.
Możemy śmiało założyć, iż odsetek osób zwracających się do sztucznej inteligencji z problemami i rozterkami będzie stale wzrastać, zwłaszcza wobec upowszechnienia algorytmów i ich rosnących zdolności prowadzenia angażujących konwersacji, a także coraz doskonalszych umiejętności imitowania empatii. Już w 2023 roku zespół badaczy z San Diego, Bryn Mawr i Baltimore udowodnił, że wypowiedzi ChataGPT naśladujące kontakt z pacjentem były oceniane przez badanych jako bardziej empatyczne niż wypowiedzi prawdziwych medyków17. Czyżbyśmy zostali pokonani także na tym polu?
W interakcjach z modelami językowymi szukamy nie tylko informacji czy wiedzy, ale i odpowiedzi na nurtujące nas pytania. Szukamy pomocy, rozwiązań naszych problemów, towarzystwa i poczucia bycia wysłuchanym. Nic zatem dziwnego, że rośnie odsetek osób, które wprost deklarują korzystanie ze sztucznej inteligencji w celu poprawy samopoczucia psychicznego, uzyskania wsparcia emocjonalnego czy wręcz porad o charakterze terapeutycznym18.
To niezwykły paradoks. W zafałszowanym świecie, którego podstawy kreują algorytmy – szukając ratunku i ucieczki – jeszcze głębiej wchodzimy w syntetyczny świat sztucznej inteligencji. A przecież od rewolucji generatywnej sztucznej inteligencji, dla której istotną cezurę wyznacza premiera ChataGPT 30 listopada 2022 roku, minęło ledwie kilkadziesiąt miesięcy. A my wciąż pędzimy do przodu. I chcemy więcej, szybciej, mocniej.
Czego bał się Joseph Weizenbaum?
Trudno powiedzieć, czy zafascynowani nową technologią pod koniec 2022 roku mogliśmy się spodziewać, że maszyny zaczną naśladować nasze uczucia, oferując nam współprzeżywanie, a także poczucie bliskości i zrozumienia. Czy byliśmy przygotowani na to, że emocjonalna interakcja z algorytmem stanie się dla wielu osób równie naturalna – a czasem nawet bardziej oczywista i pomocna – od rozmowy z drugim człowiekiem?
Świat nauki wysyłał nam konkretne ostrzeżenia. W 1966 roku Joseph Weizenbaum, amerykański informatyk pochodzenia niemieckiego, stworzył pierwszy w historii chatbot, któremu nadał imię ELIZA. Algorytm miał tworzyć pozory rozmowy i udawać, że rozumie ludzkie myśli i emocje. ELIZA odgrywała rolę psychoterapeutki19. Wyniki eksperymentu zaskoczyły samego Weizenbauma i skłoniły go do gruntownego przemyślenia jego podejścia do relacji ludzi z maszynami. Naukowiec zaobserwował bowiem, że nawet tak prymitywne urządzenie było w stanie wywołać w ludziach gwałtowne reakcje emocjonalne. Uczestnicy eksperymentu przypisywali ELIZIE niezwykłą głębię rozumienia zachodzących w nich procesów, doszukując się w niej ludzkiej, a może wręcz nadludzkiej inteligencji. Weizenbaum zaczął wkrótce ostrzegać przed uleganiem złudzeniom i pułapkom dostrzegania w algorytmach ludzkich cech, a wraz z nimi przed przyszłością, w której maszyny będą znacznie lepsze w udawaniu człowieka20.
Od tego czasu minęło blisko sześć dekad. Obserwacje Weizenbauma są jednak wciąż aktualne i mogą być kluczową przestrogą wobec rozwoju generatywnej sztucznej inteligencji, coraz większych zdolności konwersacyjnych dużych modeli językowych, naszej gotowości do budowania głęboko emocjonalnych interakcji z maszynami i dostrzegania w nich istot podobnych do człowieka.
*
W 1950 roku brytyjski matematyk Alan Turing zaproponował test, który miał weryfikować, czy maszyna może udanie naśladować człowieka. Przez lata stanowił on punkt odniesienia dla naukowców badających zdolności algorytmów. Turing wychodził z założenia, że jeśli ludzie nie będą potrafili odróżnić odpowiedzi algorytmu od wypowiedzi drugiego człowieka, będziemy mieli do czynienia z czymś, co można uznać za formę inteligencji na wzór ludzkiej.
Wyobraźmy sobie, że prowadzimy rozmowę tekstową, ale nie wiemy, czy po drugiej stronie znajduje się inny człowiek, czy komputer. Jeśli po zakończeniu dialogu nie potrafimy jednoznacznie wskazać, kto był naszym rozmówcą, w klasycznym ujęciu oznacza to, że maszyna „zdała” test Turinga21.
Dzisiaj te proste założenia wydają się już nieaktualne. W 2025 roku naukowcy z Wydziału Nauk Kognitywnych na Uniwersytecie Kalifornijskim w San Diego wykazali, że tak pomyślany test Turinga bez trudu zdał chatbot GPT-4.5, którego wypowiedzi uczestnicy eksperymentu oceniali jako ludzkie w 73% przypadków, zdecydowanie częściej niż wypowiedzi prawdziwych ludzi22. Nie są to wyniki zaskakujące. Nie potrafimy odróżnić tekstów wygenerowanych przez sztuczną inteligencję od tych, które napisał człowiek, a to tylko wierzchołek góry lodowej naszych (nowych) epistemicznych – a więc tych związanych z wiedzą i poznaniem – problemów.
Już w 2022 roku amerykańscy badacze Sophie Nightingale i Hany Farid dowiedli, że nie jesteśmy w stanie odróżnić twarzy prawdziwych od wygenerowanych przez sztuczną inteligencję. Ich artykuł kończył się ostrzeżeniem: „Zachęcamy osoby rozwijające te technologie do zastanowienia się, czy związane z nimi ryzyko nie przewyższa korzyści. Jeśli tak, to odradzamy rozwój technologii tylko dlatego, że jest to możliwe”23. Nie trzeba dodawać, że to wezwanie zostało zignorowane. Powtórzone w 2025 roku badanie odróżnialności twarzy prawdziwych od syntetycznych wykazało, że bez wyspecjalizowanych narzędzi jesteśmy po prostu bez szans24.
Uratować mogłyby nas dźwięki. Oczywiście, nie wszystkie. Sklonowane głosy od dawna są już nie do odróżnienia bez specjalistycznej wiedzy i oprogramowania. Co innego piosenki – tutaj sztuczna inteligencja była daleko za nami! Do czasu. W listopadzie 2025 roku francuski serwis streamingowy Deezer wykazał, że 97% użytkowników nie jest w stanie odróżnić muzyki tworzonej przez sztuczną inteligencję od tej, którą stworzył człowiek25. Kolejny bastion padł łupem algorytmów.
Jako ludzie musimy zatem zaakceptować to, co nieuniknione – współczesne algorytmy potrafią nas świetnie naśladować i zdobywają kolejne przyczółki tego, co kiedyś było domeną wyłącznie człowieka. Choć na przestrzeni siedmiu dekad rozwoju sztucznej inteligencji test Turinga stopniowo tracił na znaczeniu i był istotnie modyfikowany, także dzisiaj może być ciekawym punktem odniesienia – niekoniecznie tego, czy maszyna dorównuje człowiekowi, ale tego, w jakich obszarach człowiek może zostać oszukany przez maszynę i, dalej, jak się z tym czuje.
Syntetyczny świat
Gdyby archeolog z odległej przyszłości zaczął grzebać w cyfrowych ruinach pierwszej połowy XXI wieku, trafiłby na moment przełomu, w którym świat informacji tworzonych niemal wyłącznie przez człowieka zyskał nowego twórcę. W ciągu kilkunastu lat ten syntetyczny świat, nadzorowany przez algorytmy i wzmacniany przez miliardy codziennych interakcji ludzi z maszynami, zaczął przyćmiewać ten czysto ludzki.
Syntetyczne media zaczęły przenikać każdy wymiar życia – od sposobu tworzenia informacji po sposób wyrażania emocji i okazywania uczuć. Rzeczywistość, choć przecież kontestowana także w przeszłości, stała się przedmiotem dyskusji. Wszystko, co widzimy, słyszymy lub czytamy, może być dziełem sztucznej inteligencji. W dobie kryzysu zaufania do autorytetów, władz, mediów, ale także samej informacji, syntetyczne treści dokładają kolejną cegiełkę do poczucia zagubienia i niepewności.
Codziennie zdajemy grupowy test na spostrzegawczość i kolektywnie go oblewamy. Co gorsza, przestajemy czasem dbać o wynik tego testu, nierzadko biernie akceptując porażkę.
*
Ta książka zgłębia tę zmianę. Jest zaproszeniem do refleksji nad redefinicją prawdziwości i autentyczności. Przyglądam się temu, jak syntetyczna rzeczywistość lub jej elementy wpływają na nasze relacje, decyzje i rozumienie świata. Obserwuję, w jaki sposób syntetyczne media kształtują język, którym się posługujemy, i wartości, jakie wyznajemy. Analizuję, jak pozyskujemy wiedzę, skąd czerpiemy informacje, inspiracje i gdzie szukamy wsparcia. Zgłębiam psychologiczne aspekty wchodzenia w złożone interakcje z algorytmami generatywnej sztucznej inteligencji – kształtowanie i przeżywanie emocji, odczuwanie empatii, umiejętność radzenia sobie ze stratą.
Staram się odpowiedzieć na pytanie o przyszłość nas, ludzi, jako zbiorowości w świecie zdominowanym przez algorytmy. Zastanawiam się, czy etyczne współistnienie człowieka i technologii w sferze emocji jest możliwe i jaką przyjdzie nam za to zapłacić cenę. Syntetyczny świat jest młody, ale jego wpływ na nasze życie już jest dostrzegalny i stale rośnie. Potrzebujemy przestrzeni, aby zastanowić się nad konsekwencjami, zanim zachodzące transformacje staną się niewidoczne, znormalizowane, uznane za oczywiste i niepodlegające krytyce.
Celem tej książki nie jest demonizacja technologii. W kolejnych rozdziałach wielokrotnie podkreślam istotność zdobyczy technologicznych oraz ich wpływ na rozwój ludzkości. Wskazuję obszary, w których generatywna sztuczna inteligencja już okazała się bezcenna, umożliwiając nam kolejny skok cywilizacyjny i roztaczając obietnicę dalszych przełomów w nauce czy medycynie. Systemy sztucznej inteligencji przyspieszają odkrywanie leków, pomagają w diagnozowaniu chorób, zwiększają dostęp do wiedzy i oferują narzędzia ekspresji osobom, którym wcześniej ich brakowało. Mogą wzmacniać kreatywność, zwiększać produktywność i uwolnić wyobraźnię, którą kiedyś ograniczały nasze zdolności lub talent. Syntetyczny świat jest także światem możliwości i transformacji.
Jednak te same możliwości niosą ze sobą poważne zagrożenia. Pokolenie wychowane w dobie deepfake’ów, wirtualnych influencerów i dostępnych non stop chatbotów może już nie uważać rzeczywistości za świętą. Narzędzia, które pozwalają każdemu tworzyć własną wersję rzeczywistości, utrudniają utrzymanie zbiorowego porozumienia odnośnie do tego, co prawdziwe.
Syntetyczne media podważają fundamenty naszego wspólnego postrzegania i rozumienia świata. Aktorzy mający złe intencje mogą wykorzystać je jako narzędzia manipulacji politycznej, dyskredytowania i ośmieszania przeciwników, rozpowszechniania szkodliwych i dezinformujących treści. Mogą podważać nasze wartości i ideały. Negować autorytety. Demontować zaufanie do instytucji i demokracji. Mogą także uderzyć w samo serce naszej prywatności i poczucia integralności cielesnej, wykorzystując nasz wizerunek, choćby do wyłudzeń czy tworzenia niekonsensualnych treści o charakterze intymnym.
Zagrożenia drzemią także w samej relacji człowieka z maszynami. Póki co psychologiczny wpływ mediów syntetycznych na ludzi pozostaje słabo poznany. Tworzeni przez generatywną sztuczną inteligencję towarzysze życia czy chatboty-psychologowie świetnie symulują empatię, uczucia i ciepło w relacjach. Chociaż systemy te nie posiadają świadomości, ich emocjonalna płynność i sugestywność kształtują zachowania użytkowników, ich przywiązanie i postrzeganie samych siebie. W miarę jak te syntetyczne „persony” stają się coraz bardziej spersonalizowane i wiarygodne, wpływają na decyzje i wyznawane przez odbiorców wartości, często poza świadomością użytkowników.
W centrum tych procesów stoją zmiany związane z rozwojem technologii. Stoi także człowiek. I to właśnie człowiek jest głównym punktem odniesienia dla tej książki.
*
Moja opowieść zaczyna się w momencie, gdy równowaga między tym, co ludzkie, a tym, co syntetyczne, przechyla się nieodwracalnie. Opowiadam historię powstania mediów syntetycznych, ich rozprzestrzeniania się i tego, jak przeobrażają informacyjne, poznawcze i emocjonalne fundamenty funkcjonowania jednostek i społeczeństwa.
Przez większość naszego istnienia media służyły jednemu celowi: odwzorowywaniu. My, ludzie, mieliśmy nad nimi kontrolę. Stawialiśmy sobie zadanie coraz dokładniejszego odzwierciedlania rzeczywistości. Dziś zdajemy się pytać: „Jak szybko możemy stworzyć nową rzeczywistość w świecie cyfrowym?”.
W tej transformacji towarzyszą nam syntetyczne media i generatywna sztuczna inteligencja, która wyłania się – póki co – nie jako nowy, samoświadomy byt, czego chcieliby niektórzy techno-entuzjaści, lecz narzędzie konstruowania rzeczywistości, nad którym nie mamy już absolutnego nadzoru.
A to dopiero początek…
Syntetyczny… czyli jaki?
W kwietniu 2000 roku Sarah Ezekiel otrzymała informację, która była końcem życia, jakie znała. Dotychczas wszystko układało się u niej wspaniale, niedawno przekroczyła trzydziestkę, właśnie czekała na narodziny drugiego dziecka. Diagnoza nie pozostawiała jednak wątpliwości – stwardnienie zanikowe boczne, które miało pozbawić ją możliwości ruchu. Wkrótce choroba odebrała jej nie tylko zdolność poruszania się, ale i głos26.
Po okresie ciężkiej depresji Sarah postanowiła zacząć na nowo. Nie chciała w pełni zaakceptować bezradności, którą zgotowała jej choroba. Już w 2005 roku zaczęła spisywać swoje wspomnienia, używając wyspecjalizowanego oprogramowania EZ Keys, które pozwala osobom cierpiącym na stwardnienie zanikowe boczne na komunikowanie się ze światem27. Do generowania wiadomości wykorzystywane były subtelne ruchy podbródka, a później, wraz z rozwojem technologii, śledzenie ruchów gałek ocznych. Z podobnych rozwiązań korzystał słynny astrofizyk Stephen Hawking28.
Dla Sary komunikacja ze światem zewnętrznym była dopiero początkiem drogi. Możliwość odtwarzania ruchów gałek ocznych pozwoliła jej na malowanie obrazów. Sarah zaczęła także publicznie opowiadać o swoich doświadczeniach. Jej przykład stał się inspiracją dla innych chorych, którzy dzięki motywacji i energii kobiety zaczęli szukać własnych rozwiązań, by odzyskać przynajmniej częściową zdolność porozumiewania się ze światem. W 2025 roku generatywna sztuczna inteligencja pozwoliła Sarze wykonać jeszcze jeden krok. Na podstawie archiwalnych nagrań sprzed ponad trzydziestu lat udało się odtworzyć jej oryginalny głos. Jakość nagrań była fatalna, naukowcy dysponowali ledwie kilkoma sekundami wydobytymi ze starej kasety magnetowidowej. Technologia umożliwiła najpierw oczyszczenie dźwięku, a następnie skopiowanie głosu, który wówczas zsynchronizowano ze słowami generowanymi przez urządzenia komunikacyjne. Sarah Ezekiel znowu mogła mówić swoim głosem, a jej dzieci wreszcie mogły usłyszeć matkę29.
Nie byłoby to możliwe, gdyby nie ewolucja generatywnej sztucznej inteligencji.
*
U źródeł pokusy kopiowania i odtwarzania rzeczywistości może leżeć ludzkie pragnienie ożywiania martwej materii, które już w starożytności prowadziło do przełomów w dziedzinach dzisiaj określanych mianem robotyki. Nasi antyczni praprzodkowie próbowali tworzyć urządzenia, które miały się poruszać, śpiewać albo przynajmniej udawać, że są czymś więcej niż zestawem kółek i dźwigni wprawianych w ruch dzięki prostym zasadom mechaniki.
W III wieku przed naszą erą Ktesibios stworzył organy, które dzięki pneumatycznemu systemowi wtłaczania wody i powietrza były w stanie wydawać z siebie wielotonowe dźwięki. Ten grecki uczony karierę wynalazcy zaczynał w salonie fryzjerskim swojego ojca30. Tam zresztą skonstruował mu regulowane lustro. Później miał być pierwszym zarządcą Biblioteki Aleksandryjskiej i zostawił po sobie pisma, które wprawdzie nie przetrwały do czasów nowożytnych, ale za to natchnęły innych wynalazców epoki. Idący tropem Ktesibiosa, żyjący w I wieku naszej ery Heron zasłynął chociażby stworzeniem czegoś na kształt turbiny parowej, co dzisiaj wydaje się nieprawdopodobnym osiągnięciem, gdy uświadomimy sobie, że maszynę parową zbudował ostatecznie James Watt31 ponad tysiąc pięćset lat później, w drugiej połowie XVIII wieku.
Fascynacja poruszaniem nieożywionych przedmiotów była zresztą silnie zakorzeniona także w greckiej mitologii. W wyobrażeniach Greków prekursorem podobnych rozwiązań był Hefajstos. Jednym z jego wynalazków był Talos, ożywiony boską mocą olbrzym odlany z brązu, który strzegł Krety. Najwyraźniej Hefajstos upodobał sobie tego typu kreacje, gdyż spod jego ręki wyszła także ulepiona z gliny Pandora. Ta sama, która za sprawą otrzymanej w posagu puszki symbolizuje dzisiaj nieszczęścia i choroby. Adrienne Mayor, amerykańska historyczka specjalizująca się w czasach starożytnych, dostrzega w tych mitach próby wyrażenia ówczesnej potrzeby tłumaczenia świata, odkryć naukowych, ale i wzorce dla późniejszych przełomów w nauce, także tych w obszarze sztucznej inteligencji oraz robotyki32.
Gdy Ktesibios pracował nad organami parowymi (a może jeszcze strzygł klientów), cesarzowi z chińskiej dynastii Han przygrywała już automatyczna orkiestra. I tutaj mechanizm był oparty na piszczałkach, ale musiał robić kolosalne wrażenie. Tego typu wynalazki Heron opisywał jako automata, zmechanizowane urządzenia, które imitowały poruszanie się lub dźwięki33. Choć nie ma na to twardych dowodów archeologicznych, egipscy kapłani mieli wykorzystywać takie mechaniczne figurki, by wprawiać w osłupienie wiernych, a przy okazji wzmacniać w nich wiarę w nadprzyrodzone siły34.
Nawet jeśli dzisiaj określilibyśmy tego rodzaju cuda techniki raczej mianem teatrzyku kukiełkowego, w starożytności przenosiły one ludzi do innego wymiaru, tworząc pomost między tym, co ludzkie, a tym, co boskie. Być może pierwsze zalążki syntetyczności.
*
Jak jednak rozumieć pojęcie „syntetyczności”? W samym tylko wstępie terminu „syntetyczny” i jego wariantów użyłem ponad dwadzieścia razy. Określenie to nie jest jednoznaczne i współcześnie stwarza sporo problemów zarówno natury językowej, jak i prawnej, co dla naszych dalszych rozważań okaże się bardzo istotne. Jeszcze większe znaczenie będzie miało dla kancelarii specjalizujących się w prawie nowych technologii. Ustalenie tego, co znaczy „syntetyczny”, gdzie zaczyna się, a gdzie kończy granica „syntetyczności”, będzie jednym z fundamentów budowania przyszłych relacji człowieka z maszyną. I źródłem licznych sporów oraz analiz, za które trzeba będzie słono zapłacić.
Spróbujmy zatem własnymi siłami i choć przez chwilę pomęczmy się z teorią. W pierwszym kroku zwróćmy się w kierunku intuicji stricte językoznawczych. Słowo „syntetyczny” wywodzi się od greckiego sunthetikós (συνθετικός), co oznacza „wchodzący w skład czegoś, składowy”35. Internetowy słownik języka polskiego PWN rozwija nam nieco ten lapidarny opis, wymieniając trzy definicje:
„1. łączący w jedną całość lub obejmujący całość z pominięciem szczegółów,
2. będący jednolitą całością złożoną z różnych elementów,
3. otrzymywany sztucznie w wyniku syntezy chemicznej”36.
Żadna z propozycji nie odnosi się bezpośrednio ani do sztucznej inteligencji, ani do działań algorytmów. Warto natomiast odnotować, że w powyższych definicjach zwrócono uwagę na łączenie w całość różnych elementów, co – jak ustalimy w toku dalszych rozważań – będzie charakterystyczną cechą materiałów tworzonych przez generatywną sztuczną inteligencję. Jest jeszcze jeden istotny element. Choć słownikowych konotacji określenia „syntetyczny” należałoby w pierwszej kolejności szukać w terminologii chemicznej, w definicji pojawia się „sztuczność” rozumiana jako przeciwieństwo naturalności.
Podobnym tropem zmierzają popularne anglojęzyczne słowniki internetowe. Cambridge Dictionary wskazuje, że „produkty syntetyczne są wytwarzane ze sztucznych substancji, często naśladując produkt naturalny”37. Thesaurus, a więc słownik antonimów, dokłada kolejny klocek do układanki, uznając „ludzki”, a więc „stworzony przez człowieka”, za przeciwieństwo syntetycznego38.
*
Co ciekawe, w literaturze fachowej, nawet tej poświęconej wprost sztucznej inteligencji, o znaczeniu terminu „syntetyczne media” pisze się niewiele. Najwyraźniej przechodzi się nad nim do porządku dziennego, jakby był całkiem oczywisty, choć pomysły na klasyfikowanie syntetycznych mediów wcale jednoznaczne nie są. Z pomocą mógłby zatem przyjść język prawa, dbający przecież o precyzję, definicje i wytyczne interpretacyjne. Tyle że i tu zaskakiwać może cisza, a prawnicy – co do nich niepodobne – są wyjątkowo milczący.
W 2024 roku, po kilku latach burzliwych negocjacji i wielokrotnych zmianach treści, Unia Europejska przyjęła Akt w Sprawie Sztucznej Inteligencji (tzw. AI Act). To jedna z kluczowych inicjatyw regulacyjnych UE w ostatnich latach, mająca na celu zapewnienie bezpiecznego rozwoju i wdrażania technologii sztucznej inteligencji przy jednoczesnym wsparciu innowacji. Słowo „syntetyczny” przewija się w kilku miejscach w różnych kontekstach, ale nigdzie w liczącym bagatela 144 strony dokumencie nie zostaje jasno zdefiniowane. Jedyny trop stanowi paragraf będący częścią rozbudowanego wstępu złożonego ze 180 motywów, które zwyczajowo poprzedzają zasadniczą treść przepisów. Ich celem jest nie tylko wprowadzenie i nakreślenie tematu, ale również doprecyzowanie pewnych pojęć czy rozwiązań. Czasem jednak, zamiast rozwiewać wątpliwości, mogą być punktem wyjścia do kolejnej dyskusji, co nie jest wykluczone w przypadku przymiotnika „syntetyczny”.
Przytoczmy zatem przynajmniej część Motywu 133, by zweryfikować, jak unijny ustawodawca rozumie „syntetyczność” i co z nią wiąże:
Różne systemy AI mogą generować duże ilości treści syntetycznych, które stają się coraz trudniejsze do odróżnienia od treści generowanych przez człowieka i treści autentycznych. Szeroka dostępność i coraz większe zdolności tych systemów mają znaczący wpływ na integralność ekosystemu informacyjnego i zaufanie do niego, stwarzając nowe rodzaje ryzyka polegające na podawaniu informacji wprowadzających w błąd i na manipulacji na dużą skalę, oszustwach, podszywaniu się pod inne osoby i wprowadzaniu w błąd konsumentów. W świetle tych skutków, a także szybkiego tempa technologicznego oraz zapotrzebowania na nowe metody i techniki śledzenia pochodzenia informacji należy zobowiązać dostawców tych systemów do wbudowania rozwiązań technicznych, które umożliwiają oznakowanie w formacie nadającym się do odczytu maszynowego i wykrywanie, że wyniki zostały wygenerowane lub zmanipulowane przez system AI, a nie przez człowieka39.
Chociaż bez konkretnej definicji „syntetyczności”, unijne rozporządzenie może być pomocne w poszukiwaniu fundamentalnych znaczeń. Widzimy bowiem, że „treści syntetyczne” zostały zrównane z treściami generowanymi przez sztuczną inteligencję i odróżnione od tych, które są generowane przez człowieka, jak również od „treści autentycznych”, czymkolwiek by one nie były. Mamy zatem dychotomię w obszarze autorstwa. Człowiek kontra maszyna. Naturalne kontra sztuczne. Ludzkie kontra syntetyczne.
Ta logika będzie nam towarzyszyć na przestrzeni całej książki. Podobnie jak przekonanie, że syntetyzacja rzeczywistości wymaga gruntownej refleksji nad jej skutkami, do czego Motyw 133 rozporządzenia wzywa wprost, posługując się konkretnymi przykładami i sygnalizując przynajmniej część problemów, jakie pojawią się w kolejnych rozdziałach.
Pornograficzny innowator
Poranek 5 lutego 2021 roku był dla Sabriny Javellany końcem życia, jakie znała. Dostała właśnie prywatną wiadomość, z której wynikało, że ktoś właśnie publikuje jej zdjęcia online. Sabrina w wielkim napięciu zaczęła przeglądać kolejne linki. Fotografie faktycznie ją przedstawiały. Sama przecież wrzucała je do sieci. Coś jednak odróżniało je od znajomych kadrów – w przeciwieństwie do oryginałów, była na nich nago. Gdy Sabrina nerwowo przeglądała internet, odkrywając kolejne ujęcie odzierające ją z intymności, zdjęcia stały się już obiektem sporej liczby niewybrednych komentarzy. Niektórzy komentujący najwyraźniej znali dziewczynę osobiście i dzielili się nawet szczegółami dotyczącymi jej życia prywatnego40.
Sabrina, jak tysiące kobiet na całym świecie, padła ofiarą niekonsensualnej pornografii stworzonej z wykorzystaniem generatywnej sztucznej inteligencji. Oryginalne fotografie zostały „rozebrane cyfrowo” przez kogoś posługującego się łatwo dostępnym algorytmem.
*
Reddit jest jedną z najpopularniejszych stron internetowych na świecie. Przypomina klasyczne fora internetowe, na których zarejestrowani użytkownicy dzielą się ze sobą ciekawymi znaleziskami z sieci. Mogą także tworzyć coś na wzór mniejszych redditów – ministron internetowych z własną publicznością.
W 2017 roku jeden z takich subredditów, oznaczony nazwą „deepfakes”, zdobył sporą popularność, dobijając do granicy 90 tysięcy stałych odbiorców. Zarządzający nim użytkownik był pierwszym, który opublikował filmy pornograficzne prezentujące przerobione z wykorzystaniem sztucznej inteligencji wizerunki celebrytek. Za pomocą stosunkowo prostej techniki face-swap (zamiany twarzy) ich twarze nakładano na istniejące wcześniej nagrania, tworząc wrażenie, iż faktycznie występowały w tego typu produkcjach. Na cel wzięte zostały m.in. popularne aktorki Gal Gadot i Scarlett Johansson. Jakość syntezy nie była jeszcze porażająca, ale pamiętajmy, że mówimy o końcówce 2017 roku i domorosłych producentach syntetycznego porno, bez istotnego zaplecza technologicznego, którzy prawdopodobnie posługiwali się darmowymi bibliotekami uczenia maszynowego41. Łatwo dostępnymi w internecie, choć jeszcze mocno ograniczonymi pod względem efektów wizualizacji.
7 lutego 2018 roku administracja Reddita zaktualizowała regulamin serwisu. Zmieniono zasady dotyczące niekonsensualnej pornografii oraz treści seksualnych z udziałem nieletnich42. Subreddit „deepfakes” i podobne mu subreddity prezentujące zakazane odtąd treści zostały zablokowane. Było jednak za późno. Dziesiątki tysięcy odbiorców zdążyły już zobaczyć, do czego jest zdolna nowa technologia i jakie może znaleźć zastosowanie. Setki kolejnych anonimowych twórców poszły za przykładem prekursora z Reddita, doskonaląc przy okazji techniki produkcji syntetycznego porno. Wydaje się, że nie trzeba było daru jasnowidzenia, by zgadnąć, co wydarzy się dalej. Dziennikarka Samantha Cole, która pisała o deepfake’ach dla magazynu technologicznego „Vice” już w grudniu 2017 roku, natychmiast wyczuła, co się święci. Swój tekst zatytułowała jasno i wystarczająco wymownie, by czytelnicy mogli wyciągnąć wnioski na przyszłość: „Oto fałszywe porno napędzane przez sztuczną inteligencję i teraz wszyscy jesteśmy w dupie”43.
Minęło osiem lat. Cole nie pomyliła się ani trochę. Co więcej, już wtedy zdiagnozowała problem, który miał trwale naznaczyć historię deepfake’ów: „Łatwo sobie wyobrazić programistę-amatora, który tworzy własny algorytm, aby nagrać seks-taśmę z kimś, kogo chce nękać”44. Tym „kimś” może być dzisiaj absolutnie dowolna osoba, o czym Sabrina Javellana i dziesiątki tysięcy skrzywdzonych kobiet na całym świecie wiedzą najlepiej.
Użytkownik o pseudonimie „deepfakes”, którego nie udało mi się zidentyfikować, dał zatem nazwę całej technologii, która tak istotnie wpłynęła na środowisko informacyjne i postrzeganie możliwości sztucznej inteligencji. Oczywiście, za stworzeniem mechanizmów uczenia maszynowego stał ktoś inny. Deepfakes wpadł jednak na pomysł, jak jeszcze można je wykorzystać.
Pornograficzny innowator korzystał z przełomowych rozwiązań, które w drugiej dekadzie XXI wieku zaczęły zdobywać popularność i wyznaczać kierunki rozwoju sztucznej inteligencji. W tym czasie technologie oparte na uczeniu maszynowym i głębokich sieciach neuronowych były rozwijane już od kilkudziesięciu lat. Wymaga to od nas przyjrzenia się drodze, jaką algorytmy przeszły do momentu, gdy zaczęły produkować hiperrealistyczne, nieodróżnialne od rzeczywistości treści na skalę masową, oraz podstawowym rodzajom syntetycznych mediów.
Między hiperrealizmem a zabawą
Syntetyczne media nie są bowiem jednorodne. To zbiorcze określenie odnosi się do pewnej grupy, a i w jej ramach możemy wyróżnić umowne podzbiory. I tak, deepfake’i są niewątpliwie jednym z nich, choć i tutaj należałoby dokonać pewnego rozróżnienia. Obejmują bowiem statyczne obrazy, filmy oraz wygenerowane przez sztuczną inteligencję głosy. W grę wchodzą zatem materiały audio, wizualne lub audiowizualne.
Taki podział zdaje się dominować w pracach naukowców i jest już w pewnym sensie ugruntowany prawnie. Wybrane kraje, dostrzegając istotne zagrożenia związane z rozwojem deepfake’ów, zdążyły wprowadzić pewne mechanizmy zabezpieczające, do których wrócę w części poświęconej regulacjom.
Siłą rzeczy, szczególnie po 2024 roku i w samym unijnym Akcie w Sprawie Sztucznej Inteligencji, pojawiły się pierwsze definicje. Żadna z nich nie jest uniwersalna, ale naukowcy i prawnicy (a to szczególnie ważne) zdają się zgadzać odnośnie do tego, że deepfake’i to syntetyczne (wyprodukowane lub zmanipulowane przez sztuczną inteligencję) media, które mogą przybierać formę obrazów, filmów i materiałów dźwiękowych. Odznaczają się potencjałem wprowadzania odbiorców w błąd w kwestii prawdziwości lub autentyczności treści.
Ten ostatni aspekt jest istotny dla naszego umownego podziału syntetycznych mediów. Obrazy czy filmy wyprodukowane przez sztuczną inteligencję niekoniecznie muszą być przecież hiperrealistyczne.
*
25 marca 2025 roku firma OpenAI uruchomiła możliwość generowania przez ChatGPT zdjęć w stylu japońskiego studia animacyjnego Ghibli, twórców takich dzieł jak „Mój sąsiad Totoro”, „Spirited Away: W krainie bogów” czy „Ruchomy zamek Hauru”. Każde z nich jest dzisiaj uznawane za absolutną klasykę i wyróżnia się unikatowym stylem – nie tylko w opowiadaniu głęboko symbolicznych historii o ludziach i zachodzących w nich procesach, ale także w wizualizacji wykreowanych światów i postaci. Krótko po wprowadzeniu nowej funkcjonalności świat ogarnął szał generowania ghiblipodobnych obrazków, dla których podstawą syntezy były portrety samych użytkowników. Niemal każdy chciał, by jego twarz została zanimowana przez ChatGPT, a następnie trafiła do mediów społecznościowych. Ten owczy pęd za ghiblizacją zdjęć był nakręcany przez masowość zjawiska.
CEO OpenAI, Sam Altman, już dwa dni po premierze informował na X: „To super, że ludzie kochają obrazki w ChatGPT. Ale nasze procesory graficzne się topią. Tymczasowo wprowadzamy pewne limity przepustowości, pracując nad zwiększeniem wydajności. Mamy nadzieję, że to nie potrwa długo!”45. Procesory wytrzymały. Wkrótce zainteresowanie użytkowników osłabło, ale chwilowe szaleństwo na punkcie syntetyzacji własnych zdjęć było mocnym sygnałem ostrzegawczym, zarówno na poziomie infrastrukturalnym, jak i społecznym.
Jeden z założycieli studia Ghibli, Hayao Miyazaki, wypowiedział się na temat koszmarków generowanych z pomocą ówczesnej wersji sztucznej inteligencji już w 2016 roku. Nazwał je wówczas „obrazą dla życia” i zadeklarował, że on sam nie wdrożyłby podobnej technologii do swojej pracy. Trudno się spodziewać, by dziesięć lat później zalew wypluwanych przez ChatGPT grafik miał zmienić jego pogląd na tę sprawę. Zwłaszcza że żerowały wprost na jego artystycznym dorobku, a ani twórcy algorytmów, ani promptujący użytkownicy niespecjalnie przejmowali się prawami autorskimi46.
*
Ghiblizacja symbolicznie oddaje zawartość drugiej kategorii syntetycznych mediów. Obejmuje ona zatem dokładnie te same elementy – obraz i dźwięk – co deepfake’i, ale poniżej progu naśladowania rzeczywistości. Granica między jedną i drugą grupą jest oczywiście trudna do wyznaczenia. Coś, co jednej osobie wyda się „oczywistą” kreacją sztucznej inteligencji, dla innej może być wystarczająco realistyczne, by zostało uznane za prawdziwe. Jeśli w 2026 roku spędziliśmy choć chwilę na TikToku czy Facebooku, z pewnością trafiliśmy na obrazy, które znajdowały się na granicy. Niby coś nie grało, ale jednak wydawały się prawdziwe.
Niezależnie od cienkiej linii między deepfake’ami a wizualizacjami poniżej progu realizmu, jedno możemy odróżnić na pewno. Teksty produkowane przez sztuczną inteligencję także wchodzą w zakres nadrzędnego zbioru z etykietą „syntetyczne media”, ale stanowią kategorię odrębną od obrazów i dźwięków. W jej ramach mieszczą się produkty typowych dużych modeli językowych, gdy te operują wyłącznie na tekście. Tyle że i w tym wypadku technologia nie ułatwia klasyfikowania treści. Współcześnie część modeli potrafi bowiem przeskakiwać między różnymi modalnościami i od tworzenia tekstów płynnie przechodzić do generowania obrazów, a nawet wideo, czego ChatGPT i jego stworki w stylu Ghibli są dobrym przykładem.
Specyfika tekstów generowanych przez sztuczną inteligencję jest oczywiście inna niż wizualizacji czy dźwięków. O ile obraz i dźwięk biorą na cel nasze zmysły, podszywając się pod materialną rzeczywistość, teksty służą jej opisywaniu. Syntetyczny tekst wydaje się zdecydowanie mniej efektowny, może nawet niewinny. Jednak bagatelizowanie jego wpływu na odbiorców byłoby dużym niedopatrzeniem.
O ich perswazyjności jeszcze opowiem. W tym miejscu odnotujmy, że syntetyczne teksty mają jeszcze jedną właściwość, która odróżnia je od deepfake’ów. Granica między tekstem napisanym przez człowieka i tekstem napisanym przez maszynę jest niemal niedostrzegalna. Deepfake’i można próbować zdemistyfikować, szukając wizualnych wpadek, specyficznych artefaktów, nienaturalnych ruchów czy zniekształceń światła zdradzających syntezę. Jest to o wiele trudniejsze niż jeszcze kilka lat temu, ale wciąż możliwe, zwłaszcza z wykorzystaniem specjalistycznego sprzętu. Najlepsze rozwiązania do wykrywania syntezy zdają egzamin w nawet ponad 90% przypadków. Kiedy mamy do czynienia z tekstem, szanse istotnie maleją, podobnie jak prawdopodobieństwo, że duży model językowy popełni błąd na poziomie składni czy fleksji. Modele doskonale zacierają ślady syntetycznego pochodzenia tekstu, a odpowiednio „zmotywowane” potrafią uczynić tekst „jeszcze bardziej ludzkim”.
Mamy zatem deepfake’i, ich uboższych w realizm kuzynów w formie obrazów i dźwięków, oraz teksty. Zastanówmy się nad jeszcze jednym rodzajem syntetyczności, który nie mieści się wyłącznie w obrazie, dźwięku czy tekście i nie wpisuje się w tradycyjne rozumienie mediów. Mowa o immersyjnych środowiskach cyfrowych, przede wszystkim wirtualnej i rozszerzonej rzeczywistości47. Te środowiska nie tyle mają imitować czy odtwarzać rzeczywistość, ile ją zastępować poprzez budowanie alternatywnych przestrzeni, w których użytkownicy mogliby funkcjonować. Wirtualna rzeczywistość konstruuje nowy świat, który nigdy nie musiał istnieć i który rządzi się własną logiką i zasadami. To swego rodzaju totalna forma syntetyczności, w której generowane cyfrowo obrazy goszczą awatary – cyfrowe odpowiedniki ludzi – i otwierają drzwi do symulowanych interakcji. W takim środowisku granica między „ja” a „mój cyfrowy odpowiednik” zaczyna się całkowicie zacierać, ustępując immersji, czyli „zanurzeniu” w syntetycznym świecie.
Nie są to zatem media w klasycznym znaczeniu. Jednak wirtualna i rozszerzona rzeczywistość współtworzą pewien ekosystem syntetyczności, który już teraz jest złożony, wielowarstwowy i stale rozszerza zakres tego, co możliwe.
Najdoskonalszy wzorzec
Ktesibios czy Heron byli symbolami antycznej epoki postępu. Choć w średniowieczu nadal notowano technologiczny progres, dynamika odkryć istotnie zmalała. „Wieki ciemne” miały jednak stanowić pomost do epoki rozumu, w której koncepcje automata odżyły na nowo, a człowiek znów zaczął śmielej szukać naukowych inspiracji.
Rozwój mechanicznych konstrukcji, w tym tych zdolnych do odtwarzania dźwięku, był mocno skorelowany z postępami w budowie zegarów. Jak przypomina firma M.S. Rau: „Wraz z tworzeniem w XVII i XVIII wieku coraz bardziej złożonych mechanizmów zegarowych, zegarmistrzowie zwrócili uwagę na inne wyzwania w postaci automata, w tym wysuwane ptaki czy pozytywki. Te mechaniczne cuda wkrótce stały się niezwykle pożądanymi obiektami luksusowej rozrywki dla zamożnych, torując drogę dla wielkich osiągnięć technologicznych”48. Co ciekawe, niemal w tym samym czasie XVII-wieczny myśliciel Kartezjusz przenosił ideę maszyn do świata filozofii, argumentując, że zwierzęta – z całym swoim złożonym systemem bodźców, reakcji i odruchów – powinny być postrzegane jak skomplikowane automaty, nieomal na wzór trybów i przekładni, tyle że napędzanych siłami natury49. Choć idee Kartezjusza słusznie krytykowano, mogą być one dzisiaj punktem wyjścia do refleksji nad tym, jak funkcjonują organizmy ożywione, jakie procesy w nich zachodzą i co odróżnia je od rzeczywistych maszyn.
Wróćmy jednak do dźwięków. W XVIII wieku automaty budowane przez szwajcarskiego zegarmistrza Pierre’a Jacqueta-Droza zachwycały już nie tylko ruchem, lecz także precyzyjnie odwzorowywanymi tonami. „Mechaniczna organistka” imitowała grę, naciskając klawisze instrumentu, które z kolei pozwalały wydobyć dźwięk. Automat naśladował nawet oddychanie muzyczki oraz balans tułowiem, który byłby naturalny dla wykonywanego utworu. Inny model autorstwa tego samego wynalazcy miał kształt dziecka. Mechanizm pozwalał na namalowanie kilku predefiniowanych obrazków, w tym uproszczonego portretu króla Ludwika XV50. Nic dziwnego, że obserwatorzy byli zafascynowani. Nawet dzisiaj wynalazki Jacqueta-Droza robią ogromne wrażenie i dla historyków są niewątpliwie czymś więcej niż tylko mechanicznymi zabawkami.
Wkrótce możliwe były kolejne przełomy, napędzane następnie upowszechnieniem elektryczności. W połowie XIX wieku francuski drukarz Édouard-Léon Scott de Martinville opracował fonautograf, który pozwalał na odwzorowanie fal dźwiękowych i ich zapis w specjalnym cylindrze. Podobny system zastosował amerykański wynalazca Thomas Edison w opatentowanym w 1878 roku fonografie, gdzie dźwięk był rejestrowany za pomocą systemu składającego się z metalowej tuby, rylca i folii cynowej służącej do zapisywania tonów51. Kilka lat później pojawiły się z kolei płyty gramofonowe, które pozwalały na rejestrowanie dźwięków w bardziej efektywny sposób.
Te wynalazki umożliwiły oddzielenie dźwięku od jego źródła i otworzyły drogę dla taśmy magnetycznej, radia, syntezatorów czy cyfrowych samplerów. Kluczową rolę w tych procesach wciąż odgrywali jednak ludzie. To oni zapisywali głosy, to oni modyfikowali nagrania, posługując się osiągnięciami techniki do zamykania dźwięków w obrębie kaset, płyt, a wreszcie i plików.
*
Rozwój narzędzi sztucznej inteligencji umożliwiających z jednej strony generowanie tekstów, a z drugiej obrazów i dźwięków odbywał się dwutorowo, choć w oparciu o podobne przełomy naukowe. Podstawowym punktem wspólnym jest rozwój głębokich sieci neuronowych, których zasadniczym założeniem jest próba odzwierciedlenia architektury ludzkiego mózgu. Także współcześnie mózg człowieka stanowi ważny punkt odniesienia. Podobnie jak procesy myślowe charakterystyczne dla ludzi.
Kluczowe dla powodzenia całego procesu było stworzenie maszyn, które będą mogły się uczyć, a więc nabywać i przetwarzać informacje niezbędne do wykonywania określonych czynności. Pierwsze próby uczenia maszyn, czy też uczenia maszynowego, możemy odnaleźć w połowie XX wieku. Proces ten miał stanowić praktyczną odpowiedź na bardziej filozoficzne pytania stawiane przez naukowców: czy komputer może uczyć się na podstawie danych w sposób choćby częściowo zbliżony do człowieka i czy ludzką inteligencję da się naśladować.
Naturalnym krokiem było zwrócenie się ku strukturze mózgu i inspirowanie rozwiązaniami, które natura doskonaliła przez miliony lat. W 1957 roku Frank Rosenblatt z Cornell Aeronautical Laboratory zaprezentował perceptron, który jest dzisiaj uznawany za jedno z pierwszych narzędzi pozwalających maszynie „uczyć się” na podstawie zaprezentowanych przez naukowca przykładów. Ten mechanizm, pomimo upływu blisko siedemdziesięciu lat i imponujących postępów w dziedzinie uczenia maszynowego, wciąż stanowi fundament nauki o sztucznych sieciach neuronowych. Rosenblatt musiał najpierw przeanalizować koncepcje zapamiętywania i odtwarzania informacji przez ludzki mózg, by przenieść je do świata maszyn. Połączenie dwóch wymiarów – informatyki i psychologii – było jednym z kluczowych elementów dla powodzenia jego prac52. Także później kolejne przełomy nie byłyby możliwe bez multidyscyplinarności badań, w których istotną rolę odgrywały m.in. kognitywistyka, lingwistyka czy filozofia.
Perceptron niech posłuży nam za punkt wyjścia do poznania dalszej skróconej i uproszczonej historii sztucznych sieci neuronowych. Wyobraźmy sobie pojedynczy „neuron”, który przyjmuje kilka sygnałów wejściowych. Następnie musi je zważyć, dodać do siebie i na podstawie tego pakietu informacji podjąć decyzję – „tak” lub „nie”. To trochę jak z impulsami dochodzącymi do nas z zewnątrz, ale na bardzo elementarnym poziomie.
Perceptron posługiwał się średnią ważoną różnych czynników, a proces dochodzenia do ustalenia ich właściwej wartości wymagał nadzoru ze strony człowieka. Wagi były bowiem korygowane w trakcie treningu sztucznej sieci. Ten proces stanowił pierwowzór tzw. uczenia nadzorowanego. Perceptron dostawał przykład, który miał samodzielnie zaklasyfikować, a wraz z przykładem otrzymywał od nadzorującego proces człowieka prawidłową odpowiedź. Jeśli algorytm popełnił błąd w klasyfikowaniu, na bazie dostarczonej mu poprawnej odpowiedzi zmieniał ustaloną przez siebie wagę, by dopasować ją do właściwej wartości. W ten sposób mógł się uczyć poprawnej klasyfikacji podobnie do tego, jak wygląda zdobywanie wiedzy przez ucznia, który pracuje z nauczycielem znającym poprawne odpowiedzi i korygującym podopiecznego na bieżąco53.
Choć Rosenblatt utknął na pewnym etapie swoich badań, jego prace były z powodzeniem rozwijane przez innych badaczy. Nie byłoby to możliwe bez odpowiedniego finansowania – sztuczne sieci neuronowe zwróciły uwagę świata akademickiego i amerykańskich agencji rządowych. Inwestycje miały przynieść kolejne spektakularne przełomy. Te jednak nie nastąpiły, a przynajmniej nie w wymiarze spełniającym wygórowane oczekiwania sponsorów w latach sześćdziesiątych. Na sukces trzeba było czekać. Kolejne dwie dekady były naznaczone rozczarowaniami i ograniczeniem finansowania. Historycy mówią o tym okresie jako „zimie sztucznej inteligencji”, choć przecież przez cały czas w wielu krajach nad wyjściem z impasu pracowali liczni naukowcy, którzy notowali stały progres.
Spektakularne przełomy miały nadejść w latach osiemdziesiątych. Wraz z nimi ponownie pojawiła się technologiczna „wiosna”. Sztuczne sieci neuronowe przeżyły wówczas swoisty renesans, a kolejne odkrycia pozwoliły na istotne zwiększenie ich możliwości i znalezienie konkretnych zastosowań. Standardem stały się sieci wielowarstwowe, w których sygnał wędrował od warstwy wejściowej przez warstwy ukryte aż do warstwy wyjściowej. Udoskonalany mechanizm tzw. propagacji wstecznej pozwalał sieciom na autokorektę popełnianych przez siebie błędów.
Równolegle rozwijały się tzw. konwolucyjne sieci neuronowe inspirowane budową ludzkiego układu wzrokowego. Pod koniec lat osiemdziesiątych pozwoliły chociażby na stworzenie mechanizmów maszynowego rozpoznawania kodów pocztowych. Z czasem zaczęto je stosować nie tylko do rozpoznawania cyfr, lecz także do klasyfikacji obrazów i identyfikowania obiektów, by wreszcie stały się doskonałe w rozpoznawaniu twarzy i ludzkich emocji54.
Komputery zaczęły „widzieć”, dostrzegać pewne wzorce podlegające porządkowaniu i interpretacji, a przez to wykonywać kolejne zadania zarezerwowane dotychczas wyłącznie dla człowieka. Pod koniec pierwszej dekady lat dwutysięcznych coraz doskonalsze algorytmy były już w stanie konkurować z ludzką zdolnością rozpoznawania wybranych typów obrazów. I tutaj kluczowy był efekt synergii, tym razem z rozwojem technologii procesorów graficznych GPU, których implementacja pozwoliła na zwielokrotnienie szybkości obliczeń.
*
Równolegle do prób uchwycenia i przechowania dźwięku rozwijał się drugi nurt, który dążył do stworzenia głosu od podstaw. W drugiej połowie XVIII wieku niemiecki lekarz i inżynier Christian Gottlieb Kratzenstein skonstruował mechaniczne rezonatory zdolne do syntetycznej reprodukcji wymowy samogłosek. W pierwszej połowie XX wieku badacze z amerykańskiego Bell Labs poszli o krok dalej, budując jedne z pierwszych urządzeń potrafiących syntetyzować dźwięk.
To właśnie ich eksperymenty z generowanym przez komputer śpiewem zainspirowały Arthura C. Clarke’a do stworzenia sceny filmu „2001: Odyseja kosmiczna”. Pisarz przyjaźnił się z jednym z pracowników Bell Labs, z którym odwiedził studio nagraniowe w trakcie testów. Najwyraźniej doświadczenie generowania dźwięków przez maszynę wywarło na nim na tyle duże wrażenie, że uczynił z niego jeden z najbardziej emocjonalnych momentów scenariusza. Scena, w której HAL 9000 śpiewa „Daisy Bell”, została później po mistrzowsku przeniesiona na ekrany kin przez amerykańskiego reżysera i scenarzystę Stanleya Kubricka. Sztuczna inteligencja rozgościła się wówczas w popkulturze.
Stworzyła także nowe możliwości dla generowania dźwięku. Kolejne osiągnięcia mogły być wdrażane w sektorach o znacznie większym znaczeniu społecznym niż rozrywka. Jeszcze w latach siedemdziesiątych amerykański informatyk Raymond Kurzweil stworzył syntezatory mowy dla ludzi niewidomych55. Tekst był przetwarzany na dźwięk, jeszcze brzmiący mechanicznie, ale otwierający nowe możliwości komunikacyjne.
Badania prowadzono na całym świecie. Stanisław Jakubowski opisuje chociażby polski przełom w dziedzinie syntezy mowy: „Firma Harpo, we współpracy z Zakładem Fonetyki Akustycznej Instytutu Podstawowych Problemów Techniki PAN w Poznaniu, w roku 1994 wykonała wysokiej klasy syntezator mowy polskiej pod nazwą Kubuś. Autorami rozwiązania byli dr Janusz Imiołczyk i mgr Ignacy Nowak. Syntezator Kubuś został zastosowany w pierwszym krajowym urządzeniu lektorskim pod nazwą Auto-Lektor”56. Jedenaście lat później polscy inżynierowie opracowali syntezator mowy Ivona, który zebrał szereg międzynarodowych nagród i coraz śmielej wykorzystywał uczenie maszynowe. Odpowiedzialna za wdrożenie firma została ostatecznie przejęta przez amerykański Amazon, a Ivona stała się podstawą do prac nad kolejnymi syntezatorami, w tym znaną na całym świecie Alexą, która zadebiutowała w listopadzie 2014 roku57. Nieco wcześniej, bo w październiku 2011 roku, debiutowała Siri od Apple’a.
Te premiery miały istotny wpływ na rozwój relacji człowiek-maszyna. Alexa czy Siri były w stanie wychwycić podstawowe polecenia głosowe i wcielić je w życie. Od tego czasu technologie przetwarzania języka mówionego oraz tekstu na mowę istotnie poszły do przodu, zwłaszcza wobec postępu w obszarze sztucznych sieci neuronowych, które zaczęto wdrażać do badań nad syntezą dźwięku.
Na przełomie XX i XXI wieku droga syntezatorów mowy prowadziła zatem przez doskonalenie intonacji, akcentu, aż do oddawania charakterystycznych emocji rozpoznawalnych w komunikacji werbalnej. Współczesne systemy pozwalające na syntezę mowy są oparte na głębokich sieciach neuronowych, a rozwiązania takie jak WaveNet od DeepMind doprowadziły do kolejnego przełomu w generowaniu dźwięku. Dzisiaj zaawansowane systemy sztucznej inteligencji są w stanie odtworzyć barwę głosu na podstawie ledwie kilkusekundowej próbki, co znajduje zastosowanie w edukacji, kulturze i medycynie, ale wiąże się także z ogromnym potencjałem do oszustw oraz wyłudzeń. „Klonowanie” cudzego głosu nigdy nie było bowiem tak łatwe jak teraz.
Ciągła walka
W 2014 roku Ian Goodfellow i jego współpracownicy zaproponowali generatywne sieci przeciwstawne, które zmieniły sposób myślenia o możliwościach maszyn. Goodfellow postanowił wykorzystać możliwości sztucznej inteligencji do stworzenia swego rodzaju samonapędzającego się systemu, w którym sztuczne sieci neuronowe miały działać przeciwstawnie, niejako konkurować ze sobą, by podnosić jakość tworzonych treści. Ich nazwa w języku polskim (są także określane mianem generatywnych sieci kontradyktoryjnych) dobrze oddaje ten proces, swoistej „walki” między generatorem (odpowiedzialnym za tworzenie) i dyskryminatorem (odpowiedzialnym za weryfikację autentyczności materiału).
Dalsza część książki dostępna w wersji pełnej
Okładka
Karta tytułowa
Karta redakcyjna
Wstęp. Nowa rzeczywistość
CZĘŚĆ PIERWSZA. Maszyna
Rozdział 1. Syntetyczne media
Okładka
Strona tytułowa
Prawa autorskie
Meritum publikacji
