Deep Learning. Głęboka rewolucja - Terrence J. Sejnowski - ebook
Opis

Rewolucja wywołana przez rozwój głębokiego uczenia przyniosła nam samochody jeżdżące bez kierowców, ulepszoną usługę Tłumacza Google, swobodne rozmowy z Siri i Aleksą oraz ogromne zyski z automatycznego tradingu na nowojorskiej giełdzie papierów wartościowych. Głębokie sieci potrafią grać w pokera lepiej niż zawodowi gracze i wygrywają z mistrzem świata w rozgrywkach go.

Książka opisuje drogę, którą przemierzyło głębokie uczenie sieci neuronowych, przekształcając się z akademickiej dziedziny dostępnej tylko dla wtajemniczonych w przełomową technologię gospodarki informacyjnej. Już niedługo głęboka sieć zdiagnozuje nasze dolegliwości, osobisty inteligentny asystent rozszerzy możliwości naszego niedomagającego ludzkiego mózgu. Stworzenie ludzkiej inteligencji zajęło naturze wiele milionów lat. Sztuczna inteligencja jest na tej drodze dopiero od kilku dziesięcioleci.

Autor, jeden z pionierów sieci neuronowych, już dzisiaj przygotowuje nas na przyszłość, która będzie upływać pod znakiem głębokiego uczenia. Napisany przez Sejnowskiego bardzo osobisty dziennik podróży przez historię i sylwetki ludzi, którzy stali na czele rewolucji wywołanej przez głębokie uczenie, pełen jest zarówno cennych spostrzeżeń, jak i anegdot. Jak pisze Vint Cerf, jeden z twórców internetu: Sturm und Drang tej historii przenika karty książki, dzięki czemu udziela się nam osobiste zaangażowanie autora i jego emocje. Książka jest pięknie ilustrowana kolorowymi zdjęciami i grafikami.

Ebooka przeczytasz w aplikacjach Legimi na:

Androidzie
iOS
czytnikach certyfikowanych
przez Legimi
czytnikach Kindle™
(dla wybranych pakietów)
Windows
10
Windows
Phone

Liczba stron: 458

Odsłuch ebooka (TTS) dostepny w abonamencie „ebooki+audiobooki bez limitu” w aplikacjach Legimi na:

Androidzie
iOS

Popularność

Podobne


Tytuł oryginału: The Deep Learning Revolution

© 2018 Massachusetts Institute of Technology

All rights reserved. No part of this book may be reproduced in any form by any electronic or mechanical means (including photocopying, recording, or information storage and retrieval) without permission in writing from the publisher.

Copyright © 2019 for the Polish edition by Poltext Sp. z o.o.

Copyright © 2019 for the Polish translation by Poltext Sp. z o.o.

All rights reserved

Konsultacja naukowa: dr hab. inż. Robert Nowak, kierownik Zakładu Sztucznej Inteligencji, Instytut Informatyki, Wydział Elektroniki i Technik Informacyjnych, Politechnika Warszawska

Przekład: Piotr Cypryański

Redakcja: Ewa Skuza

Projekt okładki: Amadeusz Targoński | targonski.pl

Skład i łamanie: Protext

Opracowanie e-wydania:

Warszawa 2019

Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentów niniejszej publikacji w jakiejkolwiek postaci zabronione. Wykonywanie kopii metodą elektroniczną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym, optycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Niniejsza publikacja została elektronicznie zabezpieczona przed nieautoryzowanym kopiowaniem, dystrybucją i użytkowaniem. Usuwanie, omijanie lub zmiana zabezpieczeń stanowi naruszenie prawa.

Poltext Sp. z o.o.

www.poltext.pl

[email protected]

ISBN 978-83-7561-963-8 (format epub) 

ISBN 978-83-7561-964-5 (format mobi) 

Dla Bo i Sola, Theresy i Josepha

Pamięci Solomona Golomba

Przedmowa

Jeśli ktoś korzystał z funkcji rozpoznawania głosu w telefonie z Androidem lub z usługi Tłumacza Google w internecie, to miał kontakt z sieciami neuronowymi[1], które były trenowane za pomocą głębokiego uczenia maszynowego*. W ciągu kilku ostatnich lat głębokie uczenie wygenerowało dla Google’a na tyle duże zyski, że pokryło koszty wszystkich futurystycznych projektów w Google X, łącznie z samojeżdżącymi pojazdami, okularami Google Glass i Google Brain[2]. Google było jedną z pierwszych firm internetowych, które opowiedziały się za głębokim uczeniem. W 2013 roku zatrudniło Geoffreya Hintona, ojca głębokiego uczenia. Inne firmy na wyścigi próbują za nimi nadążyć.

Ostatnie osiągnięcia w rozwoju sztucznej inteligencji zawdzięczamy inżynierii odwrotnej mózgu. Algorytmy uczenia dla modeli warstwowych sieci neuronowych są inspirowane sposobem, w jaki neurony komunikują się ze sobą i są modyfikowane przez doświadczenie. Wewnątrz sieci złożoność świata jest przekształcana w kalejdoskop wewnętrznych wzorów aktywności, które są składnikami inteligencji. Modele sieci, nad którymi pracowałem w latach 80. XX wieku, były niewielkie w porównaniu z dzisiejszymi, które mają miliony sztucznych neuronów i głębokość dziesiątek warstw. Dokonany przez głębokie uczenie zasadniczy przełom w pracach nad najtrudniejszymi problemami sztucznej inteligencji zawdzięczamy wytrwałości, dużym zbiorom danych i znacznie większej mocy obliczeniowej komputerów.

Prognozowanie, jaki wpływ na naszą przyszłość będą miały nowe technologie, nie jest naszą najmocniejszą stroną. Kto był w stanie przewidzieć w latach 90. XX wieku, kiedy internet zaczął nabierać charakteru komercyjnego, jaki będzie miało to wpływ na przemysł muzyczny? Na firmy taksówkowe? Na prowadzenie kampanii politycznych? Na niemal wszystkie aspekty naszego codziennego życia? Równie nieudana była próba przewidywania, w jaki sposób komputery zmienią nasze życie. Często w tym kontekście przytacza się wypowiedź Thomasa J. Watsona, prezesa IBM, który w 1943 roku powiedział, że „na światowych rynkach jest, jak sądzę, miejsce dla może pięciu komputerów”[3]. Szczególnie trudno wyobrazić sobie, w jaki sposób pojawiające się wynalazki będą mogły być używane w przyszłości. Wynalazcy wcale nie są na lepszej pozycji niż inni, jeśli chodzi o prognozowanie nowych zastosowań. Pomiędzy utopijnymi i katastroficznymi scenariuszami, które kreśli się dla głębokiego uczenia i sztucznej inteligencji, mieści się wiele innych możliwości, ale nawet najbardziej pomysłowi pisarze science fiction nie są w stanie odgadnąć, jakie ostatecznie będzie oddziaływanie tych zjawisk.

Pierwsza wersja książki Deep learning. Głęboka rewolucja została napisana w ciągu kilku intensywnych tygodni po wędrówce przez Wybrzeże Północno-Zachodnie i rozmyślaniu nad fundamentalną zmianą, która niedawno zaszła w świecie sztucznej inteligencji, a której korzenie sięgają wielu dekad wstecz. To opowieść o niewielkiej grupie badaczy rzucającej wyzwanie establishmentowi świata sztucznej inteligencji, który był znacznie lepiej finansowany, i w tamtych czasach uważany za „jedyny słuszny wybór”. Błędnie ocenili, z jak trudnym problemem przyjdzie im się zmierzyć. Oparli się na domniemaniach dotyczących inteligencji, które – jak się okazało – prowadziły na manowce.

Życie na Ziemi jest pełne tajemnic, ale największym wyzwaniem wydaje się odpowiedź na pytanie, czym jest inteligencja. Natura obfituje w inteligencję, która przejawia się w wielu formach, od prostej, cechującej bakterie, po niezwykle złożoną występującą u ludzi. Każda z nich jest dostosowana do miejsca, które zajmuje we wszechświecie. Sztuczna inteligencja również będzie występować w wielu formach, które zajmą swoje konkretne miejsca w tym spektrum. Kiedy inteligencja maszynowa oparta na głębokich sieciach neuronowych osiągnie swoją dojrzałą postać, będzie mogła stanowić nową konceptualną ramę dla inteligencji biologicznej.

Deep learning. Głęboka rewolucja jest przewodnikiem po przeszłości, teraźniejszości i przyszłości głębokiego uczenia. Książka nie została pomyślana jako wyczerpująca historia tej dziedziny, a raczej jako osobiste spojrzenie na kluczowe osiągnięcia w sferze pojęciowej i wspólnotę badaczy, którzy do nich doszli. Ludzka pamięć jest zawodna i zmienia się za każdym razem, kiedy opowiadamy daną historię; proces ten nazywamy rekonsolidacją. Opowieści przedstawione w tej książce rozgrywają się na przestrzeni ponad czterdziestu lat, i choć niektóre są dla mnie tak żywe, jak gdyby wydarzyły się wczoraj, mam świadomość, że ich szczegóły zatarły się z czasem wraz z kolejnymi powtórzeniami.

Część pierwsza książki mówi o motywacji do podjęcia prac nad głębokim uczeniem i przedstawia kontekst, który jest konieczny do zrozumienia jego genezy. Część druga opisuje algorytmy uczące w różnych typach architektur sieci neuronowych. Część trzecia omawia wpływ głębokiego uczenia na nasze obecne życie i jego możliwe oddziaływanie w nadchodzących latach. Jak jednak powiedział filozof Yogi Berra z nowojorskich Yankees: „Przewidywanie to ciężka sprawa, szczególnie w odniesieniu do przyszłości”. Ramki tekstowe zamieszczone w ośmiu rozdziałach ukazują technologiczny kontekst opowiadanej historii. Kalendaria na początku każdej z trzech części porządkują wydarzenia, które są związane z daną historią. Ich zakres obejmuje ponad sześćdziesiąt lat.

Kalendarium

1956 – Letni projekt badawczy poświęcony sztucznej inteligencji w Dartmouth dał początek badaniom nad sztuczną inteligencją i zainspirował pokolenie naukowców do eksplorowania potencjału technologii informacyjnej po to, by dorównać możliwościom ludzkiego umysłu.

1962 – Frank Rosenblatt opublikował książkę Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms (Zasady neurodynamiki. Perceptrony i teoria mechanizmów działania mózgu), w której wprowadził algorytm uczący dla modeli sieci neuronowych z pojedynczą warstwą o różnych wagach – pierwowzór dzisiejszych algorytmów uczących dla modeli głębokich sieci neuronowych.

1962 – David Hubel i Torsten Wiesel opublikowali artykuł Receptive Fields, Binocular Interaction and Functional Architecture in the Cat’s Visual Cortex (Pola receptywne; dwuoczna interakcja i architektura funkcjonalna w korze wzrokowej kotów), w którym po raz pierwszy przedstawili właściwości reakcji pojedynczych neuronów zarejestrowanych za pomocą mikroelektrody. Głębokie sieci mają architekturę zbliżoną do hierarchii obszarów w korze wzrokowej.

1969 – Marvin Minsky i Seymour Papert opublikowali książkę Perceptrons (Perceptrony), w której zwrócili uwagę na obliczeniowe ograniczenia pojedynczego sztucznego neuronu, co dało początek zimie sieci neuronowych, czyli spadkowi zainteresowania tą dziedziną.

1979 – Geoffrey Hinton i James Anderson zorganizowali w La Jolli w Kalifornii warsztaty Parallel Models of Associative Memory (Równoległe modele pamięci asocjacyjnej), w których wzięło udział nowe pokolenie pionierów sieci neuronowych. Ich wynikiem była wspólna publikacja Hintona i Andersona pod tym samym tytułem wydana w 1981 roku.

1987 – Pierwsza konferencja i warsztaty na temat neuronowych systemów przetwarzania informacji (Neural Information Processing Systems, NIPS) w Centrum Technologii w Denver, gromadzące badaczy wywodzących się z różnych dziedzin.

Rozdział pierwszyRozwój uczenia maszynowego

Nie tak dawno temu często mówiło się, że widzenie maszynowe nie może równać się z wzrokowymi umiejętnościami rocznego dziecka. Dzisiaj już nie jest to prawdą. Komputery są w stanie rozpoznawać obiekty w obrazach w zasadzie tak dobrze, jak większość dorosłych. Na drogach pojawiły się skomputeryzowane samochody, które same siebie prowadzą bezpieczniej niż przeciętny szesnastolatek. Co istotne, komputerom nie powiedziano, jak mają widzieć i jak mają prowadzić samochody. Nauczyły się tego na podstawie doświadczeń, podążając drogą, w którą natura ruszyła miliony lat temu. Tym, co nadaje tempo tym osiągnięciom, są obfite strumienie danych. Dane są nową siłą napędową. Algorytmy uczące wydobywają informację z surowych danych. Informacja może zostać użyta do wytworzenia wiedzy. Wiedza prowadzi do zrozumienia, a zrozumienie wiedzie do mądrości. Witajcie w nowym, wspaniałym świecie głębokiego uczenia[1].

Głębokie uczenie to dziedzina uczenia maszynowego, której korzenie tkwią w matematyce, informatyce i neuronauce. Głębokie sieci uczą się na podstawie danych w taki sam sposób, jak uczą się dzieci – obserwując świat, który je otacza, zaczynając od świeżego spojrzenia i stopniowo uzyskując umiejętności konieczne do poruszania się w nowych środowiskach. Geneza głębokiego uczenia sięga początków sztucznej inteligencji w latach 50. XX wieku, kiedy ścierały się dwie konkurencyjne wizje tego, jak ją stworzyć. Jedna była oparta na logice i programach komputerowych, i to ona zdominowała rozwój sztucznej inteligencji na lata. Druga bazowała na bezpośrednim uczeniu się na podstawie danych; ta druga potrzebowała znacznie więcej czasu, żeby zyskać swą dojrzałą postać.

W XX wieku, kiedy komputery, według dzisiejszych standardów, były mało wydajne, a przechowywanie danych było drogie, logika była skutecznym sposobem poszukiwania rozwiązań. Wykwalifikowani programiści dla każdego problemu pisali osobne programy. Im większy był ten problem, tym bardziej skomplikowany program był potrzebny do uporania się z nim. Dzisiaj zarówno mocy obliczeniowej, jak i dużych zbiorów danych mamy pod dostatkiem, dzięki czemu rozwiązywanie problemów za pomocą algorytmów uczących jest szybsze, dokładniejsze i bardziej efektywne. Ten sam algorytm uczący może zostać użyty do znalezienia rozwiązań dla wielu złożonych problemów, te rozwiązania wymagają mniejszego nakładu pracy niż pisanie osobnego programu dla każdego problemu.

Sztuczna inteligencja uczy się jeździć

W 2005 roku w zawodach Grand Challenge sponsorowanych przez Agencję Zaawansowanych Projektów Badawczych w Obszarze Obronności (Defense Advanced Research Projects Agency, DARPA) nagrodę pieniężną w wysokości 2 milionów dolarów zdobył Stanley, samojeżdżący samochód skonstruowany przez zespół z Uniwersytetu Stanforda pod kierownictwem Sebastiana Thruna, który – korzystając z uczenia maszynowego – nauczył go, jak poruszać się po kalifornijskich pustyniach. Trasa o długości ponad 200 kilometrów miała wąskie tunele i ostre zakręty. Poza tym przebiegała przez Beer Bottle Pass, wąską i krętą górską drogę z ostrym spadkiem po jednej stronie i ścianą skalną po drugiej (il. 1.1). Thrun odrzucił tradycyjne podejście informatyczne polegające na napisaniu programu komputerowego, który przewidywałby każdą ewentualność. Stanley został zabrany na pustynię (il. 1.2), gdzie jeżdżąc po tym terenie, sam się nauczył, wykorzystując sygnały sensoryczne z czujników wizyjnych i czujników odległości, jak sobą kierować.

Ilustracja 1.1. Sebastian Thrun ze Stanleyem, autonomicznym samochodem, który wygrał zawody Grand Challenge sponsorowane przez agencję DARPA. To przełomowe osiągnięcie rozpoczęło rewolucję technologiczną w branży transportowej. (Dzięki uprzejmości Sebastiana Thruna)

Ilustracja 1.2. Beer Bottle Pass. Ten wymagający teren był jednym z ostatnich odcinków w zorganizowanych w 2005 roku przez agencję DARPA zawodach Grand Challenge. Polegały one na przejechaniu przez samochód bez udziału człowieka trasy o długości ponad 200 kilometrów prowadzącej przez bezdroża i przez pustynię. Widoczna w oddali ciężarówka zaczyna stromy podjazd. (Dzięki uprzejmości agencji DARPA)

Thrun założył później Google X, niezależny zespół do zadań specjalnych związanych z wysokimi technologiami, który dalej rozwijał technologię samojeżdżących samochodów. Od tej pory autonomiczne pojazdy Google’a pokonały ponad 5,5 miliona kilometrów, jeżdżąc po drogach w rejonie zatoki San Francisco. Uber uruchomił flotę samojeżdżących samochodów w Pittsburghu. Apple pracuje nad samochodami autonomicznymi, myśląc o rozszerzeniu spektrum produktów sterowanych przez system operacyjny ich autorstwa i mając nadzieję na powtórzenie niezwykle udanej ekspansji na rynek telefonów komórkowych. Widząc na własne oczy, jakim transformacjom podlega teraz biznes, który przez ostatnie sto lat się nie zmieniał, producenci samochodów poszli w ich ślady. General Motors zapłacił miliard dolarów za Cruise Automation, start-up z Doliny Krzemowej, który tworzy technologie umożliwiające jazdę samochodem bez kierowcy. W 2017 roku zainwestował kolejne 600 milionów dolarów w badania i rozwój[2]. W tym samym roku za 15,3 miliarda dolarów Intel kupił Mobileye, firmę, której specjalnością są czujniki i technologie widzenia maszynowego używane w samochodach autonomicznych. W wartym wiele bilionów dolarów sektorze transportu gra toczy się o wysokie stawki.

Samojeżdżące samochody zagrożą wkrótce źródłom utrzymania milionów taksówkarzy i kierowców ciężarówek. Docelowo zaniknie potrzeba posiadania w mieście samochodów, skoro autonomiczny pojazd będzie mógł błyskawicznie pojawić się tam, gdzie go potrzebujemy i zawieźć nas do miejsca przeznaczenia, a my nie będziemy musieli się martwić, gdzie go zaparkować. Przeciętny samochód jest dzisiaj wykorzystywany tylko przez 4 procent czasu, co znaczy, że przez pozostałe 96 musi gdzieś być zaparkowany. A ponieważ samojeżdżące samochody mogą być parkowane i serwisowane poza miastami, będzie można zmienić przeznaczenie ogromnych obszarów miejskich, które teraz są zajęte pod parkingi, i wykorzystać je w bardziej użytecznym celu. Urbaniści już czekają na ten dzień, kiedy parkingi będą mogły stać się parkami[3]. Miejsca do parkowania położone wzdłuż ulic będą mogły stać się prawdziwymi ścieżkami rowerowymi. Wiele innych biznesów związanych z samochodami również zostanie dotkniętych tą zmianą, m.in. agencje oferujące ubezpieczenia komunikacyjne oraz warsztaty blacharsko-lakiernicze. Nie będzie już mandatów za przekroczenie prędkości ani za parkowanie w miejscu niedozwolonym. Mniej będzie śmiertelnych ofiar wypadków spowodowanych przez pijanych kierowców i tych, którzy zasnęli za kierownicą. Czas, który dzisiaj marnujemy na dojazdy do pracy, będziemy mogli wykorzystać do innych celów. Według danych amerykańskiego urzędu statystycznego w 2014 roku 139 milionów Amerykanów spędziło każdego roboczego dnia przeciętnie 52 minuty na dojazdach do pracy i z pracy. Przekłada się to na 29,6 miliarda godzin rocznie lub zdumiewającą wartość 3,4 miliona lat ludzkiego życia, które można by wykorzystać w lepszym celu[4]. Dzięki większej płynności ruchu spowodowanej jeżdżeniem w grupach niemal czterokrotnie zwiększy się przepustowość autostrad[5]. Odpowiedni poziom rozwoju samochodów autonomicznych i ich dostępność – kiedy będą odwozić się do domu bez konieczności wyposażania ich w kierownicę – położy kres kradzieżom samochodów. Wciąż mamy do pokonania liczne przeszkody prawne i regulacyjne. Kiedy jednak samojeżdżące samochody zaczną być używane powszechnie, naprawdę będziemy żyć w nowym, wspaniałym świecie. Pierwszymi autonomicznymi pojazdami staną się ciężarówki. Najprawdopodobniej nastąpi to za 10 lat. W przypadku taksówek cały proces powinien zakończyć się przed upływem 15 lat, a samochodów osobowych – od 15 do 25 lat.

Status, jakim samochody cieszą się w naszym społeczeństwie, zmieni się w sposób, którego dzisiaj nawet nie potrafimy sobie wyobrazić. Podobnie jak wówczas, kiedy przed ponad 100 laty wprowadzano na rynek samochód, co doprowadziło do powstania wielu branż i nowych miejsc pracy, już dzisiaj wokół autonomicznych pojazdów funkcjonuje rozwijający się w szybkim tempie ekosystem. Waymo, firma zajmująca się autonomicznymi samochodami, wydzielona z Google’a, w ciągu 8 lat zainwestowała miliard dolarów i skonstruowała poufny ośrodek badawczy w Dolinie Kalifornijskiej, w którym wzniesiono sztuczne miasto o powierzchni niemal 37 hektarów z symulowanym ruchem rowerzystów i symulowanymi awariami samochodów[6]. Celem tego przedsięwzięcia jest poszerzenie danych przeznaczonych do uczenia samochodów o okoliczności wyjątkowe i wykraczające poza normalne warunki drogowe, nazywane przypadkami granicznymi. Zdarzenia drogowe, które występują rzadko, często kończą się wypadkami. Różnica w przypadku samochodów autonomicznych polega na tym, że kiedy jednemu samochodowi przydarzy się takie niekonwencjonalne zdarzenie, nauka płynąca z tego doświadczenia zostanie przekazana innym samochodom, co przypomina do pewnego stopnia kolektywną inteligencję. Inne firmy zajmujące się samojeżdżącymi pojazdami również budują podobne ośrodki badawcze. Prowadzi to do powstania nowych miejsc pracy, które wcześniej nie były potrzebne, i nowych łańcuchów dostaw dla czujników i laserów, które są konieczne do wyszukiwania przez samochody właściwej drogi[7].

Autonomiczne samochody są tylko najbardziej widocznym przejawem doniosłej zmiany w gospodarce napędzanej przez technologię informacyjną. Dane płyną przez internet analogicznie do wody w systemie wodociągu miejskiego. Informacja gromadzi się w potężnych centrach danych prowadzonych przez firmy technologiczne, takie jak Google, Amazon, Microsoft i inne, które potrzebują tyle energii elektrycznej, że muszą być umiejscowione niedaleko elektrowni wodnych, a przesyłanie informacji powoduje wydzielanie tak dużych ilości ciepła, że potrzebne są rzeki, które zapewnią dostarczanie czynnika chłodzącego. W 2013 roku zużycie energii przez centra danych w Stanach Zjednoczonych wyniosło 10 milionów megawatów, co odpowiada energii wyprodukowanej przez trzydzieści cztery duże elektrownie[8]. Ale to, co ma dzisiaj znacznie większy wpływ na gospodarkę, to sposób, w jaki ta informacja jest używana. Zostaje ona wydobyta z surowych danych i przekształcona w wiedzę o ludziach i rzeczach, które ich otaczają: co robimy, czego chcemy i kim jesteśmy. Ponadto coraz częściej urządzenia sterowane przez komputery korzystają z tej wiedzy, żeby komunikować się z nami za pośrednictwem słowa mówionego. W odróżnieniu od pasywnej wiedzy zgromadzonej w książkach i eksternalizowanej poza naszymi umysłami, wiedza zawarta w chmurze to dodatkowa inteligencja zewnętrzna, która staje się aktywną częścią życia wszystkich ludzi[9].

Sztuczna inteligencja uczy się tłumaczyć

Głębokie uczenie jest dzisiaj wykorzystywane przez Google’a w ponad 100 usługach, poczynając od Street View przez Inbox Smart Reply do wyszukiwarki sterowanej głosem. Kilka lat temu inżynierowie Google’a uświadomili sobie, że będą musieli przeskalować te aplikacje, które mają duże zapotrzebowanie na moc obliczeniową, do poziomu umożliwiającego funkcjonowanie w chmurze. Rozpoczynając prace nad stworzeniem wyspecjalizowanego układu scalonego (chipu) wspomagającego głębokie uczenie, opracowali pomysłowy projekt układu przeznaczonego do umieszczania w profilach do montażu dysków twardych w szafach serwerowych używanych w centrach danych. Skonstruowany przez Google’a układ do obliczeń tensorowych (tensor processing unit, TPU) jest dzisiaj stosowany w serwerach na całym świecie, zapewniając aplikacjom głębokiego uczenia wydajność większą o rząd wielkości.

Przykładem tego, jak szybko głębokie uczenie może zmienić obraz sytuacji, jest wpływ, jaki miało ono na tłumaczenie języka naturalnego, co ze względu na to, że jego powodzenie zależy od zdolności do rozumienia całych zdań, było świętym graalem sztucznej inteligencji. Udostępniona niedawno nowa wersja usługi Tłumacz Google, oparta na głębokim uczeniu, stanowi ogromny skok jakościowy w tłumaczeniu języków naturalnych. Niemal z dnia na dzień tłumaczenie maszynowe zmieniło się nie do poznania – od bezładnej mieszaniny pofragmentowanych fraz dobieranych na chybił trafił do naturalnie brzmiących i pełnych zdań (il. 1.3). Wcześniejsze metody tłumaczenia komputerowego wyszukiwały połączenia słów, które można było przetłumaczyć razem. Głębokie uczenie natomiast szuka zależności na poziomie całych zdań.

Jun Rekimoto z Uniwersytetu Tokijskiego, na wieść o niespodziewanym przełomie jakościowym w funkcjonowaniu usługi Tłumacz Google, 18 listopada 2016 roku przeprowadził próbę nowego systemu, dając mu do tłumaczenia pierwszy akapit Śniegów Kilimandżaro Ernesta Hemingwaya najpierw na japoński, a potem z powrotem na angielski. Rezultaty tej próby zamieszczam na stronie 21. (Który z nich to oryginalny tekst napisany przez Hemingwaya?)

Pierwszy tekst:

Kilimandżaro to pokryta śniegiem góra, wysokości 19710 stóp, o której powiadają, że jest najwyższa w Afryce. Szczyt zachodni znany jest pod nazwą Ngaje Ngai, czyli Dom Boga. Tuż pod zachodnim szczytem leży wyschnięty i zamarznięty szkielet lamparta. Nikt nie potrafi dotąd wytłumaczyć, czego mógł szukać lampart na tak wielkiej wysokości[10].

I drugi:

Kilimandżaro to góra o wysokości 19710 stóp pokryta śniegiem, o której mówią, że jest najwyższa w Afryce. Szczyt na zachodzie znany jest pod nazwą Ngaje Ngai, czyli Dom Boga. Tuż pod wierzchołkiem na zachodzie leży wyschnięte i zamarznięte ciało lamparta. Nikt dotąd nie wytłumaczył, czego lampart chciał na tak wielkiej wysokości[11].

(Oryginalny tekst Hemingwaya to ten pierwszy).

Ilustracja 1.3. Japońskie znaki i menu na bieżąco tłumaczone na angielski przez usługę Tłumacz Google, która jest teraz dostępna w postaci aplikacji na telefonie. Jest to szczególnie przydatne, kiedy, będąc w Japonii, trzeba znaleźć właściwy pociąg

Następnym krokiem będzie nauczenie większych sieci korzystających z głębokiego uczenia, czym jest podział na akapity, co umożliwi zachowanie ciągłości pomiędzy zdaniami. Słowa mają długie historie osadzone w kulturze. Vladimir Nabokov, rosyjski pisarz tworzący w języku angielskim, autor między innymi Lolity, doszedł do wniosku, że tłumaczenie poezji z jednego języka na drugi nie jest możliwe. Dał temu wyraz w swoim dosłownym tłumaczeniu na angielski poematu Eugeniusz Oniegin Aleksandra Puszkina, zawierającym liczne przypisy z komentarzami i wyjaśnieniami dotyczącymi kulturowego tła poszczególnych wersów[12]. Być może, pewnego dnia program Tłumacz Google będzie w stanie tłumaczyć Szekspira, odwołując się do całości jego poezji[13].

Sztuczna inteligencja uczy się słuchać

Kolejnym świętym graalem sztucznej inteligencji jest rozpoznawanie mowy. Do niedawna niezależne od mówcy rozpoznawanie mowy przez komputery było ograniczone do wąskich obszarów, takich jak na przykład rezerwacja połączeń lotniczych. Dzisiaj te ograniczenia już nie obowiązują. Letni projekt badawczy prowadzony w Microsoft Research w 2012 roku przez stażystę z Uniwersytetu w Toronto radykalnie poprawił wydajność systemu rozpoznawania mowy rozwijanego przez Microsoft (il. 1.4)[14]. W 2016 roku zespół funkcjonujący w Microsofcie ogłosił, że jego głęboka sieć licząca 120 warstw w teście porównawczym rozpoznawania mowy dla wielu mówiących osiągnęła poziom równoważny ludzkiemu[15].

Ilustracja 1.4. Rick Rashid, dyrektor działu badań w Microsofcie, podczas prezentacji dokonywanego na żywo maszynowego rozpoznawania mowy z użyciem głębokiego uczenia w trakcie spotkania w Tianjinie w Chinach 25 października 2012 roku. To, co mówił Rashid w języku angielskim do publiczności złożonej z 2000 Chińczyków, było automatycznie rozpoznawane przez system, który najpierw pokazywał napisy u dołu ekranu, na którym widać było Rashida, a potem tłumaczył jego słowa na mówiony chiński. O tym ryzykownym przedsięwzięciu rozpisywały się media na całym świecie. (Dzięki uprzejmości Microsoftu)

W ciągu kilku najbliższych lat, w miarę jak klawiatury komputerowe będą zastępowane interfejsami opartymi na posługiwaniu się językiem naturalnym, konsekwencje tego przełomowego osiągnięcia będą zyskiwać coraz szerszy społeczny zasięg. To się zresztą już dzieje. Przykładem tego są cyfrowi asystenci, tacy jak Alexa w Amazonie, Siri w Apple’u i Cortana w Microsofcie, którzy prześcigają się w oferowanych funkcjach i zyskują coraz większą popularność. Tak jak maszyny do pisania, które stały się przestarzałe, kiedy coraz powszechniej zaczęliśmy korzystać z komputerów osobistych, klawiatury komputerowe również pewnego dnia staną się eksponatami muzealnymi.

Kiedy rozpoznawanie mowy zostanie połączone z tłumaczeniem języka naturalnego, stanie się możliwa komunikacja międzykulturowa prowadzona w czasie rzeczywistym. Uniwersalny translator znany ze Star Treka jest w naszym zasięgu (il. 1.4). Dlaczego osiągnięcie poziomu zbliżonego do ludzkiego przez komputerowe rozpoznawanie mowy i tłumaczenie języka naturalnego trwało tak długo? Czy to tylko przypadek, że właśnie te i inne zdolności poznawcze komputerów przekraczają ten istotny próg w tym samym czasie? Wszystkie te osiągnięcia zawdzięczamy dużym zbiorom danych.

Sztuczna inteligencja uczy się stawiania diagnoz

Na głębokość skóry

Kiedy uczenie maszynowe uzyska dojrzałą postać i zacznie być używane do rozwiązywania problemów związanych z dostępem do dużych zbiorów danych, zmienią się również branże usługowe i grupy zawodowe. Diagnostyka medyczna, opierająca się na danych pochodzących od milionów pacjentów, stanie się dokładniejsza. W prowadzonych niedawno badaniach głębokie uczenie zastosowano do 130 tysięcy zdjęć pochodzących z diagnostyki dermatologicznej obrazujących ponad 2 tysiące różnych chorób, dzięki czemu wykorzystana baza danych medycznych była dziesięciokrotnie większa niż używana wcześniej (il. 1.5)[16]. Badana sieć była uczona, jak rozpoznawać każdą z chorób na podstawie zbioru testującego składającego się z nowych obrazów, których wcześniej nie widziała. Skuteczność diagnostyczna odnośnie do nowych obrazów była porównywalna, a w niektórych przypadkach lepsza niż osiągnięta przez specjalistę dermatologa z ponad dwudziestoletnim stażem. Już niedługo każda osoba posiadająca telefon z aparatem fotograficznym będzie mogła zrobić zdjęcie niepokojącej ją zmiany skórnej i natychmiast ją zdiagnozować. Dzisiaj ten proces wymaga wizyty w gabinecie lekarskim, długiego oczekiwania na zbadanie zmiany przez specjalistę i wreszcie – uiszczenia niemałego rachunku. Nowy sposób diagnozowania znacznie rozszerzy zakres i poprawi jakość opieki dermatologicznej. Jeśli pacjenci będą mogli szybko uzyskać fachową diagnozę, to równie szybko trafią do gabinetu lekarskiego, a choroby skóry ujawnione we wczesnym etapie rozwoju będą łatwiejsze do całkowitego wyleczenia. Dzięki pomocy głębokiego uczenia wszyscy lekarze będą lepiej diagnozować rzadkie choroby skórne[17].

Głęboko umiejscowiony nowotwór

Wykrywanie rozsianego raka piersi na podstawie obrazów mikroskopowych podczas biopsji węzłów chłonnych jest dokonywane przez specjalistów. Nawet oni nie są jednak wolni od popełniania błędów, które mogą mieć śmiertelne konsekwencje. Mamy tutaj do czynienia z problemem rozpoznawania struktur, z którym świetnie powinno radzić sobie głębokie uczenie. I rzeczywiście, sieć korzystająca z głębokiego uczenia trenowana na dużym zbiorze obrazów, dla którego znane były poprawne diagnozy (ground truth), osiągnęła dokładność na poziomie 0,925, co jest wynikiem dobrym, jednak nie dość dobrym. Specjaliści będący ludźmi na tym samym zestawie testowym osiągnęli 0,966[18]. Kiedy jednak przewidywania sztucznej inteligencji opartej na głębokim uczeniu zostały połączone z opiniami specjalistów, wynik był niemal doskonały – 0,995. Razem radzą sobie lepiej niż osobno, bo sieci neuronowe oparte na głębokim uczeniu i specjaliści będący ludźmi mają inne sposoby patrzenia na te same dane. Da się dzięki temu uratować znacznie więcej ludzi. Ukazuje nam to również przyszłość, w której człowiek i maszyna pracują razem jako partnerzy, a nie jako konkurenci.

Głęboki sen

Kiedy mamy problem ze snem, a w pewnym momencie życia zdarza się to 70 procentom z nas, po ciągnącym się miesiące oczekiwaniu na wizytę u lekarza (chyba że jest to pilny przypadek), dostaniemy skierowanie do kliniki snu, gdzie, po podłączeniu dziesiątków elektrod służących do zapisywania naszego elektroencefalogramu (EEG) i aktywności mięśni podczas snu, zostaniemy poddani nocnej obserwacji. Każdej nocy będziemy wchodzić w fazę snu wolnofalowego i, periodycznie, w fazę REM (rapid eye movement, szybkie ruchy gałek ocznych), w której pojawiają się marzenia senne. Ten cykl snu może jednak zostać zakłócony przez bezsenność, zespół bezdechu sennego, zespół niespokojnych nóg i wiele innych zaburzeń. Jeśli ktoś ma problemy ze snem w domu, zasypianie w obcym łóżku, gdy jest się podłączonym kablami do wyglądających złowróżbnie urządzeń medycznych, może być prawdziwym wyzwaniem. Specjalista zaburzeń snu będzie przeglądał nasz zapis EEG i znaczył fazy snu w blokach po 30 sekund, co zajmuje kilka godzin na każde 8 godzin snu. Badanie kończy się sporządzeniem raportu na temat nieprawidłowości naszego snu i rachunkiem opiewającym na 2 tysiące dolarów.

Ilustracja 1.5. Artystyczna impresja na temat głębokiej sieci z dużą dokładnością diagnozującej zmiany skórne; okładka numeru „Nature” z 2 lutego 2017 roku

Specjalista zaburzeń snu dysponuje odpowiednią wiedzą i umiejętnościami, żeby rozpoznawać charakterystyczne cechy, po których poznajemy różne fazy snu, zgodnie z systemem opracowanym w 1968 roku przez Anthony’ego Rechtshaffena i Alana Kalesa[19]. Cechy te są jednak często niejednoznaczne i niespójne. Tylko w 75 procentach przypadków specjaliści zgadzają się co do tego, jak je interpretować. Natomiast Philip Low, niegdyś student w moim laboratorium, wykorzystał uczenie maszynowe bez nadzoru do automatycznego rozpoznawania faz snu z rozdzielczością czasową wynoszącą 3 sekundy i zgodnością ze specjalistami, którzy są ludźmi, na poziomie 87 procent. A proces wymaga niecałej minuty pracy komputera. Ponadto wystarcza prowadzenie zapisu tylko z jednego punktu na głowie, dzięki czemu nie ma konieczności przypinania licznych elektrod i wielu kabli, których zakładanie i zdejmowanie jest czasochłonne. W 2007 roku założyliśmy start-up, Neurovigil, którego celem miało być dostarczanie tej technologii do klinik badania snu, ale nie były one zainteresowane tym, by odciąć sobie strumień pieniędzy płynący dzięki prowadzeniu badań wykonywanych przez ludzi. Mając kod ubezpieczeniowy pozwalający na wystawianie rachunków pacjentom, nie mieli żadnej motywacji, żeby myśleć o wdrożeniu tańszych procedur. Neurovigil znalazł więc inny rynek – duże firmy farmaceutyczne, które prowadzą testy kliniczne i muszą przebadać wpływ produkowanych przez siebie lekarstw na cykl snu pacjentów, a teraz wkracza na jeszcze inny obszar – zakłady opieki długoterminowej, w których osoby starsze często mają pogłębiające się problemy ze snem.

Model kliniki badania snu jest wadliwy, ponieważ problemów zdrowotnych nie da się poprawnie zdiagnozować na podstawie tak ograniczonych warunków: każdy z nas ma inną wartość bazową, a najwięcej informacji czerpiemy z odchyleń od tej wartości. Neurovigil już dysponuje przenośnym urządzeniem, iBrain, które może zapisywać nasz elektroencefalogram w domu, przesyłać dane przez internet i poświęcić sporo czasu na analizowanie zapisu w poszukiwaniu prawidłowości i anomalii. Dzięki temu lekarze będą mogli wcześniej wykrywać problemy ze zdrowiem, kiedy łatwiej sobie z nimi poradzić, oraz zatrzymać rozwój chorób przewlekłych. Są też inne choroby, których leczenie mogłoby być znacznie skuteczniejsze dzięki stałemu monitorowaniu stanu pacjenta, na przykład cukrzyca typu 1, w przypadku której można by monitorować poziom cukru we krwi i regulować go dzięki podawaniu insuliny. Dostęp do tanich czujników, które mogą w sposób ciągły rejestrować dane, ma ogromny wpływ na diagnozowanie i leczenie chorób przewlekłych.

Korzystając z doświadczeń firmy Neurovigil, możemy nauczyć się kilku istotnych rzeczy. Jeśli rynek jest zdominowany przez podmioty mające ustaloną pozycję, dysponowanie lepszą i tańszą technologią nie przekłada się automatycznie na chodliwy nowy produkt lub usługę, nawet jeśli technologia ta znacznie przewyższa inne rozwiązania. Są jednak jeszcze rynki poboczne, na których może ona szybciej odnieść sukces, zyskując tym samym czas potrzebny do tego, żeby ją udoskonalić i być bardziej konkurencyjnym. W ten właśnie sposób weszły na rynek technologie związane z energią słoneczną i wieloma innymi nowymi branżami. W dłuższej perspektywie monitorowanie snu i inne nowe technologie, które pokazały już swoje zalety, dotrą do domów pacjentów i ostatecznie staną się częścią praktyki lekarskiej.

Sztuczna inteligencja uczy się, jak zarabiać pieniądze

Ponad 75 procent transakcji na nowojorskiej giełdzie jest zawieranych w sposób zautomatyzowany (il. 1.6), dzięki handlowi wysokich częstotliwości, w którym czas pomiędzy kupnem i sprzedażą danego instrumentu jest liczony w ułamkach sekund. (Kiedy nie musi się płacić za każdą transakcję, nawet najmniejsze pojedyncze korzyści kumulują się w spore zyski). Oparty na algorytmach trading prowadzony w dłuższej perspektywie czasowej bierze pod uwagę długookresowe trendy, bazując na dużych zbiorach danych. Głębokie uczenie wypada coraz lepiej zarówno w zarabianiu większych pieniędzy, jak i w osiąganiu wyższych zysków[20]. Problem z przewidywaniem sytuacji na rynkach finansowych polega na tym, że dane są zaszumione, a warunki nie są stałe. Zachowania i reakcje ludzi mogą zmieniać się z dnia na dzień, na przykład po wyborach lub w wyniku wybuchu międzynarodowego konfliktu. Oznacza to, że algorytm, który dzisiaj świetnie radzi sobie z przewidywaniem kursów giełdowych, jutro może przestać się sprawdzać. W praktyce używa się setek algorytmów, a najlepsze z nich są nieustannie wiązane ze sobą, żeby zoptymalizować osiągane zyski.

W latach 80., kiedy byłem konsultantem w banku Morgan Stanley, zajmując się opartymi na sieciach neuronowych modelami prowadzenia transakcji giełdowych, poznałem Davida Shawa, informatyka, który specjalizował się w projektowaniu komputerów równoległych. Korzystając z przerwy w świadczeniu pracy na Uniwersytecie Columbia, Shaw pracował jako analityk ilościowy, czyli quant, jak mówiło się w żargonie finansowym. Zautomatyzowany trading wciąż był wówczas na wczesnym etapie rozwoju. Niedługo później założył on własną firmę – D.E. Shaw Group – specjalizującą się w zarządzaniu inwestycjami. Firma mieści się na Wall Street, a Shaw jest dzisiaj multimiliarderem. D.E. Shaw Group odniosła spory sukces, ale nie tak duży jak inny fundusz hedgingowy – Renaissance Technologies – którego założycielem był James Simons, wybitny matematyk i były dziekan Wydziału Matematyki na Uniwersytecie Stony Brook. Tylko w 2016 roku Simons zarobił 1,6 miliarda dolarów, a nie był to nawet jego najlepszy rok[21]. Nazywane „najlepszym wydziałem matematyki i fizyki na świecie”[22], Renaissance Technologies „unika zatrudniania wszystkich, którzy choćby otarli się o jakiekolwiek doświadczenia na Wall Street”[23].

Ilustracja 1.6. Uczenie maszynowe jest siłą napędową tradingu algorytmicznego, który jest szybszy niż tradycyjne strategie inwestowania długoterminowego, a równocześnie bardziej przemyślany niż trading wysokich częstotliwości (HFT) na giełdach. Wiele różnych typów algorytmów uczenia maszynowego zostało połączonych w celu osiągnięcia jak najwyższej stopy zwrotu

Nie mając już dzisiaj nic wspólnego z bieżącą działalnością D.E. Shaw, David Shaw zaangażował się w działania firmy badawczej D.E. Shaw Research. Skonstruowała ona wyspecjalizowany komputer równoległy, nazwany Anton, który wykonuje obliczenia związane z symulacją struktury przestrzennej białek szybciej niż jakikolwiek inny komputer na świecie[24]. Simons wycofał się z bezpośredniego nadzoru nad Renaissance Technologies i założył fundację, która finansuje badania nad autyzmem i inne programy z zakresu nauk fizycznych i biologicznych. Działania filantropijne Shawa, za pośrednictwem Instytutu Simonsa na rzecz Teorii Obliczeń na Uniwersytecie Kalifornijskim w Berkeley, Ośrodka Simonsa na rzecz Społecznego Mózgu w Massachusetts Institute of Technology oraz Instytutu Flatirona w Nowym Jorku, miały ogromny wpływ na rozwój metod obliczeniowych w zakresie analizy danych oraz procesów modelowania i symulacji[25].

Usługi finansowe, szerzej rzecz ujmując, przechodzą obecnie transformację pod hasłem technologii finansowej, czyli FinTechu, jak zaczął on być nazywany. Technologie informacyjne, na przykład takie jak łańcuch bloków, czyli bezpieczny rejestr internetowy, który zastępuje finansowych pośredników w prowadzeniu transakcji, na razie są testowane na małą skalę, ale wkrótce będą w stanie zrewolucjonizować wielobilionowe rynki finansowe. Uczenie maszynowe jest wykorzystywane do doskonalenia procesu oceny zdolności kredytowej podczas udzielania pożyczek, poprawnego dostarczania informacji biznesowej i finansowej, wyłapywania sygnałów z mediów społecznościowych, które będą wyznaczać trendy rynkowe, oraz dostarczania bezpiecznych rozwiązań biometrycznych dla transakcji finansowych. Ten, kto ma najwięcej danych, ten wygrywa, a świat obfituje w dane finansowe.

Sztuczna inteligencja uczy się prawa

Głębokie uczenie zaczyna również oddziaływać na zawody prawnicze. Większość rutynowych działań wykonywanych przez młodszych pracowników w firmach prawniczych, za które płacimy setki dolarów na godzinę, zostanie zautomatyzowana. Stanie się tak przede wszystkim w dużych, drogich, komercyjnych kancelariach. W szczególności wspomagana przez technologię selekcja dokumentów, czyli obsługa elektronicznego dziennika podawczego, zostanie przejęta przez sztuczną inteligencję, która jest w stanie przeglądać tysiące dokumentów, szukając materiału dowodowego i nie odczuwając znużenia. Zautomatyzowane systemy głębokiego uczenia będą również pomagać firmom prawniczym zachować zgodność z coraz większą liczbą coraz bardziej skomplikowanych regulacji administracyjnych. Zapewnią również dostępność porad prawnych osobom o niższych zarobkach, których nie stać na wynajęcie prawnika. Porady prawne będą nie tylko tańsze, ale i znacznie szybciej udzielane, co jest często czynnikiem znacznie ważniejszym niż ich koszt. Świat prawniczy jest na dobrej drodze do osiągnięcia „prawnej głębi”[26].

Sztuczna inteligencja uczy się jak grać w pokera

Jedną z najbardziej popularnych odmian pokera jest Texas Hold’em. Powszechnie gra się w nią w kasynach, a występująca w niej forma licytacji bez limitu jest stosowana w czasie głównych rozgrywek podczas pokerowych mistrzostw świata (il. 1.7). Poker jest grą wymagającą, bo w odróżnieniu od szachów, gdzie obydwaj gracze mają dostęp do tych samych informacji, tutaj grający dysponują jedynie informacją niepełną, a na najwyższych poziomach gry umiejętność blefowania i działania podstępem są tak samo ważne, jak karty, które zostały rozdane.

Matematyk John von Neumann, który stworzył matematyczną teorię gier i dał początek pierwszym komputerom cyfrowym, był szczególnie zafascynowany pokerem. Jak to ujął: „Prawdziwe życie polega na blefowaniu, na stosowaniu podstępów i podstępików, na zadawaniu sobie pytań, co siedzący naprzeciwko mnie człowiek pomyśli o tym, jaki ma być mój następny ruch. W stworzonej przeze mnie teorii na tym właśnie polegają gry”[27]. Poker jest grą będącą odzwierciedleniem tych obszarów ludzkiej inteligencji, które zostały udoskonalone w drodze ewolucji. Sieć głębokiego uczenia nazwana DeepStack rozegrała 44852 gry przeciwko 33 zawodowym graczom w pokera. Ku ogromnemu zaskoczeniu specjalistów od pokera nie tylko wygrała ona z najlepszymi graczami – i to ze sporym zapasem – o jedno odchylenie standardowe, ale również pokonała wszystkich 33 graczy w sumie o cztery odchylenia standardowe – a to stanowi już olbrzymi zapas[28]. Jeśli to osiągnięcie zostanie powtórzone w innych obszarach, gdzie najważniejsza jest ludzka zdolność osądu z wykorzystaniem niepełnych informacji, tak jak na przykład w polityce czy stosunkach międzynarodowych, konsekwencje mogą być naprawdę dalekosiężne[29].

Ilustracja 1.7. Odmiana pokera Texas Hold’em w wersji bez limitów na dwie osoby. Dwa zakryte asy. Blefowanie w pokerze, kiedy gra toczy się o wysokie stawki, zostało tak dobrze opanowane przez sieć DeepStack, że wygrała ona z zawodowymi graczami w pokera w ich własną grę i to z ogromnym zapasem

Sztuczna inteligencja uczy się jak grać w go

W marcu 2016 roku Lee Sedol, koreański osiemnastokrotny mistrz świata gry w go, przegrał składający się z pięciu gier mecz ze stworzonym przez firmę DeepMind programem AlphaGo (il. 1.8). AlphaGo to program komputerowy grający w go, który korzysta z głębokich sieci neuronowych do oceny pozycji na planszy i rozważania możliwych ruchów[30]. Stopień skomplikowania go w stosunku do szachów jest taki, jak szachów w stosunku do warcabów. Jeśli szachy to potyczka, to go jest wojną. Plansza do gry w go ma wielkość 19 na 19 pól i jest znacznie większa niż szachownica o 8 polach na 8, dzięki czemu jest możliwe prowadzenie kilku bitew toczących się w różnych miejscach planszy. Pomiędzy poszczególnymi bitwami zachodzą długofalowe interakcje, które nawet ekspertom trudno rozstrzygać. Całkowita liczba możliwych poprawnych ustawień na planszy do gry w go wynosi 10170, jest ona znacznie większa niż liczba atomów we wszechświecie.

Ilustracja 1.8. Plansza do gry w go w czasie rozgrywania składającego się z pięciu gier meczu, w którym koreański mistrz Lee Sedol zmierzył się z AlphaGo, głęboką siecią neuronową, która nauczyła się grać w go, grając sama z sobą

Oprócz kilku sieci głębokiego uczenia, których zadaniem było analizowanie tego, co dzieje się na planszy, i wybieranie najlepszego możliwego ruchu w danej sytuacji, AlphaGo miała również zupełnie inny system uczenia się, wykorzystywany do rozwiązania problemu czasowego przypisania zasługi (temporal credit assignment problem): które z wielu wykonanych ruchów były odpowiedzialne za wygraną, a które doprowadziły do porażki? Jądra podstawne w mózgu, które odbierają sygnały z całej kory mózgowej i przesyłają je do niej z powrotem, rozwiązują ten problem dzięki algorytmowi uczenia opartego na różnicach czasowych (temporal difference learning) oraz uczeniu ze wzmocnieniem (reinforcement learning). AlphaGo korzystała z tego samego algorytmu uczącego, który powstał w jądrach podstawnych w celu oceny sekwencji działań mającej na celu zmaksymalizowanie przyszłych nagród (proces ten zostanie wyjaśniony w rozdziale dziesiątym). AlphaGo uczyła się, grając sama ze sobą – wiele, wiele razy.

Mecz go, w którym zmierzyli się Lee Sedol i AlphaGo cieszył się ogromnym zainteresowaniem w Azji, gdzie mistrzowie tej gry są bohaterami narodowymi, a ich status jest porównywalny ze statusem gwiazd rocka. AlphaGo wprawdzie wygrała już wcześniej z europejskim mistrzem go, ale poziom rozgrywki był zdecydowanie niższy niż w najlepszych grach w Azji. Lee Sedol nie spodziewał się więc zaciętego pojedynku. Nawet DeepMind, firma, która stworzyła AlphaGo, nie wiedziała jak mocnym zawodnikiem jest jej program głębokiego uczenia. Od swojego ostatniego meczu AlphaGo zdążyła już rozegrać miliony gier z kilkoma wersjami samej siebie i nie było sposobu na to, żeby dokładnie określić poziom jej gry.

Szokiem dla wielu obserwujących rozgrywki było wygranie przez AlphaGo pierwszych trzech z pięciu zaplanowanych gier i zademonstrowanie nadspodziewanie wysokiego poziomu gry. Przykuwało to uwagę widzów w Korei Południowej, tym bardziej że wszystkie ważniejsze stacje telewizyjne komentowały na żywo przebieg meczu. Niektóre z posunięć wykonanych przez AlphaGo były rewolucyjne. W trzydziestym ósmym ruchu w drugiej grze meczu zagrała ona w tak genialny i kreatywny sposób, że kompletnie zaskoczony Lee Sedol potrzebował niemal dziesięciu minut, żeby obmyślić swój ruch. AlphaGo przegrała czwartą grę, co pozwoliło ludziom zachować twarz, i zakończyła mecz, wygrywając piątą grę i cały mecz wynikiem 4 : 1 (il. 1.9)[31]. Nie mogłem oderwać się od oglądania rozgrywek. W marcowe noce w San Diego do białego rana śledziłem, co się dzieje. Przypomniało mi to stare czasy w Cleveland, kiedy też siedziałem przyklejony do telewizora. Było to 2 czerwca 1966 roku. W ten dzień o godzinie pierwszej w nocy bezzałogowy lądownik Surveyor wylądował na Księżycu i przesłał na Ziemię pierwsze zdjęcie pokazujące jego krajobraz[32]. Doświadczyłem obu tych historycznych momentów w czasie rzeczywistym. AlphaGo znacznie przekroczyła to, co zarówno ja, jak i wiele innych osób uważaliśmy za możliwe.

4 stycznia 2017 roku jeden z graczy na internetowym serwerze do gry w go został ujawniony jako AlphaGo 2.0 po tym, jak wygrał 60 z 60 gier rozgrywanych z najlepszymi graczami na świecie, łącznie z ówczesnym mistrzem świata, dziewiętnastoletnim Ke Jie z Chin. Sieć wykazała się nowym stylem gry, który stał w opozycji do strategicznej mądrości ukształtowanej przez wieki. 27 maja 2017 roku na konferencji Przyszłość go w Wuzhenie w Chinach Ke Jie przegrał trzy gry z AlphaGo (il. 1.10). Były to jedne z najlepszych gier go, jakie kiedykolwiek zostały rozegrane, a przebieg meczu śledziły setki milionów widzów w Chinach. „Uważam, że w ubiegłym roku sposób gry AlphaGo dorównywał już ludziom, ale to, co widzę teraz, każe mi myśleć, że AlphaGo gra jak bóg go”[33], podsumował Ke Jie.

Ilustracja 1.9. Lee Sedol po przegraniu meczu z AlphaGo w marcu 2016 roku

Po pierwszej grze, którą przegrał o włos, zabrakło mu jedynie pół punktu, Ke Jie powiedział, że „w połowie gry byłem bardzo bliski wygrania meczu”, dodając, iż był tak podekscytowany, że „słyszałem, jak dudniło mi serce! Być może dlatego, że byłem tak rozgorączkowany, zrobiłem kilka głupich ruchów. Być może na tym polega nasza ludzka słabość”[34]. Stan, którego doświadczył Ke Jie, to emocjonalne przeciążenie. Do osiągnięcia szczytowej formy konieczny jest wysoki poziom emocji, ale nie tak intensywny. Aktorzy teatralni wiedzą, że jeśli nie odczuwają tremy przed występem, nie będą w dobrej formie. Ich osiągnięcia układają się w krzywą w kształcie odwróconej litery U, a szczyt możliwości przypada w optymalnej strefie pomiędzy niskimi i wysokimi stanami pobudzenia. Sportowcy nazywają taki stan byciem „w swoim żywiole”.

26 maja 2017 roku AlphaGo pokonała również zespół pięciu najlepszych graczy. Przeanalizowali oni ruchy wykonywane przez AlphaGo i zmienili swoją taktykę tak, żeby się do nich dostosować. W nowej odsłonie „dyplomacji prowadzonej za pomocą ping-ponga” gospodarzem meczu był chiński rząd. Chiny inwestują spore sumy w uczenie maszynowe. Jednym z najważniejszych celów ich przedsięwzięć jest odnalezienie w funkcjonowaniu mózgu nowych algorytmów[35].

Ilustracja 1.10. Demis Hassabis (po lewej) i Ke Jie spotykają się po historycznym meczu w go w Chinach w 2017 roku, trzymając w rękach planszę z podpisem Ke Jie. (Dzięki uprzejmości Demisa Hassabisa)

Kolejny rozdział tej historii o go jest, o ile to w ogóle możliwe, jeszcze bardziej niesamowity. AlphaGo zaczęła naukę gry w go od nadzorowanego uczenia na podstawie 160 tysięcy gier rozegranych przez ludzi, dopiero później zaczęła grać sama ze sobą. Niektórzy ludzie uważali, że to oszustwo – autonomiczny program sztucznej inteligencji powinien być w stanie nauczyć się jak grać w go bez pośrednictwa wiedzy wygenerowanej przez ludzi. W październiku 2017 roku pojawiła się nowa wersja programu, nazwana AlphaGo Zero, która nauczyła się grać w go, zaczynając jedynie od reguł gry. Rozłożyła ona na łopatki program AlphaGo Master, tę wersję, która pobiła Ke Jie, wygrywając 100 gier do zera[36]. Ponadto AlphaGo Zero nauczyła się grać 100 razy szybciej, i używając 10 razy mniej mocy obliczeniowej niż AlphaGo Master. Dzięki temu, że nie uwzględniła w ogóle ludzkiej wiedzy, AlphaGo Zero osiągnęła w grze poziom nadczłowieka. Nie ma znanej granicy, określającej o ile lepsza może się stać AlphaGo, bo algorytmy uczenia maszynowego podlegają ciągłym udoskonaleniom.

AlphaGo Zero wyzbyła się ludzkich doświadczeń dotyczących gry, ale sporo wiedzy na temat go pozostało w funkcjach, których program używał do odwzorowania planszy do gry. Być może AlphaGo Zero mogłaby grać jeszcze lepiej, gdyby nie miała żadnej wcześniejszej wiedzy na temat tej gry. I tak jak coca-cola zero, która została pozbawiona wszystkich kalorii zawartych w coca-coli, AlphaZero została pozbawiona całej zgromadzonej dotychczas przez graczy wiedzy dotyczącej go. W rezultacie AlphaZero była w stanie uczyć się jeszcze szybciej i ostatecznie wygrała z AlphaGo Zero[37]. A żeby jeszcze wyraźniej pokazać, że mniej naprawdę znaczy więcej, AlphaZero, bez zmiany choćby jednego parametru uczenia, nauczyła się gry w szachy na poziomie znacznie przekraczającym ludzki i była w stanie wykonywać całkowicie nowe posunięcia, jakby wzięte z kosmosu, na które nie wpadł do tej pory żaden człowiek. Ani razu nie przegrała ze Stockfishem, najlepszym programem do gry w szachy, który nauczył się grać na poziomie znacznie lepszym niż człowiek. W jednej z partii AlphaZero wykonała śmiały ruch, w którym poświęciła gońca, co czasem się robi, żeby zyskać lepszą pozycję na szachownicy, po czym poświęciła hetmana, co dopóty wydawało się koszmarną pomyłką, dopóki ostatecznie nie doprowadziło do dania mata wiele posunięć później, czego nie spodziewał się ani program Stockfish, ani ludzie. Kosmici wylądowali i Ziemia nigdy już nie będzie taka sama.

Firma, która wyprodukowała AlphaGo – DeepMind – powstała w 2010 roku Jednym z jej założycieli był neuronaukowiec Demis Hassabis (il. 1.10, po lewej stronie), który był na stażu podoktorskim w Zakładzie Neuronauki Obliczeniowej Gatsby’ego na University College w Londynie (dyrektorem jest tam Peter Dayan, były uczestnik stażu podoktorskiego w moim laboratorium i laureat – wraz z Raymondem Dolanem i Wolframem Schultzem – prestiżowej Brain Prize w 2017 roku, którą uhonorowano ich za badania nad uczeniem z nagrodą). W 2014 roku DeepMind został kupiony przez Google’a za 600 milionów dolarów. Firma zatrudnia ponad 400 inżynierów i neuronaukowców w środowisku, które jest połączeniem świata nauki ze specyfiką start-upów. Synergiczne połączenia pomiędzy neuronauką i sztuczną inteligencją sięgają głęboko, a teraz się intensyfikują.

Sztuczna inteligencja uczy się, jak stać się bardziej inteligentną

Czy AlphaGo jest inteligentna? O inteligencji napisano więcej niż o jakimkolwiek innym zagadnieniu w psychologii, może z wyjątkiem świadomości. Obydwa te pojęcia trudno precyzyjnie zdefiniować. Psycholodzy od lat 30. XX wieku rozróżniają pomiędzy inteligencją płynną, która w nowych sytuacjach korzysta z rozumowania i rozpoznawania struktur do rozwiązywania nowych problemów, bez odwoływania się do wcześniej zdobytej wiedzy, a inteligencją skrystalizowaną, która bazuje na wcześniejszej wiedzy i jest tym, co mierzą standardowe testy IQ. Inteligencja płynna podąża zgodnie z przebiegiem rozwoju człowieka, osiągając szczyt we wczesnej dorosłości i zmniejszając się z wiekiem, inteligencja skrystalizowana rośnie wolno i równomiernie aż do stosunkowo późnej starości. AlphaGo przejawia obydwa rodzaje inteligencji, zarówno płynną, jak i skrystalizowaną. Wprawdzie w raczej wąskiej dziedzinie, ale w jej granicach wykazuje się zadziwiającą kreatywnością. Zawodowa wiedza specjalistyczna również bazuje na uczeniu się w granicach wąsko zakreślonych dziedzin. Wszyscy jesteśmy specjalistami w dziedzinie języka naturalnego i zajmujemy się nim codziennie.

Algorytm uczenia ze wzmocnieniem używany przez AlphaGo można zastosować do wielu innych problemów. Ta metoda uczenia polega na tym, że na zakończenie sekwencji ruchów zwycięzca otrzymuje nagrodę, co paradoksalnie może poprawić decyzje podejmowane znacznie wcześniej. Połączenie jej z wieloma potężnymi sieciami głębokimi prowadzi do powstania licznych wyspecjalizowanych obszarów inteligencji. I naprawdę mówimy o wielu jej rodzajach, na przykład społecznej, emocjonalnej, mechanicznej, konstrukcyjnej[38]. Czynnik g, czyli inteligencja niewyuczona, naturalna szybkość procesów umysłowych, który mimo deklaracji pozostaje poza zasięgiem testów na inteligencję, jest skorelowany z tymi różnymi jej rodzajami. Są jednak powody, dla których jest konieczne zachowanie ostrożności przy interpretowaniu wyników testów IQ. Średnia wartość ilorazu inteligencji na całym świecie rośnie o trzy punkty na dekadę. Trend ten obserwujemy od lat 30. XX wieku, kiedy zaczęto mierzyć inteligencję. Nazywamy go efektem Flynna. Można to tłumaczyć na przykład coraz lepszym odżywianiem, lepszą opieką medyczną i innymi czynnikami środowiskowymi[39]. Jest to prawdopodobne, ponieważ środowisko, w którym żyjemy, oddziałuje na regulację genów, co z kolei ma wpływ na sieć połączeń w mózgu, a to prowadzi do zmian w zachowaniu[40]. Środowisko, w którym żyją ludzie, jest w coraz większym stopniu tworem sztucznym. Nic więc dziwnego, że nasze mózgi są kształtowane w sposób, którego nie przewidziała natura. Czy jest możliwe, że inteligencja ludzka zwiększa się od znacznie dłuższego czasu? Jak długo może utrzymać się ta tendencja wzrostowa? Od chwili pojawienia się programów komputerowych, które grają na poziomie mistrzowskim, stale rośnie liczba osób grających w szachy, tryktraka, a teraz również w go, podobnie jak wspomagana przez maszyny inteligencja ludzi, którzy w nie grają[41]. Głębokie uczenie podniesie poziom inteligencji nie tylko naukowców i badaczy, ale i pracowników we wszystkich zawodach.

Instrumenty naukowe generują kolosalne ilości danych. Eksperymenty polegające na zderzaniu cząstek elementarnych prowadzone w Wielkim Zderzaczu Hadronów (Large Hadron Collider, LHC) w Genewie wytwarzają 25 petabajtów danych rocznie. Wielki Teleskop do Synoptycznych Obserwacji Przeglądowych (Large Synoptic Survey Telescope, LSST) będzie generował co roku 6 petabajtów danych. Do analizowania tak ogromnych zbiorów danych, zarówno fizycznych, jak i astronomicznych, które ze względu na wielkość są niemożliwe do przetworzenia przez ludzi posługujących się tradycyjnymi metodami, jest używane uczenie maszynowe[42]. Na przykład DeepLensing to sieć neuronowa, która potrafi rozpoznawać obrazy odległych galaktyk zniekształcone w wyniku ugięcia światła na soczewkach grawitacyjnych tworzących się wokół innych galaktyk, które znajdują się na linii widzenia. Dzięki temu jest możliwe automatyczne odkrywanie wielu nowych galaktyk. W fizyce i astronomii jest wiele problemów przypominających poszukiwanie igły w stogu siana, w przypadku których głębokie uczenie w ogromnym stopniu rozszerza tradycyjne podejście do analizy danych.

Zmieniający się rynek pracy

Bankomaty zostały wprowadzone przez banki pod koniec lat 60. XX wieku w celu zapewnienia klientom możliwości stałego dokonywania wypłat gotówkowych, co było długo oczekiwanym udogodnieniem dla tych, którzy potrzebują gotówki poza zwykłymi godzinami urzędowania okienek kasowych. Od tamtej pory nauczyły się one odczytywać czeki wypisywane odręcznie. I chociaż bankomaty ograniczyły ilość rutynowej pracy wykonywanej przez urzędników bankowych, liczba tych pracowników wzrosła. Dostarczają oni klientom spersonalizowane usługi, m.in. kredyty hipoteczne i doradztwo inwestycyjne. Pojawiły się również nowe stanowiska pracy związane z technicznym utrzymaniem bankomatów[43]. Podobnie było z wprowadzeniem silników parowych. Z jednej strony zastąpiły one pracę wykonywaną ręcznie, ale z drugiej – przyczyniły się do powstania nowych miejsc pracy dla robotników wykwalifikowanych, których zadaniem było budowanie silników parowych i ich obsługa techniczna, a także prowadzenie parowozów. Internetowy handel prowadzony przez Amazona doprowadził do utraty pracy przez wiele osób w lokalnych stacjonarnych sklepach detalicznych, ale równocześnie stworzył 380 tysięcy nowych miejsc pracy dla pracowników zajmujących się dystrybucją i dostarczaniem towarów sprzedawanych przezeń i przez wiele innych podmiotów działających pod jego marką[44]. Kiedy miejsca pracy, które dzisiaj wymagają ludzkich zdolności poznawczych, zostaną przejęte przez zautomatyzowane systemy sztucznej inteligencji, pojawią się nowe – dla tych, którzy będą w stanie tworzyć te systemy i zapewnić ich obsługę techniczną.

Utrata miejsc pracy nie jest niczym nowym. Pracownicy rolni w XIX wieku zostali zastąpieni przez maszyny, ale dzięki tym maszynom powstały nowe miejsca pracy w fabrykach znajdujących się w miastach. Zmienić się musiał również system edukacji – musiał nauczyć robotników nowych umiejętności. Różnica między tamtymi zmianami a obecnymi polega na tym, że obecnie nowe stanowiska pracy, które powstaną dzięki sztucznej inteligencji, będą wymagały nowych, odmiennych i ciągle zmieniających się kompetencji uzupełniających tradycyjne zdolności poznawcze[45]. Będziemy więc musieli uczyć się przez całe życie. A żeby tak się stało, będziemy potrzebowali nowego systemu edukacji, który będzie opierał się raczej na domu niż na szkole.

Ilustracja 1.11. Learning How to Learn (Uczymy się, jak się uczyć), masowy otwarty kurs online (MOOC), który uczy tego, jak lepiej się uczyć. Jest najpopularniejszym kursem w internecie, z którego skorzystało już ponad 3 miliony uczestników. (Dzięki uprzejmości Terrence’a Sejnowskiego i Barbary Oakley)

Na szczęście, kiedy potrzeba poszukiwania nowych miejsc pracy stała się paląca, internet umożliwił zdobywanie nowej wiedzy i nowych umiejętności za pośrednictwem dostępnych dla wszystkich masowych otwartych kursów online (massive open online course, MOOC). Choć wciąż są w stadium początkowym, rozwijają się szybko, zyskując stałą pozycję w systemie edukacji. Zapowiadają się bardzo obiecująco, jeśli chodzi o zapewnienie wysokiej jakości nauczania większej liczbie osób niż kiedykolwiek wcześniej. Kiedy zostaną one połączone z cyfrowymi asystentami nowej generacji, będą w stanie wywołać ogromne zmiany. Wraz z Barbarą Oakley stworzyłem popularny kurs nazwany Learning How to Learn (Uczymy się, jak się uczyć), który uczy tego, jak lepiej się uczyć (il. 1.11) oraz jego kontynuację nazwaną Mindshift (Zmiana sposobu myślenia), która uczy, jak odkryć siebie na nowo i zmienić swoje życie (obydwa kursy zostaną szerzej omówione w rozdziale dwunastym).

Kiedy mamy styczność z internetem, generujemy duże zbiory danych, które nas dotyczą, i które są czytelne dla maszyn. Stajemy się celem dla reklam tworzonych z cyfrowych okruszków, które zostawiamy za sobą w internecie. Informacje, które udostępniamy na Facebooku i w innych mediach społecznościowych, mogą zostać użyte do stworzenia cyfrowego asystenta, który będzie znał nas lepiej niż ktokolwiek inny na świecie i który nie zapomni niczego, stając się w efekcie naszym wirtualnym sobowtórem. Dzięki łączeniu danych z monitorowania naszej aktywności w internecie z głębokim uczeniem w jedną usługę, edukacyjne możliwości dla dzieci dzisiejszych dzieci będą lepsze niż te, które dzisiaj są dostępne jedynie dla najbogatszych rodzin. Te przyszłe wnuki będą miały swoich cyfrowych tutorów, którzy będą im towarzyszyć w całym toku ich edukacji. Edukacja stanie się nie tylko bardziej zindywidualizowana, będzie również znacznie precyzyjniej dobrana do potrzeb ucznia. Na całym świecie pojawia się już całkiem spora liczba różnorodnych eksperymentów edukacyjnych w ramach projektów, takich jak na przykład Khan Academy, finansowanych przez Fundację Billa i Melindy Gatesów czy Inicjatywę Chan i Zuckerberga oraz inne podmioty zajmujące się filantropią. Testują one oprogramowanie, dzięki któremu wszystkie dzieci będą mogły realizować kolejne etapy edukacji formalnej w swoim własnym tempie i które adaptuje się do indywidualnych potrzeb każdego dziecka[46]. Powszechna dostępność cyfrowych tutorów uwolni nauczycieli od konieczności wykonywania powtarzalnych czynności będących częścią procesu uczenia, na przykład oceniania, i pozwoli im na robienie tego, co ludzie potrafią najlepiej – udzielanie emocjonalnego wsparcia uczniom, którzy borykają się z problemami, i bycie intelektualną inspiracją dla zdolnych uczniów. Technologia edukacyjna, czyli edtech, co jest skrótem od angielskiego terminu educational technology, prędko się rozwija, a przejście do edukacji precyzyjnej będzie mogło odbyć się znacznie szybciej niż wprowadzenie samochodów autonomicznych. Przeszkody, które trzeba pokonać, wydają się mniejszym wyzwaniem, popyt na nią jest znacznie większy, a rynek usług z nią związanych szacuje się na biliony dolarów[47]. Jedyną poważniejszą obawą będzie kwestia tego, kto będzie miał dostęp do wewnętrznych plików cyfrowych asystentów i cyfrowych tutorów.

Czy sztuczna inteligencja jest zagrożeniem dla naszej egzystencji?

Kiedy w 2016 roku AlphaGo bezapelacyjnie wygrała z Lee Sedolem w go, rozgorzała tocząca się aż do dzisiaj gorąca dyskusja. Dotyczy ona niebezpieczeństw, które sztuczna inteligencja może stwarzać dla ludzi. Informatycy podpisywali petycje popierające zakaz używania sztucznej inteligencji do celów militarnych. Stephen Hawking i Bill Gates składali publicznie oświadczenia, w których ostrzegali przed zagrożeniami dla ludzi, jakie niesie ze sobą rozwój sztucznej inteligencji. Elon Musk wraz z innymi przedsiębiorcami z Doliny Krzemowej założył firmę OpenAI z kapitałem miliarda dolarów, jej pierwszym dyrektorem został Ilya Sutskever, jeden z byłych studentów Geoffreya Hintona. Oficjalnym celem powstania OpenAI było dbanie o to, by przyszłe odkrycia dotyczące sztucznej inteligencji były udostępniane publicznie, żeby wszyscy mogli z nich korzystać. Miała ona jednak także cel ukryty – znacznie ważniejszy – powstrzymanie prywatnych firm przed czynieniem zła. Wraz ze zwycięstwem AlphaGo nad Sedolem, mistrzem świata w go, osiągnięty został punkt krytyczny. Niemal z dnia na dzień sztuczna inteligencja przestała być traktowana jako pasmo niepowodzeń. Zaczęła być postrzegana jako zagrożenie dla naszej egzystencji.

Nie po raz pierwszy jesteśmy w sytuacji, kiedy nowo powstała technologia wydaje się stwarzać zagrożenie dla naszej egzystencji. Wynalezienie i rozwój bomby atomowej oraz tworzenie jądrowych arsenałów groziło zagładą świata. Ale jakoś udało się nam ją powstrzymać, przynajmniej do tej pory. Kiedy po raz pierwszy pojawiła się technologia rekombinowania DNA, towarzyszył jej lęk przed tym, że zmodyfikowane genetycznie i śmiertelnie niebezpieczne organizmy wydostaną się na wolność i spowodują niewypowiedziane cierpienia oraz doprowadzą do śmierci wielu ludzi na całym świecie. Dzisiaj inżynieria genetyczna jest dojrzałą technologią i jak do tej pory udaje się nam przeżyć pomimo obecności w świecie jej tworów. Ostatnie osiągnięcia w dziedzinie uczenia maszynowego stwarzają stosunkowo niewielkie zagrożenia w porównaniu z bronią nuklearną czy śmiercionośnymi organizmami. Do sztucznej inteligencji również się przyzwyczaimy. Zresztą już się to dzieje.

Jedną z implikacji sukcesu DeepStack jest to, że głęboka sieć będzie w stanie nauczyć się kłamać jak z nut. To, czego mogą nauczyć się sieci neuronowe, zależy jedynie od wyobraźni osoby, która je uczy, i od danych. Jeśli sieć może zostać nauczona, jak bezpiecznie prowadzić samochód, można ją również nauczyć ścigania się w wyścigach Formuły 1 i najprawdopodobniej znajdzie się ktoś, kto będzie chciał za to zapłacić. Dzisiaj do stworzenia produktów i usług korzystających z głębokiego uczenia wciąż są potrzebni wysoko wykwalifikowani praktycy o ogromnym doświadczeniu. Biorąc jednak pod uwagę, że koszt mocy obliczeniowej stale spada, a oprogramowanie staje się w coraz większym stopniu zautomatyzowane, niedługo produkty wykorzystujące sztuczną inteligencję będzie mógł tworzyć uczeń szkoły średniej. Otto, największa niemiecka firma zajmująca się handlem internetowym – specjalizująca się w sprzedaży odzieży, artykułów wyposażenia wnętrz i artykułów sportowych – korzysta ze sztucznej inteligencji, żeby, wykorzystując historię zakupów, przewidzieć, co jej klienci mogliby zamówić, i dokonuje dla nich wstępnych zamówień[48]. Z 90-procentową dokładnością klienci otrzymują towary niemal zanim je zamówią. Wstępne zamówienia, dokonywane automatycznie bez udziału ludzi nie tylko pozwalają zaoszczędzić firmie miliony euro rocznie, dzięki zmniejszeniu nadwyżek zapasów i zwrotów towaru. Zapewniają również większą satysfakcję kupującym i skuteczniejsze utrzymanie klienta. Głębokie uczenie nie przejęło zatem stanowisk pracy zajmowanych przez pracowników, przeciwnie – zwiększyło ich produktywność.

Chociaż z głębokiego uczenia korzystają przede wszystkim duże firmy technologiczne, narzędzia oparte na uczeniu maszynowym są już szeroko dostępne i zaczyna się nimi posługiwać wiele firm. Alexa, nadzwyczaj popularny cyfrowy asystent działający w tandemie z inteligentnym głośnikiem Amazon Echo, reaguje na polecenia wypowiadane w języku naturalnym, co zawdzięcza głębokiemu uczeniu. W usłudze Amazon Web Services wprowadzono zestawy narzędzi nazwanych „Lex”, „Poly” i „Comprehend”, które ułatwiają tworzenie interfejsów korzystających z języka naturalnego opartych na zautomatyzowanej konwersji tekstu pisanego na mowę, rozpoznawaniu mowy i rozumieniu języka naturalnego. Aplikacje wyposażone w funkcje mówionych interakcji są obecnie w zasięgu mniejszych firm, których nie stać na zatrudnienie ekspertów od uczenia maszynowego. Sztuczna inteligencja może zwiększać satysfakcję klienta.

Czy to, że programy komputerowe grające w szachy przyćmiły najlepszych ludzkich graczy spowodowało, że ludzie przestali grać? Przeciwnie, podniosło to poziom ich gry. Doprowadziło również do zdemokratyzowania szachów. Kiedyś najlepsi szachiści pochodzili z wielkich miast, na przykład Moskwy czy Nowego Jorku, gdzie arcymistrzów, którzy mogli uczyć młodych graczy i doskonalić ich technikę gry, było wielu. A dzisiaj, dzięki komputerowym programom szachowym, mistrzem świata w szachach jest Magnus Carlson, który dorastał w małym miasteczku w Norwegii. W wieku 13 lat został szachowym arcymistrzem. Korzyści, jakie przyniesie nam sztuczna inteligencja, sięgają jednak znacznie dalej niż tylko granie w gry, obejmują one wszystkie aspekty naszej działalności, poczynając od sztuki, na nauce kończąc. Dzięki sztucznej inteligencji staniemy się mądrzejsi[49].

Powrót do przyszłości

Książka Deep learning. Głęboka rewolucja jest poświęcona dwu związanym ze sobą zagadnieniom: jak powstała ludzka inteligencja i jak rozwija się sztuczna. Między nimi jest ogromna różnica: ewolucja ludzkiej trwała wiele milionów lat, a sztuczna rozwija się w okresie liczącym dziesiątki lat. Chociaż prędkość, z jaką się to odbywa, przypomina prędkość warp znaną z filmu Star Trek, nawet biorąc pod uwagę, że mamy do czynienia z ewolucją kulturową, zapinanie pasów bezpieczeństwa niekoniecznie będzie właściwą reakcją.

Niedawne przełomowe odkrycia w dziedzinie głębokiego uczenia nie pojawiły się nieoczekiwanie, jak można było błędnie wywnioskować z doniesień prasowych. Historia, która skrywa się za transformacją od sztucznej inteligencji opartej na symbolach, logice i regułach do sieci głębokiego uczenia opartych na dużych zbiorach danych i algorytmach uczących, nie jest powszechnie znana. Deep learning. Głęboka rewolucja opowiada tę historię i bada pochodzenie oraz konsekwencje głębokiego uczenia z mojej perspektywy, zarówno jako pioniera w tworzeniu algorytmów uczących dla sieci neuronowych w latach 80., jak i prezesa Fundacji Neuronowych Systemów Przetwarzania Informacji (Neural Information Processing Systems, NIPS), która przez ostatnie 30 lat nadzorowała odkrycia w uczeniu maszynowym i głębokim uczeniu. Przez wiele lat moi koledzy i ja, będąc członkami społeczności zajmującej się sieciami neuronowym, byliśmy na przegranej pozycji, ale nasz upór i cierpliwość wreszcie przyniosły zwycięstwo.

Rozdział drugiOdrodzenie sztucznej inteligencji

Marvin Minsky, znakomity matematyk, był jednym z założycieli Laboratorium Sztucznej Inteligencji w Massachusetts Institute of Technology (MIT AI Lab)[1]. Założyciele wyznaczyli kierunki i określili kulturę tej dziedziny wiedzy; w dużej mierze to dzięki Minsky’emu sztuczna inteligencja w MIT w latach 60. XX wieku była bastionem błyskotliwości. Kipiący energią i większą liczbą pomysłów na minutę niż jakakolwiek inna znana mi osoba, potrafił przekonać rozmówcę, że jego ujęcie problemu było właściwe, nawet jeśli zdrowy rozsądek podpowiadał coś przeciwnego. Podziwiałem jego odwagę i pomysłowość, ale nie kierunek, w którym razem z nim zmierzała sztuczna inteligencja.

Dziecięca zabawa?

Blocks World to jeden z przykładów projektów, które w latach 60. XX wieku powstawały w Laboratorium Sztucznej Inteligencji. Uproszczony model do badania widzenia składał się tylko z sześciennych klocków, które można było układać na sobie, tworząc budowle (il. 2.1). Celem projektu było napisanie programu, który umiałby właściwie zinterpretować polecenie typu „znajdź duży żółty klocek i umieść go na czerwonym klocku” i zaplanowanie kroków koniecznych do jego wykonania przez robotyczne ramię. Wydaje się, że bardziej przypomina to dziecięcą zabawę. Trzeba było jednak napisać rozbudowany i skomplikowany program, który po pewnym czasie stał się tak nieporęczny, że nie dało się go łatwo modyfikować i w końcu, kiedy student, który go napisał – Terry Winograd – opuścił uczelnię, zakończono prace nad nim. Ten pozornie prosty problem był znacznie bardziej skomplikowany, niż to się komukolwiek wydawało. A nawet jeśli udałoby się go rozwiązać, nie było bezpośredniej ścieżki wiodącej od Blocks World do świata rzeczywistego, w którym przedmioty przybierają różnorodne kształty, mają rozmaite kolory, różnią się wagą, a kąty nie zawsze są kątami prostymi. W porównaniu z kontrolowanymi warunkami w laboratorium, gdzie można regulować siłę i kąt padania światła, w rzeczywistym świecie oświetlenie może różnić się zasadniczo w zależności od miejsca i czasu, co niezmiernie komplikuje zagadnienie rozpoznawania przedmiotów przez komputery.

Ilustracja 2.1. Marvin Minsky patrzy, jak robot układa klocki, około 1968 roku. Blocks World było uproszczonym modelem tego, jak my ludzie wchodzimy w interakcje ze światem, ale okazał się znacznie bardziej skomplikowany, niż ktokolwiek był w stanie to sobie wyobrazić. Problem został rozwiązany dopiero w 2016 roku za pomocą głębokiego uczenia

W latach 60. Laboratorium Sztucznej Inteligencji otrzymało od agencji prowadzącej badania wojskowe duży grant na zbudowanie robota, który potrafiłby grać w ping-ponga. Kiedyś usłyszałem historię, że główny wykonawca tego projektu zapomniał o umieszczeniu w opisie grantu pozycji dotyczącej sfinansowania systemu widzenia dla robota i zadanie to zostało powierzone jednemu z doktorantów w ramach projektu letniego. Zapytałem Marvina Minsky’ego, czy ta historia jest prawdziwa. Obruszył się i odpowiedział, że musiałem źle zrozumieć, ponieważ „to zadanie powierzyliśmy studentom, którzy byli jeszcze przed licencjatem”. Dokumenty z archiwum Massachusetts Institute of Technology potwierdzają jego wersję[2]. Coś, co początkowo wydawało się problemem łatwym do rozwiązania, okazało się grząskim gruntem, w którym na wiele lat utknęła cała generacja badaczy zajmujących się widzeniem maszynowym.

Dlaczego widzenie jest trudnym do rozwiązania problemem?

Ludzie rzadko mają kłopoty z rozpoznaniem, czym jest dany obiekt, mimo że może się on różnić położeniem, wielkością, pozycją i oświetleniem. Jedną z pierwszych prób rozwiązania problemu widzenia maszynowego było porównanie szablonu obiektu z pikselami w jego obrazie. To podejście okazało się jednak nieskuteczne, ponieważ piksele w dwu obrazach tego samego obiektu umieszczonego w różnych pozycjach nie są zgodne. Zastanówmy się na przykład nad dwoma ptakami na ilustracji 2.2. Jeśli nałożymy obraz jednego z nich na drugi, będziemy mieli część, która będzie zgodna, ale reszta będzie poza rejestrem. Równocześnie uzyskamy całkiem niezłą zgodność z obrazem ptaka innego gatunku będącego w tej samej pozycji.

Ilustracja 2.2. Zeberki komunikujące się ze sobą. Nie mamy problemu z dostrzeżeniem, że ptaki należą do tego samego gatunku. Ale ponieważ są inaczej ustawione w stosunku do obserwatora, trudno porównywać je za pomocą szablonów, nawet jeśli ich cechy są niemal identyczne

Postęp w zakresie widzenia maszynowego dokonał się dzięki skoncentrowaniu się nie na pojedynczych pikselach, ale na cechach charakterystycznych. Na przykład obserwatorzy ptaków muszą stać się ekspertami w rozpoznawaniu poszczególnych gatunków, które mogą różnić się jedynie kilkoma subtelnymi szczegółami. Popularny praktyczny przewodnik rozpoznawania ptaków ma tylko jedno zdjęcie, za to wiele schematycznych rysunków wskazujących niewielkie różnice pomiędzy poszczególnymi gatunkami (il. 2.3)[3]. Dobrą cechą byłaby taka, która jest unikalna dla jednego gatunku. Jednak te same cechy występują u różnych gatunków i rozpoznanie ich jest możliwe dzięki niepowtarzalnemu połączeniu kilku znaków charakterystycznych, takich jak paski na skrzydłach, kolor i kształt brwi oraz plamy na skrzydłach. Kiedy takie same znaki występują u blisko spokrewnionych gatunków, rozpoznaje się je na podstawie ich głosów – zawołań i śpiewu. Narysowane lub namalowane wizerunki ptaków znacznie lepiej sprawdzają się w kierowaniu naszej uwagi na istotne cechy różniące poszczególne gatunki niż fotografie, które są wypełnione setkami mniej ważnych szczegółów (il. 2.3).

Problemem w przypadku opisanego tu podejścia opartego na rozpoznawaniu cech jest nie tylko to, że skonstruowanie urządzeń wykrywających cechy dla setek tysięcy różnych obiektów istniejących w świecie byłoby niezwykle pracochłonne, ale przede wszystkim to, że nawet w przypadku najlepszych detektorów cech, kiedy mamy do czynienia z obiektami, które są częściowo przesłonięte, pojawiają się niejednoznaczności. A to powoduje, że rozpoznawanie obiektów w wizualnie przeładowanym otoczeniu jest dla komputerów zadaniem niezwykle trudnym.

Ilustracja 2.3. Cechy dystynktywne, dzięki którym możemy rozróżniać podobne do siebie ptaki. Strzałki wskazują miejsce występowania pasków na skrzydłach, które są szczególnie istotne, kiedy chcemy rozpoznać różne gatunki z rzędu wróblowych; niektóre paski są wyraźne, inne ledwie widoczne, są takie, które są podwójne, są też długie i krótkie. (R.T. Peterson, G. Mountfort, P.A.D. Hollom, Field Guide to the Birds of Britain and Europe, wyd. 5, s. 16)

W latach 60. XX wieku nikt nie spodziewał się, że do osiągnięcia przez widzenie maszynowe poziomu podobnego do ludzkiego będzie potrzebne 50 lat i milionkrotne zwiększenie mocy obliczeniowej komputerów. Intuicja podpowiadała, że napisanie programu widzenia maszynowego będzie proste. Wynikała ona z obserwacji, że czynności, takie jak widzenie, słyszenie, poruszanie się wykonujemy z łatwością. Jednak ich wykształcenie wymagało miliona lat ewolucji. Ku swojemu rozgoryczeniu przecierający szlaki pionierzy sztucznej inteligencji przekonali się, że problem widzenia maszynowego będzie niezwykle trudny do rozwiązania. Okazało się za to, że znacznie łatwiej jest zaprogramować komputery tak, by potrafiły dowodzić twierdzenia matematyczne – choć uważano, że proces ten wymagał najwyższego poziomu inteligencji – ponieważ komputery znacznie lepiej niż ludzie radzą sobie z logiką. Umiejętność logicznego myślenia pojawiła się na dość późnym etapie ewolucji. Co więcej, wymaga od nas nauczenia się, w jaki sposób długą drogą logicznych sądów dojść do ścisłej konkluzji. Natomiast w przypadku większości problemów, które musimy rozwiązywać, jeśli chcemy przetrwać, najlepiej sprawdza się generalizacja na podstawie wcześniejszych doświadczeń.

Systemy ekspertowe

Popularne w latach 70. i 80. XX wieku systemy ekspertowe sztucznej inteligencji zostały opracowane w celu rozwiązywania za pomocą zbioru reguł np. takich problemów jak diagnozy medyczne. Jeden z pierwszych systemów tego typu, nazywany MYCIN, powstał po to, żeby rozpoznawać bakterie odpowiedzialne za choroby zakaźne, np. za zapalenie opon mózgowo-rdzeniowych[4]. Postępując zgodnie z zasadami konstruowania systemów ekspertowych, autorzy systemu MYCIN musieli najpierw zebrać zarówno fakty i reguły od ekspertów w dziedzinie chorób zakaźnych, jak i objawy i historie choroby od pacjentów. Następnie musieli wprowadzić te dane do komputera sterującego systemem, a na koniec zaprogramować ten komputer w taki sposób, żeby prowadził rozumowania zgodnie z prawidłami logiki. Autorzy podczas zbierania faktów i reguł napotykali liczne trudności, szczególnie w bardziej skomplikowanych obszarach, w których najlepsi diagnostycy polegali nie na regułach, ale na rozpoznawaniu struktur opartym na doświadczeniu, co jest trudne do jednoznacznego skodyfikowania[5]. Problemem była także konieczność stałego uaktualniania systemu, co było spowodowane odkrywaniem nowych faktów, w wyniku czego stare reguły stawały się bezużyteczne. Dodatkowe trudności sprawiało zbieranie i wprowadzanie do systemu objawów występujących u pacjentów i historii choroby. Proces ten wymagał poświęcenia pół godziny, czasami więcej, na opracowanie danych dotyczących jednego pacjenta, co przekraczało czas, który obarczony licznymi obowiązkami lekarz mógł na to przeznaczyć. Nic więc dziwnego, że MYCIN nigdy nie zaczął być używany w praktyce klinicznej. Powstało jednak wiele systemów ekspertowych, które były wykorzystywane w innych dziedzinach, np. w gospodarowaniu odpadami toksycznymi, planowaniu misji dla autonomicznych pojazdów i rozpoznawaniu mowy. Nieliczne są używane do dzisiaj.