Wydawca: MT Biznes Sp. z o.o. Kategoria: Nauka i nowe technologie Język: polski Rok wydania: 2014

Ebooka przeczytasz w aplikacjach Legimi na:

e-czytniku kup za 1 zł
tablecie  
smartfonie  
komputerze  
Czytaj w chmurze®
w aplikacjach Legimi.
Dlaczego warto?
Czytaj i słuchaj w chmurze®
w aplikacjach Legimi.
Dlaczego warto?
Liczba stron: 368 Przeczytaj fragment ebooka

Odsłuch ebooka (TTS) dostępny w abonamencie „ebooki+audiobooki bez limitu” w aplikacji Legimi na:

Androida
iOS
Czytaj i słuchaj w chmurze®
w aplikacjach Legimi.
Dlaczego warto?

Ebooka przeczytasz na:

Kindlu MOBI
e-czytniku EPUB kup za 1 zł
tablecie EPUB
smartfonie EPUB
komputerze EPUB
Czytaj w chmurze®
w aplikacjach Legimi.
Dlaczego warto?
Czytaj i słuchaj w chmurze®
w aplikacjach Legimi.
Dlaczego warto?
Zabezpieczenie: watermark Przeczytaj fragment ebooka

Opis ebooka Big data - Victor Mayer-Schonberger Kenneth Cukier

 Odkrywczy opis najnowszych trendów technologicznych i ich znaczącego wpływu na gospodarkę, naukę i społeczeństwo

Jaki kolor nadwozia powinieneś wybrać, kupując używany samochód, jeżeli chcesz zwiększyć prawdopodobieństwo nabycia samochodu w dobrym stanie? W jaki sposób władze mogą zlokalizować najbardziej niebezpieczne studzienki w Nowym Jorku, żeby zapobiec ich eksplozjom? Jak według Google’a będzie rozprzestrzeniała się epidemia wirusa grypy H1N1?

Odpowiedzią na te i wiele innych pytań jest Big data. Termin „Big data” odnosi się do naszych nowo nabytych umiejętności przetwarzania ogromnych ilości informacji, ich błyskawicznej analizy i wyciągania odkrywczych wniosków. To nowe podejście może przekształcić niezliczone zjawiska – począwszy od cen biletów lotniczych po treść milionów książek – w dającą się przeszukiwać formę i wykorzystać rosnącą moc obliczeniową komputerów do odkrycia zależności, o których wcześniej nie mieliśmy pojęcia. Rewolucja ta, porównywalna z pojawieniem się internetu, a może nawet wynalezieniem druku, zmieni w najbliższych latach nasz sposób myślenia o biznesie, zdrowiu, polityce, edukacji i innowacjach. Niesie ze sobą również nowe zagrożenia, poczynając od końca prywatności takiej, jaką znamy, a kończąc na ewentualnym karaniu za jeszcze niedokonane czyny wyłącznie na podstawie przewidywań naszych przyszłych zachowań wynikających z analizy ogromnych zbiorów danych.

W tej napisanej jasnym językiem, często zaskakującej książce dwaj czołowi eksperci wyjaśniają, czym jest Big data, jak zmieni nasze życie i co możemy zrobić, by uchronić się przed związanym z tym zjawiskiem niebezpieczeństwem. Big data jest pierwszą tak obszerną pracą poświęconą temu problemowi.

Viktor Mayer-Schönberger – profesor w działającym w ramach Uniwersytetu Oksfordzkiego Oxford Internet Institute, gdzie zajmuje się problematyką nadzoru i regulowania internetu. Powszechnie szanowany autorytet w dziedzinie Big data, autor ponad stu artykułów i ośmiu książek – ostatnia z nich to Delete: The Virtue of Forgetting in the Digital Age. Doradza wielu korporacjom i organizacjom na całym świecie, między innymi firmie Microsoft i Światowemu Forum Ekonomicznemu.

Kenneth Cukier jest redaktorem „Economist” zajmującym się gospodarką i nowymi technologiami oraz cenionym komentatorem zjawiska Big data. Jego artykuły dotyczące biznesu i gospodarki pojawiły się między innymi w dziennikach „New York Times” i „Financial Times”.

Opinie o ebooku Big data - Victor Mayer-Schonberger Kenneth Cukier

Cytaty z ebooka Big data - Victor Mayer-Schonberger Kenneth Cukier

Księżyca. W trzecim wieku przed naszą erą Ptolemeusz I zapragnął zgromadzić kopię każdej książki, jaka została napisana. Biblioteka zbudowana przez niego w Aleksandrii odzwierciedlała sumę całej ówczesnej wiedzy.
Hollerith z dużym trudem poradził sobie ze skróceniem czasu gromadzenia danych z ośmiu lat do mniej niż jednego roku. Było to niezwykłe osiągnięcie, które zapoczątkowało automatyzację przetwarzania danych (i stanowiło fundament do założenia firmy, z której później powstał IBM).
Dlatego metoda próby losowej przestaje być użyteczna, gdy chcemy drążyć głębiej, żeby dokładniej przyjrzeć się jakiejś intrygującej subkategorii danych. Co jest skuteczne na poziomie makro, zawodzi w skali mikro.
Kilka lat po tym, jak Banko i Brill załadowali do systemu wszystkie dane, badacze z konkurencyjnej firmy Google postanowili zadziałać według podobnych schematów, ale pomyśleli o jeszcze większej skali. Zamiast testować algorytmy miliardem słów, użyli biliona. W firmie Google nie zrobiono tego, żeby poprawić funkcję sprawdzania gramatyki, ale chciano rozgryźć jeszcze twardszy orzech, czyli stworzyć system automatycznego tłumaczenia języków.
Wprowadzenie w życie tej idei stało się szczególnie palącym problemem w czasie zimnej wojny, gdy Stany Zjednoczone przechwytywały duże ilości pisanych i mówionych materiałów w języku rosyjskim, ale nie miały wystarczającej liczby ludzi do ich szybkiego przetłumaczenia [9]
W tym serwisie ustaloną z góry taksonomię zastąpiono mechanizmem, który jest mniej uporządkowany, ale zdecydowanie bardziej elastyczny. Poza tym lepiej przystosowuje się do ewoluującego i zmieniającego się świata. Kiedy wysyłamy zdjęcia do serwisu Flickr „otagowujemy” je. Oznacza to, że przypisujemy im dowolny tekst, którego używamy później do organizowania i przeszukiwania plików. Tagi są tworzone i dołączane przez użytkowników ad hoc , nie ma ustandaryzowanych, predefiniowanych kategorii, nie jest ustalona żadna taksonomia, której musimy przestrzegać. Każdy dodaje nowe tagi, po prostu je wpisując. Tagi stały się de facto standardem klasyfikacji treści znajdujących się w internecie, używane są w serwisach społecznościowych, takich jak Twitter, blogi i tym podobne.
Visa, firma obsługująca karty kredytowe, używając Hadoopa była w stanie zmniejszyć czas przetwarzania danych z dwóch lat, czyli około 73 miliardów transakcji, z jednego miesiąca do zaledwie 13 minut. Przyspieszenie tego rzędu zmienia cały biznes [21] .
Możemy ją zaakceptować, zakładając, że w zamian lepiej zrozumiemy rzeczywistość – tak jak w malarstwie impresjonistycznym, gdzie każde pociągnięcie pędzla oglądane z bliska wydaje się bezcelowe, ale z oddali ukazuje się nam majestatyczny obraz.
Kiedy Amazon przeprowadził test porównujący wyniki sprzedaży generowane przez redaktorów z wynikami generowanymi przez komputer, który automatycznie tworzył zawartość stron internetowych, okazało się, że nie były one nawet zbliżone do siebie. Materiał będący pochodną zbioru danych generował znacznie większą sprzedaż. Komputer mógł nie wiedzieć, dlaczego klienci, którzy czytają Ernesta Hemingwaya, chcą kupić książkę F. Scotta Fitzgeralda. Nie miało to jednak znaczenia. Gotówka spływała do kasy. W końcu redaktorom przedstawiono dokładne informacje, o jaki procent sprzedaż Amazona była niższa, kiedy na stronach umieszczano ich recenzje, i grupa została rozwiązana. „Byłem niezmiernie smutny z powodu tego, co spotkało grupę redaktorów”, wspomina Linden. „Ale dane nie kłamały, a koszty były bardzo wysokie”.
Tam, gdzie mówimy o korelacji, nie istnieje pewność, tylko prawdopodobieństwo. Jednak jeśli korelacja jest silna, prawdopodobieństwo występowania zależności między zjawiskami jest wysokie. Wielu klientów Amazona może potwierdzić tę tezę, wskazując na półki wypełnione książkami kupionymi dzięki otrzymanym rekomendacjom.
W latach dziewięćdziesiątych ubiegłego wieku zrewolucjonizował sprzedaż detaliczną przez rejestrowanie każdego produktu dzięki systemowi nazwanemu Retail Link. Pozwalało to dostawcom monitorować tempo i ilość sprzedaży oraz wielkość zapasów. Dzięki utworzeniu tak przejrzystego systemu Walmart sprawił, że dostawcy musieli samodzielnie zarządzać zapasami w jego sklepach. W wielu przypadkach firma nie stawała się właścicielem produktu aż do momentu jego sprzedaży finalnemu klientowi, więc unikała ryzyka związanego z nadmiernymi zapasami i redukowała własne koszty. Sieć supermarketów wykorzystywała dane, by de facto
Przewidywania oparte na korelacji są sercem big data . Analiza korelacji jest obecnie stosowana tak często, że czasami przestajemy doceniać jej pozytywne skutki, a musimy mieć świadomość, że będzie znajdowała zastosowanie w coraz to nowych dziedzinach.
Przez lata ekonomiści i politolodzy byli przekonani, że poczucie szczęścia i dochody są wzajemnie skorelowane – zwiększmy dochody, a ludzie będą szczęśliwsi. Jednak przyglądając się danym w tabelach, odkrywamy, że sytuacja jest dużo bardziej złożona. U osób z dochodami poniżej pewnego poziomu każdy wzrost zarobków przekłada się na wzmocnienie poczucia szczęścia, lecz gdy ich dochody znajdują się powyżej tego poziomu, poprawa poczucia szczęścia jest ledwo zauważalna. Gdybyśmy przedstawili to na wykresie, linia byłaby krzywą, a nie prostą, jaką zakłada analiza liniowa [13]
Komodor Maury, „Nawigator mórz”, był jednym z pierwszych, którzy uświadomili sobie, że duże zbiory danych kryją wyjątkową wartość, która znika, gdy są one mniejsze – to podstawowe założenie big data . Co ważniejsze, zrozumiał, że stęchłe dzienniki pokładowe zawierają dane, które mogą być wydobyte i zestawione w tabelach. Robiąc to, stał się pionierem danetyzacji – wygrzebywania danych z miejsc, o których nikt nie myślał, że mają jakąś wartość. Tak jak Oren Etzioni z Farecast, który wykorzystał informacje z przeszłości o cenach biletów do stworzenia lukratywnego biznesu, lub inżynierowie z Google’a, którzy skorzystali ze starych zapytań wpisywanych w wyszukiwarkę, aby zrozumieć reguły rozprzestrzeniania się epidemii grypy, Maury wziął dane wygenerowane w jednym celu i przekształcił je w coś innego.
Wśród osób zajmujących się nowoczesnymi technologiami panuje niewypowiedziane przekonanie, że korzenie big data mają swoje źródło w rewolucji krzemowej. To jednak nie tak. Współczesne systemy komputerowe niewątpliwie umożliwiły powstanie zjawiska big data , jednak jego istotą jest kontynuacja starożytnych dążeń człowieka do mierzenia, zapisywania i analizowania świata. Rewolucja komputerowa niewątpliwie dokonuje się na naszych oczach, lecz do tej pory skupiała się głównie na technologii. Nadszedł czas, by zwrócić naszą uwagę na informację.
Alternatywny system liczbowy został wynaleziony w pierwszym wieku naszej ery w Indiach. Stamtąd przywędrował do Persji, gdzie został udoskonalony. Później zaczęli używać go Arabowie, którzy go ostatecznie dopracowali. Jego podstawą są cyfry arabskie, których używamy do dzisiaj. Krzyżowcy może i siali zniszczenie na ziemiach podbitych przez Europejczyków, ale dzięki nim mądrość Wschodu przywędrowała na Zachód.
Był to okres, w którym absolutnie wszystko musiało być zdefiniowane, rozróżnione i oznaczone. Fascynacja pomiarami zaszła tak daleko, że mierzono ludzkie czaszki, aby na tej podstawie określać zdolności umysłowe. Na szczęście frenologia – ta pseudonauka – szybko poszła w zapomnienie, ale pragnienie do kwantyfikowania tylko się nasiliło.
Zapoczątkowało to powstanie nowej dyscypliny naukowej nazwanej kulturomiką, komputerowej leksykologii, która próbuje zrozumieć ludzkie zachowania i trendy kulturowe z pomocą ilościowej i statystycznej analizy tekstów.
Tworzony przez wolontariuszy Projekt Gutenberg już w 1971 roku postawił sobie za cel powszechne udostępnienie książek z domeny publicznej, lecz nie zakładał ich dodatkowego wykorzystania, gdy słowa staną się danymi. Celem było tylko rozpowszechnianie czytelnictwa. Wydawcy również od lat eksperymentowali z elektronicznymi wersjami książek. Dla nich także największą wartością książki była jej treść, która nie była źródłem danych, ponieważ na tym bazuje ich model biznesu. Nigdy nie widzieli potrzeby, by zamieniać treść w dane, ani nie doceniali ukrytego w tym potencjału.
Ustalenie pozycji zajmuje odbiornikowi GPS zazwyczaj kilka sekund, a koordynaty są ustandaryzowane. Dlatego 37⁰ 14’ 06” N, 115⁰ 48’ 40” W może wyznaczać tylko i wyłącznie położenie supertajnej bazy wojskowej armii Stanów Zjednoczonych w niedostępnych rejonach Newady, znanej jako „Strefa 51”, gdzie przetrzymywani są (być może!) kosmici.

Fragment ebooka Big data - Victor Mayer-Schonberger Kenneth Cukier

Viktor Mayer-Schönberger Kenneth Cukier

BIG DATA

Rewolucja, która zmieni nasze myślenie,pracę i życie

Przekład Michał Głatki

Tytuł oryginału: BIG DATA: A Revolution That Will Transform How We Live, Work and Think 

Przekład: Michał Głatki

Redakcja: Elżbieta Wojtalik-Soroczyńska

Korekta: Agnieszka Al-Jawahiri

Projekt okładki: studio KARANDASZ

Skład: JoLAKS – Jolanta Szaniawska

Copyright © 2013 by Viktor Mayer-Schönberger and Kenneth Cukier

All rights reserved

Copyright © 2014 for the Polish edition by MT Biznes Ltd. All rights reserved

Published by special arrangement with Houghton Mifflin Harcourt Publishing Company. 

Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentów niniejszej publikacji w jakiejkolwiek postaci zabronione. Wykonywanie kopii metodą elektroniczną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym, optycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji. Niniejsza publikacja została elektronicznie zabezpieczona przed nieautoryzowanym kopiowaniem, dystrybucją i użytkowaniem. Usuwanie, omijanie lub zmiana zabezpieczeń stanowi naruszenie prawa.

Warszawa 2014

MT Biznes sp. z o.o.

ul. Oksywska 32, 01-694 Warszawa

tel./faks (22) 632 64 20

www.mtbiznes.pl

sekretariat@mtbiznes.pl

ISBN 978-83-7746-859-3 (format e-pub)

ISBN 978-83-7746-860-9 (format mobi)

Opracowanie wersji elektronicznej:

Podziękowania

Obaj mieliśmy szczęście uczyć się pod okiem jednego z pierwszych mistrzów w dziedzinie sieci informacyjnych i innowacji Lewisa M. Branscomba. Dane nam było również z nim pracować. Jego inteligencja, elokwencja, energia, profesjonalizm, dowcip i bezgraniczna ciekawość wciąż stanowią dla nas źródło inspiracji. Connie Mullin, jego sympatyczną i mądrą partnerkę, chcieliśmy przeprosić za to, że wbrew jej sugestiom nie nadaliśmy niniejszej książce tytułu „Superdata”.

Momin Malik, ze swą wyjątkową inteligencją i przedsiębiorczością, okazał się doskonałym asystentem. Mieliśmy zaszczyt być reprezentowani przez wspaniałych pod każdym względem Lisę Adams i Davida Millera z Garamond Agency. Fenomenalny Eamon Dolan to reprezentant rzadkiego gatunku wydawców posiadających doskonały zmysł redagowania tekstów i pobudzania do myślenia, dzięki czemu rezultat naszej pracy jest o wiele lepszy, niż się spodziewaliśmy. Dziękujemy wszystkim pracownikom Houghton Mifflin Harcourt, w tym zwłaszcza Beth Burleigh Fuller i Benowi Hymanowi. Dziękujemy również Camille Smith za profesjonalną adiustację tekstu. Jesteśmy wdzięczni Jamesowi Franshamowi z „The Economist” za doskonałą pracę w zakresie weryfikacji faktów oraz trafne krytyczne uwagi dotyczące rękopisu.

Szczególnie wdzięczni jesteśmy wszystkim praktykom big data, którzy poświęcili swój czas, objaśniając nam swoją pracę, w tym zwłaszcza Orenowi Etzioniemu, Cynthii Rudin, Carolyn McGregor i Mike’owi Flowersowi.

* * *

Indywidualne podziękowania Viktora. Philipowi Evansowi, który zawsze myśli dwa kroki do przodu i wyraża swoje pomysły w sposób precyzyjny i elokwentny, dziękuję za ponad dziesięć lat wspólnych rozmów.

Jestem również wdzięczny mojemu dawnemu koledze, Davidowi Lazerowi, jednemu z pierwszych pracowników akademickich zajmujących się problematyką big data, który wielokrotnie udzielał mi cennych konsultacji.

Dziękuję uczestnikom konferencji 2011 Oxford Digital Data Dialogue (poświęconej big data), a zwłaszcza prowadzącemu ją Fredowi Cate’owi za wspaniałe dyskusje.

Oxford Internet Institute, w którym pracuję, zapewnił mi idealne warunki do napisania niniejszej książki dzięki obecności kolegów zaangażowanych w badania nad big data. Nie potrafię sobie wyobrazić lepszego miejsca do jej pisania. Z wdzięcznością myślę również o wsparciu ze strony Cable College, w którym wykładam. Bez niego nie miałbym dostępu do niektórych podstawowych źródeł wiedzy, z których korzystałem podczas pracy nad niniejszą książką.

Niezmiennie, gdy ktoś pisze książkę, największą cenę płaci jego rodzina. Nie chodzi wyłącznie o czas, który spędziłem przed ekranem komputera czy w biurze, lecz o liczne godziny, podczas których byłem fizycznie obecny, lecz nieobecny myślami, za co pragnę przeprosić moją żonę Birgit i małego Victora. Obiecuję, że będę bardziej się starał.

Indywidualne podziękowania Kenna. Jestem wdzięczny wielu wspaniałym naukowcom zajmującym się danymi, którzy mi pomogli, a w szczególności Jeffowi Hammerbacherowi, Amr Awadallahowi, DJ Patilowi, Meachelowi Driscollowi, Michaelowi Freedowi i wielu poznawanym przez lata osobom z Google (w tym między innymi Halowi Varianowi, Jeremiemu Ginsbergowi, Petrowi Norvigowi i Udiemu Manberowi). Wszystkie nazbyt krótkie pogawędki z Erickiem Schmidtem i Larrym Pagem były bezcenne.

Ogromny wpływ na mój sposób myślenia miał Tim O’Reilly – męd­rzec epoki internetu, podobnie jak Marc Benioff z Salesforce.com, który był moim nauczycielem. Uwagi Matthew Hindmana jak zwykle okazały się bezcenne. James Guszcza z Deloitte był niezwykle pomocny, podobnie jak stary przyjaciel, specjalista w dziedzinie danych seryjnych i przedsiębiorca Geoff Hyatt. Specjalne podziękowania należą się Pete’owi Wardenowi – filozofowi i praktykowi big data w jednej osobie.

Swoją pomoc i radę oferowało nam wielu przyjaciół, w tym John Turner, Angelika Wolf, Niko Waesche, Katia Verresen, David Wishart, Anna Petherick, Blaine Harden i Jessica Kowal. Wśród innych osób, które stały się źródłem inspiracji do podejmowania nowych wątków w niniejszej książce, znajdują się: Blaise Aguera y Arcas, Eric Horvitz, David Auerbach, Gil Elbaz, Tyler Bell, Andrew Wyckoff i wiele innych osób związanych z OECD, a także Stephen Brobst i członkowie zespołu Teradata, Anthony Goldbloom i Jeremy Howard z Kaggle, Ed Dumbill, Roger Magoulas oraz zespół O’Reilly Media, a także Edward Lazowska. James Cortada jest nieoceniony. Dziękuję również Ping Li z Accel Partners i Rogerowi Ehrenbergowi z IA Ventures.

Koledzy z „The Economist” dostarczyli mi wspaniałych pomysłów i wsparcia. W szczególności dziękuję moim wydawcom: Tomowi Standage’owi, Danielowi Franklinowi i Johnowi Micklethwaitowi, jak również Barbarze Beck, redagującej specjalny raport „Data, Data Everywhere”, który stał się podstawą do napisania niniejszej książki. Od moich kolegów z Tokio, Henry’ego Tricksa i Dominica Zeiglera, nauczyłem się, że zawsze trzeba poszukiwać nowości i pięknie je opisywać. Oliver Morton dzielił się swoją życiową mądrością, gdy była najbardziej potrzebna.

Seminarium Salzburg Global w Austrii pomogło mi pisać i myśleć, a poza tym stanowiło doskonałe połączenie idyllicznego wypoczynku z intelektualnymi dociekaniami. Podczas obrad okrągłego stołu, zorganizowanych przez Aspen Institute w lipcu 2011 roku, zrodziło się wiele pomysłów, za które dziękuję jego uczestnikom i organizatorowi, Charliemu Firestonowi. Wyrazy mojej wdzięczności kieruję również do Teri Elniski za jej ogromne wsparcie.

Rektor Exeter College w Oksfordzie, Frances Cairncross, zapewniła mi pełne spokoju miejsce pobytu oraz gorąco zachęcała mnie do pracy. Pokory nauczyło mnie koncentrowanie umysłu na zagadnieniach związanych z technologią i społeczeństwem, wyrosłych wokół idei, które opisała półtora dekady temu w The Death of Distance – publikacji, która inspirowała mnie jako młodego dziennikarza. Gdy codziennie rano przemierzałem dziedziniec uczelni w Exeter, odczuwałem satysfakcję płynącą ze świadomości, że mam okazję przekazywać dalej pochodnię, którą niosła, choć wiedziałem, że płomień w dłoniach Frances był o wiele jaśniejszy.

Wyrazy najgłębszej wdzięczności kieruję do członków mojej rodziny, którzy mnie znoszą bądź jeszcze częściej znoszą moją nieobecność. Moi rodzice, siostra i inni krewni zasługują na podziękowania, lecz największą wdzięczność rezerwuję dla mojej żony Heather i naszych dzieci: Charlotte i Kaz, bez ich wsparcia, zachęty i pomysłów, niniejsza książka nigdy by nie powstała.

Obaj jesteśmy wdzięczni wielu osobom, które omawiały z nami temat big data na długo zanim pojęcie to zostało spopularyzowane. W niniejszym podziękowaniu szczególne wyrazy wdzięczności kierujemy do uczestników Rueschlikon Conference on Information Policy, podczas której Victor pełnił funkcję współorganizatora, a Kenn reportera. Szczególnie dziękujemy Josephowi Alhadeffowi, Bernardowi Benhamou, Johnowi Seely Brownowi, Herbertowi Burkertowi (który zapoznał nas z komodorem Maurym), Peterowi Cullenowi, Edowi Feltenowi, Urs Gasser, Joi Ito, Jeffowi Jonasowi, Nickolasowi Lundblandowi, Douglasowi Merrillowi, Rickowi Murrayowi, Cory Ondrejka i Paulowi Schwartzowi.

Victor Mayer-Schönberger

Kenneth Cukier

Oxford/Londyn, sierpień 2012 roku

1 Teraźniejszość

W 2009 roku odkryto nowy wirus grypy. Szybko rozprzestrzeniający się szczep nazwany H1N1 łączył w sobie fragmenty wirusów, które wywoływały świńską i ptasią grypę. W ciągu kilku tygodni instytucje zajmujące się zdrowiem publicznym na całym świecie zaczęły obawiać się wybuchu pandemii. Niektórzy komentatorzy przestrzegali przed wybuchem przerażającej epidemii o skali porównywalnej z grypą hiszpanką, którą w 1918 roku zaraziło się pół miliarda osób i która pochłonęła dziesiątki milionów ofiar. Co gorsza, nie istniała szybko dostępna szczepionka chroniąca przed nowym wirusem. Jedyną nadzieją służb ochrony zdrowia była próba ograniczenia prędkości rozprzestrzeniania się wirusa. Jednak żeby tego dokonać, służby te musiały wiedzieć, gdzie pojawiają się nowe przypadki zachorowań.

W Stanach Zjednoczonych lekarze musieli informować o nowych przypadkach grypy Centrum Zwalczania i Zapobiegania Chorobom (CDC) – agencję rządową zajmującą się między innymi walką z chorobami zakaźnymi. Jednak mapa pandemii zawsze była o tydzień lub dwa nieaktualna. Zdarzało się, że niektórzy chorowali kilka dni, zanim poszli do lekarza. Trochę czasu zajmowało też przekazywanie informacji do instytucji centralnych, a CDC zestawiało spływające dane tylko raz w tygodniu. W czasie szybko rozprzestrzeniającej się choroby jedno- lub dwutygodniowe opóźnienie było wiecznością. Opóźnienie to zaciemniało służbom ochrony zdrowia obraz sytuacji w najważniejszych momentach.

Czasami zdarzają się dziwne zbiegi okoliczności – kilka tygodni przed pojawieniem się na czołówkach gazet wirusa H1N1 inżynierowie zatrudnieni przez internetowego giganta, firmę Google, opublikowali w czasopiśmie naukowym „Nature”[1] godny uwagi artykuł. Wśród naukowców zajmujących się problematyką komputerową i urzędników instytucji ochrony zdrowia wzbudził on spore zainteresowanie, ale w innych środowiskach przeszedł niezauważony. Autorzy wyjaśniali, w jaki sposób Google może przewidywać rozprzestrzenianie się zwykłego wirusa grypy w Stanach Zjednoczonych, nie tylko na poziomie całego kraju, ale również w poszczególnych regionach a nawet stanach. Firma mogła to osiągnąć dzięki sprawdzaniu, jakie słowa ludzie wpisują w wyszukiwarkę internetową. Ponieważ każdego dnia w okno wyszukiwarki Google’a wpisywanych jest ponad trzy miliardy zapytań i wszystkie są archiwizowane, firma dysponowała ogromną liczbą informacji.

Google porównał 50 milionów najczęstszych fraz wyszukiwanych przez Amerykanów w internecie z dostarczonymi przez CDC danymi dotyczącymi rozprzestrzeniania się sezonowej grypy w latach 2003–2008. Pomysł polegał na tym, żeby zidentyfikować obszary, na których pojawiła się grypa, na podstawie tego, czego ludzie szukali w internecie. Inni również próbowali to osiągnąć, nie dysponowali jednak takimi jak Google liczbą danych, mocą do ich przetwarzania oraz algorytmami statystycznymi.

Chociaż inżynierowie z tej firmy mogli zakładać, że wyszukiwane będą informacje dotyczące grypy, to frazy takie jak „lekarstwo na kaszel i gorączkę” nie były dla nich najważniejsze. Nie wzięli pod uwagę takiego założenia i stworzyli system, który był od niego niezależny. Cały ich system został tak zaprojektowany, by szukać korelacji między częstością pojawiania się pewnych zapytań a rozprzestrzenianiem się grypy w czasie i przestrzeni. W celu przetestowania wyszukiwanych terminów przetworzyli zadziwiającą liczbę 450 milionów różnych modeli matematycznych, porównując własne przewidywania z rzeczywistymi danymi dotyczącymi grypy z lat 2007–2008 dostarczonymi przez CDC. I trafili w dziesiątkę: ich program znalazł kombinację 45 wyszukiwanych fraz, które wykorzystane razem w modelu matematycznym, dawały dużą korelację między przewidywaniami a oficjalnymi liczbami z całego kraju. Inżynierowie, podobnie jak CDC, mogli wywnioskować, gdzie pojawiła się grypa, ale w przeciwieństwie do tej instytucji mogli to stwierdzić w czasie prawie rzeczywistym, a nie z jedno- lub dwutygodniowym opóźnieniem.

Dlatego gdy w 2009 roku pojawił się wirus H1N1, system firmy Google okazał się przydatniejszym i aktualniejszym narzędziem niż statystyki rządowe z ich naturalną tendencją do opóźnień. Urzędnicy zajmujący się ochroną zdrowia zyskali wartościowe informacje[2].

Warto zauważyć, że metoda Google’a nie korzystała z informacji pozyskiwanych w gabinetach lekarskich ani z danych o zamawianych szpatułkach lekarskich. Zbudowana została natomiast z wykorzystaniem zjawiska big data, czyli zdolności społeczeństwa do korzystania z informacji w nowatorski sposób, który ułatwia lepsze zrozumienie otaczającej rzeczywistości lub wytworzenie dóbr i usług o znacznej wartości. Dlatego kiedy wybuchnie kolejna pandemia, będziemy wyposażeni w lepsze narzędzie pomagające przewidzieć, jak się będzie rozprzestrzeniać i dzięki temu jej zapobiegać.

Zdrowie publiczne nie jest jedynym obszarem, gdzie big data przyczynia się do powstania istotnych zmian. Big data przekształca również całe branże. Dobrym przykładem jest zakup biletów lotniczych.

W 2003 roku Oren Etzioni chciał polecieć samolotem z Seattle do Los Angeles na ślub młodszego brata. Kilka miesięcy przed uroczystością kupił online bilet lotniczy, ponieważ był przekonany, że im wcześniej się go kupuje, tym mniej się za niego płaci. W czasie lotu z czystej ciekawości zapytał siedzącego obok współpasażera, ile zapłacił za bilet i kiedy go kupił. Okazało się, że mężczyzna zapłacił dużo mniej niż Etzioni, chociaż zakupu dokonał później. Wściekły Etzioni zadawał to pytanie kolejnym pasażerom i okazało się, że większość kupiła tańsze bilety[3].

Dla większości z nas poczucie ekonomicznej niesprawiedliwości ulotniłoby się w chwili zamknięcia podstawek pod tacki i ustawienia foteli w pozycji pionowej przed lądowaniem samolotu. Ale Etzioni jest jednym z czołowych amerykańskich naukowców zajmujących się informatyką. Postrzega świat jako serię problemów związanych z gromadzeniem wielkich ilości informacji – takich, które można rozwiązać. Zajmuje się nimi, odkąd w 1986 roku ukończył Harvard jako pierwszy student, który uzyskał na tym uniwersytecie dyplom magistra informatyki.

Piastując wysokie stanowisko na University of Washington, zaczął rozkręcać działalność firm operujących ogromnymi ilościami danych, zanim jeszcze ukuto termin big data. Pomagał stworzyć MetaCrawlera, pierwszą wyszukiwarkę internetową, która z sukcesem zadebiutowała w 1994 roku i została później przejęta przez InfoSpace, wtedy jedną z największych firm internetowych. Etzioni był współzałożycielem Netbota, pierwszej strony WWW, na której można było porównać oferty sklepów internetowych. Sprzedał go później firmie Excite. Jego firma ClearForest, która zajmowała się komputerowym odczytywaniem treści dokumentów tekstowych, została później przejęta przez Agencję Reutera.

Wróćmy jednak na ziemię, Etzioni był zdeterminowany, aby znaleźć sposób, dzięki któremu osoby kupujące bilety online będą wiedziały, czy zaoferowana im cena to dobra okazja, czy nie. Miejsca w samolocie są towarem, w czasie jednego lotu każde z nich jest w zasadzie nieodróżnialne od innego. Jednak ceny biletów różnią się ogromnie, ponieważ ich kalkulacja opiera się na dziesiątkach czynników, które znane są przede wszystkim samym liniom lotniczym.

Etzioni doszedł do wniosku, że nie musi odkrywać przyczyn zróżnicowania cen. Zamiast tego wystarczy, że z dużym prawdopodobieństwem przewidzi, czy cena, którą widzimy na ekranie komputera, będzie w przyszłości rosła czy malała. Jest to możliwe do zrealizowania nawet w całkiem prosty sposób. Trzeba tylko prześledzić wszystkie transakcje dla danej trasy i przeanalizować, jak zmieniały się ceny biletów w zależności od tego, ile dni przed odlotem zostały kupione.

Jeżeli średnia cena biletów miała tendencję spadkową, rozsądnie byłoby poczekać i kupić bilet później. Jeśli przeciętna cena zwykle rosła, system mógłby zarekomendować kupno biletu od razu po zaproponowanej cenie. Innymi słowy, Etzioni musiał stworzyć system, który byłby podrasowaną wersją nieformalnych badań przeprowadzonych przez niego na wysokości 10 kilometrów. Był to problem, który mógł rozwiązać, więc zabrał się do pracy.

Wykorzystując próbkę 12 tysięcy cen, które zdobył „wyskrobując” je przez 41 dni z jednej ze stron internetowych dla podróżujących, Etzioni stworzył model pozwalający wirtualnym pasażerom zaoszczędzić drobne kwoty. Model nie wiedział, dlaczego ceny się zmieniają, tylko jak. Model nie uwzględniał żadnej ze zmiennych, które linie lotnicze wykorzystywały do ustalania cen, takich jak liczba niesprzedanych miejsc, sezonowość czy pewnego rodzaju magiczne prawo obniżające ceny, mówiące, że biznesmeni spędzają sobotnie noce w domu. Opierał swoje przewidywania na tym, co było wiadome – na prawdopodobieństwie oszacowanym na podstawie danych zebranych z innych lotów. „Kupić, czy nie kupić, oto jest pytanie”, deliberował Etzioni. Celnie nazwał swój projekt badawczy Hamlet[4].

Ten niewielki projekt wyewoluował w finansowaną przez fundusz venture capital firmę Farecast[5]. Przewidując, czy ceny biletów lotniczych będą rosły, czy malały, i o ile, Farecast wyposażył konsumentów w narzędzie wspierające ich w podjęciu decyzji, kiedy kliknąć na przycisk „kupuj”. Dał im informacje, do których nigdy wcześniej nie mieli dostępu. Stosując prawo przejrzystości również w stosunku do siebie, Farecast oceniał stopień pewności własnych przewidywań i informacje te również udostępniał użytkownikom.

System potrzebował do działania ogromnych ilości danych. Żeby zwiększyć jego wydajność, Etzioni zdobył jedną z baz danych, w której gromadzono informacje dotyczące rezerwacji lotów. Dzięki nim system mógł dokonywać przewidywań na podstawie danych z jednego roku o każdym miejscu i locie na większości komercyjnych tras w Ameryce. Farecast do swoich przewidywań przetwarzał w tym czasie blisko 200 miliardów rekordów dotyczących cen lotów, co pozwoliło klientom zaoszczędzić majątek.

Etzioni, szatyn o szerokim uśmiechu i aparycji cherubina, nie wygląda na kogoś, kto pozbawił linie lotnicze milionów dolarów potencjalnego dochodu. W rzeczywistości jego plany były bardziej dalekosiężne. Do 2008 roku planował zastosować swoją metodę do kupowania innych dóbr, takich jak pokoje hotelowe, bilety na koncerty czy używane samochody, do wszystkich produktów i usług, które są podobne do konkurencyjnych, ale znacznie różnią się między sobą cenami, i o których można zdobyć mnóstwo danych. Jednak zanim udało mu się zrealizować plany, do jego drzwi zapukał Microsoft i przejął Farecasta za około 110 milionów dolarów, po czym zintegrował stworzony w tej firmie system ze swoją wyszukiwarką Bing[6]. Do 2012 roku skuteczność systemu wynosiła 75 procent, co pozwoliło podróżnym zaoszczędzić przeciętnie 50 dolarów na bilecie.

Farecast jest najlepszym przykładem firmy obrazującej zjawisko big data. Przykład ten pokazuje również kierunek, w którym zmierza świat. Pięć czy dziesięć lat wcześniej Etzioni nie mógłby stworzyć tej firmy. Twierdzi: „Byłoby to niemożliwe”. Przetwarzanie i gromadzenie danych było zbyt drogie. Chociaż zmiany technologiczne były krytycznym czynnikiem, który umożliwił mu stworzenie systemu, zmieniło się jednak również coś innego, coś subtelnego. Zmieniło się nastawienie do tego, jak dane mogą być wykorzystywane.

Przestano uważać informacje za statyczne i przestarzałe dane, których przydatność kończy się z chwilą osiągnięcia celu, dla którego są gromadzone, takiego jak wylądowanie samolotu (czy zakończenie wyszukiwania w przypadku firmy Google). Dane stały się surowcem dla biznesu, istotnym wkładem w gospodarkę wykorzystywanym do tworzenia nowych form ekonomicznej wartości. Dzięki odpowiedniemu nastawieniu mogą być ponownie inteligentnie wykorzystane, żeby stać się źródłem innowacji i nowych usług. Tym, którzy są pokorni, gotowi do wysłuchania, co dane mają do powiedzenia, są wyposażeni we właściwe narzędzia, mogą zdradzić wiele sekretów.

Niech przemówią dane

Dzięki telefonom w kieszeniach, laptopom w plecakach czy systemom informatycznym wspierającym podejmowanie decyzji w firmach łatwo dostrzec owoce społeczeństwa informacyjnego. Mniej rzucająca się w oczy jest sama informacja. Pół wieku po wejściu komputerów do powszechnego użytku informacje tak się zaczęły kumulować, że powstaje coś nowego i wyjątkowego. Świat nie tylko jest zalewany niespotykaną wcześniej liczbą danych, ale ich ilość rośnie coraz szybciej. Zmiana skali spowodowała zmianę statusu. Zmiana ilości doprowadziła do zmiany jakości. W naukach takich jak astronomia czy genetyka, które pierwsze w XXI wieku zmierzyły się z olbrzymią ilością danych, ukuto termin big data. Koncepcja ta przenosi się obecnie na wszelkie obszary ludzkiej działalności.

Termin big data nie ma jednoznacznej definicji. Początkowo oznaczał, że ilość informacji wzrosła tak drastycznie, że pamięć komputerów służących do ich przetwarzania stała się niewystarczająca, co zmusiło inżynierów do zaprojektowania na nowo narzędzi do ich analizy. Takie jest pochodzenie nowych technologii przetwarzania danych takich jak MapReduce firmy Google i jego odpowiednik opensource – Hadoop, wykorzystywany przez Yahoo. Pozwalają one zarządzać większą ilością danych, niż było to możliwe wcześniej i, co ważne, dane te nie muszą być umieszczane w wąziutkich wierszach czy tradycyjnych tabelkach baz danych. Na horyzoncie pojawiają się również inne technologie przetwarzania informacji, w których sztywna hierarchia i homogeniczność należą do przeszłości. Ponieważ w tym samym czasie spółki internetowe zgromadziły przepastne skarbnice danych i były pod wpływem silnych finansowych bodźców, żeby je sensownie wykorzystać, stały się głównymi użytkownikami najnowszych technologii ich przetwarzania, zastępując w tej roli tradycyjne firmy komputerowe, mające za sobą w niektórych przypadkach całe dekady doświadczeń w tej dziedzinie.

Obecnie myśli się o zagadnieniu big data – i takie podejście jest prezentowane w niniejszej książce – następująco: uważa się, że termin ten obejmuje to, co może być zrealizowane w dużej skali, a nie może być wykonane w małej, w celu zyskania nowej wiedzy lub stworzenia nowej wartości w sposób, który zmieni rynki, organizacje, relacje między rządami a obywatelami itp[7].

Jednak to zaledwie początek. Era big data stanowi wyzwanie dla naszego sposobu życia i naszej interakcji ze światem. Co więcej, społeczeństwo będzie musiało porzucić swoją obsesję poszukiwania przyczynowości na rzecz korelacji – nie będziemy wiedzieć dlaczego, ale zaledwie co. Ustalone przez wieki praktyki przewrócone zostaną do góry nogami, a nasze najbardziej podstawowe przekonania o tym, jak podejmować decyzje i rozumieć otaczający nas świat, staną przed dużym wyzwaniem.

Big data wyznacza początek wielkiej transformacji. Podobnie jak wiele nowych technologii big data z pewnością stanie się ofiarą niesławnego cyklu panującego w Dolinie Krzemowej – po okresie pojawiania się nowego terminu na okładkach magazynów i w tematach konferencji branżowych trend się zmieni i wiele nowo powstałych firm zajmujących się tym zagadnieniem wpadnie w kłopoty. Jednak zarówno początkowe zafascynowanie, jak i późniejsze potępienie nie wpływają dobrze na dogłębne zrozumienie znaczenia tego, co obecnie obserwujemy. Tak jak teleskop pozwala nam poznać kosmos, a mikroskop zarazki, nowe techniki gromadzenia i analizowania ogromnych ilości danych pomogą nam rozumieć świat w sposób, który dopiero zaczynamy doceniać. Książkę tę napisaliśmy nie jako ewangeliści big data, ale jako posłańcy. Powtórzmy jeszcze raz – prawdziwą rewolucję powodują nie maszyny, które przetwarzają dane, lecz dane same w sobie i to, jak my ich używamy.

Żeby uświadomić sobie, jak zaawansowana jest rewolucja informacyjna, można wziąć pod uwagę trendy panujące w najróżniejszych dziedzinach. Nasz cyfrowy wszechświat stale się rozszerza. Przyjrzyjmy się astronomii. Kiedy w 2000 roku rozpoczęto program obserwacyjny nieba Sloan Digital Sky Survey, zaangażowane do niego teleskopy w ciągu kilku początkowych tygodni zebrały więcej danych, niż udało się to w całej historii astronomii. Do 2010 roku w archiwum projektu znalazła się niesłychana liczba 140 terabajtów informacji. A jego znajdujący się w Chile następca – Large Synoptic Survey Telescope, który rozpocznie działalność w 2016 roku – będzie gromadził taką liczbę danych co pięć dni.

Takie astronomiczne wielkości znajdujemy również w obszarach bliższych naszemu życiu. Kiedy w 2003 roku naukowcy po raz pierwszy zdekodowali ludzki genom, zajęło im to dekadę intensywnej pracy związanej z sekwencjonowaniem trzech miliardów podstawowych par DNA. Obecnie jedno urządzenie może odczytać sekwencje takiej liczby DNA w ciągu jednego dnia[8]. Spójrzmy na świat finansów. Każdego dnia około siedem miliardów akcji zmienia właścicieli na giełdach w Stanach Zjednoczonych. Za około dwie trzecie transakcji są odpowiedzialne powstałe na podstawie modeli matematycznych algorytmy komputerowe, które przetwarzają góry danych, żeby osiągnąć zysk przy zminimalizowanym ryzyku[9].

Wielką liczbą danych zalewane są zwłaszcza firmy komputerowe. Google przetwarza ich codziennie ponad 24 petabajty[10] – to tysiące razy więcej niż wszystkie materiały pisemne zebrane w Bibliotece Kongresu Stanów Zjednoczonych. Facebook, firma, która zaistniała dopiero w 2004 roku, co godzinę dostaje do przetworzenia ponad 10 milionów nowych fotografii. Użytkownicy Facebooka każdego dnia klikają na przycisk „lubię to” lub komentują coś prawie trzy miliardy razy, tworząc cyfrowy świat, na podstawie którego firma może poznać ich preferencje[11]. 800 milionów użytkowników serwisu YouTube co sekundę dodaje godzinę nowych filmów[12]. Liczba wiadomości na Twitterze rośnie co roku o około 200 procent. W 2012 roku wysyłano ich co dnia ponad 400 milionów[13].

Od nauki po ochronę zdrowia, od bankowości po internet – różne branże, ta sama historia – ilość danych na świecie szybko rośnie, prześcigając nie tylko nasze maszyny, ale naszą wyobraźnię.

Wielu próbowało określić dokładną liczbę otaczających nas informacji i oszacować szybkość ich wzrostu. Robili to z różnym skutkiem, ponieważ mierzyli różne rzeczy. Jedne z najpełniejszych badań przeprowadził Martin Hilbert z Annenberg School for Communication and Journalism z University of Southern California. Dążył do dokładnego zmierzenia wszystkiego, co wyprodukowano, zgromadzono i przesłano. Jego badania obejmowały nie tylko książki, obrazy, e-maile, fotografie, muzykę i filmy (zapisane analogowo i cyfrowo), ale również gry komputerowe, rozmowy telefoniczne, a nawet nawigację samochodową i listy przesyłane tradycyjną pocztą. Uwzględnił również nadawców takich jak radio i telewizja, uwzględniając liczbę potencjalnych słuchaczy i widzów.

Według Hilberta, w 2007 roku było zgromadzonych aż ponad 300 eksabajtów danych. Żeby uświadomić sobie, o jakich wielkościach jest mowa, warto odnotować, że długometrażowy film nagrany cyfrowo może być skompresowany do pliku o wielkości jednego gigabajta. Eksabajt to miliard gigabajtów. Krótko mówiąc, to bardzo dużo. Co ciekawe, w 2007 roku tylko siedem procent danych było zapisane w formie analogowej (dokumenty, książki, wywołane fotografie itp.). Cała reszta była cyfrowa. A jeszcze nie tak dawno sytuacja wyglądała zupełnie inaczej. Chociaż idee „rewolucji informatycznej” i „cyfrowej ery” pojawiły się w latach sześćdziesiątych ubiegłego wieku, tylko do pewnego stopnia odpowiadały rzeczywistości. Jeszcze zupełnie niedawno, bo w 2000 roku, tylko jedna czwarta informacji była zgromadzona w formie cyfrowej. Pozostałe trzy czwarte było zapisane na papierze, taśmie filmowej, płytach winylowych, magnetycznych kasetach magnetofonowych itp[14].

Ilość informacji w formie cyfrowej nie była wtedy duża – dla serfujących od lat w internecie i kupujących książki online to zaledwie błahostka. (W 1986 roku około 40 procent całkowitej mocy obliczeniowej urządzeń na całym świecie przypadało na kalkulatory kieszonkowe, miały one zresztą większą zdolność przetwarzania danych niż wszystkie działające wtedy komputery osobiste). Ponieważ jednak cyfrowe dane tworzone są bardzo szybko – według Hilberta, ich liczba jest podwajana co trzy lata – sytuacja błyskawicznie się odwróciła. Dla kontrastu liczba informacji w formie analogowej prawie w ogóle nie rośnie. Szacuje się, że w 2013 roku liczba danych zgromadzonych na świecie to około 1200 eksabajtów, z czego tylko dwa procent nie jest przechowywanych w formie cyfrowej[15].

Nie ma dobrego sposobu, żeby wyobrazić sobie, co oznaczają takie ilości danych. Gdyby zostały umieszczone w książkach, pokryłyby 52 warstwami powierzchnię Stanów Zjednoczonych. Gdyby zapisać je na płytach CD i położyć płyty jedna na drugiej, można by zbudować z nich pięć kolumn z Ziemi do Księżyca. W trzecim wieku przed naszą erą Ptolemeusz I zapragnął zgromadzić kopię każdej książki, jaka została napisana. Biblioteka zbudowana przez niego w Aleksandrii odzwierciedlała sumę całej ówczesnej wiedzy. Wielkość cyfrowego potopu, który obecnie zalewa świat, daje w przeliczeniu na każdego mieszkańca Ziemi 320 razy więcej informacji, niż było zgromadzonych w Bibliotece Aleksandryjskiej.

Cyfrowy świat naprawdę przyspiesza. Liczba informacji rośnie cztery razy szybciej niż światowa gospodarka, a moc obliczeniowa komputerów dziewięć razy szybciej. Trudno się dziwić, że ludzie zaczynają narzekać na przeładowanie informacjami. Zmiany te dotykają każdego.

Żeby uzyskać właściwą perspektywę, porównajmy obecny zalew danych z wcześniejszą rewolucją informacyjną związaną z wynalezieniem druku przez Gutenberga około 1439 roku. Według historyczki Elizabeth Eisenstein w ciągu 50 lat, od 1453 do 1503 roku, zostało wydrukowanych około ośmiu milionów książek. Uważa się, że było ich więcej niż ksiąg napisanych przez wszystkich skrybów Europy od czasu powstania Konstantynopola 1200 lat wcześniej. Innymi słowy, można przyjąć, że aby podwoić ilość zgromadzonych w Europie informacji, potrzeba było 50 lat – dzisiaj dzieje się to w ciągu trzech[16].

Co oznacza ten wzrost? Peter Norvig, pracujący w firmie Google ekspert od sztucznej inteligencji, lubi myśleć o tym zjawisku przez analogię do obrazów. Na początku prosi nas o przypomnienie sobie sławnego rysunku konia ze ścian jaskini w leżącym we Francji Lascaux, którego powstanie datuje się na czasy paleolitu, około 17 tysięcy lat temu. A potem o przypomnienie fotografii konia lub – jeszcze lepiej – malarstwa Pabla Picassa, które znowu nie różni się tak wiele od malowideł ze ścian jaskini. Kiedy pokazano Picassowi obrazy z Lascaux, zażartował, że od tamtego czasu „Niczego nowego nie wymyśliliśmy”[17].

Słowa Picassa w pewnym aspekcie były prawdą, ale w innym nie. Rozważmy fotografię konia. Kiedyś namalowanie takiego zwierzęcia zajmowało mnóstwo czasu, obecnie dzięki fotografii jego zdjęcie uzyskujemy dużo szybciej. To spora zmiana, ale być może nie najważniejsza, ponieważ zasadniczo otrzymujemy to samo – wizerunek konia. Norvig prosi jednak, żeby rozważyć wykonywanie fotografii konia z szybkością 24 klatek na sekundę. W takim przypadku zmiana ilości wpływa na zmianę jakości. Film różni się zdecydowanie od nieruchomej fotografii. To samo zjawisko zachodzi w przypadku big data – zmieniając ilość, zmieniamy istotę[18].

Inną analogię można znaleźć w nanotechnologii, gdzie wszystko staje się mniejsze, nie większe. Podstawowe prawo nanotechnologii mówi, że kiedy schodzimy na poziom cząsteczkowy, zmieniają się właściwości fizyczne. Poznanie tej zasady oznacza możliwość stworzenia nowych materiałów o niespotykanych wcześniej właściwoś­ciach. W nanoskali możliwe jest na przykład wytworzenie bardziej giętkich metali i elastyczniejszej ceramiki. Z drugiej strony, jeśli zwiększamy ilość danych, z którymi pracujemy, możemy zrobić nowe rzeczy – niemożliwe do osiągnięcia przy mniejszej ilości informacji[19].

Czasami ograniczenia naszego życia są w rzeczywistości wyłącznie funkcją skali, w której działamy (możemy przypuszczać, że podobna zasada dotyczy wszystkiego). Rozważmy trzecią analogię – znowu z pola badań naukowych. Dla ludzi najważniejszym prawem fizycznym jest grawitacja – rządzi wszystkim, co robimy. Ale dla małych robaczków grawitacja z reguły nie ma takiego znaczenia. Dla niektórych, na przykład dla nartnika dużego, prawem fizycznym, któremu głównie podlega, jest napięcie powierzchniowe, pozwalające mu poruszać się po powierzchni stawu.

W przypadku informacji, podobnie jak w świecie fizycznym, wielkość ma duże znaczenie. Dlatego firma Google jest w stanie zidentyfikować obszar występowania grypy prawie tak samo dobrze, jak robią to organy państwowe na podstawie oficjalnych danych zebranych od lekarzy, których odwiedzili chorzy pacjenci – i może tego dokonać w czasie prawie rzeczywistym, o wiele szybciej niż te instytucje. Podobnie stworzony przez Etzioniego program Farecast może przewidzieć zmiany cen biletów lotniczych i w efekcie dać konsumentom ważne narzędzie nacisku ekonomicznego. Jednak zarówno Google, jak i Etzioni mogą działać tak dobrze wyłącznie dzięki analizie setek miliardów pojedynczych danych.

Te dwa przykłady pokazują naukową i społeczną wagę zjawiska big data oraz stopień, w jakim może ono stać się źródłem ekonomicznej wartości. Wskazują dwie przyczyny, dzięki którym zjawisko to jest skazane na wstrząśnięcie całym naszym światem, począwszy od biznesu i nauk ścisłych po ochronę zdrowia, rządzenie, edukację, gospodarkę, nauki społeczne i każdy inny aspekt naszego życia.

Chociaż to dopiero początki big data, polegamy na nim każdego dnia. Filtry antyspamowe są tworzone po to, by automatycznie przystosować się do różnych wariantów słów występujących w niechcianej poczcie – nie można było jednak z góry zaprogramować, by blokowane były słowa, takie jak „via6ra” i jego różne odmiany. Strony randkowe łączą pary na podstawie tego, jak liczne cechy poszczególnych osób odpowiadają tym, które wcześniej pomogły innym ludziom znaleźć właściwego partnera. Funkcja „autokorekty” w smartfonach śledzi nasze działania i na podstawie tego, co piszemy, dodaje nowe słowa do słownika ortograficznego. Jednak takie wykorzystanie big data to zaledwie początek. Poczynając od samochodów, które wykrywają, kiedy gwałtownie skręcić lub zahamować, po stworzony przez IBM komputer Watson, który pokonał człowieka w teleturnieju Va Banque, nowe podejście przekształci wiele aspektów świata, w którym żyjemy.

W swojej istocie big data polega na przewidywaniu. Chociaż jest opisywane jako część gałęzi informatyki zwanej sztuczną inteligencją, a dokładniej systemów uczących się, taka charakterystyka może być myląca. Big data nie polega na próbach uczenia komputerów, żeby myślały jak ludzie. Jego sednem jest zastosowanie matematyki do przetwarzania ogromnych ilości danych, żeby szacować prawdopodobieństwo – prawdopodobieństwo, że e-mail jest spamem, że wystukane na klawiaturze „nei” to „nie”, że trasa i prędkość pieszego wskazuje, iż zaraz przekroczy drogę w niewłaściwym miejscu – dla automatycznego samochodu będzie to informacją, żeby zwolnić. Istotne jest to, że takie systemy są skuteczne, ponieważ przetwarzają mnóstwo danych, na podstawie których tworzą swoje przewidywania. Co więcej, systemy te są zaprojektowane, aby stale się udoskonalać przez monitorowanie sygnałów i wzorców, na które szczególnie należy zwracać uwagę, gdy spływa jeszcze więcej danych.

W przyszłości – a nastąpi to wcześniej, niż się spodziewamy – wiele aspektów naszego życia leżących dzisiaj wyłącznie w gestii ludzkich kompetencji, zostanie udoskonalonych lub zastąpionych przez systemy komputerowe. Nie tylko prowadzenie samochodu czy szukanie żony lub męża, ale nawet bardziej skomplikowane zadania. W końcu Amazon potrafi zarekomendować idealną dla nas książkę, Google potrafi wyświetlić nam najodpowiedniejszą stronę internetową, Facebook wie, co lubimy, a LinkedIn odgaduje, kogo znamy. Podobne technologie zostaną zastosowane w diagnozowaniu chorób, rekomendowaniu odpowiedniej kuracji, a być może nawet identyfikowaniu przestępców, zanim popełnią przestępstwo. Tak jak internet radykalnie zmienił świat przez danie komputerom możliwość komunikowania się, tak big data zmieni nasze życie przez dodanie do niego ilościowych wymiarów, których nigdy wcześniej nie miało.

Koniec wersji demonstracyjnej

[1] Jeremy Ginsburg i inni, Detecting Influenza Epidemics Using Search Engine QueryData, „Nature” nr 457, 2009, s. 1012–1014, http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html.
[2] A.F. Dugas i inni, Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics, „CID Advanced Access”, 8 stycznia 2012, DOI 10.1093/cid/cir883.
[3] Kenneth Cukier, Data, Data Everywhere, „The Economist”, Special Report, 27 lutego 2010, s. 1–14, oraz na podstawie wywiadów z Etzionim przeprowadzonych między 2010 a 2012 rokiem.
[4] Oren Etzioni, C.A. Knoblock, R. Tuchinda, and A. Yates, To Buy or Not to Buy: Mining Airfare Data to Minimize Ticket Purchase Price, SIGKDD, 3 sierpnia 2003, s. 24–27, http://knight.cis.tem ple.edu/~yates//papers/hamlet-kdd03.pdf.
[5] Nazwa powstała z połączenia słów „forecast” (pol. prognoza pogody) i „fare” (pol. opłata za przejazd) – przyp. tłum.
[6] Informacje medialne, głównie Secret Farecast Buyer Is Microsoft, Seattlepi.com, 17 kwietnia 2008, http://blog.seattlepi.com/venture/2008/04/17/secret-farecast-buyer-is-microsoft /?source=mypi.
[7] Na temat pochodzenia terminu big data prowadzona jest głośna i bezproduktywna debata. Te dwa słowa połączone ze sobą pojawiały się od dziesięcioleci. Doug Laney z firmy Gartner w opublikowanym przez siebie raporcie wskazuje na trzy V (volume, velocity, variety; pol. wielkość, prędkość, różnorodność) związane ze zjawiskiem big data. W tamtym okresie było to określenie przydatne, ale niedoskonałe.
[8] Kenneth Cukier, Data, Data Everywhere, „The Economist”, Special Report, 27 lutego 2010, s. 1–14.
[9] Rita Nazareth and Julia Leite, Stock Trading in U.S. Falls to Lowest Level Since 2008, „Bloomberg”, 13 sierpnia 2012, http://www.bloomberg.com/news/2012-08-13/stock-trading-in-u-s-hits-lowest-level-since-2008-as-vix-falls.html.
[10] Thomas H. Davenport, Paul Barth, and Randy Bean, How „Big Data” Is Different, „Sloan Review”, 30 lipca 2012, s. 43–46, http://sloanreview.mit.edu/the-magazine/2012-fall/54 104 /how-big-data-is-different/.
[11] Prospekt emisyjny firmy Facebook, Form S-l Registration Statement, U.S. Securities and Exchange Commission, 1 lutego 2012, http://sec.gov/Archives/edgar/data/1326801/000 119312512034517 /d287954dsl.htm.
[12] Larry Page, Update from the CEO, Google, kwiecień 2012, http://investor.google.com/corporate/2012/ceo-letter.html.
[13] Tomio Geron, „Twitter’s Dick Costolo: Twitter Mobile Ad Revenue Beats Desktop on Some Days, „Forbes, 6 czerwca 2012, http://www.forbes.com/sites/tomiogeron/2012/06/06/twitters-dick-costolo-mobile-ad-revenue-beats-desktop-on-some-days/.
[14] Martin Hilbert and Priscilla Lopez, The World’s Technological Capacity to Store, Communicate, and Compute Information, „Science”, 1 kwietnia 2011, s. 60–65; Martin Hilbert and Priscilla Lopez,How to Measure the World’s Technological Capacity to Communicate, Store and Compute Information?, „International Journal of Communication 2012”, s. 1042–1045, http://www.ijoc.org/ojs/index.php/ ijoc/article/viewFile/1562/742.
[15] Wywiad przeprowadzony przez Kennetha Cukiera z Martinem Hilbertem, 2012.
[16] Elizabeth L. Eisenstein, The Printing Revolution in Early ModernEurope, Canto/Cambridge University Press, 1993, s. 13–14.
[17] David Whitehouse, UK Science Shows Cave Art Developed Early, BBC News Online, 3 października 2001, http://news.bbc.co.uk/2/hi/science/nature/1577421.stm.
[18] Wypowiedzi Petera Norviga oparte na: A. Halevy, P. Norvig, and F. Pereira, The Unreasonable Effectiveness of Data, „IEEE Intelligent Systems”, marzec/kwiecień 2009, s. 8–12, http://www.computer.org/portal/cms_docs_intelligent/intelligent/homepage/2009/x2exp.pdf. (Warto zauważyć, że tytuł jest grą słów nawiązującą do artykułu Eugene Wigner The Unreasonable Effectiveness of Mathematics in the Natural Sciences, w którym wyjaśnia on, dlaczego prawa fizyczne mogą być jasno wyrażone w języku matematyki, a prawa społeczne nie. Zob. E. Wigner, The Unreasonable Effectiveness of Mathematics in the Natural Sciences, „Communications on Pure and Applied Mathematics 13”, nr 1 (1960), s. 1–14.) Wypowiedź Norviga to m.in. „Peter Norvig – The Unreasonable Effectiveness of Data,” wykład na University of British Columbia, YouTube, 23 września 2010, http://www.youtube.com/watch?v=yvDCzhbjYWs.
[19] J.B.S. Haldane, On Being the Right Size, „Harper’s Magazine”, marzec 1926, http://harpers.org/archive/1926/03/on-being-the-right-size/.