Читать книгу Дякую за запізнення: керівництво для оптимістів сучасності - Томас Фридман - Страница 11
Частина ІІ
Прискорення
Розділ 3
Закон Мура
Запам’ятовувальний пристрій/пам’ять
ОглавлениеМи вже побачили, що сенсори мають велику силу. Але всі ті сенсори разом із зібраною інформацією були б марною справою, якби не одночасні прориви у збереженні даних. Ці прориви дали нам чипи, що можуть зберігати більше даних, і програмне забезпечення, яке може з’єднати мільйони комп’ютерів та примусити їх зберігати й обробляти інформацію так, ніби це один настільний ПК.
Який же має бути обсяг пам’яті й наскільки ускладнилося програмне забезпечення? Розгляньмо виступ Ренді Стешика, тодішнього президента з питань інжинірингу в UPS, 11 травня 2014 року на Конференції товариства з питань виробництва й оперативного керування, присвяченого важливості великих даних. Він почав із того, що показав число зі 199 цифрами.
«Хтось знає, що це за число? – запитав Стешик присутніх і додав: – Дозвольте, я назву кілька речей, яких воно не стосується».
Це не кількість хот-догів, які продав славетний ресторан Varsity, розташований далі за висхідними номерами на нашій вулиці, від свого відкриття 1928 року. Не кількість автівок на поганої слави міжштатних шосе в Атланті о п’ятій після обіду в п’ятницю. Це число зі 199 цифр показує кількість дискретних маршрутів водія UPS, який робить пересічно 120 зупинок щодня. Тепер (тільки не схибніться) помножте його на 55 000. Це кількість маршрутів у США, які наші водії долають кожного робочого дня. Щоб показати це число, нам знадобився б екран із високою роздільною здатністю на стадіоні AT&T у Далласі, де грають «Ковбої». Але якось щодня водії UPS потрапляють до понад 9 млн клієнтів, доправляючи майже 17 млн пакунків із чим завгодно – від нового айпеда для випускника школи в Де-Мойні до інсуліну для діабетика в Денвері та двох гігантських панд, перевезених із Пекіна до зоопарку в Атланті. Як вони це роблять? Відповідь – у вивченні операцій.
Понад двісті сенсорів у машині розповідають нам, чи пристебнув водій ремінь безпеки, з якою швидкістю їде машина, коли відбувається гальмування, чи відкриті захищені двері, автівка з пакунками їде вперед чи задкує, назву вулиці, де їде машина, навіть час простою та руху. На жаль, ми лише не знаємо, чи кусається собака за вхідними дверима.
Щоб дати собі раду зі 199-значним числом маршрутних опцій та обліковуванням даних від 200 сенсорів у кожній машині UPS, нам треба чимало пам’яті, потужностей обчислення й можливостей програмного забезпечення, – лише 15 років тому жодна пересічна компанія не могла цього ні дозволити собі, ні уявити. Зараз усе це має кожна компанія. І тут починається справді важлива історія про те, як комбінація чипів пам’яті потрапляє на інший бік шахівниці, та про програмне забезпечення, назване на честь іграшкового слоненяти, яке перетворює «велику» аналітику на аналітику «великих даних».
Мікрочипи, як ми вже зазначали, є зібранням дедалі більшої кількості транзисторів. Ці транзистори можна запрограмувати для обчислення, передавання даних або для пам’яті. Чипи пам’яті є двох основних різновидів: ДОП, або динамічна оперативна пам’ять, яка тимчасово порядкує бітами даних у процесі їхнього оброблення, та флеш-пам’ять, яка постійно зберігає дані при натисканні на «зберегти». У випадку чипів пам’яті закон Мура спрацьовує: ми постійно монтували дедалі більше транзисторів, що запам’ятовували більше на кожному чипі за менші гроші та споживали менше енергії. Сьогодні камера пересічного стільникового телефона має 16 гігабайтів пам’яті, що означає збереження 16 млрд байтів інформації (байт = 8 бітам) на чипі флеш-пам’яті. Десять років тому щільності флеш-пам’яті було недостатньо, щоб зберегти одну світлину в телефоні, – настільки все це прискорилось, прискоривши своєю чергою багато чого іншого.
«Без закону Мура тут не було б великих даних, – сказав старший науковий співробітник Intel Марк Бор. – У нас з’явилося більше пам’яті, інтенсифікувалося обчислення, а також ми одержали більше потужності, ефективності й надійності, потрібних центрам даних для забезпечення певної потужності обчислення. Якби ті центри користувалися ще вакуумними трубками, то для обслуговування одного центру знадобилася б гребля Гувера11».
Проте не лише апаратні засоби роблять великі дані великими. Ішлося також про новаторство у програмному забезпеченні, що стало найважливішим досягненням за минуле десятиріччя, про яке ви й не чули. Це ПЗ дозволило мільйонам комп’ютерів з’єднатися та працювати як одна машина, а пошук даних зміг вийти на рівень пошуку голки в сіні. Цього досягла компанія, яку її засновник назвав Hadoop «на честь» улюбленого іграшкового слоненяти свого дворічного сина, щоб зручніше було запам’ятовувати. Тож запам’ятайте назву: Hadoop. За потужної допомоги Google ця компанія взяла участь у змінюванні світу.
Батьком маленького хлопчика й засновником Hadoop був Дуґ Каттінг, який називає себе каталізатором у модернізації ПЗ. Каттінг зростав у сільській окрузі Напа в Каліфорнії й уперше побачив комп’ютер, коли 1981 року вступив до Стенфорду; там, щоб учитися, йому довелося позичити в інституту гроші. Дуґ вивчав лінгвістику, але прослухав курси з комп’ютерних наук і навчився програмувати, що йому «припало до душі». Він, крім того, побачив, що завдяки програмуванню зможе повернути борги за навчання. Тож до аспірантури він не пішов, а почав працювати в легендарному науково-дослідному центрі компанії Xerox у Пало-Алто, де його долучили до групи лінгвістів, які працювали над штучним інтелектом і відносно новою цариною, що називалася «пошук».
Люди забувають, що «пошук» як царина запитів був задовго до Google. Xerox пропустив бізнес-ринок ПК, хоча ідей на фірмі було чимало, розповідав Каттінг, і тоді компанія «замислилася над переходом від копірки й тонера до цифрового світу. Можна все просканувати й тоді здійснювати пошук. Такий був у Xerox світогляд, орієнтований на папір. Це класичний приклад компанії, яка не могла відійти від своєї дійної корови: папір був джерелом життєвої сили, і фірма хотіла придумати, як запровадити його до цифрового світу. Така була у фірми спонука взятися до пошуку. Це ще до появи всесвітньої павутини».
Коли всесвітня павутина виникла, компанії на чолі з Yahoo взялися організовувати її для споживачів. Yahoo стала директорією директорій. Щойно з’являвся новий веб-сайт, Yahoo додавала його до своєї директорії, а тоді почала ділити веб-сайти на групи: фінанси, новини, спорт, бізнес, розваги тощо. «Ось тоді й з’явився пошук, – сказав Каттінг, – і веб-пошуковики, наприклад AltaVista, почали виникати один за одним. Було закаталогізовано 20 млн веб-сторінок. Це чимало – натоді такий стрибок вважали великим. Відбувалося це в 1995—1996 рр. Незабаром (1997 року) виник Google зі своїм невеличким пошуковиком, проте методика в нього була краща. Що й доведено часом».
Коли Google стартував, пояснював Каттінг, він у вільний час написав програму пошуку з відкритим кодом на противагу пропрієтарній системі Google. За кілька років він із колегами запустив Nutch, який став першим великим веб-пошуковиком із відкритим кодом і конкурентом Google.
Відкритий код – це модель розробки ПЗ, що дозволяє учасникам спільноти додавати свої удосконалення й вільно користуватися колективним продуктом за умовами відкритої для них ліцензії, доки вони діляться своїми вдосконаленнями з ширшою спільнотою. Такий підхід має переваги спільнодії й розуміння того, що колектив розумніший за одного члена; якщо всі працюють над програмою або продуктом і діляться своїми досягненнями, такий продукт швидше стає розумнішим і швидше веде до більших змін.
Бажання Каттінга створити програму з відкритим кодом мало розв’язати дуже просту проблему: «Коли у вас один комп’ютер, ви можете зберегти на ньому стільки інформації, скільки у вас місця на твердому диску, а швидкість оброблення даних залежить від швидкості процесора на цьому ПК, і це, звичайно, обмежує обсяг і швидкість можливих обчислень», – пояснював Каттінг.
Проте з появою Yahoo та AOL у мережі накопичувалися мільярди та мільярди бітів і байтів інформації, що потребувало збільшення пам’яті й потужності обчислень, щоб дати їм раду. І люди взялися сполучати комп’ютери. З’єднання двох комп’ютерів дає змогу зберегти вдвічі більше інформації й удвічі швидше її обробити. Через здешевлення завдяки закону Мура дисків і процесорів ПК бізнес-спільнота зрозуміла, що можна спорудити будинки завбільшки з футбольне поле, заповнити їх процесорами та твердими дисками від підлоги до стелі та одержати дата-центри.
Проблема полягала в тому, сказав Каттінг, як сполучити диски та процесори, щоб вони скоординовано зберігали велику кількість даних та обчислювали весь масив даних за спільної паралельної роботи всіх процесорів. Важливо також було зберегти надійність. Якщо у вас один ПК, то збій на ньому може відбутися раз на тиждень, а якщо у вас 1000, то й збоїв буде в 1000 разів більше. Для цього й знадобилася одна програма, яка бездоганно з’єднає комп’ютери, а інша – щоб робити пошук у морі даних та виявляти патерни й ідеї. Інженери у Кремнієвій долині в таких випадках кажуть, що «залишається проблемка з програмуванням», наприклад: «Усі апаратні засоби в нас є – залишається тільки проблемка з програмуванням».
Ми можемо подякувати Google за те, що він надав обидві програми для масштабування пошукової справи. Справжня геніальність Google, за словами Каттінга, полягала «в описі системної пам’яті, що подавав тисячу дисків як один, і вихід із ладу одного не був помітний», а також у пакеті ПЗ для оброблення даних, що були в пам’яті, щоб уможливити їхнє подальше використання. Розробляти все це Google доводилося самотужки, бо тоді не було комерційної технології, що могла б задовольнити його запити щодо збереження, оброблення й пошуку світової інформації. Тобто Google довелося стати новатором, щоб створити потрібний світові пошуковий механізм. Проте ці програми він використовував лише для своєї справи, нікому не видаючи на них ліцензії.
Однак, за освяченою часом традицією програмістів, Google, пишаючись своїм витвором, вирішив поділитися основами з громадськістю. Тож він опублікував дві праці, у яких окреслював дві ключові програми, що давали змогу одночасно накопичувати стільки даних і здійснювати в них пошук. У першій, що вийшла в жовтні 2003 року, описано розподілену файлову систему Google GFS (або Google File System). Це була система керування й доступу до великих масивів даних у кластерах на твердих дисках дешевих серійних комп’ютерів. Оскільки Google хотів організувати всю світову інформацію для збереження й доступу, ішлося про петабайти або й ексабайти (у кожному випадку це приблизно 1 квінтильйон, або 1 000 000 000 000 000 000 байтів даних).
І це привело до наступного винаходу Google – оприлюдненого у грудні 2004 року Google MapReduce. Google описує свій винахід як «програмну модель та програмний каркас для оброблення й генерування великих наборів даних… Програми, написані в цьому функціональному стилі, автоматично паралелізуються й виконуються у великих кластерах дешевих комп’ютерів. Система переймається деталями секціювання ввідних даних, графіком виконання програми на групі машин, подоланням виходів машин із ладу та керуванням міжмашинними зв’язками. Це дозволяє програмістам без досвіду роботи з паралельними й розподіленими системами просто використовувати ресурси великої розподіленої системи». Якщо говорити людською мовою, то ці два дизайнові винаходи Google дали змогу вмить зберігати більше даних, ніж ми будь-коли могли собі уявити, і використовувати застосунки ПЗ для подальшого розгляду цілої купи даних із неймовірною простотою.
Для світу обчислення/пошуку рішення Google поділитися цими двома основними схемами (але не дійсними пропрієтарними кодами рішень GFS і MapReduce) з ширшою фаховою спільнотою мало величезне значення. Власне, Google запрошував спільноту, яка працювала з відкритими кодами, використати ці ідеї. Ці дві праці стали дивовижним сполученням, що дозволило великим даним реформувати достоту всі галузі промисловості. Вони також значно просунули Hadoop.
«Google описав спосіб простого об’єднання великої кількості доступних комп’ютерів, – зазначив Каттінг. – Ми одержали не робочий вихідний код, а достатньо інформації, щоб фахівець припасував систему до своїх потреб або вдосконалив її». Оце ж і зробив Hadoop. Його алгоритми змусили сотні тисяч комп’ютерів поводитися як один велетенський комп’ютер. Тож кожен міг піти та придбати потрібну кількість недорогого апаратного забезпечення, пам’яті й почати на Hadoop обробляти масиви інформації, щоб одержати деталізовану аналітичну інформацію.
Незабаром на Hadoop перейшли Facebook, Twitter, LinkedIn. Тому й з’явилися вони всі разом 2007 року! І в цьому була своя рація. У їхньому бізнесі проходили величезні масиви інформації, а використати їх оптимально вони не могли. Не могли та й годі. У них були гроші на тверді диски для збереження інформації, а знаряддя для оптимізації використання інформації на дисках не було, пояснював Каттінг. Yahoo й Google хотіли захоплювати веб-сторінки й аналізувати їх, щоб люди могли здійснювати пошук – гідна мета, проте пошук став ще ефективнішим, коли такі компанії, як Yahoo, LinkedIn, Facebook, змогли бачити та зберігати кожний ваш клік на веб-сторінці, щоб точно зрозуміти, що роблять споживачі. Кліки вже можна було записувати, але до Hadoop ніхто, крім Google, нічого особливого з даними зробити не міг.
«Hadoop дозволив споживачеві зберігати всю інформацію в одному місці й сортувати її за часом, і раптом фахівці побачили, що робить користувач протягом певного часу, – сказав Каттінг. – Вони довідалися, яка частина сайту веде людей до іншого сайту. Yahoo реєстрував не тільки те, коли ви клікнули на сторінці, але й усе на тій сторінці, на що можна було клікнути. Потім вони змогли побачити, що ви клікнули, а що ні, що пропустили, як це залежало від змісту цього місця та його розташування на сторінці. Це дало нам аналітику великих даних: коли ви більше бачите, ви можете більше зрозуміти, а якщо ви можете більше зрозуміти, то приймете рішення кращі, ніж рішення здогадні. Дані, прив’язані до аналітики, дають нам краще бачення. Зрозуміти й донести це людям поза Google дав змогу Hadoop, а відтак і почалася нестримна ескалація можливостей».
Отже, тепер є система Google з пропрієтарним закритим кодом, яка працює лише в дата-центрах Google і яку люди використовують для всього: від простого пошуку до розпізнавання образів, – і є система Hadoop із відкритим кодом, яку використовують усі інші для роботи з дешевими серверами в галузі аналітики великих даних. Сьогодні такі технологічні гіганти, як IBM і Oracle, використовують Hadoop як стандарт і роблять свій внесок у роботу спільноти, що працює з відкритим кодом. І оскільки на платформі з відкритим кодом набагато менше огріхів і працює більше фахівців, ніж у пропрієтарній системі, розвинулася вона з блискавичною швидкістю.
Hadoop масштабував великі дані завдяки ще одному критичному винаходу – трансформації неструктурованих даних.
До Hadoop більшість великих компаній мало уваги приділяли неструктурованим даним. Вони натомість покладалися на Oracle SQL, мову для комп’ютерів, створену в 70-ті роки в IBM, яка використовують для збереження, керування й запитів до масивів структурованих запитів і таблиць. Саме скорочення SQL означає «мова структурованих запитів». ПЗ у структурованій базі даних ідентифікує кожен елемент цих даних. У банківській системі виникають визначення – «це чек», «це трансакція», «це баланс». Вони всі закладені в структуру, і ПЗ може швидко знайти ваш останній банківський депозит.
Проте SQL не опрацьовувала запитів до неструктурованих даних. Неструктуровані дані були суцільним безладом. Це означає, що з безладу можна було витягти геть усе відцифроване та збережене, але структури в цьому масиві не було. Завдяки Hadoop дата-аналітики змогли здійснювати пошук у неструктурованих даних і виявляти патерни. Ця здатність просіювати гори неструктурованих даних, не знаючи, що саме шукають, а також здатність робити запити, одержувати відповіді та ідентифікувати патерни стала величезним проривом.
Як пояснив Каттінг, з’явився Hadoop і сказав користувачам: «Дайте мені ваші структуровані й неструктуровані цифрові дані, і ми знайдемо в них зміст для вас. Наприклад, кредитна компанія, як-от Visa, зацікавлена у виявленні шулерів, і в неї є ПЗ, що може сформувати запит для вікна на 30 або 60 діб, але не більше. Hadoop надав масштаб, якого доти не було. Щойно Visa інсталювала Hadoop, вона змогла формувати запит на 4—5 років та одразу завдяки більшому вікну виявила схему найбільшого на той час шахрайства. Hadoop використовувала вже добре відомі людям масштабовані інструменти та приступність, якої доти не було».
Тому Hadoop нині – основна операційна система для інформаційної аналітики як структурованих, так і неструктурованих даних. Ми звикли позбавлятися даних, бо надто дорого їх зберігати, передусім неструктурованих даних. Тепер, коли ми можемо їх зберігати та виявляти в них патерни, варто збирати та зберігати всі дані. «Кількість даних, які люди продукують і з якими люди пов’язані, та нових софтверних аналітичних інструментів зростає принаймні експоненційно», – сказав Каттінг.
Раніше малі обсяги обробляли швидко, але їм бракувало релевантності, а великі обсяги мали економію та ефективність масштабу, але процес відбувався поволі, пояснював мені Джон Донован з AT&T. «І що маємо тепер, коли в нас масовий масштаб плюс швидкість?» – запитав він. У минулому «при великих масштабах втрачалася швидкість, можливість персоналізації та модифікації під замовника, і лише за великих даних це стало реальністю». Сьогодні можна перейти від мільйона неперсоналізованих масивних і недієвих взаємодій до мільйона індивідуальних рішень, бо програмне забезпечення дає змогу кожний пакет даних розокремити, знайти йому місце й дати визначення.
Це не проста справа. Як сказав в інтерв’ю часопису Foreign Affairs за листопад-грудень 2013 року Себастіан Трун, засновник Udacity та один із піонерів масових відкритих онлайн-курсів (МВОК) і тодішній професор у Стенфорді:
Із появою цифрової інформації її запис, збереження й поширення стали майже вільними. Раніше така сама значуща зміна у структурі вартості поширення інформації відбулася з появою популярної книжки. Друкарство винайдене у XV ст. й набуло популярності через кілька сторіч; це справило потужний вплив на поширення культурного знання як плода розумової діяльності у друкованій формі. Тепер відбувається така сама революція на стероїдах, і це впливає на всі аспекти життя людини.
І ми знаходимося наприкінці початку. Hadoop з’явився тому, що закон Мура здешевив чипи апаратного збереження інформації, бо впевнений у собі Google поділився деякими стрижневими ідеями й дозволив спільноті відкритого коду випробувати себе й наздогнати та зробити великий стрибок уперед, а спільнота відкритого коду через Hadoop не схибила. Накопичувач Hadoop із відкритим кодом не був чистим клоном Google, і на сьогодні він у кількох напрямах творчо перероблений. Як каже Каттінг: «Ідеї важливі, але не менш важливі й способи донести їх до людей. Науково-дослідний центр компанії Xerox у Пало-Алто винайшов графічний інтерфейс користувача з вікнами й мишкою, мережеву робочу станцію, лазерний друк тощо. Проте набагато більше вдосконалень зробили Apple та Microsoft, щоб ці ідеї змінили світ».
Саме так Hadoop зробив революцію великих даних – за допомогою Google, який за іронією долі тепер має намір запропонувати власні інструменти великих даних людям у вигляді бізнесової пропозиції, відколи Hadoop злагодив усю цю нову галузь.
«Google живе на кілька років наперед, – підсумував Каттінг, – і надсилає нам із майбутнього ці публікації, а ми за ним підтягуємося, а вони, своєю чергою, ідуть за нами, і все це тепер перетворюється на двобічний зв’язок».
У бізнесі нині всі переймаються великими даними, принаймні ті компанії, які хочуть вижити.
«Дані – це нова нафта, – пояснив Браян Кшаніч, виконавчий директор Intel. – Її використовували скрізь: в автопромі, у пластмасах, хімікатах, електрифікації та транспорті». І її інфраструктура давала величезний зиск, – це судна, нафтогони, нафтопереробні заводи та автозаправки, які переміщували нафту. Нафта та газ є в усіх аспектах життя й торгівлі.
«Тепер так можна сказати і про дані», – додав Кшаніч. Проте замість нафтових свердловин – це мікрочипи та сервери, замість рафінерій – центри оброблення даних та програмне забезпечення, замість нафтогонів – широка смуга й оптоволоконні кабелі, але дані, які вони видобувають, сповнюють усі аспекти життя та комерції.
І так само, як і з нафтою, ті, хто найвправніше добуває дані, накопичує їх, зберігає, а потім використовує для створення штучного інтелекту, ті, хто має можливість аналізувати, оптимізувати, налаштовувати, автоматизувати та прогнозувати для поліпшення послуг, дизайну, обслуговування клієнтів чи виробництва, стануть переможцями.
А ті, хто цього не зробив, за словами Кшаніча, «вийде з гри через п’ять років».
Бо величезну перевагу матимуть ті, хто використовує великі дані для створення штучного інтелекту й аналізу, оптимізації, налаштування, прогнозування та автоматизації. Ті, хто аналізуватиме масиви даних, зможуть визначити тренди, які доти не бачили; ті, хто оптимізуватиме маршрути лайнерів, отримають більшу економію енергії, ніж раніше; ті, хто налаштує під клієнта свою продукцію або послуги, набагато випередять конкурентів; ті, хто спрогнозує вихід із ладу деталі ліфта або деталі двигуна літака та вчасно зробить заміну, заощадять чималі кошти клієнтам. Нарешті, ті, хто може моделювати ідею на комп’ютерах, тобто створювати цифрового двійника для всього – від мосту до ядерної зброї – і тестувати цифрову модель ще до початку виробництва, заощадять час, гроші та ресурси, як ніколи раніше.
Усе це покращуватиметься зі збільшенням швидкодії чипів, удосконаленням ПЗ і прискоренням мережі. «Що більше у вас є даних, то кращий ваш продукт, – пояснив Кай-Фу Лі, президент Інституту штучного інтелекту, у своєму есе 24 червня 2017 року в The New York Times. – Що кращий продукт, то більше даних ви можете збирати; що більше даних ви збираєте, то більше здібних людей зможете залучити; що більше здібних людей залучите, то кращим буде продукт. Це цикл ефективності, і США та Китай уже накопичили здібних людей, забезпечили собі частку ринку та дані, щоб урухомити його».
11
Унікальна гідротехнічна споруда у США заввишки 221 м та гідроелектростанція, збудована на річці Колорадо.