BIG DATA — «страшное» будущее человечества?

«ИТ-революция, произошедшая в мире, очевидна. Основной акцент в ней приходился на «Т» — технологии. Пришло время переключиться на «И» — информацию».

Цитата из рассматриваемой книги

 

Давно мне в руки не попадала книга, которая настолько заполонила мое сознание за те три недели, которые ушли на ее чтение.

Давно я не читал 200 страниц текста так долго и вдумчиво, помечая маркером интересные цитаты и фразы, буквально растягивая удовольствие и запретив себе спешить. Давно я столько не рассказывал своим друзьям и знакомым о том, что читаю. Эта книга — Большие данные, авторы — Виктор Майер-Шенбергер и Кеннет Кукьер, изданная «Манн, Иванов и Фербер».

Появление такой книги совпало с моими собственными рассуждениями и поиском «the next big thing». Безусловно, большие данные, или «big data», — термин, который находится на слуху, но до конца мало кто представляет, что это такое. Даже среди ИТ-специалистов и руководителей высокого уровня мне знакомы немногие, кто сможет четко сформулировать, что же такое большие данные и как они изменят нашу жизнь (и изменят ли). Если же говорить о людях других профессий и занятий, то среди них понимания я не нашел вообще.

Признаться, начинал читать я с большой долей скепсиса. От американской книги, написанной про новый тренд, можно ожидать  «попсового» наполнения о красоте мира и рассуждениях на тему прекрасного будущего, с минимумом делатей и максимумом воды. Не зря же это «первая большая книга о больших данных» — значит, просто не о чем еще было писать?

Моему удивлению не было предела, когда оказалось, что книга написана строгим, можно сказать, наукообразным, но живым языком; что книга раскрывает конкретные факты, коррекляции, тренды, а затем оценивает все это с разных сторон с помощью практически научного подхода — плюсы, минусы, риски, примеры, взаимосвязи, выводы…

Разложены по полочкам оказались все основные аспекты «больших данных», достаточные для того, чтобы влюбиться в эту тему. Авторы пишут об историческом наследии человечества, появлении математической статистики, ее применении, причинах, а затем — о том, что на наших с вами глазах УЖЕ происходит настоящая революция в подходах, которые люди создавали тысячелетиями. Рассказывают о принципах, которые лежат в основе обработки больших данных, таких как переход от малых точных данных к большим неточным, погрешностях и беспорядочности, важности нахождения корреляций и смены вопроса с «почему» на «что», принципах датификации, затем — о системе ценностей в эпоху больших данных, дополняя все это огромным числом реальных примеров, которые находятся у нас всех перед глазами, но которые мы просто не замечаем — не задумываемся над этим. Книга, фактически, раскрывает глаза на то, что мы уже живем в эпоху больших данных, хотя и находимся на самом раннем ее этапе.

В книге рассматриваются даже такие аспекты применения больших данных, такие как влияние степени использования больших данных на стоимость компаний, которые этим занимаются; примеры успешных бизнесов, которые были созданы только на больших данных.

Завершается все рассмотрением морально-этических, правовых и конфиденциальных вопросов, а затем — и философского подхода, при котором пологание человечества на результаты обработки больших данных, дающие неведомые преимущества и знанения, могут привести к катастрофе, подобно как и энергия атома, примененная неверно, может не помочь, а спровоцировать конец света.

Все это есть в этой книге.

Могу сказать только одно — если вы, как и я, ищете вдохновение, бизнес-идеи, хотите понять, что способно зацепить сознание и изменить наш мир, то эта книга — обязательна к прочтению. Она не дает ответов на конкретные вопросы, но предлагает такой объем пищи для ума, что фантазия начинает бить через край.

Одна из тех книг, которую я оберну в обложку и оставлю себе в коллекции, как книгу, которая изменила мое воспринятие большого тренда в развитии человечества и ИТ-технологий в частности.

Напоследок — несколько важных цитат, которые я отметил себе «на полях книги»:

1.    Корреляции не могут сказать нам точно, почему происходит то или иное событие, зато предупреждают, какого оно рода. И в большинстве случаев этого достаточно. Например, если электронные медицинские записи показывают, что в определенном сочетании апельсиновый сок и аспирин способны излечить от рака, то точная причина менее важна, чем сам факт: лечение эффективно.

2.    Мы вступаем в мир постоянного прогнозирования на основе данных, в котором, возможно, не всегда сможем объяснить причины своих решений.

3.    Мы можем использовать выборки в определенных обстоятельствах, но они не должны быть (и не будут) доминирующим способом анализа больших наборов данных. Все чаще мы можем позволить себе замахнуться на данные в полном объеме.

4.    На сегодняшний день стоит просто отметить, что при увеличении масштаба беспорядочность данных неизбежна, и с этим нужно смириться.

5.    Простые модели с множеством данных по результатам превосходят более сложные модели, основанные на меньшем количестве данных.

6.    В эпоху больших данных невозможно определить переменные, которые следует рассматривать, лишь на основе личных предположений.

7.    Когда нам нужно исследовать не само явление, а его причину, как правило, лучше начать с корреляционного анализа больших данных и уже на его основе проводить углубленный поиск причинно-следственных связей.

8.    В эпоху больших данных все данные без исключения будут рассматриваться как ценные сами по себе. Говоря «все данные», мы имеем ввиду даже самые сырые, самые, казалось бы, обыденные отрывки информации.

9.    В отличие от материальных объектов (употребление пищи, горящей свечи и др.) ценность данных не уменьшается по мере их потребления. Данные можно обрабатывать снова и снова.

10.    Абсолютная ценность данных намного превышает ту, которую удается извлечь при первичном использовании… Суть стоимости данных заключается в их неограниченном повторном использовании — альтернативной ценности.

11.    Первоначальными сборщиками информации в массовом масштабе были государственные органы, и они по-прежнему дадут фору любой частной компании в том, что касается огромного объема управляемых данных.

12.    В последнее время стала популярной мысль о том, что лучший способ извлечь ценность из правительственных данных — предоставить эту задачу частному сектору и обществу в целом… эта идея привела к несчетному количеству проектов «открытых государственных данных».

13.    «Мы аналитическая компания, которая работает под видом игровой. Здесь всем заправляют числа», — говорит Кен Рудин, главный аналитик Zynga.

14.    …ставит и новую задачу: судить и наказывать людей на основе прогнозов больших данных еще до того, как они совершат преступление. Это сводит на нет идею честности, справедливости и свободы воли и отвергает глубокомысленное принятие решений.

15.    Мы рискуем стать жертвами диктатуры данных… Большие данные угрожают сделать нас заключенными (возможно, в буквальном смысле) в рамках вероятностей.

16.    При наличии достаточно большого количества данных идеальная анонимизация невозможна вопреки каким бы то ни было усилиям.

17.    Мы видим риск того, что прогнозы больших данных, а также алгоритмы и наборы данных, стоящие за ними, станут «черными ящиками», которые не дают ни малейшей прозрачности, подотчетности, прослеживаемости или уверенности.

Подпишитесь бесплатно на новые рецензии интересных книг. Ваш e-mail:

BIG DATA — «страшное» будущее человечества?: 1 комментарий

  1. Дмитрий, интересная рецензия, захотелось прочитать книгу. Давно интересуюсь Big Data и написал прогноз, в котором описываются гипотетические стартапы будущего, имеющие в основе Большие Данные. «5 стартапов, которые вы будете делать через 5 лет. Миллионы пользователей гарантированы» http://grrow.me/blog/5-apps-5-let Скажите, насколько реалистичен прогноз на ваш взгляд? В статью могу добавить ваше мнение как эксперта в ИТ отрасли.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *