Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

    Эта книга – попытка объять необъятное. Автор постарался объединить под одной обложкой все, что связано с обработкой больших данных, от их сущности, методов анализа и эволюции до типов организации аналитических отделов в компаниях, взаимоотношениях между IT-отделами, аналитиками и менеджерами. В результате рефреном «Укрощения» стала фраза «детальное рассмотрение этой темы выходит за рамки данной книги». С другой стороны, если вы раньше не интересовались концепцией больших данных, эффектом применения их анализа в бизнесе сегодня и завтра, вам достаточно прочесть этот том для получения полной картины. Заодно вы узнаете, чем отличается отчет от анализа и как можно хорошего аналитика отличить от плохого.

    Билл Фрэнкс — директор по аналитике глобальных партнерских программ компании Teradata. Среди его клиентов — самые разные компании, от корпораций из Fortune 100 до маленьких некоммерческих организаций. Он также курирует центр Business Analytic Innovation Center, который совместно спонсируется компаниями Teradata и SAS, и преподает в Международном институте аналитики.

    Билл Фрэнкс определяет большие данные как «данные, сбор, управление и обработку которых невозможно произвести с помощью наиболее часто используемых аппаратных сред и программных инструментов в течение допустимого для пользователя времени. Данные можно считать «большими» не только с точки зрения объема, но и с точки зрения разнообразия, скорости передачи и сложности». Очевидно, для разных компаний и в разное время большими можно называть совершенно разные данные. Более того, данные, которые в одной организации будут считаться большими, для другой, более продвинутой, окажутся стандартными. Кто первым научится собирать, обрабатывать и анализировать большие данные, тот окажется в выигрыше, уверен Билл Фрэнкс.

    В идеале, организация должна анализировать все данные из всех источников, до которых сможет дотянуться. Интересно, что при этом большая часть полученных данных окажется совершенно бесполезной. Вот только заранее нельзя сказать, какая именно. Более того, для разных задач это могут быть разные данные. «Укрощение больших данных похоже не на закачку воды в бассейн, — пишет Фрэнкс, — а скорее на питье воды из шланга: вы отхлебываете только то, что вам нужно, а остальному позволяете течь мимо». Для определения, что нужно, а что – пусть течет, служат различные методики и фильтры.

    Наиболее эффективным для организации Фрэнкс называет гибридный подход – анализ не только больших данных самих по себе, а вместе с другими, стандартными данными корпорации.

    Серьезной проблемой, связанной с большими данными, автор считает конфиденциальность. Когда организация будет обладать практически полной информацией о клиенте, взятой из разных источников – номер телефона, адрес, семья, вкусовые предпочтения, планы на будущее, круг общения, ежедневные маршруты, отношение к продукту и т.д. – велик риск ее недобросовестного использования. Потребуется введение и правового, и самостоятельного (внутри организации) регулирования политики конфиденциальности.

    В качестве источников больших данных Фрэнкс, помимо веб-данных, приводит совершенно разные отрасли: телематические данные в автостраховании, RFID-данные в розничной торговле, данные о местоположении и времени в разных отраслях, текстовые данные, данные датчиков двигателей и другого промоборудования, данные интеллектуальных сетей для коммунальных предприятий, данные телеметрии в видеоиграх и многое другое. Автор детально описывает варианты извлечения, обработки и возможного применения полученных данных для каждой отрасли, включая отслеживание фишек в казино. Вывод: несмотря на огромное разнообразие источников, между получаемыми данными есть определенное сходство. А значит, они могут быть использованы в других отраслях.

    Вторая часть книги посвящена технологиям, процессам и методам «укрощения» больших данных. Речь идет о технических подходах, но на концептуальном уровне («данная книга — практическое пособие»). Автор рассказывает о слиянии аналитической среды со средой данных, о массивно-параллельных архитектурах (MPP), описывает преимущества и недостатки облачных и GRID-вычислений в зависимости от организации и поставленных задач, а также о гугловой модели MapReduce.

    Отдельные главы Фрэнкс адресует как аналитикам, так и руководителям организаций. В них идет речь о подходах к найму и оплате аналитиков, критериях хорошего анализа, умению правильно ставить задачи перед аналитическими подразделениями, общаться и представлять результаты, и конечно же — отличать отчет от анализа.

    «Большие данные реальны, и они никуда не исчезнут. Не игнорируйте и не бойтесь их. Пересмотрите с их учетом свои стратегии, касающиеся корпоративных данных и аналитики. Не применяйте старые традиционные методы к новым источникам больших данных, — призывает Билл Фрэнкс. — Редко выпадает шанс оказаться первым в совершенно новой сфере данных и их анализа. Не упустите его!»

    Перефразируя Ротшильда, можно говорить о том, что кто скорее начнет работать с большими данными, тому достанется большая часть пирога.

    Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.