Большие Данные — новая теория и практика. Big Data
Термин «Биг-Дата», возможно, сегодня уже узнаваем, но вокруг него все еще довольно много путаницы относительно того, что же он означает на самом деле. По правде говоря, концепция постоянно развивается и пересматривается, поскольку она остается движущей силой многих продолжающихся волн цифрового преобразования, включая искусственный интеллект, науку о данных и Интернет вещей. Но что же представляет собой технология Big-Data и как она меняет наш мир? Давайте попробуем разобраться объяснить суть технологии Биг-Даты и что она означает простыми словами.
Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.
Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.
В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.
Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.
Как работает технология Big-Data?
Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.
Бил Гейтс висит над бумажным содержимым одного компакт диска
До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.
Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.
Как используется Биг-Дата?
Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.
Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:
- Улучшая здравоохранение — медицина, управляемая данными, способна анализировать огромное количество медицинской информации и изображений для моделей, которые могут помочь обнаружить заболевание на ранней стадии и разработать новые лекарства.
- Прогнозируя и реагируя на природные и техногенные катастрофы. Данные датчиков можно проанализировать, чтобы предсказать, где могут произойти землетрясения, а модели поведения человека дают подсказки, которые помогают организациям оказывать помощь выжившим. Технология Биг Даты также используется для отслеживания и защиты потока беженцев из зон военных действий по всему миру.
- Предотвращая преступность. Полицейские силы все чаще используют стратегии, основанные на данных, которые включают их собственную разведывательную информацию и информацию из открытого доступа для более эффективного использования ресурсов и принятия сдерживающих мер там, где это необходимо.
Лучшие книги о технологии Big-Data
- Все лгут. Поисковики, Big Data и Интернет знают о вас всё .
- BIG DATA. Вся технология в одной книге .
- Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги .
- Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики .
Проблемы с Big-Data
Биг Дата дает нам беспрецедентные идеи и возможности, но также поднимает проблемы и вопросы, которые необходимо решить:
- Конфиденциальность данных – Big-Data, которую мы сегодня генерируем, содержит много информации о нашей личной жизни, на конфиденциальность которой мы имеем полное право. Все чаще и чаще нас просят найти баланс между количеством персональных данных, которые мы раскрываем, и удобством, которое предлагают приложения и услуги, основанные на использовании Биг Даты.
- Защита данных — даже если мы решаем, что нас устраивает то, что у кого-то есть наши данные для определенной цели, можем ли мы доверять ему сохранность и безопасность наших данных?
- Дискриминация данных — когда вся информация будет известна, станет ли приемлемой дискриминация людей на основе данных из их личной жизни? Мы уже используем оценки кредитоспособности, чтобы решить, кто может брать деньги, и страхование тоже в значительной степени зависит от данных. Нам стоит ожидать, что нас будут анализировать и оценивать более подробно, однако следует позаботиться о том, чтобы это не усложняло жизнь тех людей, которые располагают меньшими ресурсами и ограниченным доступом к информации.
Выполнение этих задач является важной составляющей Биг Даты, и их необходимо решать организациям, которые хотят использовать такие данные. Неспособность осуществить это может сделать бизнес уязвимым, причем не только с точки зрения его репутации, но также с юридической и финансовой стороны.
Глядя в будущее
Данные меняют наш мир и нашу жизнь небывалыми темпами. Если Big-Data способна на все это сегодня — просто представьте, на что она будет способна завтра. Объем доступных нам данных только увеличится, а технология аналитики станет еще более продвинутой.
Для бизнеса способность применять Биг Дату будет становиться все более решающей в ближайшие годы. Только те компании, которые рассматривают данные как стратегический актив, выживут и будут процветать. Те же, кто игнорирует эту революцию, рискуют остаться позади.
Под термином Big Data обычно имеют в виду любое количество структурированных, полуструктурированных и неструктурированных данных. Впрочем вторые и третьи могут и должны быть упорядочены для последующего анализа информации. Большие данные не приравниваются к какому-либо фактически объему, но говоря о Big Data в большинстве случаев имеются в виду терабайты, петабайты и даже экстрабайты информации. Такой объем данных может скопиться у любого бизнеса со временем, или, в случаях когда компании необходимо получать много информации, в режиме реального времени.
Анализ больших объемов данных
Говоря об анализе Big Data, в первую очередь имеется в виду сбор и хранение информации из разных источников. Например, данные о клиентах совершивших покупки, их характеристики, информация о запущенных рекламных компаниях и оценка ее эффективности, данные контактного центра. Да, всю эту информацию, можно сопоставить и анализировать. Можно и нужно. Но для этого нужно настроить систему, позволяющую собирать и преобразовывать , не искажая информацию, хранить ее и, наконец, визуализировать. Согласитесь, при больших данных таблицы, распечатанные на нескольких тысячах страниц, мало чем помогут для принятия бизнес-решений.
1. Поступление больших данных
В большинстве сервисов, собирающих информацию о действиях пользователей, есть возможность экспорта . Чтобы они поступали в компанию в структурированном виде используются различные , например, Alteryx. Это ПО позволяет получать в автоматическом режиме информацию, обрабатывать ее, но самое главное — преобразовывать в нужный вид и формат не искажая.
2. Хранение и обработка больших данных
Почти всегда при сборе больших массивов информации встает проблема ее хранения. Из всех платформ, которые мы изучали, наша компания отдает предпочтение Vertica. В отличии от других продуктов, Vertica способна быстро «отдавать» сохраненную в ней информацию. К недостаткам можно отнести долгую запись, но во время анализа больших данных — на первый план выходит скорость отдачи. Например, если мы говорим о составлении , использующего петабайт информации, скорость отдачи — одна из важнейших характеристик.
3. Визуализация Big Data
И наконец, третий этап анализа больших объемов данных — . Для этого необходима платформа, которая способна наглядно отразить всю поступившую информацию в удобном для виде. На наш взгляд, справится с задачей может всего один софтверный продукт — Tableau. Безусловно, одно из лучших на сегодняшних дней решение, которое способно показать визуально любую информацию, превращая работу компании в трехмерную модель, собирая действия всех подразделений в единую взаимозависимую цепь (больше о возможностях Tableau вы можете прочесть ).
Вместо итога отметим, что формировать собственные Big Data сейчас может почти любая компания. Анализ больших данных перестает быть сложным и дорогим процессом. От руководства компании теперь требуется правильно формулировать вопросы к собранной информации, в то время как невидимых серых зон практически не остается.
Скачать Tableau