Что такое Big data: собрали всё самое важное о больших данных. Что такое Big Data: характеристики, классификация, примеры

Под термином Big Data обычно имеют в виду любое количество структурированных, полуструктурированных и неструктурированных данных. Впрочем вторые и третьи могут и должны быть упорядочены для последующего анализа информации. Большие данные не приравниваются к какому-либо фактически объему, но говоря о Big Data в большинстве случаев имеются в виду терабайты, петабайты и даже экстрабайты информации. Такой объем данных может скопиться у любого бизнеса со временем, или, в случаях когда компании необходимо получать много информации, в режиме реального времени.

Анализ больших объемов данных

Говоря об анализе Big Data, в первую очередь имеется в виду сбор и хранение информации из разных источников. Например, данные о клиентах совершивших покупки, их характеристики, информация о запущенных рекламных компаниях и оценка ее эффективности, данные контактного центра. Да, всю эту информацию, можно сопоставить и анализировать. Можно и нужно. Но для этого нужно настроить систему, позволяющую собирать и преобразовывать , не искажая информацию, хранить ее и, наконец, визуализировать. Согласитесь, при больших данных таблицы, распечатанные на нескольких тысячах страниц, мало чем помогут для принятия бизнес-решений.

1. Поступление больших данных

В большинстве сервисов, собирающих информацию о действиях пользователей, есть возможность экспорта . Чтобы они поступали в компанию в структурированном виде используются различные , например, Alteryx. Это ПО позволяет получать в автоматическом режиме информацию, обрабатывать ее, но самое главное — преобразовывать в нужный вид и формат не искажая.

2. Хранение и обработка больших данных

Почти всегда при сборе больших массивов информации встает проблема ее хранения. Из всех платформ, которые мы изучали, наша компания отдает предпочтение Vertica. В отличии от других продуктов, Vertica способна быстро «отдавать» сохраненную в ней информацию. К недостаткам можно отнести долгую запись, но во время анализа больших данных — на первый план выходит скорость отдачи. Например, если мы говорим о составлении , использующего петабайт информации, скорость отдачи — одна из важнейших характеристик.

3. Визуализация Big Data

И наконец, третий этап анализа больших объемов данных — . Для этого необходима платформа, которая способна наглядно отразить всю поступившую информацию в удобном для виде. На наш взгляд, справится с задачей может всего один софтверный продукт — Tableau. Безусловно, одно из лучших на сегодняшних дней решение, которое способно показать визуально любую информацию, превращая работу компании в трехмерную модель, собирая действия всех подразделений в единую взаимозависимую цепь (больше о возможностях Tableau вы можете прочесть ).

Вместо итога отметим, что формировать собственные Big Data сейчас может почти любая компания. Анализ больших данных перестает быть сложным и дорогим процессом. От руководства компании теперь требуется правильно формулировать вопросы к собранной информации, в то время как невидимых серых зон практически не остается.

Скачать Tableau

Скачайте БЕСПЛАТНО полную версию Tableau Desktop, 14 дней и получите в ПОДАРОК обучающие материалы по бизнес-аналитике Tableau

У каждой промышленной революции были свои символы: чугун и пар, сталь и поточное производство, полимеры и электроника, а очередная революция пройдет под знаком композитных материалов и данных. Big Data - ложный след или будущее индустрии?

20.12.2011 Леонид Черняк

Символами первой промышленной революции были чугун и пар, второй - сталь и поточное производство, третьей - полимерные материалы, алюминий и электроника, а очередная революция пройдет под знаком композитных материалов и данных. Big Data -это ложный след или будущее индустрии?

Уже более трех лет много говорят и пишут о Больших Данных (Big Data) в сочетании со словом «проблема», усиливая таинственность этой темы. За это время «проблема» оказалась в фокусе внимания подавляющего большинства крупных производителей, в расчете на обнаружение ее решения создается множество стартапов, а все ведущие отраслевые аналитики трубят о том, насколько сейчас важно умение работать с большими объемами данных для обеспечения конкурентоспособности. Подобная, не слишком аргументированная, массовость провоцирует инакомыслие, и можно встретить немало скептических высказываний на ту же тему, а иногда к Big Data даже прикладывают эпитет red herring (букв. «копченая селедка» - ложный след, отвлекающий маневр).

Так что же такое Big Data? Проще всего представить Big Data в виде стихийно обрушившейся и невесть откуда взявшейся лавины данных или свести проблему к новым технологиям, радикально изменяющим информационную среду, а может быть, вместе с Big Data мы переживаем очередной этап в технологической революции? Скорее всего, и то, и другое, и третье, и еще пока неведомое. Показательно, что из более чем четыре миллиона страниц в Web, содержащих словосочетание Big Data, один миллион содержит еще и слово definition - как минимум четверть пишущих о Big Data пытается дать свое определение. Такая массовая заинтересованность свидетельствует в пользу того, что, скорее всего, в Big Data есть что-то качественно иное, чем то, к чему подталкивает обыденное сознание.

Предыстория

То, что подавляющая часть упоминаний Big Data так или иначе связана с бизнесом, может ввести в заблуждение. На самом деле термин родился отнюдь не в корпоративной среде, а заимствован аналитиками из научных публикаций. Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения - 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». Специальный номер подытоживает предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в частности.

Роль данных в науке стала предметом обсуждения очень давно - первым об обработке данных еще в XVIII веке писал английский астроном Томас Симпсон в труде «О преимуществах использования чисел в астрономических наблюдениях», но только в конце прошлого столетия интерес к этой теме приобрел заметную остроту, а на передний план обработка данных вышла в конце прошлого века, когда обнаружилось, что компьютерные методы могут применяться практически во всех науках от археологии до ядерной физики. Как следствие, заметно меняются и сами научные методы. Не случайно появился неологизм libratory, образованный от слов library (библиотека) и laboratory (лаборатория), который отражает изменения, касающиеся представления о том, что можно считать результатом исследования. До сих пор на суд коллег представлялись только полученные конечные результаты, а не сырые экспериментальные данные, а теперь, когда в «цифру» могут быть переведены самые разные данные, когда имеются разнообразные цифровые носители, то объектом публикации могут быть различного рода измеренные данные, причем особое значение приобретает возможность повторной обработки в libratory ранее накопленных данных. А далее складывается положительная обратная связь, за счет которой процесс накопления научных данных постоянно ускоряется. Именно поэтому, осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Рефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество.

Большие Данные и бизнес

Не прошло и года, как термин Big Data попал на страницы ведущих бизнес-изданий, в которых, однако, использовались уже совсем иные метафоры. Big Data сравнивают с минеральными ресурсами - the new oil (новая нефть), goldrush (золотая лихорадка), data mining (разработка данных), чем подчеркивается роль данных как источника скрытой информации; с природными катаклизмами - data tornado (ураган данных), data deluge (наводнение данных), data tidal wave (половодье данных), видя в них угрозу; улавливая связь с промышленным производством - data exhaust (выброс данных), firehose (шланг данных), Industrial Revolution (промышленная революция). В бизнесе, как и в науке, большие объемы данных тоже не есть что-то совершенно новое - уже давно говорили о необходимости работы с большими объемами данных, например в связи с распространением радиочастотной идентификации (RFID) и социальных сетей, и так же, как и в науке, здесь не хватало только яркой метафоры для определения происходящего. Вот почему в 2010 году появились первые продукты, претендующие на попадание в категорию Big Data, - нашлось подходящее название для уже существующих вещей. Показательно, что в версию 2011 Hype Cycle, характеризующую состояние и перспективы новых технологий, аналитики Gartner ввели еще одну позицию Big Data and Extreme Information Processing and Management с оценкой срока массового внедрения соответствующих решений от двух до пяти лет.

Почему Большие Данные оказались проблемой?

С момента появления термина Big Data прошло уже три года, но если в науке все более или менее ясно, то место Big Data в бизнесе остается неопределенным, не случайно так часто говорят о «проблеме Больших Данных», причем не просто о проблеме, но ко всему прочему еще и плохо определенной. Нередко проблему упрощают, интерпретируя наподобие закона Мура, с той лишь разницей, что в данном случае мы имеем дело с феноменом удвоения количества данных за год, или гиперболизируют, представляя чуть ли не как стихийное бедствие, с которым срочно нужно каким-то способом справиться. Данных действительно становится все больше и больше, но при всем этом упускается из виду то обстоятельство, что проблема отнюдь не внешняя, она вызвана не столько обрушившимися в невероятном количестве данными, сколько неспособностью старыми методами справиться с новыми объемами, и, что самое главное, нами самими создаваемыми. Наблюдается странный дисбаланс - способность порождать данные оказалась сильнее, чем способность их перерабатывать. Причина возникновения этого перекоса заключается, скорее всего, в том, что за 65 лет истории компьютеров мы так и не поняли, что же такое данные и как они связаны с результатами обработки. Странно, математики столетиями разбираются с основными понятиями своей науки, такими как число и системы счисления, привлекая к этому философов, а в нашем случае данные и информация, отнюдь не тривиальные вещи, оставлены без внимания и отданы на откуп интуитивному восприятию. Вот и получилось, что все эти 65 лет невероятными темпами развивались собственно технологии работы с данными и почти не развивалась кибернетика и теория информации, оставшиеся на уровне 50-х годов, когда ламповые компьютеры использовались исключительно для расчетов. Действительно, наблюдаемая сейчас суета вокруг Big Data при внимательном вызывает скептическую улыбку.

Масштабирование и многоуровневое хранение

Облака, большие данные, аналитика – эти три фактора современных ИТ не только взаимосвязаны, но сегодня уже не могут существовать друг без друга. Работа с Большими Данными невозможна без облачных хранилищ и облачных вычислений – появление облачных технологий не только в виде идеи, а уже в виде законченных и реализованных проектов стало спусковым крючком для запуска нового витка спирали увеличения интереса к аналитике Больших Данных. Если говорить о влиянии на индустрию в целом, то сегодня стали очевидны возросшие требования к масштабированию систем хранения. Это действительно необходимое условие – ведь заранее сложно предсказать, для каких аналитических процессов понадобятся те или иные данные и насколько интенсивно будет загружено существующее хранилище. Кроме этого, становятся одинаково важны требования как по вертикальному, так и горизонтальному масштабированию.

В новом поколении своих систем хранения компания Fujitsu уделила большое внимание именно аспектам масштабирования и многоуровнего хранения данных. Практика показывает, что сегодня для выполнения аналитических задач требуется сильно загружать системы, однако бизнес требует, чтобы все сервисы, приложения и сами данные всегда оставались доступными. Кроме этого, требования к результатам аналитических исследований сегодня очень высоки – грамотно, правильно и своевременно проведенные аналитические процессы позволяют существенно улучшить результаты работы бизнеса в целом.

Александр Яковлев ([email protected]), менеджер по маркетингу продукции Fujitsu (Москва).

Игнорированием роли данных и информации, как предметов исследования, была заложена та самая мина, которая взорвалась сейчас, в момент, когда изменились потребности, когда счетная нагрузка на компьютеры оказалась намного меньше, чем другие виды работ, выполняемые над данными, а цель этих действий заключается в получении новой информации и новых знаний из уже существующих массивов данных. Вот почему вне восстановления связей цепочки «данные - информация - знание» говорить о решении проблемы Больших Данных бессмысленно. Данные обрабатываются для получения информации, которой должно быть ровно столько, чтобы человек мог превратить ее в знание.

За последние десятилетия серьезных работ по связям сырых данных с полезной информацией не было, а то, что мы привычно называем теорией информации Клода Шеннона, является не чем иным, как статистической теорией передачи сигналов, и к информации, воспринимаемой человеком, не имеет никакого отношения. Есть множество отдельных публикаций, отражающих частные точки зрения, но нет полноценной современной теории информации. В результате подавляющее число специалистов вообще не делает различия между данными и информацией. Вокруг все только констатируют, что данных много или очень много, но зрелого представления, чего именно много, какими путями следует решать возникшую проблему, нет ни у кого - а все потому, что технические возможности работы с данными явно опередили уровень развития способностей к их использованию. Только у одного автора, редактора журнала Web 2.0 Journal Дайона Хинчклифа, имеется классификация Больших Данных, позволяющая соотнести технологии с результатом, который ждут от обработки Больших Данных, но и она далеко не удовлетворительна.

Хинчклиф делит подходы к Big Data на три группы: Быстрые Данные (Fast Data), их объем измеряется терабайтами; Большая Аналитика (Big Analytics) - петабайтные данные и Глубокое Проникновение (Deep Insight) - экзабайты, зеттабайты. Группы различаются между собой не только оперируемыми объемами данных, но и качеством решения по их обработки.

Обработка для Fast Data не предполагает получения новых знаний, ее результаты соотносятся с априорными знаниями и позволяют судить о том, как протекают те или иные процессы, она позволяет лучше и детальнее увидеть происходящее, подтвердить или отвергнуть какие-то гипотезы. Только небольшая часть из существующих сейчас технологий подходит для решения задач Fast Data, в этот список попадают некоторые технологии работы с хранилищами (продукты Greenplum, Netezza, Oracle Exadata, Teradata, СУБД типа Verica и kdb). Скорость работы этих технологий должна возрастать синхронно с ростом объемов данных.

Задачи, решаемые средствами Big Analytics, заметно отличаются, причем не только количественно, но и качественно, а соответствующие технологии должны помогать в получении новых знаний - они служат для преобразования зафиксированной в данных информации в новое знание. Однако на этом среднем уровне не предполагается наличие искусственного интеллекта при выборе решений или каких-либо автономных действий аналитической системы - она строится по принципу «обучения с учителем». Иначе говоря, весь ее аналитический потенциал закладывается в нее в процессе обучения. Самый очевидный пример - машина , играющая в Jeopardy!. Классическими представителями такой аналитики являются продукты MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache и Mahout.

Высший уровень, Deep Insight, предполагает обучение без учителя (unsupervised learning) и использование современных методов аналитики, а также различные способы визуализации. На этом уровне возможно обнаружение знаний и закономерностей, априорно неизвестных.

Аналитика Больших Данных

С течением времени компьютерные приложения становятся все ближе к реальному миру во всем его многообразии, отсюда рост объемов входных данных и отсюда же потребность в их аналитике, причем в режиме, максимально приближенном к реальному времени. Конвергенция этих двух тенденций привела к возникновению направления аналитика Больших Данных (Big Data Analytics).

Победа компьютера Watson стала блестящей демонстрацией возможностей Big Data Analytics - мы вступаем в интереснейшую эпоху, когда компьютер впервые используется не столько как инструмент для ускорения расчетов, а как помощник, расширяющий человеческие возможности в выборе информации и принятии решений. Казавшиеся утопическими замыслы Ванневара Буша, Джозефа Ликлайдера и Дага Энгельбарта начинают сбываться, но происходит это не совсем так, как это виделось десятки лет назад - сила компьютера не в превосходстве над человеком по логическим возможностям, на что особенно уповали ученые, а в существенно большей способности обрабатывать гигантские объемы данных. Нечто подобное было в противоборстве Гарри Каспарова с Deep Blue, компьютер не был более искусным игроком, но он мог быстрее перебирать большее количество вариантов.

Гигантские объемы в сочетании с высокой скоростью, отличающие Big Data Analytics от других приложений, требуют соответствующих компьютеров, и сегодня практически все основные производители предлагают специализированные программно-аппаратные системы: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine и Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics Platform на базе HP Converged Infrastructure. Помимо этого в игру вступило множество небольших и начинающих компаний: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Обратная связь

Качественно новые приложения Big Data Analytics требуют для себя не только новых технологий, но и качественного иного уровня системного мышления, а вот с этим наблюдаются трудности - разработчики решений Big Data Analytics часто заново открывают истины, известные с 50-х годов. В итоге нередко аналитика рассматривается в отрыве от средств подготовки исходных данных, визуализации и других технологий предоставления результатов человеку. Даже такая уважаемая организация, как The Data Warehousing Institute, рассматривает аналитику в отрыве от всего остального: по ее данным, уже сейчас 38% предприятий исследуют возможность использования Advanced Analytics в практике управления, а еще 50% намереваются сделать это в течение ближайших трех лет. Такой интерес обосновывается приведением множества аргументов из бизнеса, хотя можно сказать и проще - предприятиям в новых условиях требуется более совершенная система управления, и начинать ее создание надо с установления обратной связи, то есть с системы, помогающей в принятии решений, а в будущем, может быть, удастся автоматизировать и собственно приятие решений. Удивительно, но все сказанное укладывается в методику создания автоматизированных систем управления технологическими объектами, известную с 60-х годов.

Новые средства для анализа требуются потому, что данных становится не просто больше, чем раньше, а больше их внешних и внутренних источников, теперь они сложнее и разнообразнее (структурированные, неструктурированные и квазиструктурированные), используются различные схемы индексации (реляционные, многомерные, noSQL). Прежними способами справиться с данными уже невозможно - Big Data Analytics распространяется на большие и сложные массивы, поэтому еще используют термины Discovery Analytics (открывающая аналитика) и Exploratory Analytics (объясняющая аналитика). Как ни называть, суть одна - обратная связь, снабжающая в приемлемом виде лиц, принимающих решение, сведениями о различного рода процессах.

Компоненты

Для сбора сырых данных используются соответствующие аппаратные и программные технологии, какие именно - зависит от природы объекта управления (RFID, сведения из социальных сетей, разнообразные текстовые документы и т. п.). Эти данные поступают на вход аналитической машины (регулятора в цепи обратной связи, если продолжать аналогию с кибернетикой). Этот регулятор базируется на программно-аппаратной платформе, на которой работает собственно аналитическое ПО, он не обеспечивает выработки управляющих воздействий, достаточных для автоматического управления, поэтому в контур включаются ученые по данным (data scientist) или инженеры в области данных. Их функцию можно сравнить с той ролью, которую играют, например, специалисты в области электротехники, использующие знания из физики в приложении к созданию электрических машин. Задача инженеров заключается в управлении процессом преобразования данных в информацию, используемую для принятия решений, - они-то и замыкают цепочку обратной связи. Из четырех компонентов Big Data Analytics в данном случае нас интересует только один - программно-аппаратная платформа (системы этого типа называют Analytic Appliance или Data Warehouse Appliance).

На протяжении ряда лет единственным производителем аналитических специализированных машин была Teradata, но не она была первой - еще в конце 70-х годов тогдашний лидер британской компьютерной индустрии компания ICL предприняла не слишком удачную попытку создать контентно-адресуемое хранилище (Content-Addressable Data Store), в основе которого была СУБД IDMS. Но первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных. А первым представителем нового поколения поставщиков подобных комплексов стала компания Netezza - в ее решении Netezza Performance Server использовались стандартные серверы-лезвия вместе со специализированными лезвиями Snippet Processing Unit.

Аналитика в СУБД

Аналитика здесь - прежде всего прогнозная , или предиктивная (Predictive Analysis, РА). В большинстве существующих реализаций исходными для систем РА являются данные, ранее накопленные в хранилищах данных. Для анализа данные сначала перемещают в промежуточные витрины (Independent Data Mart, IDM), где представление данных не зависит от использующих их приложений, а затем те же данные переносятся в специализированные аналитические витрины (Аnalytical Data Mart, ADM), и уже с ними работают специалисты, применяя различные инструменты разработки, или добычи данных (Data Mining). Такая многоступенчатая модель вполне приемлема для относительно небольших объемов данных, но при их увеличении и при повышении требований к оперативности в такого рода моделях обнаруживается ряд недостатков. Помимо необходимости в перемещении данных существование множества независимых ADM приводит к усложнению физической и логической инфраструктуры, разрастается количеств используемых инструментов моделирования, полученные разными аналитиками результаты оказываются несогласованны, далеко не оптимально используются вычислительные мощности и каналы. Кроме того, раздельное существование хранилищ и ADM делает практически невозможной аналитику во времени, приближенном к реальному.

Выходом может быть подход, получивший название In-Database Analytics или No-Copy Analytics, предполагающий использование для целей аналитики данных, непосредственно находящихся в базе. Такие СУБД иногда называют аналитическими и параллельными. Подход стал особенно привлекателен с появлением технологий MapReduce и Hadoop. В новых приложениях поколения класса In-Database Analytics все виды разработки данных и другие виды интенсивной работы выполняются непосредственно над данными, находящимися в хранилище. Очевидно, что это заметно ускоряет процессы и позволяет выполнять в реальном времени такие приложения, как распознавание образов, кластеризация, регрессионный анализ, различного рода прогнозирование. Ускорение достигается не только за счет избавления от перемещений из хранилища в витрины, но главным образом за счет использования различных методов распараллеливания, в том числе кластерных систем с неограниченным масштабированием. Решения типа In-Database Analytics открывают возможность для использования облачных технологий в приложении к аналитике. Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти.

Основные поставщики...

К 2010 году основными поставщиками ПО для In-Database Analytics были компании Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL), Oracle (Oracle Database 11g/10g, Oracle Exadata), SenSage (SenSage/columnar), Sybase (Sybase IQ), Teradata и Vertica Systems (Vertica Analytic Database). Все это хорошо известные компании, за исключением стартапа из Кремниевой долины SenSage. Продукты заметно различаются по типу данных, с которыми они могут работать, по функциональным возможностям, интерфейсам, по применяемому аналитическому ПО и по их способности работать в облаках. Лидером по зрелости решений является Teradata, а по авангардности - Aster Data. Список поставщиков аналитического ПО короче - в локальных конфигурациях могут работать продукты компаний KXEN, SAS, SPSS и TIBCO, а в облаках - Amazon, Cascading, Google, Yahoo! и Сloudera.

Год 2010-й стал поворотным в области предиктивной аналитики, сравнимым с 2007 годом, когда IBM приобрела Cognos, SAP - Business Object, а Oracle - Hyperion. Все началось с того, что EMC приобрела Greenplum, затем IBM - Netezza, HP - Vertica, Teradata купила Aster Data и SAP купила Sybase.

…и новые возможности

Аналитическая парадигма открывает принципиально новые возможности, что успешно доказали два инженера из Кёльна, создавшие компанию ParStream (официальное имя empulse GmbH). Вдвоем им удалось создать аналитическую платформу на базе процессоров как универсальных, так и графических процессоров, конкурентную с предшественниками. Четыре года назад Михаэль Хюммепль и Джорг Бинерт, работавшие прежде в Accenture, получили заказ от германской туристической фирмы, которой для формирования туров требовалась система, способная за 100 миллисекунд выбирать запись, содержащую 20 параметров, в базе из 6 млрд записей. Ни одно из существующих решений с такой задачей справиться не может, хотя с аналогичными проблемами сталкиваются везде, где требуется оперативный анализ содержимого очень больших баз данных. Компания ParStream родилась из предпосылки применения технологий высокопроизводительных вычислений к Big Data Analytics. Хюммепль и Бинерт начали с того, что написали собственное ядро СУБД, рассчитанное для работы на кластере x86-архитектуры, поддерживающем операции с данными в виде параллельных потоков, отсюда и название ParStream. Они избрали в качестве исходной установки работу только со структурированными данными, что собственно и открывает возможность для относительно простого распараллеливания. По своему замыслу эта база данных ближе к новому проекту Google Dremel, чем к MapReduce или Hadoop, которые не адаптированы к запросам в реальном времени. Начав с платформы x86/Linux, Хюммепль и Бинерт вскоре убедились, что их база данных может поддерживаться и графические процессоры nVidia Fermi.

Big Data и Data Processing

Чтобы понять, чего же следует ожидать от того, что назвали Big Data, следует выйти за границы современного узкого «айтишного» мировоззрения и попытаться увидеть происходящее в более широкой историко-технологической ретроспективе, например попробовать найти аналогии с технологиями, имеющими более длительную историю. Ведь, назвав предмет нашей деятельности технологией, надо и относиться к нему как к технологии. Практически все известные материальные технологии сводятся к переработке, обработке или сборке специфического для них исходного сырья или каких-то иных компонентов с целью получения качественно новых продуктов - что-то имеется на входе технологического процесса и нечто на выходе.

Особенность нематериальных информационных технологий состоит в том, что здесь не столь очевидна технологическая цепочка, не ясно, что является сырьем, что результатом, что поступает на вход и что получается на выходе. Проще всего сказать, что на входе сырые данные, а на выходе полезная информация. В целом почти верно, однако связь между этими двумя сущностями чрезвычайно сложна; если же остаться на уровне здоровой прагматики, то можно ограничиться следующими соображениями. Данные - это выраженные в разной форме сырые факты, которые сами по себе не несут полезного смысла до тех пор, пока не поставлены в контекст, должным образом не организованы и не упорядочены в процессе обработки. Информация появляется в результате анализа обработанных данных человеком, этот анализ придает данным смысл и обеспечивает им потребительские качеств. Данные - это неорганизованные факты, которые необходимо превращать в информацию. До последнего времени представления об обработке данных (data processing) сводились к органичному кругу алгоритмических, логических или статистических операций над относительно небольшими объемами данных. Однако по мере сближения компьютерных технологий с реальным миром возрастает потребность превращений данных из реального мира в информацию о реальном мире, обрабатываемых данных становится больше, и требования к скорости обработки возрастают.

Логически информационные технологии мало чем отличаются от материальных технологий, на входе сырые данные, на выходе - структурированные, в форме, более удобной для восприятия человеком, извлечения из них информации и силой интеллекта превращения информации в полезное знание. Компьютеры назвали компьютерами за их способность считать, вспомним первое приложение для ENIAC - обработка данных стрельбы из орудия и превращение их в артиллерийские таблицы. То есть компьютер перерабатывал сырые данные, извлекал полезные и записывал их в форме, приемлемой для использования. Перед нами не что иное, как обычный технологический процесс. Вообще говоря, вместо привившегося термина Information Technology следовало бы чаще употреблять более точный Data Processing.

На информационные технологии должны распространяться общие закономерности, в согласии с которыми развиваются все остальные технологии, а это прежде всего увеличение количества перерабатываемого сырья и повышение качества переработки. Так происходит везде, независимо от того, что именно служит сырьем, а что результатом, будь то металлургия, нефтехимия, биотехнологии, полупроводниковые технологии и т. д. Общим является еще и то, что ни одно из технологических направлений не развивается монотонно, рано или поздно возникают моменты ускоренного развития, скачки. Быстрые переходы могут происходить в тех случаях, когда вовне возникает потребность, а внутри технологий есть способность ее удовлетворить. Компьютеры нельзя было строить на вакуумных лампах - и появились полупроводники, автомобилям нужно много бензина - открыли крекинг-процесс, и таких примеров множество. Таким образом, под именем Big Data скрывается намечающийся качественный переход в компьютерных технологиях, способный повлечь за собой серьезные изменения, не случайно его называют новой промышленной революцией. Big Data - очередная техническая революция со всеми вытекающими последствиями.

Первый опыт в Data Processing датируется IV тысячелетием до нашей эры, когда появилось пиктографическое письмо. С тех пор сложилось несколько основных направлений работы с данными, самым мощным было и остается текстовое, от первых глиняных табличек до SSD, от библиотек середины первого тысячелетия до нашей эры до современных библиотек, затем появились различного рода математические численные методы от папирусов с доказательством теоремы Пифагора и табличных приемов упрощения расчетов до современных компьютеров. По мере развития общества стали копиться различного рода табличные данные, автоматизация работы с которыми началась с табуляторов, а в XIX и ХХ веке было предложено множество новых методов создания и накопления данных. Необходимость работы с большими объемами данных понимали давно, но не было средств, отсюда утопические проекты типа «Либрариума» Поля Отле, или фантастическая система для прогнозирования погоды с использованием труда 60 тыс. людей-расчетчиков.

Сегодня компьютер превратился в универсальный инструмент для работы с данными, хотя задумывался он только лишь для автоматизации расчетов. Идея применить компьютер для Data Processing зародилась в IBM через десять лет после изобретения цифровых программируемых компьютеров, а до этого для обработки данных использовались перфораторные устройства типа Unit Record, изобретенные Германом Холлеритом. Их называли Unit Record, то есть единичная запись - каждая карта содержала всю запись, относящуюся к какому-то одному объекту. Первые компьютеры не умели работать с Большими Данными - лишь с появлением накопителей на дисках и лентах они смогли составить конкуренцию машино-счетным станциям, просуществовавшим до конца 60-х годов. Кстати, в реляционных базах данных явным образом прослеживается наследие Unit Record.

Простота – залог успеха

Рост объемов сырых данных вместе с необходимостью их анализа в режиме реального времени требуют создания и внедрения инструментов, позволяющих эффективно решать так называемую задачу Big Data Analytics. Технологии компании Information Builders позволяют работать с данными, поступающими из любых источников в режиме реального времени, благодаря множеству различных адаптеров и архитектуре Enterprise Service Bus. Инструмент WebFOCUS позволяет анализировать данные «на лету» и дает возможность визуализировать результаты лучшим для пользователя способом.

Основываясь на технологии RSTAT, компания Information Builders создала продукт для предиктивной аналитики, позволяющий проводить сценарное прогнозирование: «Что будет, если» и «Что необходимо для».

Технологии бизнес-аналитики пришли и в Россию, однако лишь немногие российские компании используют именно предиктивный анализ, что вызвано низкой культурой использования бизнес-аналитики на отечественных предприятиях и сложностью восприятия существующих методов анализа бизнес-пользователем. Учитывая это, компания Information Builders предлагает сегодня продукты, которые аналитиками Gartner оцениваются как самые простые в использовании.

Михаил Строев ([email protected]), директор по развитию бизнеса в России и СНГ InfoBuild CIS (Москва).

Данные повсюду

По мере постепенного превращения компьютеров из счетных устройств в универсальные машины для обработки данных, примерно после 1970 года, стали появляться новые термины: данные как продукты (data product); инструменты для работы с данными (data tool); приложения, реализуемые посредством соответствующей организации (data application); наука о данных (data science); ученые, работающие с данными (data scientist), и даже журналисты, которые доносят сведения, содержащиеся в данных, до широкой публики (data journalist).

Большое распространение сегодня получили приложения класса data application, которые не просто выполняют операции над данными, а извлекают из них дополнительные ценности и создают продукты в виде данных. К числу первых приложений этого типа относится база аудиодисков CDDB, которая в отличие от традиционных баз данных создана путем экстрагирования данных из дисков и сочетания их с метаданными (названия дисков, треков и т. п.). Эта база лежит в основе сервиса Apple iTunes. Одним из факторов коммерческого успеха Google также стало осознание роли data application - владение данными позволяет этой компании многое «знать», используя данные, лежащие вне искомой страницы (алгоритм PageRank). В Google достаточно просто решена проблема корректности правописания - для этого создана база данных ошибок и исправлений, а пользователю предлагаются исправления, которые он может принять или отклонить. Аналогичный подход применяется и для распознавания при речевом вводе - в его основе накопленные аудиоданные.

В 2009 году во время вспышки свиного гриппа анализ запросов к поисковым машинам позволил проследить процесс распространения эпидемии. По пути Google пошли многие компании (Facebook, LinkedIn, Amazon и др.), не только предоставляющие услуги, но и использующие накопленные данные в иных целях. Возможность обрабатывать данные такого типа дала толчок к появлению еще одной науки о населении - citizen science. Результаты, полученные путем всестороннего анализа данных о населении, позволяют получить гораздо более глубокие знания о людях и принимать более обоснованные административные и коммерческие решения. Совокупность данных и средств работы с ними сейчас называют infoware.

Машина для Больших Данных

Хранилища данных, интернет-магазины, биллинговые системы или любая другая платформа, которую можно отнести к проектам Больших Данных, обычно обладает уникальной спецификой, и при ее проектировании главным является интеграция с промышленными данными, обеспечение процессов накопления данных, их организации и аналитики.

Компания Oracle предоставила интегрированное решение Oracle Big Data Appliance поддержки цепочки обработки Больших Данных, состоящее из оптимизированного оборудования с полным стеком программного обеспечения и 18 серверов Sun X4270 M2. Межсоединение строится на базе Infiniband 40 Гбит/с и 10-Gigabit Ethernet. Oracle Big Data Appliance включает в себя комбинацию как открытого, так и специализированного ПО от Oracle.

Хранилища типа ключ-значение или NoSQL СУБД признаны сегодня основными для мира Больших Данных и оптимизированы для быстрого накопления данных и доступа к ним. В качестве такой СУБД для Oracle Big Data Appliance используется СУБД на базе Oracle Berkley DB, хранящая информацию о топологии системы хранения, распределяющая данные и понимающая, где могут быть размещены данные с наименьшими временными затратами.

Решение Oracle Loader for Hadoop позволяет с помощью технологии MapReduce создавать оптимизированные наборы данных для их загрузки и анализа в СУБД Oracle 11g. Данные генерируются в «родном» формате СУБД Oracle, что позволяет минимизировать использование системных ресурсов. Обработка отформатированных данных осуществляется на кластере, а затем данные могут быть доступны с рабочих мест пользователей традиционной РСУБД с помощью стандартных команд SQL или средств бизнес-аналитики. Интеграция данных Hadoop и Oracle СУБД осуществляется при помощи решения Oracle Data Integrator.

Oracle Big Data Appliance поставляется с открытым дистрибутивом Apache Hadoop, включая файловую систему HDFS и другие компоненты, открытым дистрибутивом статистического пакета R для анализа сырых данных и системой Oracle Enterprise Linux 5.6. Предприятия, уже использующие Hadoop, могут интегрировать данные, размещенные на HDFS в СУБД Oracle с помощью функционала внешних таблиц, причем нет необходимости сразу загружать данные в СУБД – внешние данные могут быть использованы в связке с внутренними данными базы Oracle при помощи команд SQL.

Подключение между Oracle Big Data Appliance и Oracle Exadata через Infiniband обеспечивает высокоскоростную передачу данных для пакетной обработки или SQL-запросов. Oracle Exadata обеспечивает необходимую производительность как для хранилищ данных, так и для приложений оперативной обработки транзакций.

Новый продукт Oracle Exalytics может быть использован для решения задач бизнес аналитики и оптимизирован для использования Oracle Business Intelligence Enterprise Edition с обработкой в оперативной памяти.

Владимир Демкин ([email protected]), ведущий консультант по направлению Oracle Exadata компании Oracle СНГ (Москва).

Наука и специалисты

Автор доклада «Что такое наука о данных?» (What is Data Science?), вышедшего в серии O’Reilly Radar Report, Майк Лукидис написал: «Будущее принадлежит компаниям и людям, способным превратить данные в продукты». Это высказывание невольно вызывает в памяти известные слова Ротшильда «Кто владеет информацией – тот владеет миром», произнесенные им, когда он раньше других узнал о поражении Наполеона при Ватерлоо и провернул аферу с ценными бумагами. Сегодня этот афоризм стоит перефразировать: «Миром владеет тот, кто владеет данными и технологиями их анализа». Живший немного позже Карл Маркс показал, что промышленная революция разделила людей на две группы - на владеющих средствами производства и тех, кто работает на них. В общих чертах сейчас происходит нечто подобное, но теперь предметом владения и разделения функций являются не средства производства материальных ценностей, а средства производства данных и информации. И вот тут-то и возникают проблемы - оказывается, владеть данными намного сложнее, чем владеть материальными активами, первые довольно просто тиражируются и вероятность их хищения гораздо выше, чем кражи материальных предметов. Кроме того, существуют легальные приемы разведки - при наличии достаточного объема и соответствующих аналитических методов можно «вычислить» то, что скрыто. Вот почему сейчас такое внимание уделяется аналитике Больших Данных Big Data Analytics (см. врезку) и средствам защиты от нее.

Различные виды деятельности с данными, и прежде всего владение методами извлечения информации, называют наукой о данных (data science), что, во всяком случае в переводе на русский, несколько дезориентирует, поскольку скорее относится не к некоторой новой академической науке, а к междисциплинарному набору знаний и навыков, необходимых для извлечения знаний. Состав подобного набора в значительной мере зависит от области, но можно выделить более или менее обобщенные квалификационные требования к специалистам, которых называют data scientist. Лучше всего это удалось сделать Дрю Конвей, который в прошлом занимался анализом данных о террористических угрозах в одной из спецслужб США. Основные тезисы его диссертации опубликованы в ежеквартальном журнале IQT Quarterly, который издавается компанией In-Q-Tel, выполняющей посредническую функцию между ЦРУ США и научными организациями.

Свою модель Конвей изобразил в виде диаграммы Венна (см. рисунок), представляющей три области знания и умений, которыми нужно владеть и обладать, чтобы стать специалистом по данным. Хакерские навыки не следует понимать как злоумышленные действия, в данном случае так названо сочетание владения определенным инструментарием с особым аналитическим складом ума, как у Эркюля Пуаро, или, возможно, эту способность можно назвать дедуктивным методом Шерлока Холмса. В отличие от великих сыщиков нужно еще быть экспертом в ряде математических направлений и понимать предмет. Машинное обучение образуется на пересечении первых двух областей, на пересечении второй и третьей - традиционные методы. Третья зона пересечения опасна спекулятивностью, без математических методов не может быть объективного видения. На пересечении всех трех зон лежит наука о данных.

Диаграмма Конвея дает упрощенную картину; во-первых, на пересечении хакерского и математического кругов лежит не только машинное обучение, во-вторых, размер последнего круга намного больше, сегодня он включает множество дисциплин и технологий. Машинным обучением называют только одну из областей искусственного интеллекта, связанную с построением алгоритмов, способных к обучению, она делится на две подобласти: прецедентное, или индуктивное обучение, выявляющее скрытые закономерности в данных, и дедуктивное, нацеленное на формализацию экспертных знаний. Еще машинное обучение делится на обучение с учителем (Supervised Learning), когда изучаются методы классификации, основанные на заранее подготовленных тренировочных наборах данных, и без учителя (Unsupervised Learning), когда внутренние закономерности ищутся посредством кластерного анализа.

Итак, Big Data - это не спекулятивные размышления, а символ настигающей технической революции. Необходимость в аналитической работе с большими данными заметно изменит лицо ИТ-индустрии и стимулирует появление новых программных и аппаратных платформ. Уже сегодня для анализа больших объемов данных применяются самые передовые методы: искусственные нейронные сети - модели, построенные по принципу организации и функционирования биологических нейронных сетей; методы предиктивной аналитики, статистики и Natural Language Processing (направления искусственного интеллекта и математической лингвистики, изучающего проблемы компьютерного анализа и синтеза естественных языков). Используются также и методы, привлекающие людей-экспертов, или краудсорсинг, А/В тестирование, сентимент-анализ и др. Для визуализации результатов применяются известные методы, например облака тегов и совсем новые Clustergram, History Flow и Spatial Information Flow.

Со стороны технологий Больших Данных поддерживаются распределенными файловыми системами Google File System, Cassandra, HBase, Lustre и ZFS, программными конструкциями MapReduce и Hadoop и множеством других решений. По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями.



Только ленивый не говорит о Big data, но что это такое и как это работает - понимает вряд ли. Начнём с самого простого - терминология. Говоря по-русски, Big data - это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные - это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также:

Сегодня под этим простым термином скрывается всего два слова - хранение и обработка данных.

Big data - простыми словами

В современном мире Big data - социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также:

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще - кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные - лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также:

Фактически, Big data - это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Краудсорсинг;

    Смешение и интеграция данных;

    Машинное обучение;

    Искусственные нейронные сети;

    Распознавание образов;

    Прогнозная аналитика;

    Имитационное моделирование;

    Пространственный анализ;

    Статистический анализ;

  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных - базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Аппаратные решения.

Читайте также:

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V »:

  1. Volume - величина физического объёма.
  2. Velocity - скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety - возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни - от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента - забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных - Rapidminer и Python.

Читайте также:

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы - сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы - биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность - критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Рынок Big data в России

Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Колонка преподавателей НИУ ВШЭ о мифах и кейсах работы с большими данными

В закладки

Преподаватели Школы новых медиа НИУ ВШЭ Константин Романов и Александр Пятигорский, который также является директором по цифровой трансформации «Билайна», написали для сайт колонку о главных заблуждениях по поводу больших данных - примерах использования технологии и инструментах. Авторы предполагают, что публикация поможет руководителям компаний разобраться в этом понятии.

Мифы и заблуждения о Big Data

Big Data - это не маркетинг

Термин Big Data стал очень модным - его используют в миллионах ситуаций и в сотнях разных интерпретаций, зачастую не имеющих отношения к тому, чем он является. Часто в головах людей происходит подмена понятий, и Big Data путают с маркетинговым продуктом. Более того, в некоторых компаниях Big Data является частью маркетингового подразделения. Результат анализа больших данных действительно может быть источником для маркетинговой активности, но не более того. Посмотрим, как это работает.

Если мы определили список тех, кто покупал в нашем магазине товары на сумму более трех тысяч рублей два месяца назад, а затем послали этим пользователям какое-то предложение, то это типичный маркетинг. Мы выводим понятную закономерность из структурных данных, и используем ее для увеличения продаж.

Однако если мы соединим данные CRM с потоковой информацией, например, из Instagram, и проанализируем их, то найдем закономерность: человеку, который снизил свою активность в среду вечером и на чьей последней фотографии изображены котята, следует сделать определенное предложение. Это уже будет Big Data. Мы нашли триггер, передали его маркетологам, а они его использовали в своих целях.

Из этого следует, что технология обычно работает с неструктурированными данными, а если данные и структурированы, то система всё равно продолжает искать в них скрытые закономерности, чего не делает маркетинг.

Big Data - это не ИТ

Вторая крайность этой истории: Big Data часто путают с ИТ. Это связано с тем, что в российских компаниях, как правило, именно ИТ-специалисты являются драйверами всех технологий, в том числе и больших данных. Поэтому, если всё происходит именно в этом отделе, для компании в целом создается впечатление, что это какая-то деятельность ИТ.

На самом деле, здесь есть коренное различие: Big Data - это деятельность, направленная на получение определенного продукта, что совсем не относится к ИТ, хотя без них технология и не может существовать.

Big Data - не всегда сбор и анализ информации

Есть ещё одно заблуждение относительно Big Data. Все понимают, что эта технология связана с большими объемами данных, но какого рода данные имеются в виду, не всегда ясно. Собирать и использовать информацию может каждый, сейчас это возможно не только в фильмах про , но и в любой, даже совсем маленькой компании. Вопрос только в том, что именно собирать и как это использовать с пользой для себя.

Но следует понять, что технологией Big Data не будет являться сбор и анализ совершенно любой информации. Например, если вы соберете в социальных сетях данные о конкретном человеке, это не будет Big Data.

Что такое Big Data на самом деле

Big Data состоит из трех элементов:

  • данные;
  • аналитика;
  • технологии.

Big Data - не что-то одно из этих составляющих, а связка всех трех элементов. Часто люди подменяют понятия: кто-то считает, что Big Data - это только данные, кто-то - что технологии. Но по факту, сколько бы данных вы ни собрали, вы ничего с ними не сделаете без нужных технологий и аналитики. Если есть хорошая аналитика, но нет данных, - тем более плохо.

Если говорить о данных, то это не только тексты, но и все фотографии, размещаемые в Instagram, и вообще всё, что можно проанализировать и использовать для разных целей и задач. Другими словами, под Data понимаются огромные объемы внутренних и внешних данных различных структур.

Также нужна аналитика, потому что задача Big Data - построить какие-то закономерности. То есть аналитика - это выявление скрытых зависимостей и поиск новых вопросов и ответов на основе анализа всего объема разнородных данных. Причем Big Data ставит вопросы, которые напрямую из этих данных не выводим.

Если говорить об изображениях, то факт размещения вами своего фото в голубой футболке ни о чем не говорит. Но если использовать фотографию для Big Data-моделирования, то может выясниться, что именно сейчас вам следует предложить кредит, потому что в вашей социальной группе такое поведение говорит об определенном феномене в действиях. Поэтому «голые» данные без аналитики, без выявления скрытых и неочевидных зависимостей Big Data не являются.

Итак, у нас есть большие данные. Их массив огромен. Также у нас есть аналитик. Но как сделать так, чтобы из этих сырых данных у нас родилось конкретное решение? Для этого нам нужны технологии, которые позволяют их не просто складировать (а раньше и это было невозможно), но и анализировать.

Проще говоря, если у вас есть много данных, вам потребуются технологии, к примеру, Hadoop , которые дают возможность сохранить всю информацию в первозданном виде для последующего анализа. Такого рода технологии возникли в интернет-гигантах, поскольку именно они первыми столкнулись с проблемой хранения большого массива данных и его анализа для последующей монетизации.

Кроме инструментов для оптимизированного и дешевого хранения данных, нужны аналитические инструменты, а также надстройки к используемой платформе. К примеру, вокруг Hadoop уже образовалась целая экосистема из связанных проектов и технологий. Вот некоторые из них:

  • Pig - декларативный язык анализа данных.
  • Hive - анализ данных с использованием языка, близкого к SQL.
  • Oozie - поток работ в Hadoop.
  • Hbase - база данных (нереляционная), аналог Google Big Table.
  • Mahout - машинное обучение.
  • Sqoop - перенос данных из РСЦБД в Hadoop и наоборот.
  • Flume - перенос логов в HDFS.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS и так далее.

Все эти инструменты доступны каждому бесплатно, но есть и набор платных надстроек.

Кроме того, нужны специалисты: это разработчик и аналитик (так называемый Data Scientist). Также необходим менеджер, способный понять, как эту аналитику применить для решения конкретной задачи, потому что сама по себе она совершенно бессмысленна, если ее не встраивать в бизнес-процессы.

Все три сотрудника должны работать в команде. Менеджер, который дает специалисту по Data Science задание найти определенную закономерность, должен понимать, что далеко не всегда найдется именно то, что ему нужно. В таком случае руководитель должен внимательно слушать, что же нашел Data Scientist, поскольку зачастую его находки оказываются более интересными и полезными для бизнеса. Ваша задача - применить это к бизнесу и сделать из этого продукт.

Несмотря на то, что сейчас есть множество разного рода машин и технологий, окончательное решение всегда остается за человеком. Для этого информацию нужно как-то визуализировать. Инструментов для этого довольно много.

Самый показательный пример - это геоаналитические отчеты. Компания «Билайн» много работает с правительствами разных городов и областей. Очень часто эти организации заказывают отчеты типа «Транспортная загруженность в определенном месте».

Понятно, что подобный отчет должен попасть к правительственным структурам в простой и понятной им форме. Если же мы предоставим им огромную и совершенно непонятную таблицу (то есть информацию в том виде, в каком ее получаем мы), они вряд ли купят такой отчет - он будет совершенно бесполезен, они не вынесут из него тех знаний, которые хотели получить.

Поэтому, какими бы хорошими ни были специалисты по Data Science и какие бы закономерности они ни находили, вы не сможете работать с этими данными без качественных инструментов визуализации.

Источники данных

Массив получаемых данных очень велик, поэтому его можно разделить на некоторые группы.

Внутренние данные компании

Хотя к этой группе относится 80% собираемых данных, этот источник не всегда используют. Часто это данные, которые, казалось бы, вообще никому не нужны, например, логи. Но если посмотреть на них под другим углом, иногда можно найти в них неожиданные закономерности.

Условно бесплатные источники

Сюда относятся данные социальных сетей, интернета и всего, куда можно бесплатно проникнуть. Почему условно бесплатно? С одной стороны, эти данные доступны каждому, но если вы являетесь крупной компанией, то получать их в размерах абонентской базы в десятки тысяч, сотни или миллионы клиентов - уже непростая задача. Поэтому на рынке существуют платные сервисы по предоставлению этих данных.

Платные источники

Сюда относятся компании, которые продают данные за деньги. Это могут быть телекомы, DMP, интернет-компании, бюро кредитных историй и агрегаторы. В России телекомы не продают данные. Во-первых, это экономически невыгодно, а во-вторых, запрещено законом. Поэтому они продают результаты их обработки, например, геоаналитические отчеты.

Открытые данные

Государство идет навстречу бизнесу и дает возможность пользоваться данными, которые они собирают. В большей степени это развито на Западе, но Россия в этом плане тоже идет в ногу со временем. Например, существует Портал открытых данных Правительства Москвы, где публикуется информация по различным объектам городской инфраструктуры.

Для жителей и гостей Москвы данные представлены в табличном и картографическом виде, а для разработчиков - в специальных машиночитаемых форматах. Пока проект работает в ограниченном режиме, но развивается, а значит, тоже является источником данных, который вы можете использовать для своих бизнес-задач.

Исследования

Как уже отмечалось, задача Big Data - найти закономерность. Часто исследования, проводимые по всему миру, могут стать точкой опоры для нахождения той или иной закономерности - вы можете получить конкретный результат и попытаться применить похожую логику в своих целях.

Big Data - это область, в которой работают не все законы математики. Например, «1»+«1» - это не «2», а значительно больше, потому что при смешении источников данных можно значительно усилить эффект.

Примеры продуктов

Многие знакомы с сервисом по подбору музыки Spotify. Он прекрасен тем, что не спрашивает у пользователей, какое у них сегодня настроение, а сам вычисляет это на основе доступных ему источников. Он всегда знает, что вам нужно сейчас - джаз или тяжелый рок. Это то ключевое отличие, которое обеспечивает ему поклонников и отличает от других сервисов.

Подобные продукты принято называть sense-продуктами - такими, которые чувствуют своего клиента.

Технологию Big Data применяют и в автомобилестроении. Например, это делает Tesla - в их последней модели есть автопилот. Компания стремится создать машину, которая сама будет везти пассажира туда, куда ему нужно. Без Big Data это невозможно, потому что если мы будем использовать только те данные, которые получаем напрямую, как это делает человек, то автомобиль не сможет усовершенствоваться.

Когда мы ведем автомобиль сами, то с помощью наших нейронов принимаем решения, исходя из множества факторов, которых мы даже не замечаем. Например, мы можем не осознать, почему решили не газовать сразу на зеленый свет, а потом окажется, что решение было верным - мимо вас пронеслась машина на бешеной скорости, и вы избежали аварии.

Также можно привести пример использования Big Data в спорте. В 2002 году генеральный менеджер бейсбольной команды Oakland Athletics Билли Бин решил разрушить парадигму того, как нужно искать себе спортсменов - он выбрал и обучил игроков «по цифрам».

Обычно менеджеры смотрят на успехи игроков, но в данном случае всё было иначе - чтобы получить результат, менеджер изучал, какие комбинации спортсменов ему нужны, обращая внимания на индивидуальные характеристики. Причем спортсменов он выбрал таких, которые сами по себе не представляли большого потенциала, зато команда в целом получилась настолько успешной, что выиграла двадцать матчей подряд.

Режиссер Беннетт Миллер в последствии снял фильм, посвященный этой истории, - «Человек, который изменил всё» в главной роли с Брэдом Питтом.

Технология Big Data полезна и в финансовом секторе. Ни один человек на свете не сможет самостоятельно и точно определить, стоит ли давать кому-то кредит. Для того, чтобы принять решение, производится скоринг , то есть строится вероятностная модель, по которой можно понять, вернет этот человек деньги или нет. Дальше скоринг применяется на всех этапах: можно, например, просчитать, что в определенный момент человек перестанет платить.

Большие данные позволяют не только заработать деньги, но и сэкономить их. В частности, эта технология помогла Министерству труда Германии сократить расходы на пособия по безработице на 10 млрд евро, так как после анализа информации стало понятно, что 20% пособий выплачивалось незаслуженно.

Также технологии применяются в медицине (особенно это характерно для Израиля). С помощью Big Data можно поставить значительно более точный анализ, чем это сделает врач с тридцатилетним стажем.

Любой доктор, когда ставит диагноз, опирается лишь на свой собственный опыт. Когда это делает машина, она исходит из опыта тысяч таких врачей и всех существующих историй болезни. Она учитывает то, из какого материала сделан дом пациента, в каком районе живет пострадавший, какая там задымленность и так далее. То есть она учитывает массу факторов, которые врачи не берут в расчет.

Примером использования Big Data в здравоохранении можно назвать проект Project Artemis, который внедрила Детская больница Торонто. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Машина позволяет анализировать 1260 показателей здоровья каждого ребенка ежесекундно. Этот проект направлен на прогноз нестабильного состояния ребенка и профилактику заболеваний у детей.

Большие данные начинают использовать и в России: например, подразделение больших данных есть у «Яндекса». Компания совместно с «АстраЗенекой» и Российским обществом клинической онкологии RUSSCO запустили платформу RAY, предназначенную для генетиков и молекулярных биологов. Проект позволяет улучшить методы диагностики рака и выявления предрасположенности к онкологическим заболеваниям. Платформа начнет работу в декабре 2016 года.

Вы же знаете эту известную шутку? Big Data — это как секс до 18:

  • все об этом думают;
  • все об этом говорят;
  • все думают, что их друзья это делают;
  • почти никто этого не делает;
  • тот, кто это делает, делает это плохо;
  • все думают, что в следующий раз лучше получится;
  • никто не принимает мер безопасности;
  • любому стыдно признаться в том, что он чего-то не знает;
  • если у кого-то что-то получается, от этого всегда много шума.

Но давайте начистоту, с любой шумихой рядом всегда будет идти обычное любопытство: что за сыр-бор и есть ли там что-то действительно важное? Если коротко — да, есть. Подробности — ниже. Мы отобрали для вас самые удивительные и интересные применения технологий Big Data. Это небольшое исследование рынка на понятных примерах сталкивает с простым фактом: будущее не наступает, не нужно «подождать еще n лет и волшебство станет реальностью». Нет, оно уже пришло, но все еще незаметно глазу и поэтому припекание сингулярности еще не обжигает известную точку рынка труда так сильно. Поехали.

1 Как применяются технологии Big Data там, где они зародились

Большие IT компании — то место, где зародилась наука о данных, поэтому их внутренняя кухня в этой области интереснее всего. Кампания Google, родина парадигмы Map Reduce, , единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются .

Корпорация и внедряет машинное обучение во все свои продукты. Ее преимущество — наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой. При этом, политика конфиденциальности очень строгая: корпорация всегда хвасталась тем, что не использует данных клиентов в рекламных целях. Соответственно, информация пользователей шифруется так, что юристы Apple или даже ФБР с ордером не смогут ее прочесть. По вы найдете большой обзор разработок Apple в сфере ИИ.

2 Большие Данные на 4 колесах

Современный автомобиль — накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что , будет генерировать до 25 Гб данных за час.

Транспортная телематика используется автопроизводителями на протяжении многих лет, но сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. А это значит, что теперь технологии могут оповестить водителя о плохих дорожных условиях путем автоматической активации антиблокировочной тормозной и пробуксовочной системы.

Другие концерны, включая BMW, используют технологии Большиx Данных в сочетании со сведениями, собранными с тестируемых прототипов, встроенной в автомобили системой «памяти ошибок» и клиентскими жалобами, чтобы на ранней стадии производства определить слабые места модели. Теперь вместо ручной оценки данных, которая занимает месяцы, применяется современный алгоритм. Ошибки и затраты на их устранение уменьшаются, что позволяет ускорить рабочие процессы анализа информации в BMW.

Согласно экспертным оценкам, к 2019 году оборот рынка подключенных в единую сеть автомобили, достигнет $130 млрд. Это неудивительно, если учитывать темпы интеграции автопроизводителями технологий, которые являются неотъемлемой частью транспортного средства.

Использование Больших Данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) . Этот инструмент, использующийся для Больших Данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.

3 Применение Больших Данных в медицине


Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — . В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

4 Анализ данных уже стал стержнем розничной торговли

Понимание пользовательских запросов и таргетинг — одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Большие Данные помогают анализировать клиентские привычки, чтобы в дальнейшем лучше понимать запросы потребителей. Компании стремятся расширить традиционный набор данных информацией из социальных сетей и историей поиска браузера с целью формирования максимально полной клиентской картины. Иногда крупные организации в качестве глобальной цели выбирают создание собственной предсказательной модели.

Например, сети магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — . За каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел. Специалистами сети установлено, что женщины в положении активно приобретают неароматизированные средства перед вторым триместром беременности, а в течение первых 20 недель налегают на кальциевые, цинковые и магниевые добавки. На основании полученных данных Target отправляет купоны на детские товары клиентам. Сами же скидки на товары для детей «разбавляются» купонами на другие продукты, чтобы предложения купить кроватку или пеленки не выглядели слишком навязчивыми.

Даже правительственные ведомства нашли способ, как использовать технологии Big Data для оптимизации избирательных кампаний. Некоторые считают, что победа Б. Обамы на президентских выборах США в 2012 году обусловлена превосходной работой его команды аналитиков, которые обрабатывали огромные массивы данных в правильном ключе.

5 Большие Данные на страже закона и порядка


За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать Большие Данные. Общеизвестным фактом является то, что Агентство национальной безопасности применяет технологии Больших Данных, чтобы предотвратить террористические акты. Другие ведомства задействуют прогрессивную методологию, чтобы предотвращать более мелкие преступления.

Департамент полиции Лос-Анджелеса применяет . Она занимается тем, что обычно называют проактивной охраной правопорядка. Используя отчеты о преступлениях за определенный период времени, алгоритм определяет районы, где вероятность совершения правонарушений является наибольшей. Система отмечает такие участки на карте города небольшими красными квадратами и эти данные тут же передаются в патрульные машины.

Копы Чикаго используют технологии Больших Данных немного другим образом. У блюстителей правопорядка из Города ветров также , но он направлен на очерчивание «круга риска», состоящего из людей, которые могут оказаться жертвой или участником вооруженного нападения. По информации газеты The New York Times, данный алгоритм присваивает человеку оценку уязвимости на основании его криминального прошлого (аресты и участие в перестрелках, принадлежность к преступным группировкам). Разработчик системы уверяет, что в то время как система изучает криминальное прошлое личности, она не учитывает второстепенных факторов вроде расы, пола, этнической принадлежности и месторасположения человека.

6 Как технологии Big Data помогают развиваться городам


Генеральный директор Veniam Жоао Баррос демонстрирует карту отслеживания Wi-Fi-роутеров в автобусах города Порту

Анализ данных также применяется для улучшения ряда аспектов жизнедеятельности городов и стран. Например, зная точно, как и когда использовать технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. Сегодня ряд городов взял курс на использование анализа данных с целью объединения транспортной инфраструктуры с другими видами коммунальных услуг в единое целое. Это концепция «умного» города, в котором автобусы ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

На основе технологий Больших Данных в городе Лонг-Бич работают «умные» счетчики воды, которые используются для пресечения незаконного полива. Ранее они применялись с целью сокращения потребления воды частными домовладениями (максимальный результат — сокращение на 80%). Экономия пресной воды — вопрос актуальный всегда. Особенно, когда государство переживает самую сильную засуху, которая когда-либо была зафиксирована.

К перечню тех, кто использует Big Data, присоединились представители Департамента транспорта города Лос-Анджелеса. На основании данных, полученных от датчиков дорожных камер, власти производят контроль работы светофоров , что в свою очередь позволяет регулировать траффик. Под управлением компьютеризованной системы находится порядка 4 500 тысяч светофоров по всему городу. Согласно официальным данным, новый алгоритм помог уменьшить заторы на 16%.

7 Двигатель прогресса в сфере маркетинга и продаж


В маркетинге инструменты Big Data позволяют выявить, продвижение каких идей на том или ином этапе цикла продаж является наиболее эффективным. С помощью анализа данных определяется, как инвестиции способны улучшить систему управления взаимоотношениями с клиентами, какую стратегию следует выбрать для повышения коэффициента конверсии и как оптимизировать жизненный цикл клиента. В бизнесе, связанном с облачными технологиями, алгоритмы Больших Данных применяют для выяснения того, как минимизировать цену привлечения клиента и увеличить его жизненный цикл.

Дифференциация стратегий ценообразования в зависимости от внутрисистемного уровня клиента — это, пожалуй, главное, для чего Big Data используется в сфере маркетинга. Компания McKinsey выяснила , что около 75% доходов среднестатистической фирмы составляют базовые продукты, на 30% из которых устанавливаются некорректные цены. Увеличение цены на 1% приводит к росту операционной прибыли на 8,7%.

Исследовательской группе Forrester удалось определить , что анализ данных позволяет маркетологам сосредоточиться на том, как сделать отношения с клиентами более успешными. Исследуя направление развития клиентов, специалисты могут оценить уровень их лояльности, а также продлить жизненный цикл в контексте конкретной компании.

Оптимизация стратегий продаж и этапы выхода на новые рынки с использованием геоаналитики находят отображение в биофармацевтической промышленности. Согласно McKinsey , компании, занимающиеся производством медикаментов, тратят в среднем от 20 до 30% прибыли на администрирование и продажи. Если предприятия начнут активнее использовать Большие Данные , чтобы определить наиболее рентабельные и быстро растущие рынки, расходы будут немедленно сокращены.

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Наконец, 58% директоров по маркетингу уверяют , что реализация технологий Big Data прослеживается в поисковой оптимизации (SEO), e-mail- и мобильном маркетинге, где анализ данных отыгрывает наиболее значимую роль в формировании маркетинговых программ. И лишь на 4% меньше респондентов уверены, что Большие Данные будут играть значимую роль во всех маркетинговых стратегиях на протяжении долгих лет.

8 Анализ данных в масштабах планеты

Не менее любопытно то, . Возможно, что именно машинное обучение в конечном счете будет единственной силой, способной поддерживать хрупкое равновесие. Тема влияния человека на глобальное потепление до сих пор вызывает много споров, поэтому только достоверные предсказательные модели на основе анализа большого объема данных могут дать точный ответ. В конечном счете, снижение выбросов поможет и нам всем: мы будем меньше тратиться на энергию.

Сейчас Big Data — это не абстрактное понятие, которое, может быть, найдет свое применение через пару лет. Это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Этап активной интеграции Больших Данных в нашу повседневную жизнь только начался, и кто знает, какова будет роль Big Data уже через несколько лет?