GeorgijArchipov 29 мар 2016 в 19:11

Блеск и нищета Big Data

4 мин

8.5K

Революция, связанная с анализом больших данных, порождает не только замечательные достижения, но и определенные трудности, в том числе методологического характера. Рассмотрим некоторые из них детальнее.

Говоря об анализе больших данных [1], часто не осознается, что за этой вывеской скрывается несколько совершенно различных по своей природе задач. Здесь мы затронем лишь некоторые. Во-первых, это задачи типа полной, а не частичной расшифровки генома каждого конкретного человека. Понятно, что решение таких задач порождают революции в соответствующих областях.

Например, тотальные расшифровки геномов — в медицине. Может быть, ход этих революций не столь быстрый, как надеялся Стив Джобс, но, тем не менее, революции эти неизбежны. Другой тип задач, где обработка выборок заменяется знаменитой формулой BIG DATA (N=ВСЕ), связан с обработкой всех имеющихся однотипных данных, например, с целью прогнозирования.

Здесь революционность получаемых результатов, хотя в какой-то мере и сохраняется, но несколько блекнет. Например, если вместо выборочных опросов института Гэллапа накануне выборов американского президента, провести тотальный опрос всех избирателей США, то точность прогноза повысится, но, наверняка незначительно. Третий тип задач представляет особый интерес. Это тотальный анализ слабоструктурированных данных. Простейшим вариантом такой слабой структурированности может служить фрагментарная структурированность. Проиллюстрируем фрагментарную структурированность на примере данных, содержащих результаты психологического исследования по некоторой конкретной тематике на основе всех разнотипных анкетирований по ней, содержащихся во всемирной сети. Возникающая здесь проблема извлечения знаний носит фундаментальный характер и потому необходимо остановиться на ней особо.

Как известно, современная наука, первоначально западная, а теперь уже и мировая, возникла на базе осознания новых интеллигибельных сущностей — таблиц типа «объект-признак» [2]. Анализ слабоструктурированных данных, с целью извлечения знаний, непосредственно несводим к анализу такого рода таблиц. Однако, с учетом того, что в обозримом будущем не предвидится создания новой фундаментальной науки, единственным выходом из положения является тот или другой способ сведения таких не табличных данных к табличному виду. Это, конечно, в определенной степени осознается теоретиками BIG DATA и находит выражение в их ключевом тезисе «чем больше данных, тем меньше их точность». Таким образом, BIG DATA рисует громадную панораму, но видеть эту панораму удается лишь как бы через запотевшее стекло. Иначе говоря, имеет место некий информационный аналог соотношения неопределенности Гейзенберга. Оптимистические утверждения специалистов, что революция больших данных заменит установление причинности простым подсчетом корреляций, неверны вдвойне.

Во-первых, наука, собственно говоря, никогда и не ставила перед собой задачу ответить на вопрос «почему», то есть о причинности, довольствуясь, на основе «законов природы» констатацией «если так, то так», то есть, по существу, корреляциями.

Во-вторых, корреляции, оцененные даже по всем данным, сколь колоссальным не было бы N, могут слабо отражать реальную связь, из-за неизбежно слабой точности данных. При этом возникают две проблемы. Первая – минимизировать потери в точности при агрегировании слабоструктурированных данных и вторая – повысить эффективность извлечения знаний из этих неточных данных.

Начнем с первой проблемы. Ввиду самой природы таблиц «объект-признак», в первую очередь необходимо осуществить определенную рубрикацию данных, причем каждая рубрика будет соотнесена с определенным «объектом». Содержание этих рубрик может иметь различный объем и характер, но каждой из них должно быть присуще некоторое качество, позволяющее относить данные именно к этому «объекту». Часто оказывается, что помимо этой первичной рубрикации и первичных объектов, необходимо вводить вторичные внутренние рубрикации и соответственно вторичные объекты. Чтобы не осложнять здесь изложение, опустим часто возникающую необходимость синтеза на основе нескольких вторичных объектов, объектов-конструкций. Проиллюстрируем сказанное на упоминавшемся примере психологического исследования. В первичные рубрики здесь попадут данные отдельных исследований – анкетирований, в качестве вторичных объектов выступят отдельные заполненные анкеты. Перейдем теперь к вопросу о признаках. По нашему мнению здесь многое определяется спецификой области, к которой относятся данные и стоящей перед исследователем задачей. Так, например, в нашем психологическом исследовании обычно необходимо построение неких интегральных признаков первичных объектов, некое усреднение которых по всем этим объектам или неким их кластерам и оказывается искомым «знанием».

Что касается второй проблемы, то хотя большие N и являются фактором облегчающим принятие надежных решений, но неточность данных во многих задачах, растущая темпами на много опережающими N указывает на необходимость разработки алгоритмов принятия решений более мощных, чем это может предложить DATA MINING на сегодняшний день.

По нашему мнению именно этот третий тип задач, связанный со слабоструктурированными большими данными, только и следовало бы по существу называть BIG DATA, так как именно тут возникает необходимость создания качественно нового в обработке данных, а не простого использования возрастающей мощности вычислительных машин.

ЛИТЕРАТУРА

1. Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим, Издательство «Манн, Иванов и Фербер», 2013.
2. Мишель Фуко. Слова и вещи. Археология гуманитарных наук, М.:«Прогресс», 1977.>

Теги:

Хабы:

Блеск и нищета Big Data

Публикации

Истории

Работа

Ближайшие события