Концепция «больших данных» в последнее время у всех на слуху. Многие предсказывают, что обилие информации перевернет нашу жизнь. Но прежде чем мы сумеем обуздать нескончаемый поток данных, ученым предстоит найти ответы на ряд непростых вопросов. В исследованиях на переднем крае науки помогает разобраться специалист по статистике Дэвид Хэнд.


Не слишком ли завышены наши ожидания от «больших данных»?

Сегодня о «больших данных» мы слышим на каждом шагу. Многократное удешевление систем хранения информации и разнообразие автоматизированных измерительных устройств (сенсоров) и технологий по получению данных сделали свое дело: информационные массивы растут как на дрожжах. Общество возлагает огромные надежды на эти «большие данные» — ожидается, что они помогут отыскать лекарство от рака, подтолкнут экономический рост, искоренят бюрократию и заложат фундамент для новых отраслей.

Материалы по теме

«Большие данные» (или BigData) — что это? (Опрос для программы «Наука в фокусе»)

Новое название для старого как мир анализа данных
41%
Новая область научного знания
17%
Четкое понимание результата, который хотелось бы достичь при обработке гигантстких потоков данных
43%


Несомненно, такое информационное изобилие открывает человечеству новые горизоны в совершенно разных областях жизни: в науке, бизнесе и общественной жизни. Но какими бы большими они ни были, данные сами по себе ничего не значат. Нам придется самим обозначить круг вопросов и применить соответствующие инструменты для анализа информации, чтобы успешно ответить на них. Бесконечные массивы числовых значений так и останутся «китайской грамотой», без систематизации и анализа понять их суть не удастся.

Чтобы обрабатывать большие объемы данных, необходимо разобраться с техническими проблемами манипуляций с ними: например, как организовать поиск, сортировку, индексацию, группировку, установление внутренних связей, компоновку нескольких массивов и т. д. Помимо этого возникают трудности и с применением методов статистического вывода: для огромного массива информации даже небольшие единичные отклонения являются статистически значимыми. И в то же время среди большого количества значений гораздо вероятнее натолкнуться на случайно затесавшиеся фантомные точки, так называемую «ошибку отбора». Усложняет задачу и то, что зачастую перед тем, как увидеть новый результат, нужно провести тысячи тестов, при этом даже не предполагая, что среди них найдется что-то необычное. Выходит, что такие научные открытия всё еще совершаются по воле случая.

Вопросы возникают и на стадии формирования «больших данных», ведь часто происходит так, что изучая один процесс, мы попутно собираем информацию, которая позднее может стать новым объектом нашего внимания.
И конечно же, качество данных остается центральной проблемой, ведь наибольший интерес представляют выделяющиеся из общего ряда и не всегда поддающиеся объяснению значения, при обнаружении которых трудно не поддаться соблазну списать их на возможные ошибки в многотысячной выборке.

Не стоит забывать, что любой большой набор значений можно разбить на множество меньших наборов и анализировать каждый из них в отдельности, что дает еще больший простор для научного творчества.
Бесспорно, в изучении «больших данных» таится огромный потенциал, но чтобы раскрыть его, человечеству придется изрядно попотеть.

Удалось ли преодолеть разногласия байесовского и частотного методов статистического вывода?

Обыкновенная вероятность имеет дело с неопределенностью результата. Если бросить игральную кость, может выпасть любое значение от 1 до 6. Нам заранее неизвестно, что именно выпадет, однако можно утверждать, что кость ляжет пятеркой вверх с вероятностью 1 к 6. Обратная же вероятность (или распределение вероятности) описывает неопределенность начальных условий. В примере с костью нам могли подсунуть нестандартный кубик, на двух противоположных гранях которого нанесена пятерка (и это невозможно обнаружить до начала эксперимента, если кубик лежит на ней). Но мы исходим из предположения, что скорее всего перед нами обыкновенный кубик, а не с двумя пятерками. В данном случае мы тоже оперируем понятием вероятности, но теперь оно существенно отличается от того, что мы имели в виду, когда пытались выбросить пятерку с вероятностью 1 к 6.

В этом и кроется суть разногласий между байесовским и частотным методами. Задачей обоих является предсказание исхода эксперимента на основании серии наблюдений. Частотный подход оценивает адекватность предсказаний, сравнивая их с действительным результатом на протяжении многочисленных повторений. В основе байесовского подхода, напротив, заложены априорные вероятности.

Английский математик Роналд Фишер (Ronald Fisher) в своей работе в начале ХХ века признал концепцию обратной вероятности ошибочной и тем самым заложил фундамент господства частотного метода на протяжении прошлого столетия. Однако ученые продолжили изучение обратной вероятности, анализируя новые массивы данных, и в результате пришли к использованию математического аппарата теоремы Байеса (отсюда и название метода).

Во второй половине ХХ века развернулись жаркие дебаты о преимуществах каждого из подходов, зачастую оканчивавшиеся в попытках обозначить единственно верный. Сейчас, когда эмоции схлынули, принято считать, что оба метода хороши в зависимости от поставленной задачи и должны присутствовать в арсенале любого уважающего себя математика, занимающегося статистикой.

Как быть с «ошибкой отбора»?

Научные журналы публикуют лишь те статьи, которые содержат наибольшую (на их взгляд) научную значимость. Ученые, в свою очередь, стремятся к первенству и новаторству. А значит, рутинные эксперименты, подтверждающие нынешнуюю картину мира, скорее всего не попадут в печать.
Научные исследования всегда сосредоточены на передовой человеческих знаний, и в каждом новом открытии неизбежно присутствует доля удачи и случая.

Отсюда следует, что интересные (но при этом случайные) результаты могут просочиться на страницы научных журналов. И такие «научные факты», очевидно, не совсем точно отражают окружающую действительность. Помимо этого некоторые научные выводы отсеиваются на следующей стадии, когда описанные в статьях эксперименты пробуют повторить другие группы ученых. На языке статистики это называется «ошибкой отбора». Она проявляется, когда анализируемая выборка не покрывает весь спектр данных, а искажается в сторону какой-то его части. Это встречается повсеместно: еще одним примером служит расхожая фраза «историю пишут победители». В самом деле, «исторические факты», дошедшие до наших дней, подверглись тщательному отбору господствовавшей в то время стороны.

Выйти из этого затруднительного положения поможет дополнительная информация о процессе отбора данных: с ее помощью можно скорректировать результаты статистического анализа. Но зачастую такая информация исследователю недоступна, тогда приходится выкручиваться другими способами. В финансовом секторе можно одолжить деньги тем заемщикам, которым при других обстоятельствах вы не стали бы давать в долг. Если вдруг они обанкротятся, ваша модель пополнится новыми данными о поведении этой «группы риска». В других областях достаточно лишь сделать предположение о возможных статистических отклонениях. Джеймс Хекман (James Heckman), нобелевский лауреат 2000 года по экономике, разработал методы анализа селективных выборок на основании предположений о механизмах получения данных.

Но всех проблем это не решает. Качество начальных данных переоценить невозможно, ведь анализируя недостоверную информацию трудно надеяться на правдоподобные выводы. Последствия при этом могут быть катастрофическими: доходы компаний улетучатся, пациенты начнут страдать от болей, а университеты станут выпускать неучей.

Дэвид Хэнд (David Hand) — почетный профессор кафедры математики Лондонского имперского колледжа (Великобритания), экс-президент Королевского статистического общества



Загрузка комментариев...

Самое обсуждаемое

Популярное за неделю

Сегодня в эфире