Маркетинговые исследования: записки рисёчера

«Добытчики данных» любят чистоту и сегментацию — результаты исследования Rexer Analytics


Рубрики: Анализ данных, Исследования в мире, Софт для исследований

Я далеко не поклонница национальных, а тем более международных исследований с выборкой в 200-300 человек, проведенных методом "снежного кома" в интернете :). Но, тем не менее, результаты одного такого исследования от RexerAnalytics (начало 2007 года, онлайн-опрос, n=214), мне показались интересными.

Основной целью исследования было определение способов анализа данных, инструментов и алгоритмов, которые используют data miners, определение факторов, влияющих на выбор того или иного инструмента для анализа, типов анализируемых данных, а также проблем и сложностей, встречающиеся на тернистом пути data miner-ов. Ну и, безусловно, составление "типичного портрета data miner-a" - ну как же без этого при выборке в 214 человек *язвительно* :).

В защиту авторов исследования можно вспомнить о том, что "добытчики данных" или "дата майнеры" (data miners), в отличие от обычных аналитиков и обработчиков данных - птицы достаточно редкие и сравнительно немногочисленные, а уж исследования про них встречаются еще реже.

Поэтому, закроем глаза на то, что авторы исследования считают свое исследование "репрезентирующим 35 стран" и, как я поняла, все без исключения отрасли, в которых используется data mining (от медицины до маркетинга и политических исследований). В отличие от многих других исследований с подобной выборкой, авторы хорошо понимают все свои недостатки и недоработки, достаточно внятно их указывают и не собираются останавливаться на достигнутом.

По итогам исследования выяснилось, что основной головной болью людей, занимающихся data mining-ом, является GIGO (Garbage In Garbage Out) - то бишь, "грязные" данные, с которыми приходится иметь дело 76% опрошенных. Второе место (51%) поделили "отсутствие нужных данных" и "объяснение data mining-а непосвященным" (видимо, начальству, клиентам и собственным детям:)).

Проблемы эти, как выяснилось, интернациональные, повсеместные и практически не зависят от квалификации аналитика, используемого софта и многих других параметров.

Что же касается используемых видов анализа, то чаще всего добытчики данных занимаются прогностическим моделированием (predictive modelling) - 89% и сегментацией - 77%. Несколько менее популярны прогнозирование и анализ временных рядов (39%), анализ рыночной корзины (33%) и анализ текстов (28%).

Используемые виды анализа определяют и алгоритмы, чаще всего применяемые аналитиками: это деревья решений (decision trees) - 79%, регрессия - 77% и кластерный анализ - 72%.

Вот если бы меня на фокус-группе спросили, что именно у меня ассоциируется с термином "data mining", я бы назвала нейросети и генетические алгоритмы. Но по результатам исследования оказалось, что нейросети в повседневной практике применяют 42% data miner-ов, а генетические алгоритмы - лишь 10%.

Самым популярным готовым софтом для анализа данных в 2006 году оказались SPSS (48%), SPSS Clementine (43%) и SAS (41%), 45% аналитиков, наряду с готовым софтом, использовали собственные программные разработки.

Самыми важными факторами при выборе софта для анализа оказались стабильность работы, возможность анализировать большие массивы данных и возможности манипулирования данными. А вот "известность софта на рынке/в индустрии" оказалась наименее важной из 22 факторов, влияющих на выбор аналитиков.

Ну а самыми популярными отраслями, в которых используется data mining, оказались (с оглядкой на выборку в 214 человек) CRM/Маркетинг - 51%, финансы (36%), научные/академические исследования (30%), телекоммуникации (17%) и ритейл (16%).

Причем у аналитиков, работающих в сфере IT и телекоммуникаций, базы данных оказались самыми большими (100 миллионов записей и более). А вот по количеству используемых переменных лидируют академические ученые, количество переменных в базах данных у которых может превышать 10 тысяч.

Полную версию исследования авторы планируют представить на ближайших конференциях Oracle и SPSS, а 7-страничный топлайн исследования на английском языке, любезно присланный мне одним из авторов исследования Карлом Рексером, можно скачать с rapidshare.

2

комментария


Метки:

Статьи на эту тему

Комментариев: 2

  1. Хе-хе. Оказывается, наши обработчики, которые для каждого U&A делают кластерный анализ и для каждого второго теста — регрессию, — дата майнеры. Аналогично, 90% всех нормальных обработчиков в России, я полагаю. 🙂

  2. Ага — то есть получается, что «у них» любой обработчик с регрессией себя называет «дата майнером». А у нас дата майнер с нейросетями скромно называет себя «обработчиком» 🙂

    Но все-таки, чтобы почистить несостыковки в файле нужен один уровень квалификации, а чтобы грамотно выделить сегменты потребителей — другой и второй случай, в общем, можно и дата майнингом назвать с определенной точки зрения.