“Добытчики данных” любят чистоту и сегментацию - результаты исследования Rexer Analytics
6 октября 2007 Я далеко не поклонница национальных, а тем более международных исследований с выборкой в 200-300 человек, проведенных методом "снежного кома" в интернете :). Но, тем не менее, результаты одного такого исследования от (начало 2007 года, онлайн-опрос, n=214), мне показались интересными. Основной целью исследования было определение способов анализа данных, инструментов и алгоритмов, которые используют data miners, определение факторов, влияющих на выбор того или иного инструмента для анализа, типов анализируемых данных, а также проблем и сложностей, встречающиеся на тернистом пути data miner-ов. Ну и, безусловно, составление "типичного портрета data miner-a" - ну как же без этого при выборке в 214 человек *язвительно* :). В защиту авторов исследования можно вспомнить о том, что "добытчики данных" или "дата майнеры" (data miners), в отличие от обычных аналитиков и обработчиков данных - птицы достаточно редкие и сравнительно немногочисленные, а уж исследования про них встречаются еще реже. Поэтому, закроем глаза на то, что авторы исследования считают свое исследование "репрезентирующим 35 стран" и, как я поняла, все без исключения отрасли, в которых используется data mining (от медицины до маркетинга и политических исследований). В отличие от многих других исследований с подобной выборкой, авторы хорошо понимают все свои недостатки и недоработки, достаточно внятно их указывают и не собираются останавливаться на достигнутом.
По итогам исследования выяснилось, что основной головной болью людей, занимающихся data mining-ом, является GIGO (Garbage In Garbage Out) - то бишь, "грязные" данные, с которыми приходится иметь дело 76% опрошенных. Второе место (51%) поделили "отсутствие нужных данных" и "объяснение data mining-а непосвященным" (видимо, начальству, клиентам и собственным детям:)). Проблемы эти, как выяснилось, интернациональные, повсеместные и практически не зависят от квалификации аналитика, используемого софта и многих других параметров. Что же касается используемых видов анализа, то чаще всего добытчики данных занимаются прогностическим моделированием (predictive modelling) - 89% и сегментацией - 77%. Несколько менее популярны прогнозирование и анализ временных рядов (39%), анализ рыночной корзины (33%) и анализ текстов (28%). Используемые виды анализа определяют и алгоритмы, чаще всего применяемые аналитиками: это деревья решений (decision trees) - 79%, регрессия - 77% и кластерный анализ - 72%. Вот если бы меня на фокус-группе спросили, что именно у меня ассоциируется с термином "data mining", я бы назвала нейросети и генетические алгоритмы. Но по результатам исследования оказалось, что нейросети в повседневной практике применяют 42% data miner-ов, а генетические алгоритмы - лишь 10%. Самым популярным готовым софтом для анализа данных в 2006 году оказались SPSS (48%), SPSS Clementine (43%) и SAS (41%), 45% аналитиков, наряду с готовым софтом, использовали собственные программные разработки. Самыми важными факторами при выборе софта для анализа оказались стабильность работы, возможность анализировать большие массивы данных и возможности манипулирования данными. А вот "известность софта на рынке/в индустрии" оказалась наименее важной из 22 факторов, влияющих на выбор аналитиков. Ну а самыми популярными отраслями, в которых используется data mining, оказались (с оглядкой на выборку в 214 человек) CRM/Маркетинг - 51%, финансы (36%), научные/академические исследования (30%), телекоммуникации (17%) и ритейл (16%). Причем у аналитиков, работающих в сфере IT и телекоммуникаций, базы данных оказались самыми большими (100 миллионов записей и более). А вот по количеству используемых переменных лидируют академические ученые, количество переменных в базах данных у которых может превышать 10 тысяч. Полную версию исследования авторы планируют представить на ближайших конференциях Oracle и SPSS, а 7-страничный топлайн исследования на английском языке, любезно присланный мне одним из авторов исследования Карлом Рексером, можно скачать с .
Статьи на эту тему
|