«Добытчики данных» любят чистоту и сегментацию — результаты исследования Rexer Analytics
Я далеко не поклонница национальных, а тем более международных исследований с выборкой в 200-300 человек, проведенных методом «снежного кома» в интернете :). Но, тем не менее, результаты одного такого исследования от Основной целью исследования было определение способов анализа данных, инструментов и алгоритмов, которые используют data miners, определение факторов, влияющих на выбор того или иного инструмента для анализа, типов анализируемых данных, а также проблем и сложностей, встречающиеся на тернистом пути data miner-ов. Ну и, безусловно, составление «типичного портрета data miner-a» — ну как же без этого при выборке в 214 человек *язвительно* :). В защиту авторов исследования можно вспомнить о том, что «добытчики данных» или «дата майнеры» (data miners), в отличие от обычных аналитиков и обработчиков данных — птицы достаточно редкие и сравнительно немногочисленные, а уж исследования про них встречаются еще реже. Поэтому, закроем глаза на то, что авторы исследования считают свое исследование «репрезентирующим 35 стран» и, как я поняла, все без исключения отрасли, в которых используется data mining (от медицины до маркетинга и политических исследований). В отличие от многих других исследований с подобной выборкой, авторы хорошо понимают все свои недостатки и недоработки, достаточно внятно их указывают и не собираются останавливаться на достигнутом.
По итогам исследования выяснилось, что основной головной болью людей, занимающихся data mining-ом, является GIGO (Garbage In Garbage Out) — то бишь, «грязные» данные, с которыми приходится иметь дело 76% опрошенных. Второе место (51%) поделили «отсутствие нужных данных» и «объяснение data mining-а непосвященным» (видимо, начальству, клиентам и собственным детям:)). Проблемы эти, как выяснилось, интернациональные, повсеместные и практически не зависят от квалификации аналитика, используемого софта и многих других параметров. Что же касается используемых видов анализа, то чаще всего добытчики данных занимаются прогностическим моделированием (predictive modelling) — 89% и сегментацией — 77%. Несколько менее популярны прогнозирование и анализ временных рядов (39%), анализ рыночной корзины (33%) и анализ текстов (28%). Используемые виды анализа определяют и алгоритмы, чаще всего применяемые аналитиками: это деревья решений (decision trees) — 79%, регрессия — 77% и кластерный анализ — 72%. Вот если бы меня на фокус-группе спросили, что именно у меня ассоциируется с термином «data mining», я бы назвала нейросети и генетические алгоритмы. Но по результатам исследования оказалось, что нейросети в повседневной практике применяют 42% data miner-ов, а генетические алгоритмы — лишь 10%. Самым популярным готовым софтом для анализа данных в 2006 году оказались SPSS (48%), SPSS Clementine (43%) и SAS (41%), 45% аналитиков, наряду с готовым софтом, использовали собственные программные разработки. Самыми важными факторами при выборе софта для анализа оказались стабильность работы, возможность анализировать большие массивы данных и возможности манипулирования данными. А вот «известность софта на рынке/в индустрии» оказалась наименее важной из 22 факторов, влияющих на выбор аналитиков. Ну а самыми популярными отраслями, в которых используется data mining, оказались (с оглядкой на выборку в 214 человек) CRM/Маркетинг — 51%, финансы (36%), научные/академические исследования (30%), телекоммуникации (17%) и ритейл (16%). Причем у аналитиков, работающих в сфере IT и телекоммуникаций, базы данных оказались самыми большими (100 миллионов записей и более). А вот по количеству используемых переменных лидируют академические ученые, количество переменных в базах данных у которых может превышать 10 тысяч. Полную версию исследования авторы планируют представить на ближайших конференциях Oracle и SPSS, а 7-страничный топлайн исследования на английском языке, любезно присланный мне одним из авторов исследования Карлом Рексером, можно скачать с комментария
Статьи на эту тему
Комментариев: 2 |
Хе-хе. Оказывается, наши обработчики, которые для каждого U&A делают кластерный анализ и для каждого второго теста — регрессию, — дата майнеры. Аналогично, 90% всех нормальных обработчиков в России, я полагаю. 🙂
Ага — то есть получается, что «у них» любой обработчик с регрессией себя называет «дата майнером». А у нас дата майнер с нейросетями скромно называет себя «обработчиком» 🙂
Но все-таки, чтобы почистить несостыковки в файле нужен один уровень квалификации, а чтобы грамотно выделить сегменты потребителей — другой и второй случай, в общем, можно и дата майнингом назвать с определенной точки зрения.