Скептицизм и мудрость как лучшие друзья аналитика

(перевод статьи Авинаша Кошика) Вот кое-что важное, что я постиг за все то время, когда работал с данными и изменял компании своими идеями: Великие Аналитики — всегда скептики. Воистину. Это всегда было так, конечно. Но за последние годы, когда глубина, широта, объем и любые другие метрики, которые можно применить к объему данных, переживают взрывообразный рост, навыки скептицизма и мудрости стали критичными для успеха работы. Просто слишком много данных. Слишком много таблиц, графиков, «инсайтов» проталкиваются к вам в голову. Кроме того, количество «экспертов» тоже растет взрывообразно. Если вы не будете скептиком, то вы непременно умрете (с профессиональной точки зрения). И все же… Скептицизм не должен парализовать решения. В какой-то момент все равно придется принимать решение (и прыгать в неизвестность), или вы будете мертвы (с профессиональной точки зрения). Давайте разобьем эту статью на две части. Первая: призыв быть скептиками везде и во всем, проиллюстрированный примером данных одного из самых уважаемых источников. Дальше я приведу рекомендации, как принять решение и не оказаться одним из тех несчастных аналитиков, которых постиг «паралич принятия решений». Во второй части, раз уж мы говорим о великих аналитиках, хочу поделиться способом понять, являетесь ли вы одним из таких. И если да — то в чем ваша ценность для компании. Заинтригованы? Конечно!

#1A: Скептицизм — ваш лучший друг, навсегда

Как-то раз я встретил две цифры: 42% онлайн-покупателей просматривают видео до покупки продукта и 64% используют YouTube для поиска информации о продуктах. Немедленно после того, как я это узнал, я понял, что эти цифры — полная шляпа. Однако они преподносились как неоспоримые факты, буквально как Моисеевы заповеди. Возможно, у вас еще недостаточно навыков, чтобы сразу распознавать, можно ли верить конкретной цифре, возможно вы развиваетесь. Но если вы действительно инвестируете усилия в собственное образование, осознанность, если голодны до всего, что можно раскопать чуть поглубже, то вы сможете распознавать такие «шляпные цифры» очень быстро. Возможно, вы читали исследование NADA (национальная ассоциация автомобильных дилеров — прим.ред.), в котором сообщается: «85% покупателей принимают решение о покупке автомобиля до того, как выходят из дома, чтобы совершить покупку». Ваш радар скептика должен начать бибикать: биип, Биип, БИип, БИИп, БИИИП, и вам следует остановиться и послушать его. Не имеет значения, насколько большая контора эта NADA, сколько аналитиков там работает — поскольку принятие неточной информации может разрушить вашу карьеру. Вот прекрасный пример, как быстро научиться «надевать шапочку скептика». [ОБНОВЛЕНИЕ: Как Мауро Авелло заметил ниже, этот пример мог быть первоапрельской шуткой команды журнала The Economist. Я обратил внимание на дату, когда я писал свой пост, прочел комменты и пост-обсуждение под статьей и не нашел никаких признаков того, что это действительно была шутка. Поэтому я привожу эту ситуацию в качестве примера ниже. Уроки, которые вы выучили, все равно останутся с вами, но, пожалуйста, примите во внимание, что этот пример все-таки может оказаться шуткой.] Команда визуализации данных The Economist подготовила вкуснейшую статью: Мороженое и IQ. Сложно на такое не кликнуть, правда? Это короткая статья, содержащая небольшой график, на котором отражается объем потребления мороженого по оси Х и уровень чтения по шкале PISA (международная программа по оценке образовательных достижений учащихся — прим.ред.).
Зависимость уровня чтения по шкале PISA от объема потребления мороженого
Зависимость уровня чтения по шкале PISA от объема потребления мороженого.
Команда (на которую ссылается статья, как на авторов) очень серьезно подошла к визуализации утверждения, что большое потребление мороженого может являться причиной плохой успеваемости студентов. Они аккуратно сравнили австралийцев с финнами, отдали должное канадцам и утопили перуанцев в дерьме. Итак. Вы же Умный Аналитик. Ваш первый «флажок скептика» должен быть следующим: так, в заголовке они говорят про IQ. Давайте-ка быстренько загуглим, можно ли по PISA судить об уровне IQ? Ответ — нет! Красный флаг! Ваш второй «флажок скептика»: если внимательно посмотреть на набор данных, то он скорее опровергает, чем подтверждает основную гипотезу. Обратите внимание на Гонконг, Сингапур — их соседи имеют низкое потребление мороженого, но очень высокий рейтинг PISA. Красный флаг! Ваш третий «флажок скептика» (для Умных Аналитиков этот флажок должен быть первым) — это базовая парадигма: корреляция и причинно-следственная связь — не одно и то же! Вы читаете статью, чтобы убедиться, что это правило не было нарушено. Есть ли что-то, показывающее наличие причинно-следственной связи? Нет. Гигантский красный флаг!
В этом месте некоторая часть читателей должна была умереть, так как они очень любили эту команду из журнала The Economist. Для обычных людей (не аналитиков) эта статья и график выглядят вполне убедительно. В конце концов, это весьма уважаемый источник и крутая команда с отличной репутацией. Да и смотрите-ка, тут есть красная линия, которая похожа на доверительный интервал и R-квадрат! Большинство обычных людей воспримут это как истину (и многие из них начнут комментировать статью и веселиться над «доказанной» связью IQ и мороженого). Вам не следует это делать. Единственное, над чем вам следует задуматься — это… причинно-следственная связь. Почему такое могло случиться? Вот, например, одна гипотеза: люди, которые действительно заботятся об образовании своих детей, происходят из семей, где достаток родителей — чуть больше среднего, они могут позволить себе фокусироваться на детях. Такие семьи часто вознаграждают детей за успехи в учебе. Логично предположить, что мороженое может быть частым вариантом награды! Помните, это всего лишь гипотеза. Мы можем поискать еще данные. И если вдруг окажется, что это правда… то выяснится, что причиной высоких рейтингов окажется не мороженое, а определенный доход семей. Или то, что такие семьи в целом лучше структурируют свое время, что дает родителям больше времени на контроль или самостоятельное обучение детей. Помимо этих может быть масса других причин. Погода. Количество женщин в стране. Долгота. Количество работающих детей. Уровень преступности. Честно говоря — что угодно. Смотрите на причинно-следственные связи. Их отсутствие — преступное использование данных против человечества. И в качестве вишенки на торте — еще один пример, чуть более забавный. Есть очень плотная взаимосвязь между бюджетом, который США тратят на науку, и самоубийствами через повешение… R-квадрат=0.097 (высокая связь между показателями — прим.перев.).
Корреляция между бюджетом США на науку и самоубийствами через повешение
Корреляция между бюджетом США на науку и самоубийствами через повешение.
Если вы еще со мной, то тоже уже наверное кричите во весь голос, что между этими двумя факторами нет причинно-следственной связи! И вы наверняка правы. Большие траты на науку (да, потратьте еще больше!) не приводят к большему числу самоубийств. Эти факторы связаны ничуть не больше, чем пара любых других вещей в природе. [График выше — от Тайлера Вайгена. Его сайт и книга — «Ложные Корреляции» (Spurious Correlations) просто великолепны. Вы найдете там гораздо больше таких корреляций и будете рыдать и смеяться, потом опять рыдать и опять смеяться. Начните с того, что фильмы с участием Николаса Кейджа заставляют людей топиться!] Давайте посмотрим еще на один пример, просто потому что он совсем свежий, только из печатного станка. Все мы путешествуем, и для нас особенный интерес представляет то, какие авиакомпании имеют наивысшие «рейтинги качества», когда дело доходит до их использования.
Рейтинг качества авиакомпаний
Рейтинг качества авиакомпаний.
Большинство упоминаний в прессе, которые вы прочтете про эти рейтинги, будут без остановки рассказывать о позициях и о том, как изменилась позиция той или иной авиакомпании в рейтинге. И ни одного упоминания о том, как именно этот рейтинг был рассчитан. Но вы же Умный Аналитик с включенным радаром скептика, и вы будете копать! Вашей начальной точкой поиска может быть вот этот пресс-релиз из источника. Там гораздо больше данных, которые можно раскопать. Потом вы переключитесь на понимание того, как оценивается своевременность вылетов и прилетов — кто задает эти стандарты и формулы, какой контроль используют авиалинии, когда планируют расписание рейсов, кто решает, какие данные использовать для построения рейтинга, кто аудирует их и много еще других деталей до того, как вы согласитесь с выводами. Когда вы начнете копать, вы обнаружите, что на самом деле нет единого определения «задержки рейса». Авиалинии самостоятельно определяют, случилась у них «задержка рейса» или нет, кроме того, они вольны самостоятельно менять длительность полета. К примеру, мои перелеты в JFK (международный аэропорт имени Джона Кеннеди — прим.ред.) на United регулярно прибывают «вовремя», несмотря на то, что отправляются с задержкой на 20 минут, так как United добавляет полчаса к «запланированному времени полета». Это размывает данные, которые включаются в отчет (в итоге — в отчет попадает ерунда). Среди авиакомпаний нет стандарта, как должно рассчитываться время в пути между двумя пунктами назначения — так что, строго говоря, приведенный выше рейтинг — это сравнение мартышек, яблок и астероидов. Авиакомпании, такие как Frontier, которые выставляют самые короткие времена перелетов, фактически наказываются низким рейтингом за свою честность. И это только начало проблемы. Очень скоро вы осознаете, что рейтинги в общем и данные, на основе которых они построены — в основном бесполезный мусор. И, в конце концов, если цель этих данных — помочь вам принять решение, то эта цель безнадежно провалена по причинам, описанным выше. Скептицизм. Хорошая черта Аналитиков, т. к. вы знаете, что можно использовать в качестве источника информации для принятия решения, а что — нет. Большинство данных, которые вы встретите в реальном мире, необязательно будут настолько же кривыми, как и перлы, собранные Bad Fox Graphics. Примеры, которые вы встретите, будут более тонкими и изящными, будут выглядеть так, как будто они действительно имеют смысл. Они будут поступать из источников, которым вы доверяете, из инструментов, которыми вы пользуетесь, и, мало того, самостоятельно внедрили и т. п. Это тот момент, когда вам особенно нужно проявить бдительность, чтобы оставаться Отличным Аналитиком. Вот несколько приемов, которыми можно пользоваться:
  1. Посмотрите, есть ли связь вывода («инсайта») с теми данными, которые использованы для его подтверждения. Это займет всего несколько минут, честно говоря.
  2. И вот важный вопрос: откуда взялись эти данные? Инструменты, страны, люди, устройства и так далее. Известные ограничения по использованию этих данных (это только частично подходит для digital-мира).
  3. Еще одно, что вам точно понравится: какие могут быть допущения в данных? Допущения в примере (выборке)? Допущения при отборе выборки? Что может привести к тому, что данные неполноценны?
  4. Какие принципы, которым вы обучены, нарушаются приведенным анализом? Причинно-следственная связь, например — мы это разбирали выше.
  5. Всегда, всегда, всегда задавайте вопрос: какие предположения сделаны во время этого анализа?
  6. Ваш личный опыт. У вас его — море. Просто не дайте ему превратиться в мусор.
  7. (добавлено из комментария): Кто выигрывает и кто проигрывает от этого анализа? Подумайте про политику, деньги, власть и вещи, связанные с ними.
Пункты с 8 по 12 подсказаны Айаном Францем:
  1. Правда ли, что был подготовлен план сбора данных, и данные собирались в соответствии с планом?
  2. Данные изначально готовились для этого исследования, или они побочный продукт какой-то другой деятельности?
  3. Учтено ли затухание при сборе данных заданным способом?
  4. Были ли установлены статистически разумные границы, когда выбирались произвольные данные?
  5. Если вы передадите мне все исходные данные, порядок действий, софт, использованный для расчета, смогу ли я воспроизвести результат?
Пункты с 13 по 16 подсказал Род Джека:
  1. Проясните причину исследования.
  2. Протестируйте альтернативные объяснения, которые могут быть извлечены из данных или исследования.
  3. Попробуйте расковырять цепочку влияний и следствий. Последует ли это, если … произойдет из-за …?
  4. Ну и перед всеми вопросами — вопрос, который поставлен перед исследователями :)
Пункты с 17 по 24 подсказаны Джоном Брейзером:
  1. Если исходные данные представлены в соотношениях, то какие были абсолютные цифры (50% рост количества атак акул может оказаться ростом абсолютного количества атак с 2 до 3).
  2. Если данные представлены в исходном, сыром виде, то какие соотношения? (На станции метро, через которую я прохожу каждый день, висит предупреждение, что в год там случается 19 инцидентов, связанных с эскалатором. Поскольку в год на этой станции случается порядка 90 миллионов входов-выходов, число инцидентов ничтожно мало.)
  3. Могло быть такое, что выборка исследовалась несколько раз (если вы десять раз прогоните группу из 20 женщин через тест продукта по уходу за волосами, вы наверняка найдете прогон, который покажет достаточно высокую удовлетворенность, чтобы ее рекламировать).
  4. Возникают ли проблемы из-за закона больших чисел? (веб-сайт в UK подготовил статистику о времени отклика членов парламента Британии. В среднем, «Зеленая партия» отзывалась быстрее всех, но их результаты были собраны только за год, а по остальным партиям — за 50 лет).
  5. Не получается ли, что пропорция данных может показать вас в невыгодном свете? (Ваша невероятно крутая конверсия в 60% на веб-сайте может разрушиться, если сайт попадет в новости, и на него свалится трафик в 100 000 некачественных визитов? Что, кстати, может и неплохо!)
  6. Вы делаете правильное сравнение? («Просмотры» на Facebook — это совсем не то же самое, что «просмотры» на YouTube)
  7. Что вам могли не договорить? (Если в новости о благотворительном событии не говорится об объеме собранных средств, скорее всего, его стараются спрятать, так как он оказался слишком скромен.)
  8. Человек, который обрабатывает статистику, действительно понимает ее? (Статистика из вторых рук часто не содержит критически важных оговорок.)
Я уверен, что еще есть много других техник. Когда вы видите фрагмент данных из вашей компании или откуда-то снаружи, будьте скептиком. Это хорошая привычка для Аналитика.

#1B: Скептицизм не должен парализовать вас

Вам может показаться, что я сейчас спущу все сказанное выше в унитаз. Попробуйте проследить за моей мыслью, пожалуйста. Мир несовершенен, и вам платят за то, чтобы ваша компания (коммерческая или некоммерческая) принимала наилучшие, самые умные решения каждый день (ну, я надеюсь). И какой же фактор у нас начинает участвовать в игре? Решение, которое необходимо принять. Новички-аналитики нередко попадают в ловушку «паралича решений» из-за скептицизма, потому что если ты чуть-чуть заглянешь «под капот» цифровой аналитики, то способ, которым собирались данные, может напугать настолько, что того и гляди душа покинет тело. Оффлайн-аналитика? В миллион раз хуже! И размеры выборок в разы меньше — это как гвоздь в крышку гроба. Отличные Аналитики особенно хороши в одном из самых критических мест: своевременности. Способности донести инсайт (специфическую рекомендацию) в тот момент, когда она сможет оказать влияние на бизнес.
Ошибка, которая чему-то научила — это гораздо лучше, чем вообще отсутствие каких-либо действий. Наша работа — быть скептичными, копать и разбираться, подталкивать и направлять, отбрасывая возмутительно неправильное, и разбираться с тем, как собрать из не очень неправильного то, что поможет принять осознанное решение. Этот пост — родом из 2006 года: Data Quality Sucks, Let’s Just Get Over It, из него вы сможете научиться шести шагам, которые помогут преодолеть вам паралич принятия решений. Вот простой путь, как все-таки принимать решения, оставаясь скептиком:
  • Если вы на 100% уверены в своих данных, то вам немедленно стоит рекомендовать вашей компании начать строительство лунной колонии.
  • Если вы на 80% уверены в своих данных, то вам стоит порекомендовать компании изменить стратегию в пользу начала с коротких визитов на Луну с международной космической станции.
  • Если вы на 40% уверены в своих данных, вам стоит порекомендовать инвестировать средства в земные предприятия, которые изучают вопросы проживания на Луне.
  • Если вы на 20% уверены в своих данных, то вам следует вернуться к своей команде и разобраться с тем, что же нужно сделать, чтобы получить, как минимум, 40% уверенности.
Это ровно то, что я подразумеваю под «быть скептиком» — ваш квест в том, чтобы научиться более точно ощущать, где же лежит определенность. Под тем, чтобы не быть парализованным в поисках совершенства, я понимаю способность давать рекомендации, отражающие степень уверенности в данных, потому что бизнесу нужны решения, привязанные к срокам. Мы все стремимся стать Отличными Аналитиками. Вот еще один путь к этому, вдобавок чуть расширяющий тему статьи.

#2: Разница между Знанием, Инсайтом и Мудростью

Как некоторые из вас знают, я веду короткую рассылку, которая выходит дважды в неделю: «Пересечение маркетинга и аналитики». Вы можете (должны!) подписаться на нее. Я часто обнаруживаю, что люди, в должности которых есть слово «аналитик», на деле являются этакими «сборщиками данных» или «трансформаторами данных», вся добавленная ценность от работы которых — это сведение данных в результирующие таблички или графики. В одной рассылке я поделился восхитительным скетчем, очень точно показывающим разницу между данными, информацией, знаниями, инсайдом и мудростью. Этот скетч, смею сказать, добавил еще один уровень понимания — выделив ценность работы, зарплаты и того, насколько вы незаменимы, как сотрудник. Вот эта рассылка, я предлагаю посмотреть вам на эту историю теперь с другой стороны.
Из всех скетчей про данные и анализ, моим самым любимым остается вот этот:
Картинка
Скетч нарисован David Somerville, основан на идее Hugh McLeod.
Я люблю эту картинку за то, какое количество инсайтов кроется в ней :) Давайте сфокусируемся на одном: насколько вы ценны для вашей компании.
Данные: Вы — человек-яваскрипт, мастер трансформаций данных (ETL). Вы — охотник и собиратель данных. Ценность: низкая. Зарплата: низкая. Заменяемость: легко.
Информация: Вы — человек-отчетогенератор, чините код только в случае чрезвычайных ситуаций. Ценность: низкая. Зарплата: низковатая. Заменяемость: легко.
Знания: Вы — начальник команды отчетогенераторов. Вы помогаете с данными своему дивизиону, ваша команда объединяет потоки данных. Ценность: средняя. Зарплата: средняя. Заменяемость: в течение пары месяцев.
Инсайты: Вы носите звание «Аналитик», стараетесь избегать положения «поставщика данных», вас зовут на совещания на уровне директоров. Ценность: высокая. Зарплата: высокая. Заменяемость: сложно, от 6 до 9 месяцев.
Мудрость: Вы аналитик, но работаете вместе с топ-менеджментом. d3js.org — ваша домашняя страничка, вы встречаетесь с маркетинг-директором еженедельно. Ценность: бесценная. Зарплата: в пять раз выше высокой. Заменяемость: незаменимы. Ну, какую роль вы выполняете на своей работе? Информация? Инсайты? Есть ли кто-то в вашей аналитической команде с явной ролью «Мудрости»? Конечно, вы хотите выполнять роль мудреца в команде. И прекрасно понимаете, насколько это тяжело. Вам придется постоянно участвовать в квесте по личностному росту и улучшению самого себя, и наиболее важным навыком станет подкованность в бизнес-вопросах, а не доблесть в обработке данных. Ирония судьбы.
Отличные Аналитики ищут мудрость. Все, что вы прочитали в рассылке до этого момента, и все, что будет после, объясняет, что будучи скептиком, но не попадая в ловушку «паралича решений», вы находитесь на пути к мудрости. Ну и последний небольшой бонус перед тем, как мы закончим. Если вы пытаетесь нащупать путь к определенному уровню дохода и построить карьеру блестящего аналитика, то вам придется принять четыре ключевых решения для того, чтобы это получилось. Вы точно получите пользу от этого поста: Web Analytics Career Guide: From Zero To Hero In Five Steps! Ну и как всегда, теперь — ваш шаг. Как вы считаете, правда ли, что мы недостаточно скептично относимся к данным, которые окружают нас в наших компаниях и интрасетях? Какие стратегии вы используете, чтобы поддержать ваш скептицизм? Как вы потрошите данные, которые вы получаете? Есть что-нибудь, что особенно хорошо работает именно для вас, когда речь идет о своевременности? Что наиболее сильно повлияло на ваше продвижение по карьерной лестнице от «данных» к «информации» и до «знаний»?

Вас заинтересуют следующие материалы