Обо мнеИзбранное Вредный дизайнер

10 субъективных уроков книги Дэвида Хэнда «Тёмные данные»

Прежде чем начать, хочу выразить благодарность Алексею Рытову (автору канала «Притчи продуктолога») и издательству «Альпина Паблишер» за возможность ознакомиться с книгой.

Несмотря на то, что книга про статистику, отмечу что она написана доступным большинству читателям языком, без обилия заумной терминологии, а там, где она встречается есть пояснение обычным языком с примерами. Основной посыл книги — относитесь к данным с подозрением, по крайней мере пока не будет доказано, что они адекватны и точны. Итак, приступим:

  1. Урок, усвоенный спустя треть книги, после диссонанса названия и содержания — перед выбором книги обязательно читать название и описание на языке оригинала. На русском языке полное название книги «Практическое руководство по принятию правильных решений в мире недостающих данных» — маркетинговая локализация. На самом деле книга называется «Why what you don’t know matters», что можно перевести как «Почему, то, что мы не знаем — важно», и это больше подходит под содержание книги.
  2. Как бы вы не хотели принять правильное решение, всегда есть данные, о которых мы не знаем, не можем принять во внимание, и которые способны исказить результат и выводы. Необходимо постоянно быть начеку и если есть возможность задавать себе вопрос: «Что мы упускаем?».
  3. При проведении проверки гипотез соблюдать баланс между данными описывающие предмет/объект/процесс/субъект исследования (административные данные) и не забывать про данные, описывающие причины различных явлений или действий. Административные данные можно искать в открытых данных.
  4. Понимать и определить минимально достаточный предел выборки перед началом количественного исследования в вашем случае. Цитата из книги: при прочих равных условиях выборка численностью тысячу человек для населения в миллион обычно дает такую же точность, как и для населения в миллиард. Это верно, несмотря на то что отношение выборки в совокупности в первом случае будет один к тысяче, а во втором — один к миллиону.
  5. Невозможно измерить всё. Казалось бы, банально, но когда нужно ввести какую-то метрику, нужно задаться вопросом «Зачем? Ценность метрики в перспективе? Данные, которые она будет собирать, нужны на какой срок? Будет ли искажать выводы в перспективе?».
  6. Будущее за объединением и комбинаторикой данных из разных источников. Яндекс, Мэил уже получают административные данные из всех своих проектов, а вот государство практически в самом начале этого пути с развитием Госуслуг и системами «Безопасный город». Больше всего административных данных, конечно, в государственных структурах.
  7. Даже тщательно разработанные системы неизбежно содержат прорехи. Не нужно играть в идеальность, она все равно будет делать еще один шаг, как только вы будете приближаться. Этот принцип относятся как к разработке фич, так и моделям данных, с которыми вы будете работать. Нужна достаточность для определенных текущих задач.
  8. Избегать в команде информационной асимметрии — это когда кто-то в команде располагает большей информацией, чем другие члены команды. Для одной из сторон какие-то данные являются тёмными, и это ставит её в невыгодное положение в переговорах или конфликтах. Но действительно есть сферы, которые отягощают команду лишними знаниями. Соблюдать в этом баланс.
  9. Когда вам приносят данные, вы должны задать обязательные вопросы: откуда данные, кто их собирал, кто сообщил о наличии этих данные? В случае, если в момент анализа этих данных возникнут вопросы, вы знали и понимали причины и в случае необходимости могли задать вопрос конкретному человеку.
  10. Перед началом вашего исследования необходимо делать все возможное чтобы избежать неполноты и ошибок данных. Это нужно учесть, когда вы составляете список вопросов для опроса или интервью с клиентами, учитывать для каждого из вопросов и связь между текущими вопросами, а также с прошлыми или будущими исследованиями.

Концентрация полезных для меня знания была на последних 70-90 страницах книги, на которых автор описывает различные методы работы с данными, приемами для получения синтетических данных и их интерпретацией. Я бы не назвал это практическим руководством. Содержимое этой части книги сложно уложить в один из пунктов, именно это содержание я определил для себя как максимально полезным в книге, хотя не без лишних избыточных примеров.

Поделиться
Отправить
Запинить
 1373   2021   данные   книга   статистика
Популярное