Как правильно лгать с помощью статистики

Предвзятая выборка (Sampling bias)

В 1948 году во время президентской гонки в США в ночь на оглашение результатов выборов Труман (демократы) против Дьюи (республиканцы) газета Chicago Tribune опубликовала свой, пожалуй, самый знаменитый заголовок DEWEY DEFEATS TRUMAN (см. фото). Сразу после закрытия участков газета провела опрос, обзвонив огромное (достаточное для выборки) число избирателей, и всё предвещало оглушительную победу Дьюи. На фото мы видим смеющегося Трумана, победителя выборов 48го года. Что же пошло не так?

Людей обзванивали действительно случайно и в достаточном количестве, но в 48-ом году телефон был доступен только людям определенного достатка и редко встречался у людей с небольшим заработком. Таким образом, сам метод опроса вносит поправку в распределение голосов. Выборка не учитывала достаточно широкий пласт избирателей Трумана (как правило демократы имеют большую долю голосов среди бедного населения), которым телефон в свою очередь был недоступен. Такая выборка и называется предвзятой

Правильно выбираем среднее (Well-chosen average)

Представим себе компанию, в которой руководитель получает 25 тысяч, его заместитель 7,6 тысяч, топ-менеджеры по 5,5 тысяч, менеджеры среднего звена по 3,5 тысячи, младшие менеджеры по 2,5 тысячи, а обычные работники по 1,4 тысячи (абстрактных фунтиков) в месяц.
И наша задача представить информацию о компании в положительном свете. Мы можем написать средняя заработная плата в компании составляет X, но что означает среднее? Рассмотрим возможные варианты (см. схему ниже):

Арифметическое среднее некоторого конечного множества X={xi} — это такое число m равное mean(X) из уравнения:

Это самая бесполезная информация с точки зрения работника — 3,472 средняя зарплата, но за счет чего получается такая высокая цифра? За счет высоких зарплат руководства, что создает иллюзию, что работник будет получать столько же. С точки зрения работника данная величина не является особо информативной.
Конечно же народное творчество не обошло стороной эту особенность «средней величины» в виде средне арифметического

Чиновники едят мясо, я — капусту. В среднем мы едим голубцы.

Медиана некоторого распределения P(X) (X={xi}), это такая величина m, что она удовлетворяет следующему уравнению:

Проще говоря, половина работников получает больше данной величины, а половина меньше — ровно середина распределения! Данная статистика достаточно информативна для работников компании, так как она позволяет определить как зарплата сотрудника соотносится с большинством сотрудников.
Мода конечного множества X={xi}, это число m, которое встречается в X чаще всего. В данном случае, мода может быть наиболее информативна для человека, который собирается начать работать в данной компании.
Таким образом в зависимости от ситуации под средним значением может пониматься любая из указанных выше величин (в принципе и не только из них). Поэтому принципиально важно понять, как же рассчитывается это среднее значение.

И еще 10 неудачных экспериментов, про которые мы не написали

Опустим обычную газету в серную кислоту, а журнал ТВ Парк — в дистиллированную воду! Почувствовали разницу? С журналом ничего не произошло — бумага как новая!

Наши исследования сообщают, что зубная паста Doake’s на 23% процента эффектнее конкурентов, и всё это благодаря Dr Cornish’s Tooth Powder! (Который наверняка содержал β-каротин и секретную формулу леса — прим. автора.) Вы наверное удивитесь, но исследование действительно провели и даже выпустили технический отчет. И эксперимент действительно показал, что зубная паста на 23% процента эффективнее конкурентов (чтобы это не значило). Но только вся ли это история?
В действительности выборка для эксперимента составляла всего лишь дюжину человек (согласно Darrell Huff и уже упомянутой книге). Это именно та выборка, которая нужна, чтобы получить любые результаты! Представим, что мы подбрасываем монетку пять раз. Какова вероятность, что все пять раз выпадет орел? (1/2)5 = 1/32. Всего лишь одна тридцать вторая, это не может быть просто совпадением, если выпадут все пять орлов, ведь так? А теперь представим, что мы повторяем этот эксперимент 50 раз. Хоть одна из этих попыток увенчается успехом. О ней-то мы и напишем в отчете, а все другие эксперименты никуда не пойдут. Таким образом мы получим исключительно случайные данные, которые отлично вписываются в нашу задачу.

Играем со шкалой

Предположим, завтра нужно показать на совещании, что мы догнали конкурентов, но числа немного не сходятся, что же делать? Давайте немного подвигаем шкалой! Даже известный своей качественной работой с данными New York Times выпустил подобный совершенно сбивающий с толку график (обратите внимание на скачок с 800к до 1,5м в центре шкалы).

(пример из  Howard Wainer. The American Statistician, 1984.)

Выбираем 100%

Представим, что в прошлом году молоко стоило 10 копеек за литр и хлеб был 10 копеек за буханку. В этом году молоко упало в цене на 5 копеек, а хлеб вырос на 20. Внимание вопрос, что мы хотим доказать?
Представим, что прошлый год — это 100%, основание для расчетов. Тогда молоко упало в цене на 50% процентов, а хлеб вырос на 200%, среднее 125%, а значит в целом цены выросли на 25%.

Давайте попробуем еще разок, пусть текущий год — 100%, значит цены на молоко составляли 200% в прошлом году, а хлеб 50%. А значит, в прошлом году цены в среднем были на 25% выше!

Собирайте те данные, которые сделают ваши выводы ещё более предвзятыми

Первый шаг при сборе статистических данных — определить, что вы хотите анализировать. Специалисты по статистике называют информацию на этом этапе генеральной совокупностью. Затем нужно определить подкласс данных, которые при анализе должны представлять всё население в целом. Чем больше и точнее выборка, тем вернее будут результаты исследования.

Конечно, есть разные способы испортить статистическую выборку случайно или намеренно:

  • Систематическая ошибка отбора. Такая ошибка происходит, когда люди, принимающие участие в исследовании, сами относят себя к группе, не представляющей всё население.
  • Случайная выборка. Имеет место, когда анализируют легкодоступную информацию, а не пытаются собрать репрезентативные данные. Например, новостной канал может провести политический опрос среди своих зрителей. Не опросив людей, которые смотрят другие каналы (или вообще не смотрят телевизор), нельзя сказать, что результаты такого исследования будут отражать действительность.
  • Отказ респондентов от участия. Такая статистическая ошибка случается, когда часть людей не отвечает на вопросы, задаваемые в статистическом исследовании. Это приводит к неверному отображению результатов. Например, если в исследовании задаётся вопрос: «Изменяли ли вы когда-нибудь супругу/супруге?», некоторые просто не захотят признаться. В результате будет казаться, что измены происходят редко.
  • Опросы со свободным доступом. В таких опросах может принять участие любой человек. Часто даже не проверяется, сколько раз один и тот же человек отвечал на вопросы. Примером служат различные опросы в интернете. Проходить их очень интересно, но они не могут считаться объективными.

Прелесть ошибок отбора в том, что кто-нибудь где-нибудь наверняка проводит ненаучный опрос, который подтвердит любую вашу теорию. Так что просто поищите нужный опрос в Сети или создайте свой собственный.

Выбирайте результаты, которые подтверждают ваши идеи

Так как статистика использует числа, нам кажется, что она убедительно доказывает любую идею. Статистика опирается на сложные математические вычисления, которые при неправильном обращении могут привести к совершенно противоположным результатам.

Чтобы продемонстрировать изъяны анализа данных, английский математик Фрэнсис Энскомб создалквартет Энскомба. Он состоит из четырёх наборов числовых данных, которые на графиках выглядят совершенно по-разному.

На рисунке X1 — стандартная диаграмма рассеяния; X2 — кривая, которая сначала поднимается вверх, а потом опускается вниз; X3 — линия, немного поднимающаяся вверх, с одним выбросом на оси Y; X4 — данные на оси X, кроме одного выброса, расположенного высоко на обеих осях.

Для каждого из графиков верны следующие высказывания:

  • Среднее значение переменной x для каждого набора данных равно 9.
  • Среднее значение переменной y для каждого набора данных равно 7,5.
  • Дисперсия (разброс) переменной x — 11, переменной y — 4,12.
  • Корреляция между переменными x и y для каждого набора данных равна 0,816.

Если бы мы видели эти данные только в форме текста, мы бы подумали, что ситуации полностью одинаковы, хотя графики это опровергают.

Поэтому Энскомб предложил сначала визуализировать данные, а только потом делать выводы. Конечно, если вы хотите ввести кого-то в заблуждение, пропустите этот шаг.

Составляйте графики, которые подчеркнут желаемые результаты

У большинства людей нет времени проводить собственный статистический анализ. Они ждут, что вы предъявите им графики, обобщающие все ваши исследования. Правильно составленные графики должны отражать идеи, которые соответствуют реальности. Но также они могут подчеркнуть те данные, которые вы хотите показать.

Опускайте названия некоторых параметров, немного поменяйте шкалу на оси координат, не объясняйте контекст. Так вы сможете убедить всех в свой правоте.

Всеми средствами скрывайте источники

Если вы открыто указываете свои источники, людям легко проверить ваши выводы. Конечно, если вы стремитесь обвести всех вокруг пальца, ни за что не рассказывайте, как вы пришли к своим выводам.

Обычно в статьях и исследованиях всегда указывают ссылки на источники. При этом оригинальные работы могут предоставляться не полностью. Главное, чтобы источник отвечал на следующие вопросы:

  • Как собирались данные? Людей опрашивали по телефону? Или останавливали на улице? Или это был опрос в Twitter? Метод сбора информации может указать на те или иные ошибки отбора.
  • Когда они собирались? Исследования быстро устаревают, а тенденции меняются, поэтому временные рамки сбора информации влияют на выводы.
  • Кто их собирал? Исследование о безопасности курения, которое проводилось табачной компанией, вызывает мало доверия.
  • Кого опрашивали? Это особенно важно для соцопросов. Если политик проводит опрос среди тех, кто ему симпатизирует, результаты не будут отражать мнение всего населения

Как лгать с помощью статистики — часть 2

Продолжаем разбирать, как можно ввести в заблуждение людей, некорректно используя статистику. Предыдущий пост

Выбор среднего

Часто в новостях и рекламе можно услышать слово «среднестатистический». Но что такое среднее? Существует среднее арифметическое, среднее геометрическое, среднее гармоническое и список можно продолжать! А неподходящий (случайно или осознанно) выбор среднего может существенно исказить результаты

Рассмотрим такой пример. Пусть у нас имеются три человека: бабушка Елена Анатольевна с пенсией 8000, сисадмин Вася с зарплатой 40000 и миллионер Павел Умнов, зарабатывающий в месяц ровно миллион

Если мы попросту вычислим среднее арифметическое, сложив их зарплаты и поделив на 3, то получим, что оно равно 350 тысяч рублей! Осталось обрадовать этой новостью бабушку

На логарифмической шкале эти значения даже не выглядят слишком далёкими друг от друга. Красная линия — среднее арифметическое

Для таких случаев лучше подходит такое среднее, как медиана. Это значение, которое делит все наши данные на две равные части (по количеству). Медианным значением для этого примера была бы зарплата сисадмина Васи — 40000. До неё и после неё находится одинаковое количество людей (по одному). Тогда Васю мы могли бы назвать человеком со среднестатистической зарплатой, всех получающих менее Васи — с небольшим достатком, больше — богатыми

Однако, с помощью медианы можно было бы наоборот скрыть очень выдающиеся (в большую или меньшую сторону) значения

Сложение нескладываемого

Вспомните пятибалльную систему оценивания в школе. Представьте, что семиклассник Данил написал диктант на 5, а его одноклассник Леонардо решил написать его справа налево и получил двойку. Делим 5 на 2 и получаем, что Данил написал диктант в 2,5 раза лучше! Верно?

Неверно. Баллы — это придуманная номинальная переменная, которая выражает цифрами словесные оценки отлично, хорошо и так далее. «Неудовлетворительно» ровно в 2,5 раза хуже, чем «отлично»?

Таким образом, считать средние баллы по оценкам или для каких-нибудь тестов математически не имеет смысла

Предвзятая выборка

По данным интернет-голосования 100% людей пользуются интернетом

Ещё до всякой статистики можно солгать, если неправильно собрать данные. Классический пример — президентская гонка США 1948 года: Дьюи против Трумана. Газета Chicago Tribune сразу после закрытия избирательных участков провела опрос, обзвонив огромное количество людей. А по результатам, предсказывающим оглушительный успех Дьюи выпустила газету с заголовком «ДЬЮИ ПОБЕЖДАЕТ ТРУМАНА». На фото — смеющийся Труман, победитель выборов 1948 года, с этой самой газетой в руках

Что пошло не так? Газета обзвонила достаточное для выборки число избирателей, причём действительно случайных. Неверным был лишь сам подход — телефон в то время не был доступен небогатому населению, основная масса которого и составляла поддержку Трумана

Ещё одним примером являются зарплаты выпускников, обещаемые вузами. В США дело доходило даже до судов — выпускники утверждали, что данные по зарплатам искусственно завышены. Но дело совершенно в другом: просто данными о своём заработке с вузом делятся только люди, довольные им

«Наглядная» визуализация

Есть тысяча и один способ приукрасить данные. Например, наглядно их визуализировать. Это может помочь чтению скучных графиков, а если сделать это с долей хитрости, то и более выгодно их преподнести

Вот график потребления количества пива в США в миллионах баррелей и доли компании Schlitz. Он действительно впечатляет!

Но приведём этот график в более строгий вид: отобразим данные точками и начнём ось y от нуля:

Уже не кажется таким внушительным. При изображении точек графика в виде бочек, люди визуально воспринимают не верхушки бочек, а их объём. А при увеличении стороны бочки в 2 раза объём увеличивается в 8 раз! С таким размахом помогает начинающаяся со 100 ось y

Вот ещё один пример. Замечательная инфографика, которая показывает сколько денег тратится на борьбу с заболеваниями и смертность от них

Идея великолепна. Однако присмотритесь внимательнее к цифрам. Цена при оранжевом круге примерно в 2 раза меньше, чем при розовом. Но розовый круг больше в 4 раза!

Авторы предпочли сделать зависимым от цены радиус круга. Но мы визуально воспринимаем вовсе не радиус, а площадь фигуры! А формула площади круга зависит от радиуса квадратично

Ещё лучше эту инфографику можно сделать, если расположить одинаковые болезни на одной линии. Так выглядит исправленная версия:

Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно

Пример качественной визуализации

На графике размер армии Наполеона. Крайняя правая точка — Москва, откуда начинается отступление, показанное чёрной полосой. К графику отступления также привязан график времени и температуры. Крайне наглядно!

О книге «Как лгать при помощи статистики» Дарелл Хафф

В этой всемирно известной книге Дарелл Хафф рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Каждый день на вас пытаются повлиять, чтобы сподвигнуть на покупку какого-то «нужного» продукта или на выбор «правильного» кандидата: «Благодаря пасте “Чистые зубы” образование кариеса снижается на 23 %!»; «Политика N поддерживает 85 % граждан»… Как понять, насколько достоверны те или иные данные? Каким образом происходят подсчеты? Что учитывается, а что остается за кадром? Автор раскрывает секретные инструменты статистиков и вооружает читателя знаниями, которые помогут разобраться во всех хитросплетениях этой науки и не позволят ввести в заблуждение.

Аннотация

В этой всемирно известной книге Дарелл Хафф рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Каждый день на вас пытаются повлиять, чтобы сподвигнуть на покупку какого-то «нужного» продукта или на выбор «правильного» кандидата: «Благодаря пасте “Чистые зубы” образование кариеса снижается на 23 %!»; «Политика N поддерживает 85 % граждан»… Как понять, насколько достоверны те или иные данные? Каким образом происходят подсчеты? Что учитывается, а что остается за кадром? Автор раскрывает секретные инструменты статистиков и вооружает читателя знаниями, которые помогут разобраться во всех хитросплетениях этой науки и не позволят ввести в заблуждение.

Источники

  • https://habr.com/ru/post/217545/
  • https://Lifehacker.ru/4-sposoba-lgat-pri-pomoshhi-statistiki/
  • https://pikabu.ru/story/kak_lgat_s_pomoshchyu_statistiki__chast_2_6113007
  • https://lifeinbooks.net/chto-pochitat/kak-lgat-pri-pomoshhi-statistiki-darell-haff/
  • https://coollib.net/b/331961-kak-lgat-pri-pomoschi-statistiki

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Лайфхаки на каждый день, полезные советы
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: