Как лгать при помощи статистики

Размер шрифта: 13

Переводчик Е. Лалаян

Редактор А. Черникова

Научный редактор В. Ионов

Руководитель проекта А. Деркач

Корректор Е. Аксёнова

Компьютерная верстка К. Свищёв

Дизайн обложки Ю. Буга

Все права защищены. Произведение предназначено исключительно для частного использования. Никакая часть электронного экземпляра данной книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, включая размещение в сети Интернет и в корпоративных сетях, для публичного или коллективного использования без письменного разрешения владельца авторских прав. За нарушение авторских прав законодательством предусмотрена выплата компенсации правообладателя в размере до 5 млн. рублей (ст. 49 ЗОАП), а также уголовная ответственность в виде лишения свободы на срок до 6 лет (ст. 146 УК РФ).

* * *

Существуют три вида лжи: ложь, наглая ложь и статистика.
Бенджамин Дизраэли

Придет время, и статистическое мышление станет таким же необходимым качеством для истинного гражданина, как умение читать и писать.
Герберт Уэллс

Нам досаждают не столько те вещи, о которых мы не знаем, сколько те, о которых мы знаем, что с ними что-то не так.
Артемус Уорд

Круглые числа всегда лгут.
Сэмюэл Джонсон

У меня есть обширная тема [статистика] и есть много, что написать по этой теме, но со всей остротой я осознаю, что мне не хватит литературных талантов, чтобы изложить ее просто и доходчиво, не жертвуя при этом точностью и основательностью.
Сэр Фрэнсис Гальтон

К читателю

Будь моя воля, я бы назвал эту книгу еще короче – «Как лгать», потому что ложь приобрела убедительность, логику и, что еще важнее, цифры, за которыми может скрываться все что угодно в «умелых руках». А «умелых рук» очень много.

В наше время вопросы лжи и правды все так же актуальны. Помимо прямого обмана появилось множество способов «огибать правду» или же показывать реальность таким образом, что даже знающему человеку сложно распознать скрывающуюся за ней ложь.

В искажении статистики заинтересованы все, кто ищет способы исказить общественное мнение и воспользоваться этим в целях собственного обогащения. Немало и таких, кто хочет скрыть настоящие цифры, потому как они отражают крайне неприглядные факты. Наконец, статистика оказывается объектом прямого манипулирования во всех случаях, когда она является частью процессов принятия решений государственного масштаба.

В России ситуация со статистикой никогда не была столь печальной, как сейчас. Если в 80-х и 90-х гг. прошлого столетия официальная статистика в России страдала от тотального недофинансирования, то сегодня сами принципы государственного и муниципального управления в России таковы, что статистика стремительно превращается из инструмента доверия в инструмент распределения государственных средств.

В последних исследованиях[1] Фонда «Хамовники»[2] Ольга Моляренко очень подробно разобрала примеры искажения муниципальной статистики в России. Из-за отсутствия кооперации между органами власти, использования статистических данных как основы для принятия решений о выделении бюджетных средств и многих других российских особенностей мы оказываемся перед острой необходимостью реорганизации сбора государственной статистики в целом.

Книга Даррелла Хаффа хороша не выводами и даже не огромным числом примеров, а тем, что она учит критическому мышлению, она учит отношению к цифрам не как к «сакральному знанию», а как к инструменту, с помощью которого осуществляется манипулирование нашим мнением.

И я могу сказать, что именно критического взгляда нам остро не хватает в последние годы. Вот лишь один пример. Одна общественная организация в России решила публиковать свой рейтинг восприятия коррупции. Дабы придать этому рейтингу «научности», в качестве критериев было решено использовать абсолютные статистические показатели, такие как статистика преступлений, публикуемая МВД и Генеральной прокуратурой. Хотя благое намерение отслеживать ситуацию с коррупцией в нашей стране можно только приветствовать, сам подход является ошибочным, потому как ошибочны изначально заложенные в нем метрики.

В исследовательском отчете «Криминальная статистика: механизмы формирования, причины искажения, пути реформирования»[3], подготовленном сотрудниками Института проблем правоприменения, очень подробно разобраны и описаны проблемы и последствия искажения правовой статистики в Российской Федерации. Для человека, вооруженного выводами этого исследования, совершенно очевидно, что рейтинги, построенные на современной правовой статистике, не могут быть достоверными.

А ведь рейтинги – это лишь один из тысяч продуктов и примеров применения статистических показателей.

Официальная статистика используется как минимум:

• при определении бюджетных субсидий;

• при оценке деятельности публичных компаний;

• при выделении финансирования бюджетным учреждениям;

• в городском и районном планировании;

• в финансово-экономическом обосновании государственных и частных инвестиций;

• в оценке эффективности государственных программ;

• в построении различных рейтингов.

В результате даже малая ошибка в показателях превращается в просчет в фундаменте, на котором строится огромное число умозаключений и решений.

Другой важной проблемой существующей практики статистического учета является технологическое отставание современной статистики. В ситуации, когда государство все более автоматизируется и сбор многих показателей не требует выборочных опросов организаций или их тотальной переписи, все острее встает вопрос автоматизации извлечения статистических данных из государственных информационных систем.

Книгу Даррелла Хаффа можно порекомендовать как тем, кто хочет докопаться до правды, так и тем, кто ищет способы ее скрыть или осознанно исказить. Она – подспорье для всех, кто часто участвует в дискуссиях о достоверности цифр. Она поможет и тем, кто ищет способ придать недостоверным данным больше «легальности».

Хотя в ней отсутствует многое из того, к чему мы привыкли в современном мире, – нет ни слова об информационных системах, о возможностях Интернета, о больших данных, тем не менее эта классическая книга все так же актуальна.

Статистика по-прежнему остается областью интерпретаций и относительных оценок, описание цифр и форма их представления имеют колоссальное значение, а примеры, приводимые в этой книге, не потеряют своего значения еще не один десяток лет.

Я рекомендую эту книгу не только тем, кто хочет разбираться в статистике, но и тем, кто интересуется правдой и ложью, а также логикой, на которой они могут быть построены. Книгу, без сомнения, стоит прочитать журналистам, пишущим об экономике и любой отрасли, где важны цифры и оценки, сотрудникам пресс-служб и всем, кто работает со статистикой в любой форме.

Иван Бегтин,директор некоммерческого партнерства «Информационная культура», член общественного совета при Федеральной службе государственной статистики

Предисловие к русскому изданию

Человеку свойственно ошибаться, и особенно серьезные ошибки случаются, когда умозаключения строятся на основе статистических данных, «холодных цифр». Наше сознание странным образом признает за математикой право на абсолютную истину.

Статистика, как рассказывает нам Даррелл Хафф в своем бестселлере «Как лгать при помощи статистики», это такая хитрая, закамуфлированная отрасль математики. С одной стороны, она оперирует цифрами, пользуется четкой логикой и понятными методами расчетов. С другой стороны, предметом той статистики, которая нас обманывает, всегда является поведение человека (или отношение человека к чему-то, вплоть до отношения к другим людям). Цифры продают нам нас же самих, завернутых в формулы, статистические распределения и байесовские множества.

Мы видим цифры, мы видим математический авторитет тех, кто ими пользуется, и мы беззащитны перед статистикой и манипуляторами, как беззащитен первоклассник перед учителем, который доказывает, что 2 + 2 = 5.

Статистика (и это, наверное, самая интересная часть книги Хаффа) настолько злокозненна, что регулярно обманывает и теоретиков, и прикладных исследователей, и тем более политиков, которые очень любят оперировать ею. Используя исторические примеры (от «соломенных опросов», чуть не разрушивших карьеру Дж. Гэллапа в 1930-х гг., до дискуссий о глобальном потеплении), Даррелл Хафф не только помогает читателю разобраться в прошлых обманах, но и дает ему инструмент проверки на будущее.

За последние 25 лет в большинстве ведущих университетов мира статистика и ее методы стали обязательным компонентом любого образования, включая самое что ни на есть гуманитарное, по той причине, что ученому, практику, юристу и даже филологу нужно иметь ту самую «бритву Оккама», которой рассекается любая путаница. В нашем веке «больших данных» это особенно важно – в бесконечном океане собираемых цифр очень важно избегать как базовых ошибок (о чем подробно рассказывает книга Даррелла Хаффа), так и некритического подхода к любому анализу, представляемому как мнение большинства. Большинство, увы, не ведет нас вперед, а упорно держится за то немногое, что у него есть, оправдывая свой «консерватизм» именно ложным выводом из ложной же статистики.

Василий Гатов,приглашенный исследователь Центра коммуникационного лидерства и политики (Школа коммуникаций и журналистики Университета Южной Калифорнии)

Моей супруге посвящаю. С полным на то основанием

Благодарности

Милые примеры откровенных нелепостей и надувательских ухищрений, которыми, как перчинками, приправлена эта книга, я собирал где только можно и не без посторонней помощи. Откликнувшись на мой призыв, посланный через Американскую статистическую ассоциацию, несколько профессиональных статистиков – а они, уж вы мне поверьте, оплакивают ненадлежащее использование статистики не менее искренне, чем все прочие, – поделились со мной примерами из своих личных коллекций. Эти достойные люди, думается мне, будут только рады, если их имена останутся неназванными на этих страницах. Ценные примеры я почерпнул также из целого ряда книг, главным образом из следующих: «Бизнес-статистика» (Business Statistics) Мартина Брумбауха и Лестера Келлогга, «Как измерять общественное мнение» (Gauging Public Opinion) Хэдли Кэнтрила, «Графическое представление данных» Уилларда Бринтона, «Практическая бизнес-статистика» (Practical Business Statistics) Фредерика Крокстона и Дадли Коудена, «Основы статистики» (Basic Statistics) Джорджа Симпсона и Фрица Кафки, «Простейшие статистические методы» (Elementary Statistical Methods) Хелен Уокер.

Введение

«Что-то больно много преступности в этих краях», – заметил мой свекор вскоре после того, как переехал из Айовы в Калифорнию. Так оно и было – если верить газете, которую он читал. Газета была того сорта, что не пропустит ни единого преступления в собственной округе, и еще она славилась тем, что какому-нибудь убийству в Айове уделяла гораздо больше внимания, чем ведущая ежедневная газета той местности, где собственно и произошло убийство.

Вывод моего свекра был статистического свойства, если не по форме, то по существу, и основывался на выборке, причем необычайно предвзятой. Как и многие образцы куда более изощренно сфальсифицированных статистических данных, его вывод грешил мнимой обоснованностью и исходил из той посылки, что место, отведенное газетой под криминальную хронику, и есть мерило уровня преступности.

Несколько лет назад с дюжину исследователей независимо друг от друга опубликовали данные об антигистаминных препаратах. Во всех упоминалось о значительном проценте излечившихся от простудных заболеваний после приема этих лекарств. Началась большая шумиха (по крайней мере рекламная), и спрос на эти препараты резко вырос. Он был основан на вечных упованиях на чудо и еще на удивительном нежелании отвлечься от статистики и взглянуть в глаза давно известной истине. Как когда-то говаривал писатель-юморист Генри Фелсен (весьма далекий от медицины), при должном лечении простуда проходит через семь дней, в противном случае она сама собой пройдет через неделю.

Точно так же обстоят дела со многим из того, что вы читаете и слышите. Средние величины, зависимости, тенденции и графики не всегда есть то, чем кажутся. Подчас в них таится много больше интересного, чем видно на первый взгляд, а иногда и куда как меньше.

Таинственный язык статистики, столь притягательный в условиях культуры, которая ставит во главу угла факты, используют для того, чтобы создавать сенсации, преувеличивать, сбивать с толку и чрезмерно упрощать. Статистические методы и термины необходимы, когда дело касается массовых данных о социальных и экономических тенденциях, деловой конъюнктуре, опросах общественного мнения, переписях населения. Но в отсутствие авторов, которые используют статистическую терминологию добросовестно и со знанием дела, равно как и читателей, понимающих, что означают все эти термины, результатом может стать та еще ахинея.

В современной научно-популярной литературе ругаемый на все корки статистик почти вытеснил образ самоотверженного героя-труженика в белом халате, который дни и ночи корпит над своими пробирками в неверном свете лабораторных ламп, даже не помышляя о плате за переработки. Подобно тому, как «немножко туши да щепотка пудры превратят в красавицу любую лахудру», так и статистика способна выдавать многие весьма немаловажные факты совсем не за то, что они есть в реальности. Искусно преподнесенная статистика куда лучше, чем гитлеровский прием «большой лжи»: она вводит в заблуждение, но с вас взятки гладки, и никто не подкопается.

Эта книга – своего рода руководство для начинающих, в котором изложены азы применения статистики в целях обмана. У читателя могут возникнуть подозрения, что издание слишком уж смахивает на инструкцию для мошенников. Полагаю все же, что смогу оправдать ее в манере бывшего грабителя, опубликовавшего мемуары, в сущности представляющие собой учебный курс на тему о том, как подобрать отмычку к замку и научиться ступать бесшумно: жуликам и ворам все эти трюки и так давно известны, а порядочные люди должны узнать о них, чтобы уметь защитить свой дом от непрошеных гостей.

Глава 1
Выборка изначально необъективна

«Средний выпускник Йельского университета 1924 г. зарабатывает $25 111 в год» – это было опубликовано однажды в журнале Time в ответ на какой-то материал, вышедший в нью-йоркской газете Sun.

Ну что ж, зарабатывает – вот и молодец!

Но погодите-ка. А что, собственно, означает эта внушительная цифра? Будет ли она, как это кажется на первый взгляд, свидетельством того, что, если вы отправите своего отпрыска учиться в Йельский университет, вам уже не придется работать на старости лет (да и ему тоже)?

Уже при первом настороженном взгляде на эту цифру бросаются в глаза две особенности. Сама цифра на удивление точна. И потом, она неправдоподобно велика.

Маловероятно, чтобы средний доход любой сколько-нибудь обширной группы был бы известен с точностью до последнего доллара. Не так уж вероятно, чтобы вы с такой же точностью могли бы сказать, каким был ваш собственный доход в прошлом году, разве что весь он был получен исключительно за счет зарплаты. А годовой доход в размере $25 000 редко когда складывается только из заработной платы; люди с доходом такого уровня склонны делать инвестиции, причем их вложения предусмотрительно и с умом распределены между несколькими «корзинами».

Кроме того, этот восхитительный средний показатель рассчитан, несомненно, на основании тех сумм, которые, как сообщили сами выпускники Йеля, они зарабатывают. Даже если в 1924 г. у них там в Нью-Хейвене и имелась система доверия, то где гарантия, что и сегодня, четверть века спустя, она по-прежнему существует и все данные, представленные этими выпускниками, соответствуют действительности? Иные, отвечая на вопрос о личных доходах, склонны преувеличивать их – то ли из тщеславия, то ли потому, что настроены оптимистически. Другие же намеренно занижают свои доходы, особенно (и на то есть причины) в своих налоговых декларациях, а сделавши это, боятся, как бы данные, указанные ими где-нибудь еще, не опровергали тех, что значатся у них в декларации. Ведь неизвестно, какие сведения могут попасться на глаза чиновникам налогового управления. Вполне могло быть так, что эти две тенденции (завышать свои доходы или занижать их) нейтрализуют одна другую, но едва ли это вероятно. Одна из двух может быть намного сильнее другой, а вот которая – нам не известно.

Мы начали с того, что проанализировали цифру, которая, как подсказывает здравый смысл, вряд ли соответствует действительности. А теперь давайте разберемся с возможной причиной серьезной ошибки: почему эти самые $25 111 указываются в качестве среднего дохода неких людей, чей фактический средний доход с таким же успехом может быть и вполовину меньше названной суммы?

Причина тому – процедура составления выборки, и именно она представляет собой сердцевину большей части статистических данных, которые встречаются в самых разнообразных сферах. Основа этой процедуры довольно проста, а вот старания усовершенствовать ее на поверку только заводили на всяческие глухие окольные тропы, иногда весьма малопочтенные. Если у вас есть мешок бобов, часть из которых красного, а часть белого цвета, то единственный способ точно определить, сколько у вас белых бобов и сколько красных, – это пересчитать их. Однако есть и более простой способ приблизительно оценить количество красных и белых бобов – зачерпнуть пригоршню и сосчитать, сколько в ней будет белых бобов и сколько красных, исходя из предположения, что и в общем объеме белые и красные бобы содержатся в такой же пропорции. Если взятая вами для исследования пригоршня бобов, то есть выборка, достаточно велика и правильно отобрана, то для большинства надобностей она будет вполне репрезентативной. В противном случае выборка даст вам значительно менее точное представление о целом, чем сколько-нибудь обоснованные прикидки, а ее единственным достоинством будет разве что иллюзорное впечатление научной точности. Как ни печально, а выводы на основе такого рода выборок (необъективных или слишком малых, чтобы верно отразить свойства целого, или страдающих обоими этими изъянами) как раз и лежат в основе большинства из того, о чем нам доводится читать, или того, что мы, как нам представляется, знаем.

Упомянутые газетой сведения о доходах выпускников Йельского университета основаны на выборке. В этом можно не сомневаться, поскольку, как подсказывает здравый смысл, невозможно опросить всех выпускников 1924 г. Наверняка среди них довольно много людей, чье место проживания сейчас, спустя четверть века после выпуска, неизвестно.

А среди тех, чьи адреса известны, многие не стали бы заполнять анкету, тем более с вопросами такого щекотливого свойства. Для некоторых анкет, рассылаемых по почте, 5–10 % ответивших уже считается достаточно высоким результатом. Данная анкета, надо полагать, добилась большего успеха, но ее результат явно далек от стопроцентного.

Итак, мы выяснили, что размер дохода вычислен на основе выборки, составленной из всех выпускников, адреса которых были известны и которые ответили на анкету. Репрезентативная ли это выборка? Иными словами, можно ли считать эту группу выпускников равной с точки зрения доходов группе выпускников, не представленных в выборке, то есть тех, чьи адреса не удалось раздобыть, и тех, кто не пожелал заполнить анкету?

Так кто же эти заблудшие овечки из числа выпускников Йельского университета, которые прошли по категории «адрес неизвестен»? Возможно ли, что они хорошо зарабатывают – ну, скажем, это дельцы с Уолл-стрит, директора компаний, руководители разных сортов? Нет, установить адреса людей состоятельных не составило бы труда. Большинство из самых преуспевающих выпускников того курса можно было бы найти в справочнике «Кто есть кто в Америке» или в других изданиях, даже если сами эти люди не пожелали поддерживать контакты с ассоциацией выпускников. Вполне правдоподобной представляется догадка, что найти не удалось имена тех выпускников, кто двадцать пять лет назад покинул стены Йельского университета с дипломом бакалавра гуманитарных наук, но так и не сумел заявить о себе чем-нибудь выдающимся. Это простые клерки, механики, бродяги, безработные алкоголики или перебивающиеся с хлеба на воду писатели и художники… в общем, те, кто только вшестером, если не больше, могли бы общими усилиями наскрести те самые $25 111 в год. Люди подобного сорта не так уж часто изъявляют желание встретиться со своими однокашниками, хотя бы по той причине, что не могут позволить себе подобную поездку.

Так кто они, те люди, что выкинули в ближайшую мусорную корзину анкету выпускника, присланную по почте? Знать наверняка мы не можем, но будет резонно предположить, что многие из них просто не могут похвастаться своими заработками. Они чем-то напоминают парня, который получил свою первую зарплату и увидел, что к чеку пришпилена записка. В ней выражалась уверенность, что он считает размер своей заработной платы конфиденциальной информацией и не станет обсуждать ее в разговорах с коллегами. «Не беспокойтесь, – говорит этот парень своему боссу, – я стыжусь размера этой суммы не меньше вас».

Итак, нам уже ясно, что в выборку не были включены две группы выпускников, чьи доходы, скорее всего, уменьшили бы средний показатель годового заработка. И вот сумма $25 111 получает наконец свое объяснение. Если эта цифра и вправду в чем-то верна, то она относится всего лишь к определенной группе йельских выпускников 1924 г. – к тем, чьи адреса известны и кто пожелал открыто заявить, сколько зарабатывает в год. Но даже этот вывод следует основывать на том допущении, что все эти достойные господа сказали правду.

1 Муниципальная статистика и проблемы сбора информации местной властью// Вестник Новосиб. гос. ун-та. Серия: Социально-экономические науки. 2014. Т. 14, вып. 4. С. 125–140

2 Фонд поддержки социальных исследований, http://khamovniky.ru/

3 Исследовательский отчет «Криминальная статистика: механизмы формирования, причины искажения, пути реформирования» (М. Шклярук, Д. Скугаревский), http://www.enforce.spb.ru/products/books/6499–2015-mar-18-12-24-21

Продолжить чтение