Графики, которые убеждают всех
Об авторе
Я думаю, инфографика и визуализация данных завораживали меня с раннего детства. У нас дома были детские энциклопедии издательства «Росмэн». Обычно они полны инфографики: вулканы в разрезе, схема Солнечной системы и тому подобное. Подростком я увлекался футболом и футбольной статистикой. Интернет тогда был совсем не развит, и мы с братом создавали свои собственные энциклопедии футбольных чемпионатов, вели турнирные таблицы, рисовали схемы игр на вылет, считали голы, пасы и желтые карточки. Потом эта система перешла и на компьютерные игры.
Когда в 17 лет я поступил в медицинскую академию, то плотно познакомился с одним из наиболее старых жанров инфографики – атласом анатомии. После окончания ВУЗа я стал работать врачом. Казалось, инфографика забыта. Но и во время работы врачом я создавал базы данных пациентов и рисовал схемы лечения.
Вот, например, результаты одного дня профилактических осмотров. Осмотры показаны на пленке ЭКГ (сама ЭКГ никакого отношения к визуализации данных не имеет). Это результаты самого легкого дня – последнего. В первый день было 130 осмотров, потом 112, потом 88. А в последний, изображенный на картинке, – всего 44.
Точка – начало приема. Точка с кружочком – прием с ЭКГ. В предыдущие дни я тоже фиксировал тех, кто приходил. Но оптимальную форму визуализации нашел только в последний день.
В 27 лет я ушел из медицины, поменял ряд других специальностей и окончательно остановился на инфографике и визуализации данных. Год в Санкт-Петербурге руководил мини-студией, специализирующейся на медицинской инфографике. Затем переехал в Москву и стал работать редактором в Студии инфографики сайта РИА.ру. За 2,5 года работы там выпустил больше 50 проектов, завоевал вместе с коллегами несколько международных премий, отточил навыки информационного дизайнера и столкнулся со всем спектром задач по визуализации данных. Во время работы в Студии у меня было правило: «При создании каждого нового проекта осваивать один новый инструмент или прием». Это позволило в короткие сроки овладеть массой различных техник и подходов к визуализации данных.
Мы делали в РИА масштабные проекты, но меня все больше стали привлекать простые графики и диаграммы – оказалось, что они не так просты. Чем больше я погружался в это, тем чаще замечал неудачные, перегруженные, непонятные визуализации данных вокруг. Тогда я создал в Telegram канал «Чартомойка» (chart по-английски – диаграмма), где стал проводить разборы попадавшихся мне графиков.
После ухода из РИА я консультировал бизнес, маркетинг, медиа и НКО в отношении визуализации данных. Работал с крупными компаниями над проектами, связанными с инфографикой и визуализацией данных. В качестве руководителя отдела дата-спецпроектов в РБК занимался в том числе датавиз-дирекшеном – обращал внимание на неочевидные нюансы при визуализации числовой информации.
Последние четыре года много преподаю визуализацию данных и презентации, оценил сотни (может быть, даже тысячи) студенческих работ. С 2019 года преподаю визуализацию данных и дата-сторителлинг на магистерской программе «Журналистика данных» в Высшей школе экономики.
В 2018 году я посчитал и даже визуализировал свои образовательные активности, получилось всего около 70: тренинги, лекции, вебинары. В конце концов, кажется, мне удалось выработать систему обучения и донесения знаний о визуализации данных.
Эта тема не кажется мне узкоспециальной. Она может и должна преподаваться в старших классах школы или на начальных курсах вузов. Умение визуализировать числовую и нечисловую информацию и создавать презентации – один из наиболее распространенных и востребованных сегодня soft skills в самых разных сферах.
Итогом моего погружения в сферу визуализации данных стала эта книга. Хочется надеяться, что для кого-то она станет отправной точкой в повышении культуры графического представления числовой информации и будет способствовать появлению более грамотных и эффективных графиков в нашей стране.
Александр Богачев
Введение
Многие думают, что умеют делать графики в Excel и презентации в PowerPoint. На самом деле 95 % (или даже больше) графиков, которые ежедневно тысячами производят во всем мире, ужасны. Непонятно, кто в этом виноват. Ведь люди учатся на том, что видят вокруг. А вокруг – неудачные, слабые, перегруженные графики, непонятные, не доносящие никакой конкретной мысли. Сделаны они в популярных офисных программах. Все их видят и считают «крутыми», другие люди тоже хотят делать именно так. Производители софта идут навстречу и встраивают подобные шаблоны в свои программы. А большинство людей (и это нормально) пользуется тем, что предлагается по умолчанию. Круг замыкается. На самом деле авторов этих графиков не в чем упрекнуть: они хотят сделать «лучше», «красивее», «ярче».
В докомпьютерную эпоху над каждым графиком, перед тем как его нарисовать, нужно было подумать. Прежде всего решить, нужен он или нет, стоит ли тратить на него столько усилий. И, если нужен, то как сделать его оптимальным образом, максимально наглядно. Сейчас большинство, как говорилось выше, пользуется стандартными настройками программ типа Excel, а график создается буквально за долю секунды. Но насколько этот график и слайд на его основе хороши?
Главное – не просто сделать график, даже корректный. Ваша задача – убедительно и наглядно донести до читателей то, что вы нашли в данных. Сообщение, ключевую мысль или даже историю, которая в них есть. Программа, которая строит график, не знает и не может знать этой истории. Ее можете и должны знать вы.
Однажды я читал статью про биткоин-фермы. Авторы объясняли, что биткоин не так уж безопасен, как принято думать. Оказывается, биткоин-фермы (места, где создается биткоин) объединяются в пулы. Больше 50 % всего производимого биткоина – на совести всего четырех пулов, которые к тому же находятся в одной стране – Китае. Стоит получить контроль над этими четырьмя пулами – и можно вносить фальшивые платежные операции. Эту мысль в статье иллюстрировал чудовищный график:
Кольцевая диаграмма перегружена цветами, выносками, значениями. Скорее всего, она сделана очень быстро, за несколько минут. Но стоит немного ее перекрасить, не меняя остальной информации, – и график начинает рассказывать эту историю, помогая тексту или даже частично заменяя его:
Здесь по-прежнему слишком много лишней информации и не очень аккуратное оформление. Но даже в таком виде этот график гораздо понятнее передает главное сообщение.
Визуализация данных – мощный инструмент для решения различных задач. Важно понимать, какую именно задачу вы пытаетесь решить этим инструментом. Что именно вам нужно показать, рассказать, кого и в чем убедить, какое решение помочь принять?
В этой книге вы не найдете конкретных рекомендаций, как сделать тот или иной график, – с этим легко справятся справка к программе и интернет. Эта книга дает универсальные принципы, которые превратят ваш график из яркой, но, по сути, невнятной картинки в мощный инструмент донесения вашего сообщения. Вы научитесь делать свое сообщение очевидным адресату.
Визуализация данных эффективна настолько, насколько она преподносит данные в понятной для нашего мозга манере. Большинство ошибок в графиках возникает из-за непонимания того, как работают наше зрение, внимание и восприятие в целом. Мелочей здесь нет: подготовка данных, выбор типа представления информации, оформление, заголовки, подписи, аннотации и другое. Все это в совокупности позволяет сделать график корректным, эстетичным и эффективным. Обсуждению данных вопросов и посвящена эта книга. Прочитав ее, вы сможете по-новому взглянуть на создание даже самого простого графика или диаграммы.
Для кого эта книга? Для тех, кто не чувствует уверенности в себе, когда его просят сделать график или несколько диаграмм. Для аналитиков, менеджеров, маркетологов, предпринимателей, студентов, бакалавров, магистрантов и аспирантов, ученых. Для всех, чья жизнь так или иначе соприкасается с визуализацией данных.
Успешный, эффективный график требует знаний из разных сфер: статистики, аналитики, дизайна, собственно визуализации данных и даже журналистики. В этой книге вы найдете основы этих дисциплин и познакомитесь с пошаговым подходом к созданию эффективных, убеждающих графиков.
Глава 1
Пример было/стало. Общее понимание процесса
В большинстве случаев люди не задаются вопросом, как им сделать более наглядный, эффективно работающий или рассказывающий историю график. Они рады тому, что из их цифр в офисной программе в принципе получился хоть какой-то график. К нему применяются те варианты оформления, которые настроены по умолчанию, график вставляется в презентацию, работа кажется выполненной.
Было/стало
Вот типичный график, который мы часто видим в презентациях:
С одной стороны, автор явно старался: слайд выглядит ярким и привлекает взгляд. Применены стандартные шаблоны оформления диаграмм из Excel и PowerPoint.
Но давайте зададим несколько вопросов, чтобы понять, насколько нагляден этот слайд:
1) Представлены ли на нем данные? Да, доля твердых сыров в каждом году графически закодирована углами секторов круговой диаграммы.
2) Насколько точно визуализированы данные? Не очень точно.
Круговая диаграмма сама по себе не особо наглядна: человеческий глаз плохо оценивает разницу площадей и углов. Здесь проблема усугубляется тем, что круговые диаграммы сделаны псевдотрехмерными и показаны в перспективе. Это еще больше искажает форму секторов и кодируемые ими значения.
3) Удобно ли сравнивать данные? Нет, неудобно.
Основное, что хотелось бы сравнить, – доли продаж разных сыров по годам. Это сложно сделать, потому что сектора круговой диаграммы не очень точно представляют данные. Чтобы понять, какой сектор какому сыру соответствует, нужно постоянно сверяться с легендой. А затем проводить мыслительную операцию, пытаясь понять, выросла доля этого сыра или уменьшилась.
4) Очевидны ли выводы? Нет. Что нам нужно понять – сейчас неясно.
Давайте начнем пошагово улучшать этот слайд.
Сначала уберем псевдотрехмерность, проверим, станет ли нагляднее:
Теперь углы секторов более точно показывают значения. Но все же в этой ситуации круговая диаграмма – не самый наглядный способ визуализации. Давайте поменяем его на линейный график:
Кажется, в этом что-то есть! Мы просто изменили вид визуализации – и содержание сразу же стало очевиднее. Мы видим, доля продаж каких сыров выросла и насколько, а каких – упала. Попробуем убрать все, что отвлекает от самих линий и подписей к ним.
Для начала уберем тень:
Поменяем фон на белый:
Уберем агрессивную контрастную сетку:
Значения подписаны возле концов линий. Значит, шкалу тоже можно убрать:
Сдвинем график в левую часть слайда и разместим значения слева и справа от линий:
Нам по-прежнему неудобно сверять цвета с легендой. Давайте поместим названия сыров рядом с линиями:
Теперь попробуем приглушить цвета. Так мы будем обращать внимание на наклон линий, а не на цвет. Именно наклон характеризует, выросла доля или уменьшилась:
Уже почти то, что нужно! Сделаем заголовок более осмысленным:
Теперь зарифмуем заголовок и сам график, сделав более контрастными соответствующие линии:
Забыли важную информацию – источник данных:
Теперь заменим шрифт и расставим блоки более аккуратно.
Точнее и корректнее сформулируем заголовок. В заголовке выделим тем же оттенком синего названия соответствующих сыров:
Теперь попробуем ответить на те же вопросы, которые мы задавали в начале:
1) Представлены ли на слайде данные? Да, данные представлены графически.
2) Насколько точно визуализированы данные? Данные визуализированы точно.
3) Удобно ли сравнивать данные? Да, стало гораздо удобнее.
Этот тип графика называется slope chart – наклонный график. По направлению и степени наклона линий мы мгновенно считываем, увеличилась доля или нет и в какой мере. Мы видим, у каких сыров в каждом году доля больше и насколько, какое место занимает каждый из них. Удобству и скорости сравнения помогают подписи названий сыров возле самих линий. Так нам не нужно тратить время, чтобы сверять цвета с легендой.
4) Очевидны ли выводы? Да, выводы очевидны.
При этом слайд максимально чистый, на нем нет ничего лишнего, что отвлекало бы внимание, каждая деталь играет свою роль. Заголовок помогает сразу считывать график в нужном ключе.
Давайте попробуем понять, что именно мы поменяли, чтобы сделать этот график лучше.
Мы подобрали наиболее подходящий способ визуализации исходя из того, что хотим показать. Убрали лишние, чрезмерно контрастные и отвлекающие внимание элементы. Ввели наглядное цветовое кодирование. Постарались сделать очевидной главную мысль, добавив акценты. Дополнительно подчеркнули это в заголовке.
Именно эти приемы и то, как они работают, мы будем подробно обсуждать дальше.
Этапы работы
Главная задача этой книги – показать каждому, что цель графиков и диаграмм – не просто представить данные визуально, а убедительно и эффективно донести идею, передать сообщение, рассказать историю.
Как в таком случае будет строиться работа над графиком?
Чтобы передать сообщение, нужно сначала его сформулировать. Но перед этим необходимо понять, в рамках какой более глобальной задачи вы осуществляете эту работу, ее формат. Например, вы работаете с данными для подготовки ежеквартального оперативного отчета руководству. Или же у вас «молодая развивающаяся компания», и вы готовите презентацию для питч-сессии с инвесторами. В обоих случаях вы будете стараться насытить презентации разными смыслами, так как преследуете разные цели.
Определившись с задачей и форматом, вы начинаете формулировать сообщение. Для этого вы всеми возможными и нужными способами проводите анализ данных и сочетаете его с собственными знаниями о том, что происходит в нужной сфере. При необходимости подключаете экспертов, чтобы понимать контекст, в котором живут ваши данные.
Следующий этап – найти оптимальную визуальную форму для передачи сообщения. Нужно определиться с типом графика, который окажется максимально наглядным.
Дальше вам нужно убрать лишнее: все, что не работает на коммуникацию и мешает считывать сообщение.
И, наконец, озвучить сообщение во всю мощь, добавив графику акцентов и написав правильные тексты.
Именно эти этапы мы будем последовательно и подробно обсуждать в этой книге.
Глава 2
Понимать свою задачу и аудиторию
С чего начинается создание графика, наглядно доносящего сообщение? С поиска данных, с выбора необычного типа визуализации или интересной цветовой схемы? На самом деле нет. Самое важное – понять основную задачу, в рамках которой вы планируете делать график.
Графики никогда не существуют сами по себе. Они – всего лишь инструмент, который помогает решить вашу задачу. Чтобы понять, какая именно у вас задача, попробуйте задать себе вопрос: «Зачем я вообще делаю эту презентацию?» Ответ может быть таким: «Я делаю ее, потому что мне это поручило руководство и за это я получаю зарплату». На самом деле это всего лишь обстоятельства выполнения вашей работы, а не ее цель.
Цель можно определить, ответив на вопросы: «На что должна повлиять эта презентация? Что в результате должно измениться?»
Какой в таком случае может быть задача? Например, задача – информировать руководство о том, как прошла реорганизации компании. Тогда вам нужно показать, во сколько она обошлась, какие проблемы возникли в процессе реорганизации, как компания работает сейчас, что изменилось.
Или ваше руководство проводит тестирование нового продукта. Например, ежеквартального аналитического отчета о состоянии рынка. Цель на данном этапе – создать минимально жизнеспособный продукт. Это позволит понять, насколько потенциальные клиенты в нем заинтересованы, что бы хотели туда добавить. При этом презентация сама может являться прототипом продукта. А если отчет уже выпущен, презентация может показать, насколько он востребован, что потенциальных заказчиков в нем устраивает, а что нет.
Важно понять, кто является лицом, принимающим решения по поводу вашего продукта, кто будет утверждать вашу работу. Важны также и ваши потенциальные читатели, ожидания и требования каждого из них. Нужно обговорить все это с заказчиком. А еще лучше – письменно зафиксировать ключевые параметры проекта.
Что еще будет влиять на вашу работу?
• Аудитория – то, насколько она заинтересована в проекте. Это ее жизненная необходимость или ей придется иметь дело с вашей презентацией по долгу службы? Насколько аудитория ориентируется в специфических терминах и процессах в вашей сфере работы? Если график предназначен для публикации в тематическом научном издании, вы можете позволить себе не объяснять какие-то аббревиатуры и очевидные вещи. Но, перенося тот же график в научно-популярную статью, вы обязаны адаптировать его, чтобы он стал понятен широкой читательской аудитории.
• Формат и стиль. Есть ли у компании шаблон презентации, брендбук, фирменные цвета и шрифты? Если есть, то достаточно странно «городить огород», изобретая собственный шаблон. Бывает и хуже: в определенный момент заказчик вспоминает о корпоративном стиле, и приходится все переделывать.
• Условия существования и распространения. Презентация будет показана только с экрана ноутбука/проектора или также предназначена для рассылки по почте? Будет ли выступление? Планируется ли распечатывание и раздача презентации на конференции или встрече?
• Наличие и возможность получения данных и консультации с экспертом.
• Сроки и бюджет.
Оптимальный вариант – создать короткий, на 1–1,5 странички документ. Там будут кратко даны ответы на эти вопросы – списком или в виде диаграммы связей (mindmap).
Вот как могла бы начинаться диаграмма связей для презентации про сыр:
Это кажется скучным и непонятным. Но на деле четкие ответы на данные выше вопросы будут определять практически все ваши решения: от содержания презентации и ее структуры до особенностей оформления конкретных графиков. Чем больше у проекта ограничений, тем проще вам работать.
Что должен в результате сделать адресат вашего графика? Какое решение он должен принять? Что ему нужно ясно понять?
Давайте вспомним график из прошлой главы. Предположим, мы работаем в компании, которая собирается выводить на рынок свой пармезан. Как в таком случае мог бы выглядеть тот же самый график?
А если бы компания продавала голландский и российский сыр, но интересовалась общими трендами на рынке, график мог бы стать вот таким:
Или, например, таким:
Эстетика для графика важна только в той мере, в какой она помогает решить вашу задачу. Не бывает красивого и хорошего графика самого по себе, в отрыве от его задачи. Хотя, разумеется, единый стиль и аккуратность тоже работают на визуальную коммуникацию. Они передают общее впечатление о вашей презентации и компании.
Задачи, которые может выполнять инфографика
• Объяснять
• Помогать принимать решение
• Убеждать
• Представлять результаты в наглядной форме
• Продавать
• Повышать доверие к данным
• Контролировать
• Информировать
В этой книге мы прежде всего говорим о графиках, которые решают задачу коммуникации. В рамках какой коммуникации будет существовать ваш график? Неслучайно информационный дизайн часто относят к более широкому коммуникационному дизайну.
Известный специалист по визуализации данных Стивен Фью указывал, что визуализация данных может служить:
• анализу – поисковые визуализации
• коммуникации – графики помогают передавать сообщение читателю
• контролю – когда с помощью графиков отслеживают состояние различных систем (например, выполнение планов, объем продаж, темпы производства)
• планированию
В любой коммуникации есть три компонента: отправитель, адресат и сообщение. У отправителя сообщения всегда есть цель. Адресат, прочитав сообщение, должен понять отправителя и отреагировать нужным образом.
Однажды ко мне обратились с просьбой сделать интерактивную карту. Данные у заказчика имелись, никаких технических проблем с созданием такой карты не было. Однако мы решили встретиться и обсудить, какую именно задачу заказчик хочет решить. В результате часовой беседы мы совместно пришли к выводу, что интерактивная карта не нужна, а заказчику нужно в целом изменить подход к своей медиастратегии. Кроме того, бюджет лучше использовать по-другому, а карта может быть лишь частью целенаправленной медиакампании, но не ее заменителем.
Главное во второй главе
• Графики – инструмент коммуникации.
• Необходимо понять контекст, в рамках которого существуют график и презентация.
• Нужно определиться с целью презентации.
• Рекомендуется составлять техническое задание с ключевыми параметрами проекта.
Глава 3
Формулируем сообщение
В конечном итоге убеждают адресата только данные, а не график или оформление. Ведь именно в данных содержится то, на что опирается наше сообщение. Даже самый прекрасно оформленный график не произведет впечатления, если за ним не стоит вдумчивая работа по анализу и интерпретации данных. Все равно что цветастый, полный «воды» и написанный для количества знаков текст, в котором мало смысла и много шаблонных фраз.
Если вы работаете в компании, то данные у вас наверняка есть. Возможно, их даже слишком много. Как правило, это бесконечные таблицы из многих тысяч строк. Возникает очевидный вопрос – как среди этих тысяч строк найти подходящие для презентации данные?
Ответ прост: нужно искать то, что важно. То, что максимально соответствует вашей цели внутри проекта. Что в рамках этой цели интересует вас в первую очередь, без чего эта цель не может быть осуществлена. То, от чего зависит выбор действий для решения конкретной задачи.
Процесс выбора нужных данных можно сравнить с процессом медицинского обследования пациента. В организме есть сотни параметров, которые врач умеет оценивать. А дополнительно к этому – тысячи лабораторных анализов и других исследований. Однако пациента не заставляют сдавать все это при каждом посещении врача. Есть несколько обязательных обследований – например, оценка артериального давления, пульса и частоты дыхания. Большинство остальных врач выбирает по ситуации, в соответствии с задачей. Он учитывает, является визит плановым или экстренным, что пациент сообщает о своих текущих проблемах. Если визит плановый, врач подберет профилактические диагностические мероприятия или исследования, соответствующие хронической болезни. Если же человек готовится заниматься спортом, ему требуется оценить свою физическую выносливость – для этого будут подобраны другие анализы и обследования. То есть из многих тысяч параметров человеческого организма, которые ежедневно динамически меняются, врач выберет для исследования несколько релевантных данной ситуации. Для какого-то случая врач может решить, что обследования и вовсе не нужны, а нужны только конкретные действия. Например, больше спать или бывать на свежем воздухе.
Только вы сами можете понять, что важно для конкретного отчета, презентации или научного исследования. В целом можно сформулировать такое правило: если вы сомневаетесь, что данные значимы и их визуализация нужна – скорее всего, представлять их графически не требуется.
Если вы не уверены, понадобится ли график руководству, можно подготовить и положить его в конец презентации. Если по ходу выступления или в конце возникнет соответствующий вопрос, вы сможете продемонстрировать этот график. Также полезно все материалы, не вошедшие в презентацию, собирать в текстовый файл. После выступления его можно отправить слушателям вместе с презентацией.
Однажды я помогал одному банку улучшить презентацию. Ребята говорили, что потенциальные клиенты с трудом врубаются в графики и в тему презентации. По идее, графики как раз должны были облегчать понимание. Для начала я попытался увидеть презентацию глазами потенциального читателя и самостоятельно понять смысл графиков. На одном из них мое внимание привлекло сильное колебание цены. Я подумал, что смысл графика именно в этом:
Однако оказалось, что слайд создан ради вот этого маленького фрагмента:
В итоге этот фрагмент мы и превратили в слайд.
На графике показано важное событие – покупка клиентом акций. После этой покупки цена акций может расти, а может оставаться прежней. В этом состоит ключевая мысль. При покупке через банк цена почти не меняется. При самостоятельной покупке рынок реагирует резко. Цена повышается, и дальнейшая покупка становится для человека невыгодной.
Финальная версия слайда была примерно такой:
Этот пример показывает, как именно относиться к большому массиву данных. Нужно выбирать из него только релевантные, максимально подходящие для ваших целей срезы: по времени, по категориям и так далее.
Однако в другой ситуации вам, наоборот, может понадобиться более широкий контекст, потому что иначе картина сильно искажается.
Если показать только график А, у читателей сложится обманчивое впечатление, что показатель уверенно растет. В то время как на самом деле это был лишь короткий эпизод. Это хорошо видно на графике B.
Продолжим аналогию с врачом. Представьте, что врач назначает всем пациентам одни и те же обследования, даже не взглянув на людей, вне зависимости от ситуации. Звучит абсурдно? Однако такое происходит очень часто. Сотрудника просят сделать отчет или презентацию с графиками «вот по этой табличке».
Зачастую человек не тратит время, чтобы выяснить: зачем нужна презентация, какова ее цель и что все эти цифры обозначают в разрезе цели. Он просто визуализирует все, что можно визуализировать. Графики могут получиться симпатичными, но вряд ли они улучшат понимание происходящего. Потому что, если понимания происходящего нет у автора графика, его не будет и у зрителя.
Качество данных
С данными всегда что-то не так. Они всегда неполные, есть вопросы к методологии, не такие свежие, как хотелось бы, не совсем в том формате, в каком нужно, не совсем с теми переменными, с какими хотелось бы. Это следует принимать как данность и стараться выжимать максимум из того, что есть.
К данным, к тому, как они собраны, организованы и подготовлены, предъявляются определенные требования. Визуализация данных – это следующий этап после их подготовки и анализа. Если на подготовительном этапе возникли ошибки, то представление таких данных, как бы грамотно оно ни было сделано, не будет стоить многого.
Данные должны быть по возможности:
• максимально свежими
• целостными, полными, единообразными
• сравнимыми – собранными по одной методологии на сопоставимых выборках
• из источников, вызывающих доверие
Этот график, построенный на базе данных террористических актов Мэрилендского университета, показывает количество терактов, совершенных в мире с 1969 по 2019 год. Я потратил много времени, выясняя, почему в середине девяностых годов значения на графике полностью отсутствуют. Я подозревал в ошибке какие-то настройки программы, в которой создавался график. В конечном итоге пришлось обратиться к документации, сопровождавшей базу данных. Выяснилось, что данные за 1993 год отсутствуют по техническим причинам.
Очень важно перед началом работы проверить датасет (набор данных) на полноту, целостность и корректность. Если он небольшой, можно просто просмотреть все значения. Если относительно большой – нужно создать оценочные визуализации.
Очень удобно оценивать целостность датасета и распределение значений в столбцах с помощью софта, подобного Trifacta Wrangler (см. скриншот). Над каждым столбцом строится гистограмма, показывающая распределение данных в нем:
Датасет нужно готовить так, чтобы в каждом столбце находились данные в одном формате и одного типа. Значения должны быть написаны одинаково, с точностью до знака. Если в столбце встречается различное написание или ошибки (например, Массква, Москва, г. Москва) – все должно быть приведено к единообразию. Какие-то столбцы при необходимости нужно разбить, какие-то, напротив, свести в один.
Скажем, таблицы, представленные на сайте Росстата (gks.ru), непригодны для автоматизированной работы с ними. Они неоднородны. Их строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них». Такую таблицу можно только изучать, а проводить по ней анализ и строить графики нельзя. Ту же таблицу про причины смертности можно было бы переделать, например, так:
Подготовительная работа крайне важна. От нее зависит не только то, насколько удобно вам будет работать в аналитической программе или программе для визуализации данных. Подготовка решает, насколько корректными будут ваши выводы и графики в итоге.
Правила оформления датасета
• Первая строка – заголовки столбцов
• Каждый столбец – отдельная категория
• Данные в столбцах однотипны
• Одно событие или объект – одна строка
• Отсутствие пустых строк и столбцов
Иногда предварительная работа (поиск, сбор, подготовка, очистка данных) занимает 80–90 % времени работы над проектом. И это нормально.
Погружение в тему и контекст
Любые количественные значения, которыми наполнены ваши таблицы, – это не просто циферки. Они возникают не из воздуха. За каждым значением стоит процесс или явление в реальном мире. И эти цифры что-то означают. Они собираются по какому-то принципу, следуя какой-то методологии, с какими-то интервалами, с какой-то погрешностью. И каждая из цифр оценивает какой-то маленький аспект огромной многообразной реальности. Важно понимать, насколько достоверно и в каком качестве данные соотносятся с реальностью, какой контекст за ними стоит.
Одно из российских СМИ однажды опубликовало график, посвященный числу эмигрантов из России по годам. И сделало вывод, что в нашей стране все настолько плохо, что с 2012-го года, с третьего срока Путина, народ массово покидает страну. Шутка ли – 300 тысяч эмигрантов в год! Это население крупного областного центра.
Однако же данные эти на самом деле совсем не однозначны. Природа показателей, стоящих за этими цифрами в разные периоды, различна.
Первое, о чем следует сказать: по тем же данным, за тот же период в Россию въехало в два раза больше людей:
И, что более важно, этот график о совершенно разных группах людей. По-хорошему, их вообще нельзя ставить на общую ось. Оказывается, за последние 15 лет Росстат дважды менял методику подсчета мигрантов. С 1997 по 2006 год учитывались только те, кто получил вид на жительство в России или снялся с учета при переезде за границу. С 2007 по 2011 год – получившие разрешение на временное проживание. А с 2012 года (как раз!) стали считать всех, кто въехал в Россию или выехал из нее на срок от девяти месяцев по любой причине.
Согласитесь, между получением вида на жительство и въездом на срок от девяти месяцев есть существенная разница. Куда же все уезжают? В основном в страны Средней Азии и Украину. То есть на самом деле график показывает возросший объем трудовой миграции между странами бывшего СССР. Какова же доля уезжающих в страны дальнего зарубежья по сравнению с концом 1990-х годов?
Она стала гораздо меньше. Особенно хорошо количество уезжающих на Запад видно на этом графике:
Как видим, между 300 тысячами в год и 10 тысячами в год огромная разница.
Насколько этим данным Росстата можно доверять? Есть ли какие-то недочеты в их методологии? Да, есть. Росстат фиксирует выезд человека из России автоматически, по факту истечения срока разрешения на въезд. Так трудовые иммигранты, не продлившие документы, по данным Росстата «становятся» эмигрантами.
При этом никак не учитываются россияне, которые не снимаются с регистрационного учета, уезжая из страны. А таких людей с каждым годом становится все больше. На учет в консульствах западных стран встает в 3–5 раз больше эмигрантов из России, чем фиксируется Росстатом. Тем не менее, говорить о существенном росте количества уезжающих из страны нельзя.
Серые отсечки показывают миграционный баланс – разницу между приехавшими и уехавшими из России с учетом данных консульств принимающих стран. С одной только Германией отрицательный миграционный баланс составляет 10–15 тысяч человек в год. Это значит, что в Германию переезжает на 10–15 тысяч россиян больше, чем граждан Германии переезжает в Россию.
В целом в Европу, США и Канаду ежегодно уезжает около 50–70 тысяч россиян.
Тема непростая: в последние годы размывается само понятие эмиграции, ее становится все сложнее отслеживать и фиксировать.
Без погружения в тему и понимания связей между данными и реальностью создать эффективную, дающую инсайты визуализацию практически невозможно.
Представьте, что ваша компания опиралась бы на анализ уровня этого СМИ? К каким неверным действиям это могло бы привести!
В каждой отрасли знания есть свои значимые аспекты. Если вы хотите разобраться в них, но ваших знаний не хватает – обратитесь к эксперту. Вам нужен специалист, который непосредственно работает с этими данными. Если вы сотрудник, которого попросили сделать инфографику, именно ваша задача – обсудить с заказчиком или начальником, что в данных самое значимое, ключевое.
Знать основы статистики
Чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики. Если вы уже изучали статистику – самое время вспомнить о ней. Это нужно, чтобы избежать бессмысленных и некорректных вычислений и визуализаций на их основе.
Необходимо получить принципиальное понимание, какие расчеты приводят к вызывающим доверие результатам, а какие – нет. Уходить при этом в дебри и подробно разбираться в формулах и сложных видах статистического анализа совершенно необязательно.
Вот, например, карта России. Угадайте, какой показатель здесь закодирован оттенками цвета?
Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург, Краснодарский край. Если любые статистические данные по регионам России не пересчитывать на количество населения, вы всегда будете получать подобную карту.
Например, мы изучаем смертность в ДТП. Здесь важно понять не сколько всего было жертв ДТП в каждом регионе, а сколько их было на каждую тысячу проживающих.
Вот карта общего числа преступлений по регионам за 2018 год в абсолютных числах. Она почти идентична карте, показывающей население:
А вот количество преступлений на 10 000 человек:
Картина меняется радикально. Данные по регионам почти всегда нужно нормировать, то есть приводить к количеству населения или к площади.
Нельзя вольно обращаться и с процентными значениями. Обычно их нельзя просто так складывать или высчитывать из них среднее.
Допустим, нам известно, что 18 % взрослых и 21 % детей в России страдает аллергией. Из этого совершенно не следует, что аллергией страдает 39 % населения, как это показывает картинка выше. Также из этого не следует, что процент аллергиков среди населения всех возрастов равен 19,5 ((18+21)/2). Чтобы узнать процент аллергиков всего среди населения, нам нужны дополнительные данные. Необходимо знать процент взрослых и детей в России. Допустим, детей 10 %, а взрослых – 90 %. Теперь проводим следующие вычисления: (90 × 0,18 + 10 × 0,21)/100 = (16,2 + 2,1)/100 = 18,3 %.
Быть аналитиком. Задавать вопросы
Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.
Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:
• статистического
• визуального
Статистические методы используются для того, чтобы узнавать:
• количество значений в каждой категории
• распределение значений внутри категории: какие значения встречаются чаще, какие – реже
• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана
• максимальные и минимальные значения и так далее
Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.
Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.
Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.
Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.
Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.
Поэтому автоматический инструмент анализа данных до сих пор не создан. А вот логику статистического и визуального анализа вполне можно понять. Для этого загрузите свою таблицу в Google Sheets (Гугл Таблицы). Затем нажмите в правом нижнем углу кнопку «Анализ данных». Сначала вы увидите ключевые числа, описывающие датасет. Ниже – сводные таблицы и графики. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд, участвовавших в Чемпионате мира по футболу-2018:
В правом нижнем углу рабочей области есть зеленая кнопка «Анализ данных». Выделим столбец с зарплатами, нажмем на кнопку:
Сверху мы получим результаты статического анализа – ключевые значения, описывающие столбец с числами:
Теперь выделим всю таблицу. Мы получим гораздо больше результатов автоматизированного анализа:
Как видите, весьма неплохо! Мы получили и ключевые значения, описывающие датасет, и сводные таблицы, и поисковые визуализации. Скорее всего, именно такие графики мы бы построили сами, пытаясь понять данные.
Конечно, они далеки от оптимальных и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные круглым значениям (раньше они были кратны 800000):
Работа функции «Анализ данных» хорошо показывает процесс анализа данных и основные его компоненты. В том числе создание сводных таблиц, необходимых для получения агрегированных, обобщенных данных. Что это такое и зачем нужно, мы обсудим немного позже.
В анализ обычно включаются основные показатели:
• количество значений
• максимальное, минимальное, среднее значение
• топ-5, топ-10
• распределение значений внутри категории
• динамика
• какой процент к целому составляют значения
• разница в абсолютных цифрах и в процентах (например, со средним/прошлым)
Итак, как найти важное и интересное в вашем датасете?
Для начала – понять, какие значения в вашем наборе данных встречаются чаще, какие – реже. Выявить тенденции и тренды, понять, что из них выбивается. Затем нужно начать задавать вопросы, проверять гипотезы. Общайтесь со своим набором данных, как вы общались бы с человеком.
Вопросы могут быть такими:
• Кто лидеры рынка? Отстающие?
• В каком регионе максимальные продажи?
• Какой средний чек?
• Кто лидер по KPI?
• Как изменился уровень продаж за последние полгода?
Или гипотезы:
• Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?
• Правда ли, что на конверсию больше всего влияет канал продаж?
Вы можете задавать датасету все вопросы, которые кажутся вам важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то. У вас могут возникнуть новые мысли, которые вы захотите проверить. Продолжайте этот процесс, пока не поймете, что узнали все, что вам было нужно.
Именно из ответов на ваши вопросы и результатов проверки гипотез появятся основные мысли – сообщения, которые мы будем представлять в виде графиков.
Создание новых данных внутри датасета
Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.
Уровень агрегированности (обобщенности, детализации) данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неагрегированной форме. Для каждого тренера выделена отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести агрегацию по результату команд. Сервис посчитал среднюю зарплату тренеров команд, не вышедших из группы и прошедших дальше.
Иногда же таблицы к вам поступают (например, от аналитиков) уже агрегированными (сводными). Это удобно, так как вам не нужно проводить эту работу. Однако, если данные сильно различаются в широком диапазоне, их усреднение может сильно исказить общую картину.
Вот таблица со статистикой посещаемости первого сезона ютуб-программы «вДудь»:
Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Оформление не имеет для них существенного значения. Это важно для финальных графиков, которые готовятся к размещению в презентации или для публикации. А для поисковых визуализаций мы просто оставим стандартные настройки программы (в данном случае для визуального анализа мы использовали Tableau).
Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов – чуть более 124 млн, всего роликов за период – 34, среднее количество просмотров каждого ролика – 3,64 млн, минимальное (режиссер Хлебников) – 1,6 млн, максимальное (Слава КПСС) – 6,6 млн.
Первый ролик вышел 7 февраля, последний – 18 октября 2017 года.
Посмотрим динамику просмотров по датам:
Очень удачная визуализация, которая дает представление о взлетах и падениях популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики.
Чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим линейный график на столбиковую диаграмму:
Становится интересно, в какие дни чаще всего выходили интервью, смотрим:
Выпусков в среду было меньше, чем во вторник, но медиана просмотров у них больше. Медиана – это число в середине набора чисел. Половина чисел расположена ниже этого значения, половина – выше.
Чтобы понять почему так вышло, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.
Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие:
Самое время более наглядно изучить, какие ролики самые популярные, а какие – наоборот:
По-хорошему нам надо сделать поправки на то, как долго ролик находится на ютубе и на количество подписчиков в момент выхода программы. Например, видео с Познером добавлено ровно в день составления датасета и наберет еще немало просмотров. Сейчас мы опустим эти моменты для понимания главного.
Что еще может нас заинтересовать? Вот распределение роликов по месяцам и по количеству просмотров:
Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако даже в процессе беглого анализа мы уже агрегировали и создавали новые данные в наборе! Мы объединяли данные, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.
Новые данные в набор (скажем, даты рождения участников) мы можем добавить и из других датасетов или определить самостоятельно. Давайте добавим новый столбец, в котором укажем основную область деятельности участников интервью:
Теперь мы можем не только увидеть, кто из гостей Дудя более популярен, но и узнать, персонажи из каких сфер людям более интересны.
Или объединить их:
Или даже посмотреть, когда именно и как часто гости из разных сфер приходили к Дудю:
А теперь размером кружочка закодируем число просмотров, то есть добавим еще одно измерение:
Эти визуализации дают нам много интересной информации. Например, что в марте-мае Дудь пообщался с тремя видеоблогерами и больше их не звал, что кинодеятели приходят примерно через равные промежутки времени. Чтобы получать детальную информацию, можно использовать интерактивные возможности вашего софта для визуального анализа:
Чтобы находить в датасетах интересное, вам наверняка придется агрегировать данные и создавать новые – качественные и количественные.
Формулируем сообщение
Вспомним, что визуализация данных – инструмент нашей коммуникации. Чтобы она состоялась, нужно сообщение. И чем это сообщение яснее и четче, тем эффективнее коммуникация.
Чтобы сформулировать сообщение, нам и нужен анализ данных. Сообщение стоит формулировать после анализа или в процессе, но никак не до него, пытаясь подогнать данные и графики под заранее готовые мысли или шаблоны.
Автор Хоакин Вийера, графический дизайнер английского издания Гардиан
Сообщение обычно формулируется в терминах трендов, паттернов, изменения динамики, характера распределения, связи одних данных с другими. Например, повышение/снижение, сезонность, характер роста, сравнение относительно других, занимаемое место.
По результатам анализа датасета мы можем сформулировать несколько сообщений – важных и интересных особенностей, которые мы обнаружили. Часть сообщений можно попробовать донести с помощью графиков.
Чтобы окончательно сформулировать сообщение, вам потребуется как-то интерпретировать то, что вы нашли внутри датасета. Для этого нужно найти эксперта, который хорошо понимает, как эти данные связаны с реальностью. Или самому стать таким человеком. Иногда наиболее интересные выводы появляются там, где данные и ваши аналитические находки расходятся с мнением экспертов. За этим может лежать настоящая история и настоящее расследование.
Иногда информация в реальном мире может стать отправной точкой для ваших вопросов к данным и их анализу. Допустим, руководитель отдела кадров говорит вам, что по его ощущениям многие сотрудники со стажем работы 1–2 года покидают компанию. Вы можете запросить и подготовить данные, которые это подтверждают или опровергают.
При общении с экспертом будьте осторожны, не совершите другой ошибки: когда еще до начала анализа вы уже имеете представление о том, что должно быть в данных. Тогда анализа данных не произойдет вовсе или находки будут игнорироваться.
Еще хуже – когда у вас уже заготовлены слайды с определенным посылом. И вы просто хотите вставить в работу графики, подтверждающие ваши заготовки. В реальности может оказаться, что данные, а за ними и графики, вовсе не подтверждают ваши мысли. Это одна из причин, по которой мы часто видим слайды, графики на которых противоречат заголовкам.
Про объективность, честность, непредвзятость
Вы можете очень хотеть убедить кого-то в чем-то. Однако, если данные не подтверждают вашу правоту, не стоит пытаться произвести нужное вам впечатление с помощью различных ухищрений. Возможно, в краткосрочной перспективе вы будете убедительны, но рано или поздно правда раскроется.
Не секрет, что статистика и визуализация данных могут лгать. На самом деле они вообще никогда не говорят правду – это всегда взгляд с той или иной степенью точности по отношению к реальности. Но вы можете стремиться к объективности, насколько это возможно.
Классический пример – рост ВВП в годы индустриализации в СССР. Возьмем уровень ВВП СССР и ведущих капиталистических стран в 1928 году за ноль. Теперь попробуем пересчитать, как он изменился за десять лет в процентах к исходному. Нашему взору откроется такая картина:
«График патриота»
Примерно по тому же принципу в СССР строились пропагандистские графики. Мелким шрифтом написано «На сравнимой территории в процентах к 1937 году»:
И все же: разве тут что-то неверно? СССР, переживший гражданскую войну и революцию, показывает феноменальные темпы роста ВВП, обгоняя ведущие капиталистические страны. Экономика СССР развивается быстрее всех в мире! Обманывает ли этот график? С одной стороны, числа, на основе которых он построен, – верные. С другой стороны, если мы возьмем абсолютные значения, то получим совершенно другое впечатление:
«График либерала»
Оказывается, в абсолютных числах рост не такой впечатляющий. Несмотря на успехи, отставание от ведущих стран остается кратным. Кроме того, СССР в этом графике стартовал с очень низкой базы. 1927–1928 годы – это период, когда экономика только восстановилась до уровня 1913 года.
Так какой из графиков верный и какой именно показывать читателям? Это зависит от задачи и от ситуации. Каждый из графиков дает разный взгляд на одну и ту же ситуацию. Если вы хотите быть максимально непредвзятыми, имеет смысл показать оба.
Главное в третьей главе
• Убеждает не график, а данные, которые он доносит до читателя.
• Чтобы график был убедительным, нужно хорошо разбираться в теме.
• Анализ бывает статистический и визуальный.
• Основа аналитики – вопросы и проверка гипотез.
• Старайтесь верно интерпретировать находки, сделанные в результате анализа.
• Не подгоняйте презентацию и графики под заранее придуманные выводы.
• Старайтесь быть честными с вашей аудиторией.
Глава 4
Когда визуализация данных не нужна
Зачем мы вообще пытаемся визуализировать данные? В большинстве случаев – чтобы ускорить считывание информации. График дает мгновенное понимание того, в чем пришлось бы долго разбираться, изучая ряды цифр в таблице.
Просто число
Но иногда визуализация данных не нужна.
Например, на этом слайде презентации Управления делами президента визуализация не дает нам больше понимания. График скорее уводит от сути. Насколько нам важно точное число письменных обращений на прямую линию президента? Отдельно усложняет понимание то, что линия времени идет справа налево. В любом случае, акцент здесь сдвигается на сравнение количества обращений, поступивших на разные прямые линии. При этом в тени остается факт, что на каждую прямую линию приходит 20 тысяч (!) письменных обращений.
Для презентации можно было попробовать сделать так:
В динамике был бы смысл, если бы число обращений явно росло или падало. Или были представлены данные за более значительный промежуток времени с каким-то явным трендом.
Это относится к большинству случаев визуализации данных. Обычно результаты в презентации нужно визуализировать, если графики показывают что-то значимое, важное или интересное.
Слово о таблицах
В большинстве случаев таблицы в презентациях лучше не использовать. Чтобы оценить взаимоотношения между числами в таблице, требуется гораздо больше внимания и усилий. В рамках презентации это помешает зрителю внимательно слушать спикера. И, конечно, ваша аудитория не получит той наглядности, которую дал бы ей график.
Но иногда таблицы уместны. Например, в научных работах или когда вы хотите сосредоточить внимание читателя на конкретных числах. Допустим, представлены совершенно разнородные данные в разных единицах измерения. Или данные, которые не требуют прямого сравнения – например, характеристики тарифных планов или технические параметры устройств:
Линейка новых IPhone – 2019
Таблицы можно вставлять в приложение к презентации, отчету или научной работе, когда нужно предоставить первоисточник данных или показать данные разного уровня детализации (например, исходные, неагрегированные данные).
Также таблицы были и остаются отличным способом организации и структурирования числовой информации.
Если в вашей таблице есть числовые значения, как ее лучше оформить?
Основные правила:
• Числа всегда выравниваются вправо, текст – влево. Это помогает очень быстро понимать содержимое столбцов и удобно их читать.
• Числа округляются до одинаковых разрядов и выставляются разряд под разрядом. Только в этом случае их удобно сравнивать (см. пример ниже).
• Заголовки выравниваются так же, как содержимое столбца.
Дополнительные соображения:
• Желательно, чтобы линии между строками были видны как можно меньше (или вообще не видны). От них рябит в глазах. А еще разделительные линии отвлекают от самих значений, мало помогая считывать их по рядам. Значения отлично считываются и без них, если таблица правильно отформатирована.
• Линии между столбцами не требуются, если все остальное сделано правильно.
• Аналогично с цветом. В закрашенной таблице или той, где используется чересполосица – чередование оттенков одного цвета – зрительной доминантой становится сам цвет. Хотя по факту он не несет никакой функциональной нагрузки и только отвлекает от информации.
• Лучше использовать для чисел моноширинный шрифт: с символами одной ширины, например, Courier или PT Mono. Так числа удобнее сравнивать в одном столбце.
• Единицы измерения указывают сверху, в шапке.
• Количество текста в заголовках должно быть сведено к минимуму, повторяющиеся слова вынесены за пределы ячеек.
• Бывает, что в названиях столбцов слишком много текста. Иногда имеет смысл развернуть таблицу на 90 градусов, чтобы таблица стала более читабельной.
Давайте посмотрим пошаговый процесс улучшения таблицы:
Для начала уберем рамки и цвет:
Выровняем текст по левому краю, числа и даты – по правому:
Уменьшим количество знаков у длинных чисел:
Подберем оптимальную ширину столбцов и высоту строк. Таблица стала гораздо компактнее:
Добавим линию, отделяющую заголовочную строку (хотя это необязательно) и немного отобьем строки про «Фантастических тварей»:
Поменяем шрифт. Числа и даты наберем моноширинным начертанием, чтобы каждое число стояло друг под другом по разрядам:
Сделаем финальные штрихи. Поменяем местами столбцы, чтобы они выглядели логичнее: сначала бюджет, потом сборы, потом место по сборам в мире. Немного уменьшим расстояние между строками:
Таблица стала компактнее. Значения в ней удобнее сравнивать, хотя мы убрали разделительные горизонтальные линии.
Мы улучшили оформление этой таблицы, но для презентации лучше превратить ее в визуализацию данных. В качестве своеобразной переходной или гибридной формы между таблицами и диаграммами могут использоваться таблицы со встроенными в них графиками:
Таблицы как тепловые карты
Таблица может стать более наглядной и информативной, если ее ячейки раскрасить цветами и их оттенками пропорционально значениям. В этом случае она становится одним из способов графического представления данных – тепловой картой (heatmap, хитмэп). Тепловая карта может быть очень удобна при первичном изучении данных в табличном редакторе как одна из разновидностей поисковой визуализации данных:
Исходная таблица
Тепловая карта
В отличие от нераскрашенной таблицы тепловая карта отлично показывает, что по сравнению с 2000 годом идет общий тренд на снижение безработицы во всех субъектах Центрального региона. В Москве самый низкий уровень безработицы, даже ниже, чем в Московской области. А в 2009 году все ощутили последствия финансового кризиса, но Москва же быстрее всего восстановилась после него. Показывает, что кризис 1998 года сказался на экономике значительно сильнее. Что Липецкая область почти не пострадала после кризиса.
Хитмэп – настолько мощный и сильный способ визуализации, что на его использовании может быть построена сильная история. Как этот проект Wall Street Journal, визуализирующий большой массив данных о заболеваемости детскими инфекциями в США:
Изменение заболеваемости корью в Америке до и после изобретения вакцины
Помимо наглядного представления большого количества временных рядов, тепловая карта также помогает проводить мультикатегориальное сравнение (см. главу 6).
Глава 5
Как устроена визуализация данных, виды графиков
Коснемся терминов, которые используют для обозначения графического представления числовых данных. Обычно все, что строится непосредственно в декартовой системе координат, называют графиками (graphs): линейный график, график рассеивания, график функции. Остальные виды визуализации – это диаграммы (charts): столбиковая диаграмма, круговая диаграмма и так далее. Хотя в обиходе и в этой книге это взаимозаменяемые понятия.
Суть визуализации данных
Суть визуализации данных – в переводе чисел на язык графических образов. Иными словами, в кодировании числовых значений визуальными объектами. Непонятно? Сейчас все разберем.
Кодировать можно сотнями способов, даже два одинаковых числа можно закодировать совершенно по-разному (см. далее эксперимент Сантьяго Ортиза). Вот почему сам факт кодирования еще не решает задачу донесения сообщения или упрощения восприятия числовых значений и взаимоотношений между ними.
В 2010 году Сантьяго Ортиз провел эксперимент: он предложил студентам найти максимально возможное количество вариантов визуализации двух чисел, 75 и 37. Задание заняло больше двух часов, и в результате получилось 45 различных видов визуализаций (а реальных примеров было еще больше):
1. Запись числа
2. Плитки из квадратов
3. Повторяющиеся иконки
4. Десятки и числа от 1 до 10, представленные квадратами
5. Столбики и линии
6. Линейный и площадной график
7. Столбики, равные 100%
8. Столбики с накоплением
9. Пропорции (предполагая, что одно из чисел – часть другого)
10. Интервал
11. Квадраты с накоплением
12. Вафельные графики
13. Круговые диаграммы
14. Кольцевая диаграмма
15. Пузырьковая диаграмма
16. Полупузырьки
17. Круг и внешнее кольцо
18. Круги с общим центром
19. Разделенный квадрат
20. Разделенная фигура
21. Площади квадратов
22. Площади фигур
23. Фигуры разной формы
24. Площади иконок
25. Высота иконок
26. Объем фигур
27. Особые метафоры
28. Оттенки серого
29. Оттенки цвета
30. Геометрические пропорции
31. Горизонтальные/вертикальные пропорции
32. Координаты
33. Углы
34. Географические координаты
35. Столбиковая картодиаграмма
36. Плотность
37. Процентное соотношение/плотность
38. Штриховка
39. Узлы и связи между ними
40. Параметры математической функции
41. Гармонические колебания
42. Частота пульса в минуту
43. Частота вращения в минуту
44. Звуковые колебания в Гц
45. Жирность шрифта
На мой взгляд этот перечень, безусловно, не полон и не включает даже такой распространенный вид визуализации, как гистограмма – распределение значений в наборе данных по интервалам:
Как образуется визуализация данных
При кодировании чисел каждую единицу данных в наборе данных мы превращаем в объект – простую геометрическую фигуру: точку, линию, квадрат, круг. А различные количественные и качественные свойства этой единицы данных зашифровываем визуальными свойствами этого объекта. В качестве визуальных свойств обычно выступает размер, положение, цвет (оттенок, насыщенность, яркость), угол, наклон.
В этом датасете про актеров, которые играли Джеймса Бонда, каждый актер – это одна единица данных. Мы превращаем ее в объект – точку, у нас получается шесть точек. Количество фильмов, в которых актер участвовал, мы зашифровываем положением этой точки относительно базовой линии:
В зависимости от цвета волос (качественное свойство) мы изменяем цвет точек. Цвет точек, соответствующих актерам-брюнетам, сделаем черным. Точке, соответствующей актеру-блондину (он всего один – Дэниел Крейг), присвоим оранжевый:
Добавим подпись для оси X. В легенде объясним значения цветов. По ней читатель сможет раскодировать информацию:
Проведем линию от ноля до точки, соответствующей количеству фильмов. Так будет удобнее сопоставлять актера и количество фильмов, в которых он сыграл.
Мы наглядно увидели, как образуется визуализация данных. И сразу же познакомились с двумя задачами, которая она может решать: графически представлять данные и удобно их сравнивать. В нашем случае сравнение данных происходило за счет того, что все точки стояли на расстоянии, пропорциональном количеству фильмов.
Есть еще одна задача для визуализации: она может обеспечивать ранжирование данных – сортировку по определенному принципу (от большего к меньшему, по алфавиту и так далее). Никогда не стоит пренебрегать этой возможностью. На самом деле наши значения сейчас тоже ранжированы: актеры расположены в хронологическом порядке. Нагляднее будет, если разместить их по убыванию значений:
Определенная комбинация выбранного объекта и свойств образует вид визуализации: столбиковую диаграмму, линейный график и т. п. У нас получилась диаграмма, которая называется lollipop – леденцовая, своеобразный гибрид столбиковой и точечной. Она позволяет сфокусироваться на сравнении между собой окончаний линий, а не размеров столбиков. Ее можно использовать вместо столбиковой.
Эффективность вида визуализации как инструмента донесения сообщения определяется:
• Однозначностью считывания – понятностью. Когда человек быстро понимает, какие именно объекты и их свойства и как именно кодируют числовые значения.
• Тем, насколько удобно и точно он позволяет человеческому глазу раскодировать графические образы обратно в числовые значения.
• И, наконец, самое главное – тем, насколько тип визуализации подходит выбранным данным.
Именно последний пункт в значительной мере определяет эффективность донесения вашего сообщения.
Стоит избегать двойного кодирования, когда одно и то же свойство объекта кодируется сразу несколькими способами – например, длиной и цветом. Это вводит в заблуждение и сразу неоправданно повышает сложность визуализации:
В первом случае количество фильмов закодировано только длиной столбика. Во втором – еще и степенью яркости цвета самого столбика. В этом нет необходимости.
Существует огромное количество геометрических фигур и их визуальных свойств. А число их комбинаций и вовсе стремится к бесконечности. Однако базовых типов визуализации данных совсем немного. Давайте посмотрим на них.
Типы сравнения
Как вы помните, в третьей главе «Формулируем сообщение» мы говорили о том, что ваши находки по результатам анализа данных формулируются в терминах повышения, снижения, влияния одних переменных на другие, характера распределения значений, описания тренда или значений, которые выбиваются.
Можно выделить несколько основных видов взаимоотношений между данными, соответствующих возможным видам сообщений:
1. В основе почти всех взаимоотношений между данными, которые мы можем визуализировать, лежит сравнение. Чаще всего с помощью визуализации данных мы пытаемся понять, какие из значений больше или меньше других и в какой степени.
Понятно, что почти все виды визуализации данных (кроме, может быть, связей) позволяют сравнивать: наглядно видеть, какие числовые значения больше, а какие меньше. Однако первый тип фокусируется именно на сравнении.
Если при этом отсортировать значения, чаще всего от большего к меньшему, то к сравнению добавляется функция ранжирования. Мы получаем возможность ответить на вопрос «на каком месте?».
Основные слова в сообщении для этого типа визуализации – «больше, чем», «меньше, чем», «равно», а также указание на место (при ранжировании).
Примеры сообщений:
Больше всего в 2018 году подорожало пшено – на 38 %.
АФК «Система» занимает третье место по выручке среди системных интеграторов России.
Больше всего пожаров, приведших к человеческим жертвам, было в Смоленской области.
НТВ получило в два раза меньше финансирования, чем Первый канал.
Основной вид визуализации здесь – столбиковая диаграмма:
Второй график – сгруппированная столбиковая диаграмма. Она позволяет сравнивать ряды данных по нескольким категориям (обычно 2–3).
2. Сравнение части с целым. Здесь появляется новое измерение для сравнения: мы можем сравнивать значения, но при этом визуально воспринимать их еще и как отношение доли к целому.
Сообщение формулируется в терминах доли, процентов от целого. Основные слова в сообщении для этого типа визуализации – «доля», «проценты от целого».
Примеры сообщений:
Нелегальные эмигранты составляют четверть всех граждан США, родившихся за границей.
Больше 80 % всей выручки в ритейле уходит пяти компаниям.
Жители Москвы составляют половину всех активных пользователей Facebook в России.
Основной вид визуализации – круговая диаграмма или столбиковая с накоплением:
3. Временное сравнение наглядно фокусируется не на значениях отдельных точек, а на характере изменения показателя во времени.
Сообщение формулируется в терминах, описывающих характер изменения показателя: «растет/падает», «плавно/резко». Также сообщение может фокусироваться на пиках или провалах в динамике.
Примеры сообщений:
Уровень безработицы остается выше на Кавказе в сравнении с другими федеральными округами.
За последние три года в России на 10 % выросла средняя ожидаемая продолжительность жизни.
Количество инвестиций в сельское хозяйство резко снизилось.
Пожалуй, ни один другой тип визуализации, кроме линейного графика, не может показать изменения во времени нагляднее:
Эти три основных вида взаимоотношений между данными закрывают 80–90 % ситуаций, в которых требуется визуализация данных в презентациях.
Реже встречаются следующие типы сравнений:
4. Частотное сравнение или распределение показывает, сколько единиц данных попадает в определенные последовательные интервалы.
Сообщение формулируется в терминах структуры, концентрации, диапазонов.
Примеры сообщений:
Большинство покупок в августе попадало в диапазон от 1000 до 2000 рублей.
В структуре подписчиков канала преобладают люди 25–30 лет.
Основной вид визуализации – гистограмма.
5. Связь (корреляция) между количественными переменными показывает, есть ли зависимость между переменными или ее нет.
Обычно описывается как «при росте X отмечается снижение Y», «чем больше X, тем больше/меньше Y».
Примеры сообщений:
При увеличении площади торговых залов размер средней покупки снижается.
Стаж специалиста не влияет на уровень его заработной платы в компании.
Для двух числовых переменных (ось X, ось Y) классическим способом визуализации зависимости между ними является график рассеивания:
Я предлагаю вам иллюстрированный список с типами визуализаций по группам. Первый график в каждой группе – тот, который в большинстве случаев будет эффективен, если нужно использовать визуализации из этой группы. К уже упомянутым основным типам взаимоотношений между данными добавлено еще четыре, с которыми вы можете встретиться в своей практике.
6. Сравнение отклонения/разницы. Акцентирует внимание на разнице значений с какой-либо фиксированной точкой. Точкой может быть ноль, некий пороговый уровень или запланированное для показателя значение. Можно использовать для наглядной визуализации переменных с полярными порядковыми шкалами типа позитив/негатив. Например, для визуализации результатов опросов.
Является разновидностью сравнения.
7. Иерархия – когда состав значений имеет вложенный характер. Это одна из разновидностей сравнения части и целого.
8. Этапы/процесс/поток. Специфический вид визуализации. Основной из них – потоковая диаграмма, или диаграмма Санкея (по имени инженера Мэтью Санкея). Она показывает, как меняется характер распределения значений во времени или по этапам.
9. Составление профилей/мультивариантное сравнение – сравнение нескольких категорий по нескольким переменным. Часто для этого используется радарная диаграмма типа «паук», однако это крайне неудачный способ визуализации, поэтому он не включен в список.
Как можно видеть из списка, один и тот же тип визуализации может входить в разные группы. Это говорит о том, что он наглядно показывает разные типы взаимоотношений между данными и может эффективно передавать сообщения разного рода.
Такой пример – наклонный график, который сейчас используется недостаточно широко. Наиболее наглядно он показывает характер изменения показателя по двум точкам во времени (вырос/снизился и в какой степени), причем сразу по многим категориям.
Но также наклонный график хорошо показывает и динамику изменений, и ранжирование, и даже распределение. Именно его мы использовали в первой главе, чтобы показать изменения на рынке сыров.
Разумеется, это не все виды графиков, которые вы могли видеть. Как говорилось выше, возможно бесконечное количество комбинаций геометрических объектов и их характеристик.
Когда кажется, что ваши данные очень сложные и ни один тип визуализации не подходит, проблема в другом. Чаще всего – в перегруженности графика лишними данными. Представленных в списке вариантов более чем достаточно для наглядной визуализации и передачи самых разнообразных сообщений.
Важно понимать: для использования в презентациях, о которых мы в первую очередь говорим, самое важное качество графика – способность ясно доносить сообщение до вашей аудитории. С этой точки зрения чем проще и привычнее будет вид графика, тем лучше.
Я не предлагаю полностью отказываться от более сложных и менее знакомых аудитории графиков. Просто их использование должно быть уместным. Например, когда вы лично можете объяснить устройство графика и уверены, что здесь не справится более простой аналог.
Иконка Excel обозначает, что график есть в стандартном наборе диаграмм Excel. Почти все остальные представленные диаграммы относительно несложно реализуются в Excel. Исключение составляют диаграмма Санкея, потоковый график, уложенная пузырьковая и гантельная диаграммы.
Какие графики лучше
Выше мы говорили о том, что одна из важных характеристик типа визуализации данных – то, насколько точно он позволяет раскодировать значения, записанные с помощью геометрических фигур и их свойств.
Проводились исследования на эту тему. Оказалось, что точнее всего позволяют считывать значения точечная и столбиковая диаграммы. А именно – сочетание длины столбика с его расположением относительно базовой (общей) линии. Угол, в частности сектор в круговой диаграмме, считывается значительно хуже. Еще расплывчатее показывают значения разные оттенки насыщенности цвета и объемные фигуры. Речь, разумеется, идет о количественных значениях.
Это не означает, что ими совсем не стоит пользоваться, но нужно понимать степень точности каждой из диаграмм и использовать их сообразно вашей задаче. Если задача – показать разницу или соотношение между значениями более точно, ничто не справится лучше столбиковой диаграммы.
Если же отвечать на вопрос «Какие графики лучше?» в целом, то лучше те графики, которые в конкретной ситуации эффективнее доносят ваше сообщение до аудитории.
Можно выделить несколько критериев подобных графиков:
• точно передают данные
• прочитываются очевидным образом
• компактные
• лишены декоративности, затрудняющей передачу сообщения
Выбор визуализации: ключевой этап
Выбор вида визуализации – важнейший момент в создании понятного, наглядного, эффективно работающего графика. Если на этом этапе возникла ошибка, то дальнейшие многочисленные улучшения, связанные с оформлением графика, не помогут. Мы коснемся темы улучшений графиков в последующих главах.
Вот пример:
Оформление этого графика можно бесконечно улучшать, но в базовой форме выбора визуализации сделана ошибка, поэтому выводы из графика неочевидны.
В первую очередь нас здесь интересует динамика изменения цен на первичном и вторичном рынке недвижимости и как цены соотносятся друг с другом. В этом случае однозначно лучше сработает линейный график. Тогда мы сфокусируемся не на значениях отдельных столбиков, а на общей динамике изменения цен и на разнице между категориями (стоимостью первичного и вторичного жилья).
Что еще влияет на выбор графика
На окончательный выбор графика влияют следующие факторы:
• уровень подготовленности аудитории
• формат
• условия использования
• техническая возможность
• необходимость обновления
Уровень подготовленности аудитории
Если ваша аудитория по роду своей деятельности ежедневно сталкивается со специфическими видами визуализации данных, которые наглядно показывают какие-либо характеристики этой деятельности, будет вполне разумно использовать этот тип визуализации данных.
Скажем, свечной биржевой график (японские свечи) будет привычен и знаком всем, кто работает в трейдерской индустрии. Он имеет множество узнаваемых для специалистов паттернов. Однако если вы захотите ту же информацию передать более широкой аудитории, вам придется использовать менее компактный, зато более понятный линейный график. Или же давать объяснение, как устроен свечной график.
Некоторые паттерны, встречающиеся при использовании японских свечей. Непосвященным они как правило не заметны и не понятны
Формат
В зависимости от того, в какой ситуации используется график, вы можете выбрать тот или иной вид визуализации или особенности его оформления.
Одни графики подходят для портретного формата, другие – для альбомного, одним требуется больше свободного пространства (например, круговой диаграмме), другие более компактны (например, столбиковая диаграмма с накоплением или наклонный график). Отталкивайтесь от своего формата и от конкретной задачи.
Если по какой-то причине вы уменьшаете график, нельзя делать это в ущерб его читаемости. Шрифт должен оставаться достаточно крупным, а геометрические формы – считываться однозначно.
Если ваш график занимает слишком много места, а подписи на нем нужно уменьшать – скорее всего, выбран неудачный вид визуализации. Или же вы попытались отобразить слишком много данных в рамках одной визуализации.
Условия использования
Иногда вы не можете использовать подходящий способ визуализации или цветовое решение: например, вас ограничивает фирменный стиль компании или печать лимитирована по количеству цветов. Но даже в таких случаях нужно добиваться максимальной читаемости и удобства для читателя.
Техническая возможность
Вы можете выбрать очень элегантный и наглядный вид визуализации (например, потоковую диаграмму для распределения бюджета). Но при этом вы не знаете, как ее сделать, или у вас нет подходящего программного обеспечения. Бывает сложно рассчитать, сколько времени займет создание незнакомого графика. Если вы ограничены по срокам, лучше выбрать менее наглядный и компактный, но проще реализуемый вариант.
Необходимость обновления
Если вам нужно регулярно обновлять график, не стоит использовать диаграмму, сделанную вручную в графическом редакторе. Выберите софт для создания графиков с возможностью обновления. Причем такой, в котором при изменении данных настройки оформления будут сохраняться (например, подгонка шкал под полезное пространство).
Все представленные выше ситуации ни в коем случае не означают, что можно игнорировать, насколько график подходит для передачи вашего сообщения. Именно это определяет выбор. Остальные факторы могут повлиять на ваше решение, если у вас есть два-три равноценных по наглядности варианта.
Самое важное – это именно тип визуализации, который основывается на процессе восприятия человеком закодированных в геометрические фигуры чисел, исходя из взаимоотношений между данными.
Глава 6
Основные виды взаимоотношений между данными, как их визуализировать и чем заменять в сложных случаях
Сравнение
Лучше всего для сравнения использовать столбиковую либо линейчатую диаграмму.
Столбик в столбиковой диаграмме представлен линией со вторым измерением – шириной. Ширина линии ничего не означает, она просто делает столбик более заметным. Числовое значение кодируется только длиной столбика и точкой его окончания относительно количественной шкалы.
Эквиваленты столбиков
Вертикальные и горизонтальные столбики
Какой вариант выбрать? В абстрактном случае разницы нет, выбор определяется форматом визуализации – альбомной или портретной. При этом вертикальные столбики считываются чуть точнее.
Столбиковая диаграмма может показывать, как отличается переменная у разных категорий. В этом случае названия категорий могут быть длинными. Чтобы их было удобно читать, проще повернуть график на 90 градусов: из вертикального в горизонтальный формат. Надписи по диагонали также неудобны для чтения и увеличивают размер графика. Лучше использовать горизонтальное положение
Какая ширина должна быть между столбиками?
Четких правил на этот счет нет, но столбики не должны быть слишком широкими или слишком узкими: их ширина не должна обращать на себя слишком много внимания. Важно, чтобы сам вид столбиковой диаграммы предлагал взгляду (и мозгу) сравнивать именно длину столбиков, а не какие-то другие их параметры. В целом соотношение ширины столбиков к пустому пространству между ними 2:1 будет вполне адекватным.
Чем заменить столбиковую диаграмму?
Заменить можно разными вариантами, но Excel в стандартной комплектации почти ничего другого не умеет.
В программе Tableau легко делается уложенная пузырьковая диаграмма. При ее использовании важно, чтобы между значениями был значительный контраст. Иначе все значения будут выглядеть одинаково: наш мозг не умеет сравнивать похожие по площади фигуры. Визуально донести ваш месседж в таком случае не получится.
Не стоит использовать много цветов: вместо того, чтобы сравнивать размер кружков, взгляд будет отвлекаться на цвета.
Другой вариант – леденцовый график, который мы с вами уже видели. Он фокусирует внимание на концах линий, а не на соотношении размеров столбиков. Леденцовый график с небольшими усилиями можно реализовать в Excel.
Не нужно бояться использовать столбиковую диаграмму. Это чемпион по наглядности. А вот пожелания начальства типа «не хочу опять видеть этот забор» скорее всего говорят о том, что человек фокусируется на форме, а не на сути. И это не проблема собственно графика.
Часть и целое
Классический представитель этого вида графиков – круговая диаграмма. Она используется значительно чаще, чем должна. Некоторые специалисты считают, что от использования круговой диаграммы нужно полностью отказаться. Я не разделяю этого мнения.
Тем не менее передать ощущение части и целого нужно гораздо реже, чем мы думаем. Чаще всего мы хотим сравнить компоненты целого между собой. А это круговая диаграмма делает плохо. Она предлагает нашему мозгу сравнивать либо углы секторов, либо визуальную площадь этих секторов. И то, и другое мозг делает плохо – нам гораздо проще сравнить длину столбиков.
Вот вам пример: попробуйте понять, какое значение больше, какое меньше в этой круговой диаграмме.
Превратим те же значения в столбики:
Очевидно, что столбиковая диаграмма помогает сравнить между собой доли значительно лучше.
Если вам все же нужно построить именно круговую диаграмму, сделайте ее максимально наглядной.
Самый крупный сектор должен начинаться с отметки, аналогичной 12 часам на часах, и располагаться по часовой стрелке. Мы смотрим на часы начиная с этой точки.
Лучше всего круговая диаграмма показывает значения, приблизительно кратные 25 % длины окружности в градусах: 90°, 180°, 270°.
Важно, чтобы первый (с 12 часов по часам) и последний сектора были ориентировочно кратными 90°/180°/270°. Это задает условную сетку.
Какие еще ошибки совершают при использовании круговой диаграммы и как сделать лучше:
• Если у вас слишком много категорий, разницу между ними сложно будет понять. Также это приводит к появлению слишком большого количества подписей. Объедините малозначимые категории в сектор «прочее»:
• Никакой псевдотрехмерности! Она очень сильно искажает значения, и в других видах визуализации, кстати, тоже:
Не стоит использовать круговую диаграмму, если наиболее важные для сравнения значения похожи. В таком случае понять разницу на глаз будет невозможно, лучше использовать столбиковую (линейчатую) диаграмму:
Как лучше показывать покомпонентное сравнение?
Как говорилось выше, чаще всего нам нужно сравнение между категориями, а не их доли от общего. Поэтому в большинстве случаев лучше использовать столбиковую диаграмму. Если речь идет о долях, можно перевести абсолютные значения в процентные.
Если вам важно сохранить ощущение доли, лучше использовать столбиковую (линейчатую) диаграмму с накоплением. Она компактнее круговой диаграммы и позволяет точнее считывать значения. В этом случае категории должны располагаться слева направо (или снизу вверх) от большего к меньшему значению. Если это играет роль, можно специально отметить на графике 50 %:
Другие варианты:
1) Кольцевая диаграмма – разновидность круговой. В ней считывать данные еще сложнее: значение кодируется не углом, а длиной дуг, из которых собирается круг.
Кольцевая диаграмма может быть уместной, когда значения имеют явный контраст и их мало. Тогда в центре можно поместить сумму в абсолютных значениях.
Как и круговая диаграмма, кольцевая не отличается компактностью и требует решения, как лучше разместить подписи и названия категорий:
Кольцевая диаграмма в окне программы Huawei Health для мониторинга физической активности
2) Вафельный график. Он подходит, когда категорий достаточно много и для каждой нужно сохранить ощущение доли от целого. Хорошо показывает заполненность или степень достижения целевых показателей.
Наиболее уместен, когда значения кратны целым числам, а сама «вафля» равна 100 %.
3) Тримэп (treemap, дерево). График появился в Excel в 2016 году, однако исследования показывают, что людям сложно его считывать. Использование может быть оправдано, если данные имеют иерархическую структуру (1–2 уровня вложенности).
А вот в случае интерактивности тримэп однозначно выигрывает у круговой диаграммы и у многоэтажной круговой (солнечные лучи): навести на квадратики значительно проще, чем в узкий сектор.
Не забывайте – раскрашивания категорий в случайные цвета лучше избегать.
Работа автора. Интерактивный проект, посвященный переписи населения России.
Изменение во времени
Лучшая форма для сообщения об изменении одного или нескольких показателей в динамике – это линейный график.
Линия в данном графике не кодирует числа, это делают точки, отложенные по двум осям. Ось X – прямая времени, ось Y – непрерывная числовая шкала. Однако именно линия, соединяющая точки, делает график таким наглядным.
Степень наклона линии дает взгляду большее количество информации в более привычной для мозга манере, чем только точки. Мы считываем тренды (рост/падение), характер тренда (плавный/резкий), ритм, сезонность, пики и провалы. Каждый из этих аспектов может превратиться в сообщение, которое вы хотите продемонстрировать на линейном графике.
Можно ли линию заменить столбиками?
Можно, но нежелательно. При их использовании мы фиксируемся на оценке отдельных столбиков и разнице между ними. А в случае линии – именно на характере изменений в целом за весь период времени.
Какую размерность выбрать для линейного графика? Можно ли обрезать шкалу?
В отличие от столбиковой диаграммы, шкалу количественных значений (ось Y) в линейном графике обрезать можно. Однако лучше сохранить ноль, если это не помешает читабельности графика. Сохранив ноль на графике, вы добавите целое измерение для сравнения.
С обрезанной шкалой линейный график позволяет визуально сравнивать лишь разницу между соседними точками. С полной шкалой – дополнительно показывает разницу между точками и базовой линией. Так мы видим контекст и можем оценить изменения.
Вот пример графика с обрезанной шкалой:
В данном случае взгляд фокусируется на динамике. Мы видим, что в первые пятьдесят лет отмечался относительно плавный рост с некоторыми спадами, затем было условное плато, а после 2000 года началось резкое снижение. Складывается впечатление, что произошло настолько значительное снижение, что сотрудников в газетах и вовсе не осталось.
Если построить график от нуля, мы можем увидеть степень роста и падения относительно общего количества журналистов. Мы видим, что количество журналистов сократилось втрое. Однако нам понятно, что журналистов осталось еще достаточно много. При этом описанный выше паттерн изменений тоже считывается предельно четко:
В каких-то случаях будет уместно сделать два графика. Например, когда вам важно показать и общий рост, и детальный характер его небольших изменений.
Обрезана шкала или нет – должно быть очевидно из отметок на шкале. Отметки должны быть явно указаны, ведь это напрямую влияет на понимание линейного графика и декодирование его значений.
Что касается масштаба (размерности) оси Y, разные авторы (Тафти, Кливленд) говорят о среднем угле наклона линейного графика в 45 градусов. Однако к этому стоит подходить с позиции здравого смысла и понимания самих данных. Возможны две крайности:
График слишком пологий для реального характера изменений, то есть в реальности изменения более значительны.
Перепады в графике излишне крутые за счет шкалы/размера, в реальности их можно оценить как весьма скромные.
Методом подбора нужно добиваться такой размерности линейного графика, которая позволит сохранить и передать субъективное ощущение от изменений.
Отдельно хочется отметить: если шкала обрезана, график не должен начинаться от крайней минимальной точки обрезанной шкалы. Идеальный вариант – оставить примерно 1/10 пустого пространства сверху и снизу графика. Это будет однозначно указывать на то, что график начинается не от ноля.
Если данные отсутствуют, что делать?
Если на какой-то момент числовое значение отсутствует, лучше обозначить это явным образом – пропустить в этом месте линию на графике.
Отсутствие значения не равно нолю, увести в этом месте линию в ноль – грубая ошибка. В таком случае график будет однозначно указывать на резкое снижение, а затем резкий подъем, что никак не соответствует реальности:
Вот как это можно сделать в Excel. Нажимаем на диаграмму, в верхнем меню программы выбираем: конструктор → выбрать данные → скрытые и пустые ячейки → показывать пустые ячейки как пустые значения:
Можно ли сделать из линейного графика площадной – закрасить его под линией? Можно ли обрезать шкалу в таком графике?
На практике подобный прием иногда используется в декоративных целях, например, в биржевых дэшбордах. Важно понимать: закрашенная площадь становится эквивалентна столбикам, где сама площадь начинает кодировать значения.
И в таком случае обрезать шкалу и удалять часть площади – значит просто удалять часть значений. Некоторые авторы категорически не рекомендуют этого делать.
Я тоже не одобряю использование этого приема. Если вы все же решили к нему прибегнуть, лучше делать это максимально деликатно: сделать заливку полупрозрачной, использовать градиент, уходящий темной частью вниз. Это даст понять, что визуализация построена не от нуля и не отражает общее количество.
Распределение
Графики, показывающие распределение, используют реже, чем стоило бы.
Гистограмма – классический способ показать распределение данных внутри одного ряда. Она демонстрирует, сколько значений переменной попадает в последовательные интервалы. Есть несколько основных правил использования гистограммы.
1) В большинстве ситуаций интервалы на порядковой шкале должны быть равными. Так распределение считывается наиболее наглядно:
Казалось бы, первый вариант показывает нормальное распределение. Однако это впечатление обманчиво: на самом деле гистограмма здесь смещена вправо.
2) Интервалы нельзя пропускать! Так теряется возможность наглядно увидеть выбросы значений:
Разница со столбиковой диаграммой
Гистограмма и столбиковая диаграмма – это ведь одно и то же? Нет, они принципиально отличаются, хотя и выглядят похоже.
Между столбиками в гистограмме обычно не оставляют пустого пространства, подчеркивая непрерывность интервалов. По оси X в гистограмме расположена количественная шкала (в виде последовательных интервалов), а в столбиковой диаграмме – категориальная. Причем этих интервалов обычно нет в изначальном датасете, они выбираются произвольно. Столбики в столбиковой диаграмме можно сортировать, например, от большего к меньшему, или по алфавиту. В гистограмме сортировать данные не получится, так как интервалы идут по порядку, от меньших значений к большим.
Кстати, гистограммы появились в стандартных диаграммах Excel в 2016 году.
Как выбирать интервалы?
Слишком маленькие интервалы показывают данные чрезмерно детализированно, затрудняя восприятие паттерна. Слишком большие интервалы чересчур обобщают, из-за чего теряются важные особенности характера распределения. Нет единого рецепта, нужно найти здоровый баланс между двумя крайностями.
В приведенном примере интервал 0,5 кажется наиболее сбалансированным.
Альтернативы гистограммам
Гистограммы особенно уместны в презентациях в силу своей исключительной понятности и наглядности. Но если вам нужно показать распределение по нескольким рядам данных, для достижения компактности можно использовать и другие графики.
Высокой плотностью данных отличаются баркод-плот и стрип-плот:
Работа автора
Если вы хотите использовать эти графики в презентациях, лучше применять акцентное выделение. Мы обсудим это в седьмой главе.
В научных работах широко используют график «ящик с усами», который является «сплющенной» гистограммой. Дополнительно он указывает на медиану, а также более компактно показывает характер распределения:
Автор Андрей Дорожный, визуальный журналист
В презентации для широкого неподготовленного читателя использование «ящика с усами» вряд ли будет уместно.
Корреляция/взаимосвязь
График рассеивания – классический способ показать взаимосвязь. На оси X показана одна количественная переменная, на оси Y – другая. По направлению, его выраженности, по форме расположения точек можно судить о наличии/отсутствии и силе взаимосвязи, о характере корреляции между переменными.
Чаще всего людей интересует, есть ли связь между переменными, положительная она или отрицательная. Если связь положительная, при возрастании значений одной переменной возрастают и значения другой. Классический пример – положительная связь между расходами на маркетинг и объемом продаж.
Есть мнение, что широкая аудитория гораздо хуже понимает графики рассеивания, чем столбиковые, круговые и линейные диаграммы. В одном из крупнейших мировых СМИ – Нью-Йорк Таймс – долгие годы существовал запрет на использование графиков рассеивания.
Я считаю, что в ряде случаев графики рассеивания все же могут быть эффективными и наглядными, в том числе и в презентациях. Безусловно, они предполагают личное объяснение.
Кроме того, существует прием, который может сделать графики рассеивания гораздо более наглядными. Это объединение точек в группы и разделение пространства системы координат на смысловые зоны. Выделение смысловых зон можно сделать по среднему или медианному значению по каждой из переменных (губернаторы на примере ниже). Или на основе других значений.
Работа автора
Выделение смысловых зон значительно облегает считывание информации на графике. Оно позволяет донести сообщение с помощью объединения значений в группы.
Альтернативы
Одна из популярных альтернатив для показа взаимосвязи между двумя переменными – две линейчатые диаграммы, расположенные рядом. Они делают очевидной обратно пропорциональную связь: в одном ряду значения возрастают, а в другом, соответственно, убывают.
Часто для показа взаимосвязи используют комбинированные диаграммы, сочетающие столбиковую диаграмму и линейный график. Обычно, это не самое удачное решение, так как может создавать ложное ощущение корреляции.
Если вы все же решили использовать подобную комбинированную диаграмму, стоит соблюдать несколько правил:
• Не больше двух рядов данных на одном графике. Если нужно больше, лучше сделать несколько графиков
• Четкое указание на то, какая шкала к какому ряду данных относится
• Использование сопоставимых размерностей у шкал. Если в одной размерности определенное расстояние означает, что показатель изменился вдвое, то и в другой должно быть то же самое. Иначе можно легко ввести читателя в заблуждение относительно предполагаемой причинной связи между переменными
• Если это уместно, лучше использовать проценты от исходного уровня вместо абсолютных значений
В этом варианте графика крайне сложно понять степень роста каждого показателя относительно друг друга. Чтобы сделать его очевидным, перестроим оба графика:
Для более глубокого понимания передаваемых сообщений с помощью пяти основных видов диаграмм рекомендую обратиться к классическому труду Джина Желязны «Говори на языке диаграмм».
Отклонение значений/разница
В ряде случаев основное сообщение сфокусировано на разнице одних значений с другими. Например, вам нужно рассказать о достижении плана или перерасходе бюджетных средств.
Посмотрим на таблицу, которая характеризует годовую выручку компании по федеральным округам в миллионах рублей. Рядом приведены данные по средней выручке топ-3 компаний на рынке в этих же федеральных округах:
Обычный график мог бы выглядеть так. Мы отсортировали округа по выручке и можем удобно сравнить их по этому параметру. Еще мы можем сравнить результаты со средней выручкой лидеров в округе:
Нагляднее и компактнее среднюю выручку лидеров показывать чертой:
Однако считать разницу между выручкой и референсом на глаз неудобно, поэтому можно посчитать ее и показать на графике:
Чтобы оценивать эффективность работы филиалов, логично пересчитать эти данные в процентах:
На чем в итоге остановиться? Это зависит от того, какой параметр выбран для оценки эффективности и какое именно сообщение вы хотите передать. В каких-то ситуациях адекватно будут выглядеть два графика рядом.
Здесь на одном филиалы ранжированы по выручке, на втором изображено, как выручка отличается от средней по лидерам в процентах:
Если ключевое – именно рейтинг разницы, логично показать только его. Остальную информацию можно донести текстом.
Очевидно, что отрицательные значения должны идти влево, а положительные – вправо. В горизонтальной версии графика отрицательные значения идут вниз, а положительные – вверх.
Если требуется и сохранить рейтинг в абсолютных значениях, и передать разницу по динамике, может выручить компактная гантельная диаграмма. В данном случае информацию можно показать двумя столбиками для каждого округа, но изучать разницу при этом сложно. Гантельная диаграмма решает задачу гораздо нагляднее:
Потоки
Распределение бюджета или воронку продаж удобнее всего показывать с помощью диаграммы Санкея. К сожалению, в Excel этот график построить нельзя. Альтернатива – столбиковая диаграмма. Вот пример уместного использования диаграммы Санкея:
Работа автора
Мультикатегориальное сравнение
Много сложностей и непонимания вызывает необходимость сравнения нескольких категорий по нескольким критериям – составление профилей или мультикатегориальное сравнение.
Хотелось бы сразу предостеречь от использования лепестковой (радарной) диаграммы. Она очень популярна. Однако считывание данных в виде круга происходит гораздо хуже, чем в обычной системе декартовых координат.
Однако основная проблема лепестковой диаграммы даже не в плохом считывании. Дело в том, что этот график акцентирует внимание на фигурах, образованных линиями. Но эти фигуры не несут в себе никакого посыла. В отличие от линейного графика здесь нет непрерывной шкалы времени, порядок категорий обычно случаен. Если поменять этот порядок, формы фигур полностью изменятся.
Это приводит нас к выводу: соединять линиями значения категориальных переменных не стоит. Лучше соединять линиями только значения непрерывных числовых шкал.
Возьмем для примера датасет с рейтингом городов:
Попробуем сделать лепестковую диаграмму:
Скорее всего, мы сможем считать какой-то основной паттерн, но более тонкие различия – нет. Особенно сложно становится читать лепестковую диаграмму, когда на ней представлено больше одного ряда данных. Некоторые пытаются сделать лепестковую диаграмму для каждой категории. Это крайне неэкономно в плане использования пространства, хотя и лучше предыдущего варианта. Но по-прежнему ненаглядно:
Лепестковую диаграмму лучше всего заменить либо тепловой картой, либо рядами линейчатых диаграмм. На примере тепловая карта. Города ранжированы по суммарному рейтингу, от большего к меньшему:
Визуализация, составленная из рядов линейчатых диаграмм:
Для каждого критерия добавлена линия, соответствующая среднему значению по каждому критерию. Столбики раскрашены по принципу больше среднего/меньше среднего по каждому критерию. Это позволяет быстро просматривать каждый город и понимать, в чем он лучше и хуже других и в какой степени.
При использовании подобных диаграмм в презентациях будет требоваться акцентное выделение. Оно поможет донести ваше сообщение. Дело в том, что эти графики предназначены скорее для самостоятельного изучения, чем для представления результатов.
Что делать, если график выглядит перегруженным. Боремся с лапшой
Даже самый понятный тип визуализации данных можно сделать запутанным, добавляя все больше новых рядов данных. Если бесконтрольно увеличивать количество данных на линейном графике, получится «лапша».
Самые частые причины перегруженности:
• Попытка разместить слишком много данных в одном графике
• Неверно выбранный вид визуализации
• Попытка подписать все значения прямо на графике
Что можно сделать?
• Попробовать подобрать более подходящий вид визуализации
• Разделить данные на несколько графиков
• Попробовать сгруппировать часть данных, тем самым уменьшив их количество или улучшив организацию и читаемость. Обычно читаемость повышает создание категории «Прочее»
• Убрать часть данных
• Убрать подписи значений с графика
Вот пример перегруженного графика. Если разделить его на несколько, он становится читабельным и понятным:
А вот пример уменьшения хаоса и добавления читаемости с помощью изменения вида визуализации, группировки значений и избавления от подписей значений:
Сюда черточками можно нанести и сам индекс счастья, но и в таком виде визуализация достаточно наглядна.
– Но будьте осторожны, упрощая и группируя, – говорит Нейтан Яу. В информации могут скрываться важные детали. Нужно понимать задачу, соблюдать баланс и стремиться к объективности.
Если линейный график перегружен, обычно работает только две стратегии:
1. Использование серого цвета для основной массы линий. Эти линии мы оставляем для сохранения контекста или фона. Далее делаем акцент на нескольких, о которых идет речь в нашем сообщении:
В этом случае мы сохраняем общий паттерн снижения уровня безработицы по всем регионам. При этом мы отчетливо видим пик – последствия кризиса 2008 года. И, наконец, делаем акцент на лидере и аутсайдере в 2018 году.
2. Разбить данные на несколько мини-графиков. Важно, что все они должны быть в одной размерности для того, чтобы сохранить адекватность сравнения между ними.
Вот прекрасный пример от Нью-Йорк Таймс об эффективности различных методов контрацепции:
Если вам важно сохранить наглядный показ всех данных, но вы не хотите превращать график в лапшу, серии мини-графиков – практически единственный адекватный вариант визуализации.
Еще раз об алгоритме выбора графиков
Итак, выбор типа и конкретного вида визуализации данных – ключевой этап в донесении вашего сообщения графически. Для этого нужно качественно провести анализ данных. Затем получить информацию от экспертов о том, как именно следует интерпретировать эти данные. По результатам этого процесса вы сформулируете несколько сообщений, которые хотите донести. Я рекомендую отталкиваться от представленного ранее списка объединенных в группы видов визуализации. В 80 % случаев эффективно работает первый вид визуализации в каждой группе. Когда ваше сообщение попадает сразу в несколько категорий, важно понять, какой вид взаимоотношений между данными как вывод наиболее важен.
Если вы не уверены в наглядности, попробуйте показать ваш график друзьям/родственникам и узнать их мнение. Не объясняйте им заранее, что именно они должны увидеть.
Существуют более подробные помощники по выбору графиков в виде древовидных схем со сценариями – так называемые чарт-чузеры. Они интересны для ознакомления, но пользоваться ими не рекомендуется:
Чарт-чузер от Эндрю Абеллы
В конечном итоге выбор вида визуализации – творческий процесс. Вы не прокликиваете все подряд графики в Excel и не ищете пример, который покажется подходящим. Вы формулируете, что именно хотите наглядно показать (первым/вторым уровнем). А под это сами подбираете вид графика с особенностями его оформления. Это может включать стадию рисования эскизов на бумаге. Зарисовки сразу наглядно показывают, читабельно ваше сообщение или нет. Я не видел ни одного человека, которому бы помогли чарт-чузеры, или чтобы кто-то реально ими пользовался.
Главное в шестой главе
• Вид визуализации должен подходить вашему сообщению
• Если график выглядит перегруженным, можно уменьшить количество данных, разделить их на два-три графика или сгруппировать категории
• Четкого алгоритма выбора графика нет, но есть ориентиры и понимание принципов
• Финальный выбор зависит от датасета, вашей задачи, конкретного сообщения, найденного в датасете, аудитории, технической возможности, форм-фактора, необходимости обновления.
Глава 7
Ошибки в визуализации данных
Сейчас мы остановимся на самых распространенных ошибках: это своего рода хит-парад. Я составил его после проверки сотен графиков студентов и участников курсов.
Каждая из этих ошибок дает возможность манипулировать визуальным представлением данных. Так обычно и происходит: данные представляются в более выгодном свете. Надеюсь, что читатели не будут так поступать. Я предлагаю вам эти знания для того, чтобы легко распознавать манипуляции и не допускать их.
Приблизительность недопустима
Нельзя показывать данные в графической форме приблизительно. Это самая частая ошибка при визуализации данных. Значительная часть постов в моем канале о визуализации данных «Чартомойка» посвящена именно этой ошибке:
Каждое следующее значение выглядит больше предыдущего, это соответствует истинному положению дел. Однако пропорции длин столбиков не соответствуют разнице между значениями: график вводит в заблуждение относительно темпов роста показателя. Сейчас рост выглядит не таким значительным. Вот так корректно:
Подобная приблизительная визуализация превращает всю затею в бессмыслицу, профанирует ее. Ведь смысл в том, чтобы человек мог наглядно считать значения, не вчитываясь в сами цифры. Процесс восприятия при этом работает очень быстро.
Делать приблизительную визуализацию данных здесь – все равно что вместо значений 66,11, 174,29 и 280,92 написать 66, 75 и 90. Наверняка вы бы не стали так делать. Подобных визуализаций встречается, увы, очень много.
В большинстве случаев подобная ошибка возникает не от злого умысла, а непреднамеренно. Дизайнер вручную, без программ для построения графиков, рисует инфографику. Он просто не понимает, что точность и пропорциональность между значениями надо непременно соблюдать.
На примере этой ошибки можно обозначить еще один принцип.
График можно назвать удачным, если вы уберете все подписи, но при этом будет очевидно, какие значения больше, а какие меньше и насколько.
Столбиковые диаграммы всегда от нуля
Столбиковые диаграммы всегда строятся от нуля. Тем, кто не сталкивается плотно с визуализацией данных, часто кажется, что в этом нет ничего плохого. Поэтому мы повсеместно с этим встречаемся: во многих презентациях и даже на ТВ.
Однако это достаточно серьезная ошибка, и ее следует избегать.
Дело в том, что в столбиковой диаграмме значение кодируется всей длиной столбика. Когда рядом находятся два столбика, для сравнения мы оцениваем именно их длину. В примере выше создается впечатление двукратной разницы возраста выхода на пенсию у мужчин и женщин.
Это было бы особенно заметно, если бы со столбиков убрали подписи.
Обрезая часть столбика, мы уменьшаем и само значение, которое он кодирует. Это делает визуализацию бессмысленной. Если на приведенном скриншоте убрать подписи, можно подумать, что у мужчин возраст выхода на пенсию в два раза больше, чем у женщин.
Сейчас длина столбика кодирует не возраст выхода на пенсию. Она показывает, сколько лет спустя после наступления 50 лет выходят на пенсию мужчины и женщины. Это бессмыслица.
Конечно, так делать не стоит. Столбиковая диаграмма всегда строится от нуля.
Но как же быть в ситуации, когда разница между значениями так мала, что при показе столбиков может быть не видна вовсе?
В этом случае столбики можно заменять точками или отсечками/отрезками. Значение в них кодируется не длиной, а положением относительно оси с подписанными метками.
Есть еще один вариант для визуализации значений в узком диапазоне. Например, нам нужно показать вес, меняющийся от 60 до 66 кг. В этом случае можно визуализировать рассчитанную между значениями разницу: плюс 5 кг, минус 1,5 кг и так далее.
Иногда, чтобы нивелировать разницу между значениями, используют так называемый разрыв:
Это совершенно недопустимо. Как вы помните, именно длина столбика кодирует значение, для читателя это эквивалент данных. При использовании разрыва столбики сильно искажаются, и визуализация просто теряет смысл.
Система с полосками, где одна полоска – небольшой разрыв, две – средний, а три – большой, лишь усугубляет ситуацию. На самом деле большой разрыв между значениями – это очень хорошо! В данных есть контраст, за ним стоит какая-то история. Ее мы и можем наглядно показать, визуализируя данные.
Если вам необходимо оставить различимыми графические фигуры, показывающие более мелкие значения, есть различные приемы для этого. В частности, можно использовать площадные фигуры, так как они более компактны:
Однако площадные фигуры позволяют считывать значения далеко не так точно, как длина линии. Вот пример для сравнения:
Использование площадных фигур может быть удачным, когда одно значение гораздо больше другого.
Другой прием – показать общую картину, а затем сделать зум на интересующей области. Вот пример переделывания графика бразильского издания Эштадао:
Степень «подвернутости» графика не позволяет визуально понять, насколько большое значение в первой категории. Проблему можно решить так:
Чтобы вовремя отследить зрительную манипуляцию на столбиковой диаграмме, всегда обращайте внимание на ось и подписи на ней.
Ошибки в круговой диаграмме
При использовании круговой диаграммы люди нередко пытаются объединить в нее то, что объединять нельзя. Она предназначена только для показа долей, причем они должны в сумме собираться в целое – 100 %. Это относится не только к круговой диаграмме, но и ко всем диаграммам, предназначенным для визуализации части и целого: накопленной столбиковой, тримапу и так далее.
Сумма процентов в этой круговой диаграмме превышает 100. Их 126. Что же, данные неправильные? Нет, проценты верные, просто в опросе были возможны множественные ответы. А это значит, что круговую диаграмму здесь применять нельзя. Впрочем, как и любой другой вид визуализации, показывающий части и целое. Нужно было использовать столбиковую диаграмму.
Если у вас нет части данных и неизвестно, сколько составляет общее значение (чтобы можно было вычесть), круговую диаграмму и ее разновидности использовать нельзя!
Классическая ошибка – использовать круговую диаграмму, чтобы показать, как значения меняются в динамике. Именно этот пример был в самом начале книги. Вместо этого лучше использовать линейный график, реже – площадную диаграмму, нормированную на 100 %. Площадная диаграмма уместна, когда есть значительные перепады между значениями или один-два явных паттерна и ваша цель – как раз показать эти паттерны. Как в этом примере про изменения доли различных видов производства энергии:
Нарушение непрерывности временной оси
В линейном графике ось времени должна быть непрерывной.
Excel не умеет автоматически определять формат времени, если год указан без дня и месяца. Из-за этого программа считает такие даты обычными числами. Если значений для какого-то года не хватает – появляются существенные искажения формы графика. Ритм, сезонность, скорость подъема и снижения – все это пропадает:
Эта визуализация данных – линейный график, она подразумевает непрерывность линии времени. Но если мы посмотрим внимательно, то увидим перерывы между годами.
Корректно было бы сделать так:
Но ничто не показывает подобные временные ряды лучше правильно построенного линейного графика:
Посмотрите, к чему приводит неверное использование оси времени. На первом линейном графике создается ощущение, что число православных росло постепенно. При правильном использовании оси времени появляется совершенно другое представление: количество православных резко выросло в конце и сразу после распада СССР.
В Excel проблема решается с помощью функции ДАТА: в ней для месяца и дня прописывается единица. Так число переводится в формат даты, ось X превращается в ось дат и работает правильно.
Радиус против площади
Если вы используете площадную фигуру (чаще всего это круг), значение должно кодироваться его площадью, а не радиусом, диаметром или длиной одной из его сторон. Иначе это приводит к драматическому увеличению разницы между значениями по сравнению с реальными пропорциями.
Разберем следующий пример:
Разница между площадью фигур, которую и считывает глаз, в оригинальном графике слишком большая. Это может быть манипуляцией для того, чтобы придать вес изменениям. Поэтому будьте бдительны. Вот как выглядят эти фигуры, если значения сделать пропорциональными площадям:
Еще больше проблем возникает с так называемыми фигурными плоскостными диаграммами, особо распространенными в начале XX века. В них размер изображения находился в пропорциональной зависимости с изображаемыми величинами.
Такие диаграммы имели большую популярность, однако постоянно обоснованно критиковались из-за неявного сравнения величин. Это было вызвано непониманием, как именно сравнивать фигуры: по высоте или по площади. Отдельно проблема усугублялась тем, что зачастую фигуры имели разную форму:
В этой замечательной иллюстрации фигурки еще и не отсортированы от большей к меньшей.
Я не предлагаю категорически избегать подобных приемов визуализации: они могут быть удивительно наглядными и привлекать внимание. Однако уместны такие визуализации только в случае значительного контраста между величинами. При их использовании нужно апеллировать к площади и явно дать понять читателю, что именно кодируют фигуры.
Легенды
В следующей главе мы обсудим, как важно убрать с графика разнообразную визуальную избыточность – все, что не работает на донесение вашего сообщения.
Это вовсе не означает, что можно оставить график без объяснения, что означают геометрические фигуры и их свойства. Суть визуализации – в кодировании данных. И вы должны представить достаточно информации для того, чтобы человек мог быстро и эффективно раскодировать данные обратно.
Чаще всего объяснения делают в форме легенды. Легенда – это блок на графике, где вы объясняете, что означает каждый цвет (реже маркер или иконка).
В большинстве ситуаций вы значительно ускорите раскодирование информации, если будете использовать вместо легенды подписи возле фигур. Особенно актуально это на линейных графиках:
Существует несколько вариантов того, как можно расположить подписи категорий на линейном графике:
Если можете не использовать легенду – не используйте. Однако не превращайте график в ребус, он должен считываться однозначно.
Легенду в любом случае лучше размещать над графиком или справа от него, но не снизу. Ведь легенда необходима для понимания того, что изображено на графике, а верхняя часть графика – это место, откуда читатель обычно начинает изучать график.
Иногда легенду можно указать прямо в заголовке, выделив цветом текст, описывающий соответствующие категории. Это может быть не больше 1–2 слов разных цветов:
О подписях значений на графике
Стоит ли размещать все подписи значений на графике? В большинстве случаев – нет. Подписи отвлекают внимание от формы и цветов геометрических примитивов, которыми вы кодируете данные.
Если вам все же нужны точные данные – подписывайте их так, чтобы они не закрывали ваш график и не мешали его однозначному считыванию! Нет ничего важнее, чем значения, которые вы представили графически.
Но даже так подписи все равно отвлекают от линий, которые здесь главный персонаж.
В некоторых случаях можно подписать наиболее важные значения: пики/провалы, начальные/конечные значения. Если вам нужны все значения, то лучше использовать таблицу.
Еще одно правило: используйте либо шкалу с метками, либо прямые подписи. Нет необходимости применять и то, и другое.
Существуют и другие ошибки при визуализации данных. С ними можно подробнее ознакомиться в книге Доны Вонг из Wall Street Journal «Guide to information graphics».
Глава 8
Как сделать график, наглядно доносящий ваше сообщение
Итак, мы проделали значительную работу. Собрали данные, сформулировали выводы/сообщения, которые мы хотим представить нашей аудитории, выбрали, что именно будем показывать в форме графиков/диаграмм, подобрали оптимально подходящий вид визуализации для нашего сообщения.
Теперь нужно сделать так, чтобы отчетливо читалось именно то сообщение, которое мы сформулировали. Это достигается тремя вещами:
• Нужно убрать все лишнее, не работающее на вашу историю, на ваше сообщение
• Сделать акцент на элементах графика, резонирующих с вашим сообщением, являющихся его квинтэссенцией
• Сделать текстовые пояснения, прежде всего заголовок и подзаголовок
Давайте обсудим их подробнее. Но прежде поймем, как и почему это работает.
Как и почему это работает?
С любым объектом на листе или экране взаимодействует наш мозг. Глаза считывают, передают сигнал в мозг: в продолговатый, затем в средний, потом в кору больших полушарий, где идет аналитическая деятельность, «думанье».
Все, что есть на экране, создает когнитивную нагрузку. Поэтому мозгу требуется время, чтобы все осознать, осмыслить, переработать. Чем больше разных элементов, требующих внимания (цвета, разные начертания, оформление, тени), тем меньше ресурсов мозга остается на восприятие вашего сообщения. Отсюда принцип:
Все, что не работает на ваше сообщение, – мешает
В презентациях очень широко используют эффект псевдотрехмерности (псевдообъем, тень и т. п.). Неопытным авторам кажется, что трехмерность делает график более привлекательным. Показывает, что автору такого графика не все равно и он пытался сделать график интереснее. Однако в реальности все наоборот. Если мы посмотрим на визуализации крупных компаний с миллиардными оборотами или ведущих мировых медиа, то обнаружим: они эти приемы не используют. Интересно, почему?
Любые эффекты, примененные к графику, отвлекают от значений, которые он показывает. Плюс к этому псевдотрехмерность усложняет считывание самих значений. Это относится ко всем видам графиков.
Если вы не можете сделать график интересным без этого – эффекты вам не помогут. А если вы можете передать нужное сообщение работой с данными, грамотным выбором вида визуализации и его оформлением – едва ли вы станете пользоваться подобными «спецэффектами».
Зачастую в одной презентации к разным графикам применены различные эффекты. Это создает ощущение новогодней елки, увеличивая когнитивную нагрузку, снижая аккуратность и единообразие стиля. В конечном итоге это снижает и доверие к данным. Поэтому от всего этого можно и нужно смело отказываться.
Давайте посмотрим, сколько здесь бесполезного оформления:
«Вычтем» его, сделаем одинаковый вид шрифта для всего текста, уменьшим количество цветов, «разлепим» блоки, которые расположены слишком близко друг к другу:
Чтобы сделать сообщение ясным, понятным и быстро считываемым, важно понять еще несколько вещей.
Теория близости
Ее понимание существует с тех пор, как появилась живопись и письменность. Суть теории в том, что элементы, которые находятся рядом, воспринимаются как часть группы.
Звучит очевидно, но почему это так важно? Потому что это позволяет управлять вниманием человека.
Приведу пример. Буквы стоят рядом внутри слов, а слова отделяются друг от друга пробелами: так мы различаем слова. Строки отделяются друг от друга пустым местом, которое больше, чем расстояние между словами. Расстояние между абзацами больше, чем между строками: так мы понимаем, что это более крупные сущности. И так далее.
Посмотрите на блок текста, который вы только что прочитали. Вы ясно отделяете одни слова от других, одни строки от других. Вы сразу видите начало нового абзаца по лишь немного увеличенному вертикальному расстоянию.
Но принадлежность элементов к какой-то группе может определяться не только расстоянием между ними, но и размером, цветом, формой, положением относительно друг друга. Мы ясно понимаем, что кружки объединены в общую фигуру, хотя никакой прочерченной границы у нее нет:
Здесь мы видим уже две фигуры, два отдельных прямоугольника. Эти прямоугольники одинаковые:
Здесь мы также видим два явно отдельных прямоугольника. При этом для нас очевидно, что они относятся к разным группам. На это указывают их различия в цвете:
Предвнимательные атрибуты
Помните, мы обсуждали, как работает наше зрение? От глаз сигнал сначала проходит через продолговатый и средний мозг – эволюционно более древние его части.
Дело в том, что наше зрение и весь процесс восприятия реальности заточены прежде всего на нашу безопасность. Это результат миллионов лет эволюции не только нашего вида, но и всех живых существ. Поэтому на некоторые сущности окружающего мира мы реагируем быстрее. Даже до того, как успеваем это осознать, «продумать» корой больших полушарий.
Это и есть предвнимательные атрибуты – визуальные признаки или свойства объектов, на которые мозг реагирует особенно быстро. Это прежде всего цвет, контраст, размер, форма.
Это относится к любому элементу на вашем макете, в том числе к тексту:
Одна из надписей в каждой группе явно выделяется! В первой группе использован другой шрифт, во второй – другое начертание в рамках одного шрифта. Вопрос в том, запланированное ли это выделение?
Так какое отношение все это имеет к визуализации данных? Самое прямое. Понимание этих закономерностей позволяет нам «разговаривать» с мозгом человека быстрее, понятнее. Вместо 100 слов мы скажем десять, но более понятных, четких. Это позволяет создавать иерархию важности объектов внутри вашего графика. И расставлять акценты на том, что более важно.
Более важные объекты, которые человек должен увидеть первыми, делаются крупнее и контрастнее: например, заголовок. Менее важные делаются менее контрастными и более мелкими.
Это вовсе не значит, что вы создаете двадцать пять элементов разного размера и цвета. От этого глаза будут разбегаться. Вы не поймете, что из этого важнее. Потому что выделяется то, что отличается от фона. С помощью этого можно управлять вниманием человека, эффективно передавая свое сообщение.
Акценты
Мы уже обсуждали, что в презентациях не нужны графики, предполагающие самостоятельное изучение. У людей во время презентации просто не будет на это времени. Более того, пытаясь разобраться в таком графике, они будут менее внимательно слушать вас. В идеале график для презентации должен считываться за три секунды или быстрее. И выводы из него должны быть очевидны.
Давайте сравним два графика:
Первый – яркий, второй – рассказывает историю. В первом графике мы ориентированы на самостоятельное изучение. В нем наиболее важным предвнимательным атрибутом для нас будет размер, поскольку все цвета одинаково яркие.
Во втором случае цвет – более важный атрибут, чем размер. Поэтому мы сразу обратим внимание на рэп-музыкантов. Вообще, нет более сильного способа акцентировать, чем через цвет.
Какие способы акцентирования уместны?
• Цвет
• Прозрачность, насыщенность
• Жирность/толщина
• Обводка
В самом крайнем случае можно использовать дополнительные объекты: например, точки, стрелки.
Но обычно дополнительные элементы перетягивают на себя слишком много внимания, отвлекая от того, на что указывают. В визуализации данных, где каждый элемент функционален, это слишком значимые объекты. Они всегда будут работать хуже, чем если вы выделите сам элемент.
Если на объект нужно дополнительно указывать ярко-красной стрелкой – значит, визуализация перегружена элементами, которые уже перетягивают на себя внимание.
Акцентов не может быть много. Иначе они начинают спорить друг с другом.
Приведу пример. Если на линейном графике вас интересует только одна страна или несколько, они могут быть выделены наиболее насыщенным оттенком цвета, остальные – с меньшей насыщенностью.
Акцент предполагает, что есть фон, которому акцент контрастен. Именно сочетание фона и акцента делает историю убедительной.
На одних и тех же данных с помощью акцентирования можно рассказать разные истории. Иногда разные истории можно рассказать даже на одном графике. Как в графике про сыр из первой главы.
Стандартные настройки Excel
В самих по себе стандартных настройках Excel нет ничего плохого. Особенно в тех, где присутствует белый фон, нет контрастной сетки и других излишеств.
Но Excel все равно не знает, какое сообщение вы пытаетесь донести своим графиком. Поэтому стандартная раскраска по шаблону не подойдет.
Идеальный вариант – сначала сделать график серым, а потом добавить ему акценты. Об этом в своих книгах пишут и Энди Керк, и Кол Нассбаумер Наффлик.
Почти все остальные шаблонные стили диаграмм из Excel лучше не использовать. Они перенасыщены «спецэффектами» и не делают график нагляднее. Скорее наоборот – создают слишком много фокусов внимания без учета вашего сообщения.
Если выделено все – не выделено ничего. Контраст, как говорилось выше, работает только на однотонном фоне.
Цвет. Основы
Цвет имеет огромное значение. Это самое мощное средство для управления вниманием. По большому счету, чаще всего именно цвет рассказывает историю. Нужно стараться, чтобы каждый цвет в графике был использован не просто так, а выбран осознанно. Никогда не доверяйте вашей программе для создания графиков выбирать цвета. Слишком много цветов – это как ударение на каждой букве и на каждом слове.
В большинстве презентаций, что я видел, цвет применялся исключительно бездумно, чтобы «как-то раскрасить» график. Например, здесь:
Сейчас категории «удовлетворен» и «совсем не удовлетворен» выглядят как принадлежащие к одной группе: они сделаны в оттенках оранжевого. А «частично удовлетворен» и «не удовлетворен» выглядят как принадлежащие к другой группе: они сделаны в оттенках синего. Это очевидно неудачное решение. Оно затрудняет считывание графика, ведь глаз группирует холодные и теплые оттенки.
Давайте поменяем цвета. Кольцевая диаграмма затрудняет восприятие, но нам все равно сразу понятно: тех, кто не удовлетворен – больше.
Цвет должен быть функциональным! Если вы далеки от эстетического измерения цвета, это никак не мешает вам подбирать правильные цвета для графиков. Эстетика субъективна, функциональность – объективна и практична.
Какие функции выполняет цвет в вашей работе:
• Помогает лучше понимать ваши данные, улучшает их считывание и различение.
• Кодирует числовые значения.
• Позволяет управлять вниманием человека, делает одни данные более важными, чем другие, помогая лучше донести ваше сообщение.
• Цвет также дает возможность создавать атмосферу, нести эмоции. Однако в визуализации данных эти возможности цвета нужно обдумывать в самую последнюю очередь.
Характеристики цвета
У цвета есть три характеристики – тон, насыщенность, яркость:
Тон – это собственно цвет: красный, зеленый, синий и другие цвета.
Насыщенность – это то, сколько чистого цвета в образце. Например, насыщенность красного цвета может варьироваться от бледно-розового до ярко-красного.
Яркость – это количество черного в цвете. Чем его меньше, тем ярче цвет.
Для чего нужен цвет
Есть два основных сценария использования цвета в графиках.
1) Если вы кодируете цветом категории, например, виды товаров или компании на рынке, – используйте разные тона. В таком случае цвета говорят, что каждый из них «сам по себе».
2) Если ваши данные числовые, то есть изменяются от меньшего к большему, то цветом вы кодируете количество. В этом случае вам следует использовать цветовые градиенты. Это один тон, который меняется по насыщенности или яркости, или постепенный переход от одного тона к другому.
В этом случае каждый из оттенков одного цвета сообщает, что он немного больше или меньше соседнего. Чаще всего такие шкалы используются в картографических визуализациях.
Существует два вида цветовых шкал для числовых данных: непрерывные и полярные.
В непрерывных шкалах по насыщенности или яркости меняется один тон:
Пример использования непрерывной цветовой шкалы
В полярных шкалах есть точка, которой может быть ноль, среднее или норма. От этой точки расходятся две противопоставленные категории. В этом случае два значительно различающихся тона соответствуют этим категориям. Насыщенность тонов кодирует степень изменения показателя. Обычно применяется для шкал плюс/минус, среднего/ниже среднего:
Про цвет для категорий
Иногда разные тона используют, чтобы различать категории, а не выделять одну из них. В таком случае тона должны быть достаточно различимы, а их визуальный вес должен быть примерно одинаковым.
Если на вашем графике всего одна переменная и подписи однозначно обозначают каждую категорию, нет никакого смысла раскрашивать каждый столбик в отдельный тон или оттенок:
Для донесения сообщения в графике обычно достаточно 1–2 тонов и их оттенков + нескольких оттенков серого. Человек может с трудом отличить больше 5–6 цветов, а расставить акценты в таком случае практически невозможно.
Про цвет для количественных данных
При использовании цветовых градиентов важно, чтобы переход между цветами различался на глаз. В рамках одного цвета глаз может различить максимум 4–6 оттенков. Нужно, чтобы переходы между оттенками соответствовали разнице между значениями. Более насыщенные оттенки обычно кодируют большие значения, менее насыщенные – меньшие значения.
Обычно достаточно 4–5 оттенков в последовательном уменьшении насыщенности/яркости.
Гармония между цветами
Художниками разработана теория цветового круга, где все основные тона расположены по кругу. Выделяют теплые и холодные тона:
Теплые – в основном оттенки красного, желтого, оранжевого. Холодные – зеленого, синего, серого. При одинаковой насыщенности теплые цвета выделяются больше, чем холодные.
На основе цветового круга можно создавать гармоничные и при этом функциональные цветовые палитры.
Допустим, у вас есть две категории, которые явно противопоставлены друг другу и равноценны: например, положительно/отрицательно. Вы можете присвоить категориям чистые тона с противоположных сторон цветового круга:
Если явного противопоставления между категориями нет, и они примерно равноценны, можно использовать тона с одной стороны цветового круга. В этом случае акцентный цвет может быть более насыщенным, чем остальные:
Можно создавать несколько вариантов одной палитры по степени насыщенности цветов. У столбиков и площадных фигур визуальный вес более выраженный. Поэтому для них имеет смысл создавать палитры с приглушенными цветами. Наиболее яркие палитры уместны для точек и линий.
При этом совсем не обязательно использовать все цвета из вашей палитры, как раз наоборот. Чем меньше на графике цветов, тем проще понять, на чем же мы хотим сделать акцент.
Всегда выбирайте как можно меньше цветов, насколько это возможно.
Что делать, если цветов все равно получается слишком много
Если цветов получается слишком много, попробуйте их сгруппировать. Разумеется, не случайным образом, а логически группируя категории.
Например, можно выбрать 3–4 холодных тона и один теплый тон. В таком случае теплые оттенки будут кодировать самые важные значения или значения, противопоставленные остальным. Закодировать категории внутри этих групп можно оттенками основного тона:
Обычно такая проблема говорит о том, что вы не выбрали явное сообщение для передачи. В большинстве случаев можно обойтись гораздо меньшим количеством тонов и оттенков.
О цветовой консистентности
Старайтесь не менять цвета для одних и тех же категорий на соседних графиках. Это вынуждает человека каждый раз заново знакомиться с легендой и «переключать» в голове цвета на другие категории. В идеале нужно сохранить одни цвета для одних и тех же переменных на протяжении всей презентации/отчета.
Фон
Если это не противоречит фирменному стилю вашей компании, лучше использовать белый фон. Он не создает никакого дополнительного настроения и не перетягивает на себя внимание. Кроме того, он избавляет от необходимости адаптировать под него цветовые гаммы.
О шрифтах
Выбор шрифта для графика достаточно важен, но не настолько сильно, как может показаться. Хорошо оформленный и придуманный график, показывающий релевантные данные и дающий инсайт и понимание, ведущее к конкретным действиям, будет легко прочитан и понят практически с любым шрифтом.
Гораздо более важная проблема – это размер символов. Чаще всего при переносе графика из Excel в PowerPoint ему нужно сразу принудительно увеличить размер шрифта во всем графике минимум до 14, а лучше до 16 пунктов. Иначе подписи шкал, осей и значений выглядят слишком мелко.
Исходный график в Excel:
Внешний вид графика после переноса в PowerPoint:
График, на котором принудительно увеличен размер шрифта:
Вторая важная проблема – избыток разных шрифтов, их начертаний и размеров на одном слайде и в одной презентации. Все это увеличивает когнитивную нагрузку, создает ненужные акценты и усложняет создание нужных.
Лучше всего использовать одно семейство шрифтов во всей презентации и на одном слайде. Шрифт для заголовка должен быть отчетливо крупнее основного шрифта на графике. Именно в этом случае заголовок будет заметным и его прочтут первым.
Избегайте вычурных и необычных шрифтов. Шрифт должен быть читабельным, нейтральным, он не должен привлекать к себе внимание. Человек должен сосредоточиться на содержании текста, а не на форме или необычности шрифта. Чаще всего можно рекомендовать использование фирменного шрифта, который применяется в вашей компании или учреждении.
Не стоит злоупотреблять подчеркиванием, увеличением размера шрифта посреди одного предложения, набором букв разного цвета. А лучше полностью отказаться от этих приемов. Выделить одно-два слова можно с использованием жирного начертания. В заголовке нет смысла что-то отдельно выделять: он уже выделяется на макете.
Что нельзя делать со шрифтом?
Почти ничего. Нельзя его деформировать, даже чуть-чуть. Буквы должны быть именно таких пропорций.
Не стоит без необходимости добавлять обводку шрифту:
Нельзя бездумно выравнивать по ширине, чтобы в наборе образовывались вот такие дыры:
Мало что может быть ужаснее. Оставьте этот вид набора верстальщикам книг. Они тщательно расставляют переносы и совершают другие манипуляции, чтобы блок текста выглядел собранным и аккуратным.
То же самое относится к выравниванию по центру. Большим блокам текста в принципе не место на слайде. Если у вас на слайде есть один-два абзаца, их лучше выровнять по левому краю. Так читать будет гораздо легче.
Что можно и нужно делать со шрифтом
Старайтесь использовать в презентации один, максимум два шрифта. В последнем случае шрифты должны сочетаться друг с другом. Если вы не знаете, как это сделать и хорошее ли у вас сочетание, лучше использовать один шрифт. В большинстве случаев вам хватит двух начертаний одного шрифта: стандартного и жирного/полужирного для заголовка. Старайтесь, чтобы у вас было два-три размера шрифта, не больше. Каждый из них увеличивает когнитивную нагрузку.
Конечно, для заголовка нужен шрифт более крупного кегля. Но оси, аннотации и значения можно подписывать одним и тем же шрифтом одного размера.
Старайтесь также, чтобы межстрочное расстояние у вас было везде одинаковым. Лучше вообще не менять эту настройку.
Если вы вставляете в презентацию текст из другого документа или из интернета, вставляйте его без форматирования. Это можно сделать, пропустив текст через программу Блокнот. Если вы хотите исправить имеющуюся презентацию – сначала очистите ее форматирование.
Микротипографика
Макротипографика занимается версткой на уровне макета, полосы. Микротипографика определяет правила набора текста на уровне отдельных блоков. Хотя она и называется «микро», но имеет большое значение, позволяя создавать аккуратно набранный текст, который приятно читать. Микротипографика – это целая наука. В ней наработано много приемов для верстки книжных изданий. Но сейчас я хочу остановиться на самых частых ошибках:
• Не забывайте ставить пробелы после точек, запятых, точек с запятой, тире. И не ставить пробелы после открывающей скобки.
• Убирайте двойные пробелы.
• Не ставьте дефисы вместо длинных тире.
• Вместо кавычек-лапок ставятся кавычки-елочки.
• Используйте правильные сокращения: тыс. – с точкой, млн и млрд – без точки.
Вы можете подумать, что для визуализации данных это не имеет существенного значения, однако это не так. Каждая из ошибок в наборе текста увеличивает когнитивную нагрузку, создает ощущение небрежности и неаккуратности, отвлекая внимание от вашего сообщения.
Подробнее о грамотном наборе текста можно почитать в книге А. Э. Мильчина и Л. К. Чельцовой «Справочник издателя и автора»[1].
Тексты и аннотации
Текст
Текст на графике имеет огромное значение – большее, чем вы думаете. Он едва ли не равноценен самому графику, а может быть, даже более ценен.
Для графика может быть выбран идеальный вид визуализации, удачно выполнено акцентирование. Но сообщение все равно не до конца очевидно читателю. Есть небольшая категория людей, которые совершенно не склонны вдумываться в графики, даже простые, для них это настоящий ребус. Поэтому лучше всего отразить главный вывод в заголовке.
Хорошо, если заголовок сочетается с вашим цветовым акцентом: тогда это работает наиболее мощно. Читатель в первую очередь обратит внимание на заголовок или акцент и сразу же уловит ваш месседж.
Бывают транзитивные (смысловые) и назывные заголовки. Назывной сообщает, о чем график. Например, «Уровень безработицы по субъектам федерации Центрального федерального округа». Транзитивный сразу помогает понять главный вывод. Например, «По всем регионам ЦФО уровень безработицы за 18 лет снизился примерно вдвое».
Во втором случае человек сначала читает заголовок, а потом видит его весомое подтверждение в виде графика:
В этой книге уже не раз приводились примеры с транзитивными заголовками, но я не акцентировал на этом внимание.
Заголовок не должен быть слишком длинным. Постарайтесь уложить его в 8–12 слов. Иначе вместо помощи возникнет затруднение.
Постарайтесь потратить пять или десять минут, чтобы сделать оптимальный заголовок. По сути заголовок – это и есть ваше сообщение. С одной стороны, заголовок опирается на ваши находки в данных, с другой – формулирует мысль, которую вы хотите донести.
В отношении текста на вашем графике работает следующее правило:
Нужно так мало текста, насколько возможно. При этом все важное должно быть указано и подписано.
Подробнее о там, как формулировать кратко и четко, написано у М. Ильяхова и Л. Сарычевой в книге «Пиши, сокращай»[2].
Аннотации
Аннотации – мощный способ улучшить коммуникацию с вашим читателем. Они могут выполнять сразу несколько функций:
• Рассказывать о наиболее важных вещах на графике, объяснять тренды или выбивающиеся значения – выбросы.
• Помогать лучше понять, что именно изображено на графике.
Одна-две коротких аннотации могут стать вторым слоем информации. Они донесут до читателя следующие по значимости выводы после основного.
Аннотации не должны слишком бросаться в глаза: нет нужды оформлять их в виде плашки или обводить. Сам факт небольшого блока текста на графике уже привлекает к себе достаточно внимания. Аннотации ни в коем случае не должны закрывать сам график, линии и столбики. Также они не должны спорить с подписями значений или категорий на графике:
В идеальном случае выноски или стрелки для аннотации тоже не нужны. Сам факт нахождения блока текста рядом с зоной интереса очевидно указывает на нее. В редких случаях, когда все же нужно сделать выноску, используйте аккуратную серую линию, располагающуюся строго вертикально или горизонтально. Если вы сделали несколько выносок – линии должна располагаться под одним и тем же углом.
Если выноски оформлены по-разному и располагаются под разными углами – они неизбежно перетянут на себя внимание.
Источники
Всегда указывайте источники ваших данных. Без них ценность и доверие к вашему графику резко снижается. Когда читатель не может проверить данные, ему сложно вам поверить.
Если вы сами провели часть расчетов, то вполне можете написать: «Данные Росстата + собственные расчеты автора».
После того, как вы указали источник, отвечайте за данные. Кто-то действительно может пойти и проверить.
Если источник данных во всей презентации – ваши данные или данные вашей организации, писать об этом на каждом слайде не нужно. Но если там попадется один график, где данные взяты из другого источника, это следует указать.
Не забудьте указать, за какой период времени вы взяли данные. Особенно если это неочевидно из самого графика. Например, если в графике нет ясной линии времени или указания на год.
Данные старше 2–3 лет лучше не использовать. За это время все могло измениться.
Минимализм – это хорошо и даже необходимо. Без него вы не сможете в ясной и четкой форме артикулировать ваше сообщение графически. При этом ваш график должен работать как самостоятельная сущность.
Если вы показываете, например, результаты опроса, в подзаголовке или под графиком вы должны объяснить, что это за опрос, когда он проводился, на какой выборке, и дать любую другую значимую информацию, которая может явно повлиять на интерпретацию данных.
Главное в восьмой главе
Итак, как сделать график, который убеждает всех? График убедительно и эффективно передает сообщение, если вы выполнили несколько условий:
• Он основан на релевантных, вызывающих доверие, актуальных, верифицированных и нашедших интерпретацию в реальности данных. Вы провели вдумчивый анализ этих данных.
• По результатам анализа было сформулировано четкое сообщение.
• Для этого сообщения подобран оптимальный вид визуализации и ключевые элементы, помогающие считывать значения: шкала, сетка, подписи.
• Все лишние элементы удалены с пространства графика. Полезная информация ранжирована по степени важности так, чтобы минимизировать когнитивную нагрузку.
• Цветом или другими средствами сделан акцент, который наглядно раскрывает характер сообщения.
• В заголовке передано само сообщение, оно зарифмовано с акцентом.
Главное в книге
• Визуализация данных – инструмент коммуникации. В презентациях она нужна для наглядного донесения сообщения.
• Важно определить контекст, в котором живут ваши данные.
• Для графика нужны не все данные, а только максимально релевантные.
• Красиво оформленный график не спасет, если передаваемое сообщение неубедительно или отсутствует вовсе.
• Ключевой элемент при создании визуализации данных – выбор соответствующего вида визуализации. Он определяется взаимоотношением данных и конкретным сообщением.
• При оформлении графика важно убрать все, что не работает на сообщение.
• Самый мощный инструмент для передачи сообщения – цвет. Его нужно выбирать осознанно.
• Заголовок так же важен, как и график.
• Столбики строятся от нуля:)
В качестве завершения
Что же самое главное в процессе создания графиков?
Наверное, самое важное – вникнуть в контекст, в котором живут ваши данные, понимать, как они получены, что означают, как связаны с реальностью. Дальше – провести вдумчивый анализ. После чего выбрать самые важные, самые значимые результаты и начать подбирать для них самую адекватную визуальную форму.
При этом максимальное значение имеет выбор самой визуализации. После этого можно сделать все элементы серыми и аккуратно, дозированно добавлять цвет. Так, чтобы он улучшал понимание и восприятие и рассказывал вашу историю, доносил ваше сообщение.
Нужно не забыть про текст и сделать так, чтобы сочетание текста с цветовыми акцентами работало наиболее мощно.
Пройдет еще немало времени, прежде чем вы с успехом начнете это делать, но главное – начать и практиковаться.
Список рекомендуемой литературы
Джин Желязны. Говори на языке диаграмм: пособие по визуальным коммуникациям. 2007.
Даррел Хафф. Как лгать с помощью статистики. 1954.
Dona M. Wong. The Wall Street Journal Guide to Information Graphics: The Dos and Don'ts of Presenting Data, Facts, and Figures. 2014.
Cole Nussbaumer Nafflic. Storytelling with Data: A Data Visualization Guide for Business Professionals.
Alberto Cairo. The Truthful Art: Data, Charts, and Maps for Communication. 2016.
Alberto Cairo. The Functional Art: An introduction to information graphics and visualization (Voices That Matter). 2012.
Alberto Cairo. How Charts Lie – Getting Smarter about Visual Information. 2019.
Stephen Few. Show Me the Numbers: Designing Tables and Graphs to Enlighten. 2012.