Big data изменяют Китай

ПРЕДИСЛОВИЕ
В своей повседневной жизни мы имеем дело с разнообразными источниками информации – документами, изображениями, песнями, видеолекциями и др. Все они представляют собой регистрацию фрагментов общественной, экономической, производственной и бытовой реальности. Существуя в оцифрованном виде и становясь проводником информации, результаты этой регистрации представляют собой данные. Это оцифрованная информация, а большие данные – это огромные и сложно устроенные массивы информации.
Наблюдая за скачкообразной траекторией развития, которое информационные технологии совершили за прошедшие более чем полвека, отметим, что объём оцифрованных материалов, о которых шла речь выше, начал увеличиваться с поразительной скоростью. Данные «хлынули» сокрушительным потоком. Поиск способов обработать эти данные стал огромным вызовом для учёных. Однако в то же самое время мы с радостью обнаружили, что когда данные накапливаются до определённой величины, начинают обнаруживаться стоящие за ними объективные закономерности развития природы и общества и то, что человечество может посредством интеллектуального отбора (data mining) и анализа этих огромных по объёму материалов дифференцировать особенности и тенденции явлений, а также существующие между различными явлениями взаимосвязи и тем самым высвободить великую научную силу, которой наделены данные. По предварительным расчётам, на протяжении значительного времени в будущем ценность интеллектуального анализа данных в самых различных областях и соответствующий переход от данных к информации и далее к знаниям и стратегическим решениям станет основным направлением общественно-научной деятельности. Эпоха больших данных уже наступила.
И хотя не прошло ещё и десяти лет с тех пор, как человеческое общество вступило в эту новую эпоху, ценность больших данных увидели, не сговариваясь, во всех станах мира. Поскольку большие данные, с одной стороны, представляют собой основное производственное средство для перестройки социальной экономики и совершенный инструмент стимуляции производительных сил, а с другой стороны, центральную движущую силу инновационного развития государства, развитие и распространение технологии их обработки, как и развитие соответствующей культуры их использования, чрезвычайно актуальны и важны.
В общемировом масштабе цифровизацию экономики во многих странах считают важным драйвером для осуществления инноваций и развития. В нескольких передовых странах при этом появились программы развития больших данных, что возвело последние на уровень государственной стратегии. В этом отношении Китай, находящийся в первом эшелоне среди стран мира, обладает уникальным преимуществом в развитии больших данных. Это, с одной стороны, связано с отличающими Китай богатством источников данных, огромными масштабами рынка и высоким уровнем распространения Интернета. С другой стороны, со способностью аккумулировать силы для решения больших задач, что также обеспечило решение базовых вопросов по сбору и возврату данных и стандартизации больших данных.
Книга «Успешен тот, кто цифрами владеет: большие данные меняют Китай» – это актуальная работа, в которой в научно-популярном стиле углублённо и пристально рассматриваются те феномены и радикальные изменения, которые влекут за собой большие данные в настоящий момент. В этой книге раскрыты обладающие огромной ценностью сведения о применении больших данных в самых различных областях – от управления в обществе до предпринимательства и экономики, от транспорта и медицины до окружающей среды и экологии. Книга с её жизненными кейсами, отличающаяся мягким и выразительным стилем изложения и большим количеством размышлений и инсайтов, дала мне совершенно новое впечатление и оказалась весьма полезной.
У книги два составителя – Ту Цзыпэй и Чжэн Лэй. Ту Цзыпэй является одним из первопроходцев в сфере больших данных в Китае, он обладает огромным влиянием как тот, кто «прокладывал путь» большим данным и является автором серии посвящённых данной теме работ. Второй составитель книги, профессор Чжэн Лэй, на протяжении своей карьеры занимается научными исследованиями и консультациями по вопросам больших данных. И добился в этой сфере значительных результатов. Благодаря проделанной составителями кропотливой работе и глубокой проработке темы книга заслуживает высокой похвалы.
Как говорят авторы, новое развитие повлекло за собой новые вопросы, а возникшие в эпоху больших данных всеобщие вопросы в особенности заслуживают нашего внимания. Это, например, вопросы, касающиеся разрыва в использовании данных, безопасности данных, прав на данные, трансграничных потоков данных и защиты конфиденциальности. Только при условии решения этих вопросов становятся возможными более качественная экстракция и использование ценности данных и, как следствие, усиленная стимуляция экономической трансформации и развития, повышение уровня модернизации управления государством, создание новых конкурентных преимуществ страны в условиях сложной и разнородной внешней среды. Однако в настоящее время готовых решений для этих новых вопросов нет. Вот что сказал Ту Цзыпэй в своей книге «Цифровая цивилизация» («Шу вэньмин»): «Дорога к лучшему обществу всегда находится в процессе строительства. Их решение по-прежнему требует непрерывного осмысления и усилий со стороны научных, политических и производственных кругов».
Подводя итог, сейчас, когда большие данные только-только начинают менять Китай, давайте ожидать, приветствовать и строить эту новую эпоху.
Сюй Цзунбэнь, Академик Китайской академии наук
Человечество вступило в не имеющую аналогов эпоху больших данных. Развитие социальных медиа, мобильного Интернета и Интернета вещей принесло для человечества не имеющий аналогов лавинообразный рост объёма данных; в свою очередь прогресс технологий по их обработке и анализу сделал возможным невероятное развитие возможностей использовать огромные массивы данных. Благодаря этому человечество смогло лучше выявлять знания, улучшать возможности, создавать ценность, что принесло новые возможности развития во все крупные области: политику, экономику и науку.
Большие данные меняют мир и меняют Китай. В последние годы развитие индустрии больших данных не останавливается ни на день, непрерывно появляются новые методы работы, уровень совместного развития больших данных и реальной экономики уверенно повышается. Постоянно ускоряется и процесс снятия ограничений на совместное использование данных со стороны Правительства Китая, уже имеются первые результаты использования больших данных для повышения уровня административного регулирования, государственных услуг и общественного управления. Заглядывая в будущее, отметим, что Китай будет продолжать развивать объём рынка в сфере больших данных и ресурсные преимущества данных. Исследования и разработки ключевых технологий, можно надеяться, продолжат совершать прорывы, ведь процесс изменения Китая посредством больших данных только-только начался.
Итак, каким же образом большие данные меняют Китай сейчас ? Какие ещё будущие изменения они могут принести Китаю? Цель нашей книги как раз и состоит в том, чтобы ответить на эти вопросы. В первой главе книги мы поговорим о прошлом и настоящем больших данных, расскажем о стартовой точке эпохи больших данных и её особенностях. В последующей части книги (главы 2–10) мы поговорим об изменениях, которые, благодаря большим данным, произошли в девяти важных областях жизни Китая: начиная от сферы правительственных услуг и общественного управления, а также промышленного, коммерческого и финансового секторов и заканчивая непосредственно связанными с повседневной жизнью простых людей транспортной, образовательной и медицинской сферами. Во всех этих сферах экономической и общественной жизни страны можно увидеть позитивные изменения, привнесённые большими данными. В заключение мы заглянем в будущее больших данных, поговорим о том, что продолжит меняться, с какими трудностями мы столкнёмся в процессе изменений и что подвергать изменениям не следует.
Настоящую книгу как «углублённое научно-популярное» произведение отличают три особенности. Во-первых, это активное стремление к балансу между теорией и историями. Мы попытались посредством реальных кейсов и подлинных историй продемонстрировать широкому читателю те огромные изменения, которые большие данные в Китае привнесли в самые разные отрасли, в надежде тем самым расширить его кругозор и побудить к размышлениям. Однако кейсы и истории неотделимы от научных достижений и теоретических рамок китайской и зарубежной науки о данных, от компьютерной науки, теории управления информацией и государственного управления.
Во-вторых, это активное стремление к балансу между технической и гуманитарной сторонами. Несмотря на то, что фокус нашей книги сосредоточен на рассказе о научно-технических достижениях, мы считаем, что развитие науки и техники должно освобожать, а не связывать человечество. Исследуя технические возможности, мы не должны забывать о тепле человеческой цивилизации, нам следует призывать к уменьшению разрыва в данных, сохранению их конфиденциальности и противостоять связанным с ними предрассудкам. В центре развития больших данных должен быть человек, важно сохранять его права и авторитет, стимулировать его всестороннее развитие, удовлетворять его устремления к лучшей жизни, а не двигаться в противоположном направлении.
И наконец, это активное стремление к балансу между популяризацией, продвижением и переосмыслением. Несмотря на то что развитие больших данных в Китае переживает стремительный подъём и показывает блестящие успехи, мы всегда должны сохранять ясную голову и ни в коем случае не успокаиваться на достигнутом. Между реальным положением и идеалом всё ещё существует разрыв, и в текущем положении есть как достоинства, так и недостатки. На протяжении всей книги мы рассказываем о примерах успешного применения больших данных, но при этом рефлексируем и в отношении недостатков, проясняем возможные проблемы. Стимулирующая роль развития науки и техники для прогресса общества – это не бег на короткую дистанцию, но марафон. И чтобы ожидать устойчивости и долгосрочности, хватаясь за возможности и принимая вызовы, будем помнить, что следует заранее принимать меры предосторожности.
Надеемся, что уважаемый читатель получит наглядное и глубокое представление о тех огромных изменениях, которые произошли в Китае благодаря большим данным, будет всесторонне подготовлен к возможностям и вызовам, которые принесут нам большие данные в будущем, сможет поразмышлять о том, как должны изменяться и эволюционировать отношения между наукой и техникой, с одной стороны, и человеком – с другой.
Мы хотели бы в первую очередь поблагодарить коллектив авторов за тяжёлый труд, который они вели в течение полугода, поблагодарить главного редактора серии «Технологии меняют Китай» Академика Ни Гуаннаня за его внимательное наставничество. Без вас книга не состоялась бы.
Авторы книги живут в разных местах: Гуанчжоу, Шанхае, Сянтане, Наньнине. По причине удалённости мест проживания на этапе создания рукописи еженедельно проводились конференции в WeChat, на которых авторы обменивались своими достижениями, обсуждали спорные вопросы, делились мнениями. Членам авторского коллектива зачастую доводилось править и шлифовать текст сверхурочно, по ночам, в выходные и праздники. Все члены команды прилагали максимум усилий во время подготовки текста, тщательно его дорабатывали.
В настоящей книге одиннадцать глав. Первая и шестая главы написаны Ту Цзыпэем, вторая глава написана Ван Сяном (докторант Фуданьского университета), третья глава – Чжу Сяотин (Фуданьский университет), четвёртая глава – Вэнь Цзюйцином (Фуданьский университет), пятая глава – Ту Сыцзин (Университет китайской традиционной медицины Гуанси-Чжуанского автономного района), седьмая – Доктором наук Е Цзюньцзе (компания «Шу вэньмин кэчжи»), восьмая – Чжу Сяотин и Ту Сыцзин, девятая – Ду Вэйси и Ли Нанем (компания «Шу вэньмин кэчжи»), десятая – Чжан Бинцзянем и Ши Даи (компания «Шу вэньмин кэчжи»), одиннадцатая – Ван Сяном и Чжэн Лэем. Общая рукопись всей книги была подготовлена Ту Цзыпэем и Чжэн Лэем.
Выражаем благодарность компании «Шу вэньмин кэчжи», а также сотрудникам и коллегам лаборатории цифрового и мобильного управления Фуданьского университета и коллегам из профессиональной сферы за их поддержку в создании настоящей книги. Ли Нань содействовал редактуре и подготовке текста к печати, контролировал план-график проекта; Дэн Чжисинь внёс ценные замечания касательно редактуры некоторых глав. Огромную поддержку для проведения опроса в процессе создания книги оказал председатель правления компании «Чжухай исыцзя» Ван Дэю. Также особо благодарим Ван Вэя, Хэ Жуйцзюня и других редакторов издательства «Жэньминь Юдянь чубаньшэ» за высказанные ими конструктивные предложения при подготовке рукописи. Они проделали предельно кропотливую работу, для того чтобы эта книга увидела свет.
Мы также благодарны за предоставленную нам честь и возложенную на нас ответственность внести данной книгой свой вклад в чествование семидесятой годовщины со дня основания Китайской Народной Республики. Мы прекрасно понимаем, что данная книга даёт лишь небольшое, промежуточное, представление о развитии больших данных в Китае. Наши знания и способности, безусловно, ограничены, истории и теоретические положения, представленные в книге, едва ли являются полными, поэтому мы с радостью примем замечания и поправки от уважаемых читателей.
ГЛАВА 1. ПРОШЛОЕ И НАСТОЯЩЕЕ БОЛЬШИХ ДАННЫХ
В эпоху интернет-экономики данные являются новым производственным фактором, основополагающим и имеющим стратегический характер ресурсом и важной производительной силой.
Научное суждение, сделанное Председателем Си Цзиньпином во время второй коллективной учебной сессии Политбюро ЦК КПК
1.1. Правильное понимание больших данных: в реальном мире чисел не существует
[2]
В традиционном понимании «численные данные» – это «обоснованные числа». Числа появились потому, что человек в своей практической деятельности обнаружил: описание существующей реальности с помощью только устного и письменного языка и изображений не является точным и средств этих недостаточно. Так, если на вопрос: «Насколько Яо Мин высокий?» – ответить: «Очень высокий», «Необыкновенно высокий» или «Самый высокий», – спрашивающий о росте баскетболиста сможет составить лишь абстрактное представление, ведь каждый по-разному понимает «очень», да и понятия «необыкновенно» и «самый» тоже являются относительными. При этом ответ «2,26 метра» ни малейшей неопределённости не оставит. Числа не только описывают реальность, но и являются важным инструментом её изменения. Можно сказать, что вся производственная и обменная деятельность человека базируется на численных данных: именно они лежат в основе системы измерения и денежной системы, изобретение и возникновение которых в значительной мере содействовало прогрессу человеческой цивилизации.
Как показано на рисунке 1.1, выделяют такие источники численных данных, как измерение, регистрация и вычисление. Первоначально численные данные получают в ходе измерений, и так называемые «обоснованные числа» – это регистрация результатов измерений объективной реальности, а не что-то произвольным образом возникшее. С древности и до наших дней измерение является ведущим методом научного исследования. Без измерений не было бы науки; можно также сказать, что сущностью науки в целом являются измерения. В этом отношении значение численных Три основные источника численных данных Измерение Регистрация Вычисление данных для науки сопоставимо со значением языка для литературы, нот для музыки, формы и цвета для изобразительного искусства, – в отрыве от численных данных наука невозможна.
Рисунок 1.1. Источники численных данных
Помимо измерения и говорящей самой за себя регистрации данных новые численные данные также появляются из уже имеющихся посредством вычислений. И измерения, и вычисления осуществляются людьми, иными словами, в реальном мире чисел не существует, все данные – это то, что произведено человеком. Значение слова «первичный» в выражении «первичные данные» совсем не то же, что в выражении «первичный лес». «Первичный (первобытный) лес» – это лес, существующий в созданном природой виде, тогда как «первичные данные» – это всего лишь данные, полученные из первоисточника и не изменявшиеся человеком.
Рисунок 1.2. Данные, информация, знания
Как показано на схеме 1.2, в традиционном понимании, «данные», «информация» и «знания» – это совершенно разные понятия. Данные являются проводником информации, информация представляет собой данные с контекстом, а знания – это конечная информация, обладающая закономерностями, полученными в результате произведённых человеком обобщения и упорядочивания.
В 60-е годы 20 века, когда наблюдался огромный прогресс в теории программного обеспечения, были изобретены базы данных. После этого численные данные, тексты и изображения стали без дифференциации храниться в базах данных компьютеров, единицей, в которой осуществлялось хранение, был «бит», а значение слова «данные» начало расширяться. Понятие «данные» указывает не только на являющиеся результатом измерений числовые значения, то есть «числовые значения измеряемой величины», постепенно оно стало общепринятым обозначением «чисел, текстов, изображений, аудио и видео», то есть синонимом «информации». Поскольку такая информация существует как своего рода свидетельство и базис, её можно назвать «опорными данными».
Исходя из этого автор считает, что определение понятия «большие данные» достаточно ясно и точно выражает следующая формула:
Большие данные = традиционные числовые + современные значения измерений опорные данные
(Источником количественных данных являются измерения, как в случае с температурой 28° C; источником опорных данных является регистрация, как в случае с фотоснимком, например.)
Хотя количественные данные ближе к «числам», чем опорные данные, с исторической точки зрения последние возникли раньше, чем первые. Регистрация событий собственной жизни, которую человек вёл уже в древние времена, так называемые «летописи», и есть ранние опорные данные, можно даже сказать, что опорные данные – это тень истории. Количественные данные в практике регистрации событий и явлений реальности появляются медленно, их ключевой смысл заключается в точности. Обилие или, напротив, нехватка количественных данных напрямую определяли возможность науки развиваться. Если отталкиваться от этой точки зрения, источники данных – это уже не только измерения реальности, но и её регистрация. Таким образом, в информационную эру добавился ещё один источник данных – регистрация.
С её наступлением данные стали синонимом информации, и оба слова могут использоваться как взаимозаменяемые. Несмотря на то, что, например, письмо содержит много информации, с технической точки зрения она может представлять собой «единицу данных». Сфера «Данные» в современном толковании шире, чем сфера «Информация» (показано на рисунке 1.3).
Рисунок 1.3. Категории современных данных
Наряду с расширением внутреннего содержания понятия и созданием баз данных возникло ещё одно важное явление – непрерывное увеличение объёма данных, происходящее при этом с постоянно нарастающей скоростью.
Для описания названного феномена в 80-е годы ХХ века один американский специалист предложил использовать понятие «большие данные». И хотя в то время эпоха «большого взрыва данных» ещё не началась, некоторые специалисты были способны предсказать, что вслед за прогрессом информационных технологий важность программного обеспечения будет снижаться, а важность данных, напротив, возрастать. В те годы определение «большой», как и в случае с выражениями «большой человек», «большой шаг», главным образом имело ценностное значение. В 21 веке, особенно после возникновения социальных медиа в 2004 году, объём данных начал увеличиваться как при большом взрыве: как показывают данные компании International Data Corporation (IDC), в период с 2011 по 2018 годы объём общемировых данных увеличился в 18 раз, и вопрос формулировки понятия «большие данные» снова попал в поле зрения широких масс и привлёк к себе пристальное внимание. В этот период значение определения «большой» стало ещё более широким и указывало и на большой объём, и на большую ценность.
И всё же насколько большие данные могут называться «большими»? За десять с небольшим прошедших лет по этому вопросу велось огромное множество споров. Ответ на него в первую очередь связан с размерами единиц измерения данных. В 2000 году, как правило, считалось, что большие данные – это данные, измеряющиеся в терабайтах. В тот период предприятий, где использовались бы данные терабайтного порядка, было представлена текстами, изображениями и музыкой, стал настолько велик, что традиционным предприятиям было бы немыслимо достичь того же уровня.
УГЛУБЛЁННЫЙ ВЗГЛЯД
Разберёмся в нескольких важных единицах хранения информации
Одна песня со стандартным качеством звука – это 4 мегабайта (Мб).
Один фильм со стандартным качеством графики – это 1 гигабайт (Гб, 1 гигабайт = 1024 мегабайтам, то есть размер фильма равен размеру 250 песен со стандартным качеством звука).
Книжный фонд обычной библиотеки – это 1 терабайт (Тб, 1 терабайт = 1024 гигабайтам, это размер 1024 фильмов со стандартным качеством графики).
В действительности лавинообразное увеличение объёма самых разнообразных данных наблюдается не только в интернет-индустрии, но и во множестве других отраслей и индустрий, с единственным отличием – в масштабе. Если критерии больших данных ограничить исключительно интернет-индустрией и считать, что они используются только в ней, это серьёзно сузит смысл понятия «большие данные». В конце концов объём – это только одно проявление, а сущностью больших данных является как раз их ценность, и при этом большой объём совсем не обязательно представляет большую ценность. Подлинное значение больших данных заключается всё же в большой ценности, которая, в свою очередь, приобретается прежде всего за счёт консолидации, анализа и открытия данных. С этой точки зрения подлинное значение больших данных состоит в том, что человек, получив беспрецедентные возможности для использования огромного массива данных, выявил в них новые знания, создал новые ценности и тем самым принёс обществу «большое знание», «большую науку и технику», «большую эффективность», «большой интеллект» и другие возможности для развития.
Выше мы обсудили понятийное различие между «данными» и «большими данными», однако самый лучший способ постичь какое-либо понятие – это понять его происхождение в динамике. Формирование больших данных объясняется не только прогрессом в информационных технологиях, но и результатом того влияния, которое оказывали друг на друга многочисленные достижения, сделанные в разное время в области информационных технологий.
1.2. Революция запоминающих устройств: эволюция, приведённая в движение действием закона Мура
В 1965 году один из создателей компании Intel Гордон Мур, проведя исследование закономерностей развития аппаратных средств вычислительных устройств, сформулировал знаменитый закон Мура. Согласно которому количество транзисторов, которое может быть размещено на микросхеме одной площади, увеличивается вдвое за период от одного года до двух лет2.
Постичь значимость увеличения числа транзисторов совсем непросто. Первоначальная идея Мура состояла в том, что увеличение плотности транзисторов на удельную площадь микросхемы приведёт к тому, что быстродействие аппаратных средств вычислительных устройств и их запоминающая способность, то есть их основные характеристики, будут увеличиваться вдвое за срок от одного года до двух лет. Было бы правильным, если бы улучшение характеристик влекло за собой повышение цены, однако в реальности происходит ровно наоборот: в последние полвека характеристики аппаратных средств непрерывно улучшались, при этом их стоимость непрерывно снижалась. Главная стоящая за этим причина, как ни удивительно, в постоянном уменьшении размеров транзисторов, поскольку уменьшение габаритов приводит и к снижению себестоимости; помимо этого, спрос на транзисторы возрастает с течением времени, а крупномасштабность производства также влечёт за собой непрерывное удешевление.
Оглядываясь на последние более чем полвека, отметим, что развитие аппаратных средств вычислительных устройств в принципе соответствовало закону Мура, что схематично показано на рисунке 1.4. Рассмотрим в качестве примера физическую память. Её свойства действительно постоянно улучшаются, в то же время стоимость неизменно падает. В 1955 году компания IBM выпустила первый блок памяти для коммерческого использования, запоминающее устройство ёмкостью 1 мегабайт стоило более 6 000 долларов США. Впоследствии его цена непрерывно снижалась: в 1960 году она снизилась до 3 600 долларов, в 1993 году – до 1 доллара, в 2000 году – примерно до 1 цента, к 2010 году стоимость каждого мегабайта составляла около 0,005 цента. За период чуть более полувека цена на запоминающее устройство опустилась до одной стомиллионной от первоначальной цены – масштаб и стремительность подобной перемены поистине поражает. В реальности за всю историю человечества не было ни одного другого продукта, размах снижения цены на который был бы настолько огромным!
Рисунок 1.4. Соотношение реального количества транзисторов на микросхеме центрального процессора в 1971–2011 годах и предполагаемого законом Мура
Примечание: вертикальная ось показывает количество транзисторов, горизонтальная – годы. Данная кривая демонстрирует, что в 1971–2011 гг. количество транзисторов на микросхемах центральных процессоров одинаковой площади увеличивалось вдвое примерно каждые два года. Необходимо отметить, что на самом деле от 2 300 до 10 000 и затем 100 000 на вертикальной оси увеличение показано не в пропорциональном виде. Если строить график строго в соответствии с пропорциями, из-за крайне резкого взлёта кривой было бы невозможно вместить его на страницу (источник материала: Википедия).
УГЛУБЛЁННЫЙ ВЗГЛЯД
Количество произведённых транзисторов значительно превосходит количество имеющихся в мире зёрен риса
Транзисторы производятся из кремния, по сути своей, они являются переключателями: когда транзистор пропускает через себя ток, это выражает результат «1», когда не пропускает – результат «0». Это самый маленький составной элемент электронной продукции. В одном ноутбуке имеется около 40 миллиардов транзисторов, в смартфоне – приблизительно 1 миллиард. Производство транзисторов (то есть полупроводниковая индустрия) заслуженно считается самой высокопродуктивной отраслью в истории человечества. В настоящее время количество производимых во всём мире в год транзисторов превосходит даже количество ежегодно потребляемых зёрен риса: в 2002 году количество произведённых транзисторов превышало количество зёрен риса примерно в 40 раз, а по цене 1 зёрнышка риса можно было купить 100 транзисторов [3]; к 2009 году количество производимых транзисторов ещё увеличилось и стало превышать количество зёрен риса в 250 раз, теперь по цене 1 зёрнышка можно купить 100 тысяч транзисторов [4].
В наше время в соответствии с действием законом Мура развитие аппаратных средств достигло такой степени, что на площади, аналогичной площади кончика волоса, можно разместить десять тысяч транзисторов. Конечно, размер транзисторов не может уменьшаться до бесконечности, поэтому в последние десять с небольшим лет в профессиональной среде ведётся жаркая полемика вокруг следующего вопроса: продолжит ли наблюдаться описываемый законом Мура феномен, то есть может ли количество транзисторов на удельной площади увеличиваться и даже удваиваться? Если может, то на протяжении ещё какого времени?
В 2003 году этот вопрос задали Гордону Муру как человеку, обнаружившему рассматриваемую нами закономерность. По его мнению, «инновациям нет предела, и в следующее десятилетие закон Мура, вероятно, всё ещё будет действовать».
Как свидетельствуют факты, Мур был прав. В 2011 году компания Intel объявила об изобретении 3D (трёхмерных) 22-нанометровых транзисторов, что временно поставило в полемике точку. 22-нанометровые транзисторы оказались примерно на треть меньше своих самых маленьких по 23 размеру предшественников – 31-нанометровых транзисторов. Учитывая крошечный размер, новые транзисторы оказались, безусловно, более дешёвыми и более энергосберегающими. В 2012 году Intel объявила об инвестиции 5 миллиардов долларов США для строительства завода в штате Аризона, где в 2014 году было запущено производство 14-нанометровых транзисторов – их размер уменьшился по сравнению с размером 22-нанометровых транзисторов ещё на треть. В январе 2019 года Intel обнародовала первый процессор Ice Lake, созданный по 10-нанометровой технологии, то есть таким образом на одном квадратном миллиметре площади было помещено 100 миллионов транзисторов. Планируется, что продукт будет выпущен в конце 2019 года и в 2020 году будет поставлен на рынки [5].
Изобретение компании Intel заставило большую часть учёных поверить в то, что миниатюризация транзисторов может продолжаться ещё как минимум десятилетие, то есть срок жизни закона Мура до сих пор не истёк. В будущем цена 1 терабайта объёма жёсткого диска будет равняться стоимости одной чашки кофе, о чём свидетельствует кривая его цены в последние годы, показанная на рисунке 1.5. Объём данных собрания печатных изданий крупнейшей библиотеки мира – библиотеки Конгресса США – составляет примерно 15 терабайтов, объем данных обычной университетской библиотеки, возможно, около 1–2 терабайтов. То есть в недалёком будущем будет возможно, потратив деньги, эквивалентные стоимости одной чашки кофе, скопировать всю информацию какой-либо библиотеки на миниатюрный жёсткий диск. Ещё никогда в истории информация не была столь удобной с точки зрения хранения и столь дешевой с точки зрения себестоимости.
Рисунок 1.5. Изменение цены на 1-терабайтные жёсткие диски
Примечание: автор отследил стоимость жёстких дисков компании Seagate Technology на сайтах amazon и JD в разные периоды времени: в 2012–2019 годы цена 1-терабайтных жёстких дисков очевидным образом снижается.
УГЛУБЛЁННЫЙ ВЗГЛЯД
Благодаря действию закона Мура аппаратные средства стали продуктом массового потребления
Действие закона Мура привело к значительному снижению цены на аппаратные средства и в конечном итоге к тому, что некогда дорогостоящие компьютерные компоненты стали предметом массового потребления, а изначально относившиеся к высокой ценовой категории продукты, такие как лазерные принтеры, серверы и смартфоны, постепенно распространились за пределы научно-исследовательских организаций и крупных предприятий и вошли в нашу повседневную жизнь. В связи с описанной популяризацией оборудования в некоторых компаниях США наблюдается даже новая тенденция: поощрение сотрудников к тому, чтобы они приносили на работу свои собственные устройства (Bring Your Own Device, BYOD), сами компании предоставляют только сеть и рабочее пространство, становясь таким образом «облегчёнными» компаниями.
Помимо удешевления и улучшения характеристик действие закона Мура приводит также к постоянному уменьшению размеров самой разнообразной вычислительной техники. В 1988 году это явление было резюмировано американским учёным Марком Уайзером как «повсеместные вычисления». Теория повсеместных вычислений гласит, что после своего изобретения компьютеры должны пройти три основных этапа. Первый – это этап «главного устройства», подразумевающий совместное использование суперкомпьютера большим количеством людей, суперкомпьютер при этом занимает половину комнаты. Второй – этап персональных компьютеров: они станут меньше, и у каждого человека появится по компьютеру. Так Уайзер смог «перешагнуть» из своего времени в наше. Описанное положение вещей уже практически реально, однако Уайзер гениально предвидел, что «у каждого по компьютеру» не есть конец эпохи. На третьем этапе компьютеры станут ещё меньше – настолько маленькими, что их будет не видно человеческому глазу, и люди смогут широко разместить в своей повседневной среде самые разные микрокомпьютеры и иметь таким образом возможность в любое время и в любом месте получать и обрабатывать данные. В итоге произойдёт слияние вычислительных устройств и окружающей среды. Такой этап получил название этапа повсеместных вычислений.
Сегодня волна третьего этапа повсеместных вычислений стремительно движется на нас, крошечные смартфоны по своим свойствам уже ни в чём не уступают полноценным компьютерам, всё меньше становятся разнообразные датчики, бурно развиваются тэги RFID (радиочастотной идентификации), всё ближе устройства, которые могут быть вмонтированы в мир вокруг нас.
Тэги RFID получили широкое применение в розничной продаже, медицине, городском управлении, системах кормления животных и других областях. В последние два года в Шанхае и Учжэне непрерывно развивают сферу применения умных контейнеров для мусора, внутри которых установлены датчики RFID, в режиме реального времени считывающие количество положенного мусора и объём хранения. Контейнеры также могут автоматически «уведомлять» дворников о том, какой из них наполнен и требует очистки, что в значительной мере повысило эффективность работы в сфере городского управления. RFID меняет и авиаиндустрию. В 2019 году компания China Eastern Airlines установила технологию RFID в систему транспортировки багажа, таким образом наделив этого «безмолвного пассажира» способностью к «выражению». Через мини-приложение WeChat пассажиры могут запросить перевозочный статус зарегистрированного багажа, его точное закреплённое положение, в реальном времени отслеживать изменение статуса, как если бы для багажа была установлена система отслеживания позиции GPS [6].
«Начальным годом эры носимой электроники» можно считать 2012 год, когда были выпущены очки Google Glass. После этого одно за другим стали появляться носимые электронные устройства – миниатюрные электронные устройства, которые можно носить на себе и которые не стесняют движений. Такие устройства могут регистрировать физическое положение человека, на котором они находятся, количество сожжённых им калорий, температуру тела, сердцебиение, режим сна, количество шагов, показатели здоровья и другие данные. В 2015 году опубликованная в СМИ фотография игроков команды Китая на Кубке Азии по футболу, тренирующихся в чёрных «бикини», заняла одно из самых высоких мест в рейтинге «горячих запросов». В действительности же привлекательно минималистичные тренировочные майки футболистов представляли собой не что иное как носимое электронное оборудование под названием GPSports, способное вести сбор и мониторинг таких параметров, как расстояние, которое пробежал спортсмен, траектория его бега, скорость, ускорение и изменение частоты сердечных сокращений. На основе сравнения и углублённого анализа данных тренер может разработать план тренировки, определить состав, ко-торый будет участвовать в матче, непосредственно в ходе матча принять ключевые командные решения [7].
Приведём ещё один пример. Французский производитель спортивного инвентаря Babolat установил на ручки теннисных ракеток датчики, способные регистрировать параметры состояния в то время, когда игрок ударяет по мячу, в частности тип удара (форхенд или бэкхенд), точку удара в мяч, силу удара по мячу, скорость мяча, направление вращения мяча и др. Все эти данные практически в режиме реального времени передаются в находящиеся здесь же, на спортивной площадке, смартфоны и планшеты тренеров и спортсменов, предоставляя им доступ к данным в любое удобное время. На Открытом чемпионате по теннису в Австралии 2014 года «первая леди» китайского тенниса Ли На использовала ракетку именно этой фирмы. В целях содействия использованию таких ракеток Международная федерация тенниса (International Tennis Federation, ITF) поменяла в 2013 году устав: начиная с января 2014 года спортсменам разрешалось использовать на международных соревнованиях ракетки с датчиками для того, чтобы записывать и анализировать собственные данные. На будущих соревнованиях при условии согласия спортсмена возможна даже демонстрация собранных данных на установленных непосредственно на месте состязаний экранах для широкой публики.
Использование датчиков быстро вошло не только в футбол и теннис, но и в бейсбол, регби и другие виды спорта. По мнению одной исследовательской организации США, выручка спортивной индустрии США в ближайшие несколько лет может существенно возрасти, и главная причина этого заключается как раз в изменении характера функционирования индустрии в целом, вызванном технологией сбора и анализа данных с помощью датчиков.
Носимое электронное оборудование имеет множество других применений, помимо спорта, уже даже крошечные подгузники начали наращивать «собственный ум». В 2015 году китайский бренд Backkom изобрёл умные подгузники нового типа: с помощью Bluetooth установленное внутри подгузника лёгкое интеллектуальное устройство для считывания температуры привязывается к телефону того, кто ухаживает за ребёнком, и каждый раз, когда ребёнок пописает, чувствительное интеллектуальное устройство посредством мелодии или вибрации об этом уведомляет. Кроме того, продукты, аналогичные наиболее репрезентативному среди носимых электронных устройств изделию – одно время модным очкам Google Glass, – получили широкое распространение и за пределами развлечений. В феврале 2018 года Чжэнчжоуская железнодорожная полиция самой первой в железнодорожной системе Китая использовала полицейские очки для сопоставления лиц. По сообщениям новостей, такие очки способны путём идентификации лиц проводить скрининг пассажиров и выявлять среди них правонарушителей, чтобы тем самым улучшить общественный порядок и обстановку в поездах [8].
Сущность повсеместных вычислений состоит в том, что физическая среда повседневной жизни человека широко наполняется крошечными вычислительными устройствами, повсеместно осуществляющими автоматический сбор данных, что означает улучшение возможностей человека. До описанного положения вещей цифровые данные производились преимущественно разнообразными информационными системами, которые главным образом регистрировали данные, возникшие в ходе бизнес-процессов. Однако в результате появления датчиков и становления соответствующей технологии у человека появилась возможность крупномасштабной регистрации явлений физического мира, и этот прогресс подстегнул приход эпохи больших данных.
1.3. Социальные медиа: всеобщий вклад, или Как каждый из нас производит данные
Подлинный «взрыв данных» произошёл в эпоху социальных медиа.
С 2004 года на свет одно за другим стали появляться социальные медиа, например: Facebook и Twitter, – что стало толчком к началу новейшей эры в истории Интернета – Веб 2.0. До этого основное назначение Интернета состояло в распространении и совместном использовании информации, главной формой организации чего были интернет-сайты. Однако сайты статичны. С наступлением эры Web 2.0 Интернет начал становиться проводником для происходящих в реальном времени взаимодействия, коммуникации и коллаборации.
Помимо обеспечения невероятного по уровню роста возможностей для взаимодействия и коллаборации ещё одна важная роль социальных медиа состоит в предоставлении площадки для бесчисленного количества пользователей Интернета со всего мира, благодаря чему они могут в любое удобное время и в любом удобном месте фиксировать свои поступки и мысли. Это фиксирование, по сути своей, и является тем, что вносит вклад в производство данных. Выше мы уже говорили о том, что все данные являются искусственно произведёнными, все данные – это выполняемые нами в отношении реального мира измерения, фиксации и вычисления. Начиная с 1946 года, когда с изобретением вычислительного устройства человечество вошло в информационную эру и ещё не были созданы социальные медиа, данные главным образом производили и собирали информационные системы и датчики. Однако в связи с внезапным появлением социальных медиа человек начал и сам производить данные в Интернете. Публикуемые пользователями записи в Weibo и отправляемые ими через WeChat сообщения, фиксирующие личные действия и поступки, – такие данные получили название «поведенческие», их отношение к другим типам данных показано на рисунке 1.6.
Благодаря появлению социальных медиа пользователи Интернета со всего мира начали становиться создателями данных. Каждый из нас, будто информационная система или датчик, непрерывно создаёт данные. Это повлекло за собой беспрецедентный по своему размаху «взрыв данных».
Помимо резкого увеличения объёма данных социальные медиа привели также к усложнению устройства вселенной данных. Кто-то, создавая пост в микроблоге, прикрепляет изображение, кто-то – видео, произведённые ими данные и по размеру, и по структуре совершенно различны. В связи с отсутствием строгой структуры данные, созданные в социальных медиа, называются также неструктурированными.
Рисунок 1.6. Разные данные с точки зрения размера и типа
Примечание: взаимное влияние разных типов данных. Коммерческие данные могут естественным образом содержать в себе и производить данные о поведении человека и окружающей природной среде, точно так же данные о поведении человека и окружающей природной среде являются взаимовключающимися, перекрёстными и взаимовлияющими. В прошлом мы фиксировали что-либо, только предварительно выбрав, что именно должно быть зафиксировано. В эпоху больших данных мы выбираем то, что зафиксировано быть не должно, и затем удаляем запись об этом. По мере непрерывного расширения сферы фиксирования можно быть уверенным: в будущем совокупный объём данных, имеющихся в распоряжении человека, будет нарастать подобно снежному кому.
Обработка подобных данных несопоставимо сложнее, чем обработка данных, имеющих строгую структуру. 15 марта 2019 года сервис микроблогов Sina Weibo опубликовал «Отчёт о развитии пользователей Weibo в 2018 году», согласно которому по состоянию на четвёртый квартал 2018 года среднее количество текстов, которые пользователи сервиса публиковали в сутки, составил 130 миллионов, среднее количество публиковавшихся за сутки изображений – 120 миллионов, среднее количество публиковавшихся за сутки видео и проведённых прямых эфиров – более 1,5 миллионов. Для сравнения: суммарный объём информации, опубликованной New York Times за прошедшие пятьдесят лет, не превышает 3 миллиардов слов.
Учитывая беспрецедентную скорость производства данных, примерно 75 % от общемировых данных в настоящий момент – это неструктурированные данные. Оглядываясь назад, мы можем сказать, что появление социальных медиа оказало на большие данные определяющее воздействие. Отталкиваясь от приведённого выше анализа, мы можем принять следующее:
Большие данные = структурированные данные + неструктурированные данные.
Однако, как мы уже упоминали, определение «большой» в понятии «большие данные» указывает не только на большой объём данных, но и на их большую ценность. Ценность же заключается в использовании. Как в случае с погребённой в недрах земли нефтью: она хотя и существовала с глубокой древности, человечество вошло в нефтяную эпоху благодаря тому, что появились технологии её добычи и переработки, – точно так же главная причина начала эпохи больших данных состоит в значительном прорыве и прогрессе в возможностях эти данные использовать.
1.4. Как интеллектуальный анализ данных «превращает цифры в золото»
Прорыв, сделанный в отношении возможностей использовать данные, проявляется в интеллектуальном анализе данных.
Под интеллектуальным анализом данных (data mining) подразумевается осуществляющийся с помощью специальных алгоритмов автоматический анализ больших объёмов данных, имеющий целью выявление скрытых в них закономерностей и тенденций, иными словами, получение из данных большого объёма новых знаний, от которых можно отталкиваться, принимая те или иные решения. Основная причина прогресса в интеллектуальном анализе данных, то есть способность человека непрерывно изобретать всё более сложные алгоритмы распознавания образов3 в сущности является прогрессом в программном обеспечении. Самой знаменательной вехой развития интеллектуального анализа данных стала 1-я ежегодная научная конференция по data mining, организованная в 1989 году американской Ассоциацией вычислительной техники (Association for Computing Machinery, ACM), Специальной группой по обнаружению информации и интеллектуальному анализу данных (Special Interest Group on Knowledge Discovery and Data Mining, SIGKDD). Результаты работы конференции были отражены в специальной периодике. После этого развитие интеллектуального анализа данных получило огромное ускорение.
И действительно, в последние десятилетия благодаря технологиям интеллектуального анализа данных в самых разных крупных компаниях отмечалось немало удивительных историй, связанных с «превращением цифр в золото». Приведём несколько примеров. Накапливавшиеся в течение долгого времени записи о финансовых операциях пользователей позволили компании Alibaba проникнуть в финансовую сферу. Теперь сервис может за несколько минут определить кредитные данные пользователя и на этом основании принять решение о выдаче ему кредита. Walmart повысил объём продаж товаров в магазинах за счёт связи «пиво и подгузник». Netflix, используя учёт смены предпочтений своих пользователей, строит предположения о том, что им понравится смотреть, на основании чего осуществляется целенаправленный маркетинг.
Непрерывное обновление, которое в последние годы характеризует применение интеллектуального анализа данных, позволяет надеяться на новые достижения в этой сфере в будущем. Например, к переломному моменту своего развития приближаются продовольственные рынки, с которыми мы вот уже несколько тысяч лет «смотрим друг на друга и не можем насмотреться». На проводившемся в начале 2019 года собрании местных партнёров Alibaba по поставкам свежей пищевой продукции компания Ele. me заявила о намерении «изменить продовольственный рынок», создать совершенно новую открытую платформу для доставки свежих продуктов, переместить продовольственный рынок в онлайн-формат, заставить традиционный продовольственный рынок попрощаться с существовавшей в течение нескольких тысяч лет моделью функционирования, когда «каждый сам за себя» и «продаёт не по спросу, а то, что выросло», кроме того, сделать так, чтобы платформа содействовала превращению продажи овощей в тренд.
Каким же образом осуществить это содействие? Основным инструментом для этого как раз и является интеллектуальный анализ данных. Главная болевая точка традиционного продовольственного рынка – это информационная асимметрия: продавцы, завозят продукцию на продажу и не имеют в своём распоряжении точной информации о рыночном спросе, что приводит к накапливанию товаров или возникновению проблем с качеством. В этой ситуации Ele.me, опираясь на огромные массивы данных, накопленных Alibaba, может предоставить продавцу максимально точный портрет покупателя, что позволит регулировать деятельность по поставкам продукции на продажу. Таким образом поставки продукции на продовольственные рынки больше не будут произвольными – процесс принятия решения передаётся алгоритмам, и уже они решают, какие товары необходимо завезти. Резонанс интересов предпринимателей и самой платформы, достигающийся за счёт подобного рода цифрового маркетинга, может стимулировать возникновение огромной коммерческой стоимости. Описанная модель была опробована и на рынке: после того, как сервис Dingdong Maicai вошел в Ele.me, количество заказов на платформе за 2018 год увеличилось в 20 раз, а ежемесячный оборот торговли превысил 10 миллионов юаней [9].
Приведём ещё одну небольшую историю об интеллектуальном анализе данных. Во время проведения Чемпионата Европы по футболу в июне 2012 года в Китайских ресурсах появилось много сообщений о том, что «пока мужчины смотрят футбол, женщины занимаются онлайн-шоппингом» [10]. Сообщалось, что, согласно данным Taobao по продажам, после открытия чемпионата Европы торговый оборот женского сегмента онлайн-шоппинга очевидным образом вырос, при этом «пиковое время онлайн-продаж сдвинулось на два часа позднее, переместившись на отрезок с 23 до 24 часов». Кроме того, в период между окончанием первого матча в 1:45 ночи и началом второго матча в 2:45 ночи возник ещё один пик онлайн-продаж, и торговый оборот увеличился более чем на 260 % по сравнению с торговым оборотом в тот же отрезок времени в период до начала кубка.
Логику, составившую основу этого явления, несложно понять. Во время футбольного матча мужчины полностью погружались в просмотр, оставляя жён (или подруг) и детей без внимания. Женщины, особенно замужние, могли испытывать подавленность, раздражение и разочарование. Каждый раз, когда вечером начинался матч, у каждой женщины в такой ситуации появлялся большой выбор: например, начать делать домашние дела, болтать с подругами, звонить родителям, заниматься онлайн-шоппингом. Её поведение характеризует неопределённость, и предсказать, что именно она в конечном итоге будет делать, сложно. Однако если мы суммируем данные о продажах нескольких электронных торговых площадок и проанализируем их, то увидим, что групповое поведение женщин демонстрирует закономерности, поддающиеся отслеживанию. С началом кубка стал расти объём товаров, купленных женщинами онлайн, среди них увеличилось, по сравнению с обычным временем, и количество товаров высокой ценовой категории, то есть клиентки наконец позволили себе те вещи, на которые в обычной жизни у них не поднималась рука. До наступления эпохи больших данных утверждение «пока мужчины смотрят футбол, женщины занимаются онлайн-шоппингом» так и осталось бы не более чем догадкой, которую невозможно ничем подтвердить. Теперь же, в эпоху больших данных, получить ей подтверждение невероятно просто, причём мы можем проанализировать даже то, какие особенности отличают купленные товары. Во время следующего чемпионата магазины могли давать уже более предметную рекламу, они смогли не только более точно сфокусировать рекламные объявления исходя из адресата рекламы, выбор продвигаемых в них товаров также стал более адресным. Когда догадка выросла в знание, знание создало прибыль.
Помимо описанного выше применения в коммерции всё более распространённым становится использование интеллектуального анализа данных для решения общественных проблем. В июне 2013 года появились сообщения, что некая девушка из Восточно-китайского педагогического университета получила смс от администрации университета следующего содержания: «Уважаемый студент, мы обнаружили, что в прошлом месяце ваши затраты на питание в столовой были сравнительно небольшими. Возможно, вы испытываете финансовые трудности?» [11] Происхождение этого заботливого сообщения также объясняется интеллектуальным отбором данных: в результате анализа данных о тратах, полученных с университетских карточек на питание, администрация обнаружила, что затраты девушки на каждый приём пищи оказались сниженными, что и вылилось в отправку приведённого выше участливого сообщения. Впоследствии, однако, обнаружилось, что была допущена прекрасная ошибка: в действительности девушка просто хотела похудеть. Можно подумать, что причина возникновения ошибки в том, что данные были недостаточно «большими». Особенность больших данных в том, что помимо «большого объёма» они также являются «многоисточниковыми». Если бы помимо карточек на питание были проанализированы другие вспомогательные источники данных, вывод, вероятно, был бы более точным.
Несмотря на расцвет интеллектуального анализа данных, в определённой степени он уже не является передовым и горячим направлением в рамках больших данных, на лидирующих позициях его сменило машинное обучение. Интенсивно развивающееся в настоящий момент машинное обучение также опирается на компьютерные алгоритмы, но его алгоритмы, по сравнению с алгоритмами, использующимися в data mining, вовсе не являются фиксированными, они содержат саморегулирующиеся параметры, то есть в процессе машинного обучения по мере увеличения количества выполненных вычислений и анализов данных параметры алгоритмов непрерывно саморегулируются, вследствие чего результат анализа данных и прогнозирования становится более точным. Кроме того, предлагая компьютеру большой объём данных, мы даём ему возможность, подобно человеку, путём обучения постепенно самосовершенствоваться, поэтому данная технология и получила название «машинное обучение».
Наравне с интеллектуальным анализом данных и машинным обучением очень зрелыми являются также технологии анализа и применения данных, сформировавшие при этом единую систему. Хранилища данных, интерактивная аналитическая обработка (OLAP), визуализация данных, анализ машинной памяти – всё это важные составные элементы данной системы, и в процессе развития технологий сбора и обработки данных они все сыграли важную роль4.
Оглядываясь на более чем полувековую историю информационного общества, отметим, что материальный базис феномена больших данных был заложен только благодаря непрекращающемуся уменьшению размеров транзисторов и снижению их себестоимости, в результате чего у людей появилась возможность создать колоссальное, подобное огромному литому сосуду, хранилище для огромного массива данных. Технология же интеллектуального анализа данных, расцвет которой начался в 1989 году, сопоставима с технологией перегонки сырой нефти в готовый продукт: она является ключом к тому, чтобы большие данные произвели «большую ценность», без этой технологии, насколько огромен бы ни был массив данных, мы могли бы только «глядеть на нефть и бессильно вздыхать». Появившиеся в 2004 году социальные медиа, в свою очередь, сделали каждого из нас потенциальным создателем данных, который вносит свою лепту в наполнение отлитого вследствие действия закона Мура «сосуд», что и является главным фактором формирования «большого объёма». Схематично совокупность описанных факторов показана на рисунке 1.7.
Рисунок 1.7. Три основных формирующих элемента больших данных
Проанализировав статичное понятие «большие данные» и формирующие их динамичные элементы, мы можем более ясно представить особенности этого явления, а также раскрыть его и дать ему определение исходя из разных точек зрения, как это показано на рисунке 1.8.
Рисунок 1.8. Понятие «большие данные» и характеризующие его факторы
Как мы уже говорили выше, в настоящее время 75 % производимых человеком данных – это данные неструктурированные, и именно в форме неструктурированных данных воплощаются крупные массивы зарегистрированных данных. Если мы хотим обнаружить ценность крупных массивов зарегистрированных данных и неструктурированных данных, главный способ обработки их в настоящее время – это всё же преобразование их в строго структурированные, то есть традиционные малые данные. Поэтому, по мнению автора, ценность больших данных главным образом заключается в малых данных и структурированных данных, а их объёмность – прежде всего в существующих в настоящее время крупных массивах зарегистрированных данных и в неструктурированных данных.
Подъём больших данных заставил учёных всего мира строить предположения и гипотезы о том, какое влияние эта «новая волна», вызванная развитием информационных технологий, принесёт человеческому обществу и в каком направлении она поведёт Китай и мир в целом. В следующих главах мы попробуем ответить на эти вопросы применительно к нескольким областям.
ГЛАВА 2. ЦИФРОВОЕ УПРАВЛЕНИЕ: ИСПОЛЬЗОВАНИЕ БОЛЬШИХ ДАННЫХ ДЛЯ ПОВЫШЕНИЯ УРОВНЯ ГОСУДАРСТВЕННОГО И МУНИЦИПАЛЬНОГО АДМИНИСТРИРОВАНИЯ И ГОСУДАРСТВЕННЫХ УСЛУГ
Необходимо построить полноценный механизм, с помощью которого большие данные будут содействовать наукоёмкости процессов принятия решений и социального управления и внедрению инноваций в модели государственного и муниципального администрирования и социального управления, чтобы тем самым достичь научной обоснованности принимаемых органами управления решений, точности социального управления и высокой эффективности государственных услуг.
Высказывание Председателя Си Цзиньпина во время второй коллективной учебной сессии Политбюро ЦК КПК
До 2016 года жителям Чжэцзяна для оформления регистрации купли-продажи вторичного жилья требовалось принести отдельные пакеты документов в три инстанции: министерство земельных и природных ресурсов, министерство жилищного и городского строительства и налоговую службу, – после чего самого оформления следовало ждать ещё какое-то время. Теперь же достаточно обратиться в одно окно с одним пакетом документов, и в течение часа процедура будет полностью выполнена. Оформление свидетельства о праве собственности на недвижимое имущество изначально требовало пятнадцати шагов, для совершения многих из которых нужно было стоять в очередях. На сегодняшний день, благодаря реализации принципа «один номер очереди – получение услуги в одном окне» [14], прежние пятнадцать шагов сведены к трём. Проведённая в Чжэцзяне реформа по «минимизации количества обязательных посещений госучреждений до одного» сделала жизнь обычных людей по-настоящему удобной и приятной.
Сущность реформы по «минимизации количества обязательных посещений госучреждений до одного» состояла не просто в том, чтобы физически свести в одно окна многочисленных государственных и муниципальных учреждений, а в однократной, направленной внутрь «революции» самих этих учреждений. Этот процесс был обеспечен в первую очередь реструктуризацией учреждений и реорганизацией административных процессов, а его ключевыми звеньями стали преодоление обособленности данных и совершенствование механизмов управления данными.
Тем не менее реформа по «минимизации количества обязательных посещений госучреждений до одного» – это всего лишь отправная, но никак не конечная точка в реформировании системы государственных услуг. Существует ещё огромное число направлений для развития той помощи, которую большие данные могут дать в сфере модернизации системы государственного управления и возможностей управления и удовлетворения с каждым днём возрастающей потребности людей в лучшей жизни.
2.1. От «ухода от причудливых справок» до «ухода от справок»
Ещё не так давно СМИ пестрели сообщениями о «причудливых справках», «замкнутом круге справок» и «дублирующих справках». Например, некоторым гражданам при оформлении наследства на недвижимость требовалось предоставить свидетельство о смерти умершего родственника, а некоторым пожилым людям для получения пенсии приходилось документально подтверждать, что они ещё живы. Премьер Государственного совета КНР Ли Кэцян выступил с критикой этого явления на собрании членов Постоянного комитета Госсовета в мае 2015 года. Если в реальности вся подобная информация о жителях страны имеется в распоряжении государства, почему для того, чтобы люди могли получить какую-либо услугу в государственных и муниципальных учреждениях, им нужно самим ходить по всем инстанциям и собирать соответствующие удостоверяющие документы?
Феномен «причудливых справок» объясняется отсутствием совместного межведомственного и межмуниципального доступа к данным, имевшимся в распоряжении части учреждений страны. Раз данные не могли «бегать по делам», делать это приходилось людям и организациям, а сама ситуация, ко всему прочему, оставляла лазейки для фальсификации справок и документов. Наступление эпохи Интернета и больших данных дало решающий ключ для решения этой проблемы.
В 2019 году городском округе Цзиньхуа провинции Чжэцзян, первом среди городских округов страны, развернули работу по созданию «города без справок»: было объявлено, что муниципальные ведомства и общественные учреждения на всей территории округа не должны требовать от граждан и организаций никаких справок или свидетельств, выпущенных каким-либо третьим полномочным органом. Это решение местного правительства образно представлено на рисунке 2.1. Отрадные результаты были получены всего за несколько месяцев ведения работы по созданию в Цзинхуа «города без справок». Была полностью упразднена необходимость предоставлять 18 типов справок и свидетельств, касающихся операций по фонду жилищных сбережений, в частности справка о доходах сотрудника, выписка о жилищном положении, документы, подтверждающие прямое родство того, кто претендует на получение накопительного фонда, и участника фонда, и требующееся в соответствии с политикой льгот на получение ипотечного кредита высококвалифицированными специалистами свидетельство с места работы, подтверждающее соответствующую квалификацию. Таким образом на территории всего округа было реализовано «не требующее справок» получение услуг по фонду жилищных сбережений. Прежде граждане, имеющие иную регистрацию, оформляя в Цзиньхуа разрешение на проживание, должны были сначала получить в министерстве социального обеспечения выписку, удостоверяющую уплату социального страхования за период более полугода, затем с этой выпиской, удостоверением личности и контрактом на аренду жилья прийти в полицейский участок, чтобы подать заявление на оформление разрешения. А сейчас, благодаря совместному доступу к данным, работник учреждения может напрямую запросить информацию о социальном страховании, и от заявителя не требуется никаких дополнительных справок [15].