2. Дата-этика
— Позвольте вам представить… м-м-м…

— А не надо, — сказала старуха, пристально меня рассматривая. — Сама вижу. Привалов Александр Иванович, одна тысяча девятьсот тридцать восьмой, мужской, русский, член ВЛКСМ, нет, нет, не участвовал, не был, не имеет, а будет тебе, алмазный, дальняя дорога и интерес в казенном доме, а бояться тебе, бриллиантовый, надо человека рыжего, недоброго, а позолоти ручку, яхонтовый…

А. и Б. Стругацкие. Понедельник начинается в субботу

2.1 Данные — основа экономики

Авторы раздела
Бегтин И. В.
Двинских Д. Ю.
Талапина Э. В.

Время чтения — 18 минут
Этические сложности вызывают, в первую очередь, сбор, анализ и обработка цифровых данных граждан — больших данных, социальных и персональных. Бизнесу они нужны для обучения ИИ, для онлайн-рекламы и онлайн-торговли, государству — для принятия управленческих решений, взаимодействия с гражданами, обеспечения национальной безопасности. В данном разделе описаны основные этические проблемы, возникающие вокруг данных, и показано, как тесно связана этика данных с этикой ИИ, ИВ и других цифровых технологий.

2.1.1 Что такое данные?

Прежде чем перейти непосредственно к теме этики, сделаем краткий обзор терминологии. Данные отличаются от информации. Информация может быть представлена не только в виде данных, но и в виде других сведений.
Информация — это сведения (сообщения, данные) независимо от формы их представления.
Ст. 2. Федерального закона «Об информации, информационных технологиях и о защите информации» от 27.07.2006 №149-ФЗ (ред. от 02.12.2019)
В российских и международных документах и законах встречаются различные определения терминов «данные» и «информация». В рамках доклада термин «данные» в основном используется в значении, которое дает стандарт ISO/IEC, общепринятый в сфере информационных технологий.
Данные — это информация (представление фактов, понятий или инструкций) в форме, приемлемой для общения, интерпретации или обработки человеком или с помощью автоматических средств.
В научной и популярной литературе предлагается целый ряд различных классификаций данных. Часто одни и те же данные относятся к различным типам, поэтому пока не представляется возможным представить детальную непротиворечивую классификацию. Не претендуя на полную классификацию, мы даем перечень наиболее часто упоминаемых в разном контексте типов данных.
характеризует анализ информационных ресурсов, объем которых значительно вырос и превышает возможности их хранения и анализа на основе созданных ранее аппаратных и программных средств. Появление больших данных стало возможным благодаря расширению потенциала для хранения данных и диапазона имеющихся в наличии источников данных. В большинстве случаев существуют в цифровой форме, в виде структурированных и неструктурированных данных и, как правило, не предполагают ручной обработки.
Большие пользовательские данные
— большие данные, собранные о пользователях — физических лицах из различных источников, в процессе использования различных сервисов, в том числе с частных устройств, из ИВ. Часто содержат персональные данные.
Большие данные интернета вещей
— унифицированные сигналы, поступающие от датчиков «умных» устройств, применяемых на производстве и в сельском хозяйстве, носимых устройств и т. д.
— любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту ПД).
— данные о человеке, его перемещениях, поведении и интересах, об отношениях, связывающих его с другими людьми, местами, товарами и даже идеологиями.
— информация, содержащаяся в информационных ресурсах органов и организаций государственного сектора (данные органов власти, собираемые в целях статистики, данные о реализации государственного бюджета и т. п.).
— информация, размещенная в интернете в виде систематизированных данных, организованных в формате, допускающем ее автоматическую обработку без предварительного изменения человеком в целях неоднократного, свободного и бесплатного использования.
П. 31. Доклада Генерального секретаря ООН «Использование информационно-коммуникационных технологий для инклюзивного социально-экономического развития» // Организация Объединенных Наций.
Ст. 3. Федерального закона «О персональных данных» от 27.07.2006 № 152-ФЗ (ред. 31.12.2017).
Вайгенд А. Big Data: Вся технология в одной книге. М.: Litres, 2019.
Распоряжение Правительства Р Ф «Об утверждении Концепции создания и функционирования национальной системы управления данными и плана мероприятий („дорожную карту“) по созданию национальной системы управления данными на 2019−2021 годы» от 03.06.2019 № 1189-р.
«Методические рекомендации по публикации открытых данных госорганами и органами местного самоуправления, а также технические требования к публикации открытых данных», утв. протоколом заседания Правительственной комиссии по координации деятельности Открытого Правительства от 29.05.2014 № 4. Принципы формирования и публикации открытых государственных данных — в Хартии открытых данных «Группы восьми», см.: G8 Open Data Charter.
Данные становятся критическим ресурсом и определяющим фактором эффективности деятельности предприятий и государственных органов в рамках не только сектора ИКТ, но и всей экономики в целом", — отмечала Комиссия ООН по науке и технике в целях развития еще в 2014 году. Это происходит не только в других странах, но и в России. Как указано в национальной программе «Цифровая экономика Российской Федерации» (2017), именно данные в цифровой форме являются ключевым фактором производства во всех сферах социально-экономической деятельности. Согласно обновленному документу 2018 года, создание современной высокоскоростной инфраструктуры хранения, обработки и передачи данных, обеспечение устойчивости и безопасности ее функционирования относятся к ключевым направлениям преобразования экономики и социальной сферы.
П. 26. Доклада Генерального секретаря ООН «Использование информационно-коммуникационных технологий для инклюзивного социально-экономического развития» // Организация Объединенных Наций.
Паспорт национального проекта «Национальная программа «Цифровая экономика Российской Федерации», утв. президиумом Совета при Президенте Р Ф по стратегическому развитию и национальным проектам, протокол от 04.06.2019 № 7 // Правительство России.
В 2017 году консалтинговая компания Gartner предложила модель зрелости цифрового правительства, состоящую из пяти уровней: электронное, открытое, датацентричное, полностью цифровое и «умное». В настоящее время России предстоит стать датацентричным государством. Принципиальную важность данных в формировании цифровой экономики подтверждает заместитель Председателя Правительства Р Ф Максим Акимов, курирующий реализацию нацпрограммы «Цифровая экономика».
van der Meulen R. 5 Levels of Digital Government Maturity // Gartner
Обязанности Максима Акимова в качестве заместителя Председательства Правительства Р Ф включают координирование работы федеральных органов исполнительной власти и выдачу поручений по вопросам разработки и реализации национальной программы «Цифровая экономика Российской Федерации»; цифрового преобразования государственного управления, включая предоставление государственных услуг; цифрового развития, включая создание условий для цифрового преобразования отраслей экономики и социальной сферы. Распределение обязанностей между заместителями Председателя Правительства // Правительство России.
Дата-этика, или этика данных, как разновидность прикладной этики, появилась сравнительно недавно и не имеет пока общепринятого определения. Достаточно точное рабочее определение термина и описание основ этики данных предлагает британский фреймворк этики данных (2018). Он ориентирован на внедрение этичных практик работы с данными в сфере госуправления и в публичном секторе: «Этика данных представляет собой формирующуюся отрасль прикладной этики, которая описывает ценностные суждения и подходы, применяемые при сборе, анализе и распространении данных. Она предполагает хорошее знание законодательства по защите данных и иного профильного законодательства, а также правильных способов применения новых технологий. Она требует целостного подхода, включающего большой опыт в сфере компьютерных технологий, в решении этических задач и обеспечении информационной безопасности». Главный аспект этики данных — это использование анализа данных (или науки о данных, data science) надлежащим образом. Наука о данных описывает, как автоматическими методами, с помощью анализа, извлекать из данных информацию, предусматривает ряд технологий — от поиска паттернов традиционными методами аналитики до предиктивных технологий на основе машинного обучения.
Дата-этика развивается и становится все более актуальной, об этом свидетельствуют соответствующие документы государств, корпораций и социальных институтов (см. раздел 2.3.1). Определение границ этичного доступа к данным — сложная проблема, затрагивающая разные заинтересованные стороны: граждан, государство, корпорации, общественные институты и т. д., и требующая комплексного решения. Одной из проблем данных, порожденных цифровыми технологиями, является вопрос деперсонализации медицинских данных (рисунок 1).
Рисунок 1
Способы деперсонализации данных
Источник: Национальный стандарт РФ ГОСТ Р 55036-2012/ISO/TS 25237:2008 «Информатизация здоровья. Псевдонимизация» идентичный международному стандарту ISO/TS 25237:2008 Health informatics — Pseudonymization // ISO

Сведения, относящиеся к здоровью человека и медицинским процедурам, безусловно, подлежат контролю, поскольку в этой сфере высока вероятность этических коллизий. Допустим, поставлена задача с помощью обработки данных давать пациентам медицинские рекомендации. С одной стороны, для этого разработчикам необходимо использовать максимально персонализированные данные: анамнез, наследственность, возраст, пол, социальное окружение и т. д., так как обезличивание данных сильно влияет на качество исследования. С другой стороны, чем больше детальной информации есть о человеке, тем проще третьим лицам идентифицировать его и использовать эту информацию в своих интересах. Для исследований в области здравоохранения более приемлема псевдонимизация данных, хотя для пользователя была бы оптимальной полная необратимая анонимизация. Однако определенная степень защиты пациента сохраняется, и такой вариант будет ближе к консенсусу, чем любой другой.

2.1.2 Этические проблемы данных

Потребность в прикладном регулировании с целью обеспечить соблюдение этических принципов увеличивается по мере накопления достаточного количества данных, которые можно применить так, что последствия могут быть не только положительными, но и заведомо негативными. Новые технологии и способы сбора, хранения, анализа данных и использования полученных выводов все чаще заставляют разработчиков, ученых, управленцев ломать голову, как можно и нельзя, правомерно или рискованно, эффективно или нет использовать данные в той или иной ситуации (таблица 2).
Таблица 2
Преимущества и недостатки использования данных
Преимущество Ситуация с использованием данных Недостаток
– Развитие прикладных наук (в частности, в сфере здравоохранения);

– крупные и международные научные проекты (сейсмология, метеорология, добыча полезных ископаемых, космонавтика, исследования климатических изменений и т.п.)
Сбор и обработка больших данных – Нарушение приватности (в большом массиве разрозненные данные работают как персональные);

– скрытые манипуляции гражданами (покупки, решения)
– Персонифици­рованные сервисы;

– новые продукты и услуги;

– цифровые платформы
Аккумули­рование данных у компаний – Нарушение приватности;

– цифровой монополизм;

– дискриминация скоринговыми системами;

– инфляция приватности (см. раздел 2.2.1)
– Безопасность общества;

– национальная безопасность;

– сокращение времени на получение госуслуг;

– открытые данные;

– актуальная статистика для принятия государственных решений
Аккумулирование данных у государства, включая видеонаблюдение – Нарушение приватности (персональные данные открыты для автоматического сбора), разглашение особо чувствительной информации;

– массовое мошенничество с применением социальной инженерии и технологии «дипфейк»
– Быстрое оказание услуг;

– персонализация услуг и продуктов;

– масштабное развитие прикладных наук (в частности, в сфере здравоохранения)
Передача данных для ИИ – Разные виды дискриминации;

– скрытые ошибки;

– нарушение приватности
– Общение и самовыражение в социальных сетях и других онлайн-ресурсах;

– свобода слова;

– новые виды СМИ
Пользовательские данные, размещенные в открытом доступе – Нарушение приватности;

– цифровой монополизм;

– дискриминация скоринговыми системами;

– инфляция приватности (см. раздел 2.2.1)
Основной этической дилеммой становится выбор между соблюдением прав гражданина, интересов социальных групп, общества, государства, с одной стороны, и созданием новых продуктов, услуг, возможностей, прямо или косвенно связанных с использованием данных, — с другой.
Максимальное количество рисков возникает при сборе, анализе и использовании результатов анализа данных людей, и эти риски сконцентрированы в трех областях: обработка данных с помощью ИИ, видеонаблюдение, слежка в интернете. Самым массовым риском становится нарушение приватности (см. раздел 5.2).

2.1.2.1 Большие данные

Развитие некоторых технологий, в первую очередь систем ИИ, сильно зависит от доступности отдельных типов и наборов больших данных. Большие данные и технологии их обработки используются для создания не только сугубо коммерческих, но и социально важных научно-исследовательских проектов. В качестве примера приведем совместный проект Google и Центральной водной комиссии Индии с целью научиться предсказывать наводнения в индийском штате Бихар.
Необходимость защиты персональных данных, присутствующих в наборах данных, часто ограничивает возможности ученых и разработчиков в использовании больших данных в сфере здравоохранения (данные о состоянии здоровья считаются чувствительными), общественного и личного транспорта (если предусмотрено распознавание лиц и слежка за гражданами) и т. п.

В 2018 году компания Google получила доступ к персонифицированным медицинским данным миллионов американцев, включая результаты лабораторных исследований, диагнозы, ФИО и т. д. Информированного согласия никто из пациентов не давал. Официально объявленные цели — обучение ИИ и повышение качества медицинского обслуживания — формально не нарушали американские законы, которые позволяют медицинским организациям передавать информацию о пациентах третьим сторонам при оказании медицинских услуг. В 1996 году, когда был принят закон, разрешающий такую передачу данных (The Health Insurance Portability and Accountability Act of 1996), дата-корпораций еще не существовало.

2.1.2.2 Аккумулирование данных у компаний

Самые опытные, технологически продвинутые участники рынка данных — это так называемые дата-корпорации — крупные ИТ-компании, само существование которых стало возможным благодаря доступу к огромному количеству данных пользователей и которые извлекают сверхприбыли за счет сбора, обработки и продажи пользовательских данных. Данные — это их основной ресурс и источник дохода (см. раздел 5.2). Большая пятерка технологических гигантов — это Microsoft, Alphabet (материнская компания Google), Facebook, Amazon и Apple. У них аккумулированы основные ресурсы: финансовые, интеллектуальные, научные. В России крупнейшими ИТ-компаниями являются Яндекс, Mail.Ru Group, в Китае — Alibaba Group, Baidu, Tencent, Huawei и др.
Большинство этических проблем, связанных с данными, возникает из-за огромной стоимости данных граждан и колоссальной заинтересованности корпораций. Ради увеличения прибыли корпорации идут на нарушение прав граждан при обработке их данных.

Корпорации Google, Apple, Facebook, Amazon, Microsoft собирали и обрабатывали миллионы аудиозаписей, куда помимо устных команд голосовым помощникам и «умным» колонкам попадали фрагменты разговоров и другие звуки. Запись велась автоматически, без предупреждения пользователей, а данные использовались для обучения ИИ распознавать человеческую речь.

2.1.2.3 Аккумулирование данных у государства

Государство является владельцем большого количества данных и в перспективе может собирать их еще больше, тем более что очевиден потенциал применения качественных данных для перехода к государственному управлению, основанному на данных. Открытость данных и подотчетность госструктур повышают доверие граждан, стимулируют госслужащих к более эффективному расходованию бюджета и т. д. В то же время сейчас в России усиливается контроль сбора и хранения данных («закон Яровой»), принят закон о суверенном интернете и т. д., что может послужить ограничивающим фактором для развития этой технологии. Кроме того, качество данных, имеющихся в распоряжении у государства, по-прежнему низкое.
Подробнее см.: Государство как платформа: люди и технологии / РАНХиГС. М., 2019.
Мария Шклярук: «Максим Акимов говорил на последнем Гайдаровском форуме, что ключевая проблема управления на основе данных — это не когда мы начнем услуги оказывать, а когда за счет прозрачности финансов, закупок будет видно, куда какие деньги уходят, и сократится коррупционная рента» (Краснушкина Н. «Госуправления без цифры больше нет» [интервью с М. Шклярук] // Коммерсант.
Государство является гарантом соблюдения прав человека, поэтому при регулировании оборота данных оно должно обеспечивать соблюдение этических норм и при этом учитывать вопросы национальной безопасности. Тогда возникает дилемма: что приоритетнее в ситуации конфликта этических норм: интересы индивидуальных граждан (в первую очередь, соблюдение приватности) или интересы общества и безопасность государства?

2.1.2.4 Передача данных для ИИ

Для развития технологий ИИ необходимо использование технологий сбора и обработки данных, взаимосвязь ИИ и данных — почти 100% (см. раздел 3.1). Главный вопрос: как использовать максимум данных с минимумом рисков? Благодаря современным вычислительным мощностям технологии ИИ могут анализировать гигантские объемы данных и находить сложные и глубоко скрытые связи.
Благодаря сбору и анализу больших данных с помощью ИИ технологические гиганты способны выстраивать корреляции, которые сам человек еще не может осознать
Вместе с тем полные данные, даже если они условно деперсонифицированы, могут указывать на конкретного человека, его родных, профессию и т. д. Таким образом, полнота данных критически значима для успешной разработки интеллектуальных систем (ИС), но потенциально опасна для приватности и прав человека. Благодаря сбору и анализу больших данных с помощью ИИ технологические гиганты способны выстраивать корреляции, которые сам человек еще не может осознать и выстроить, например на основании его поисковых запросов.
Чрезмерное ограничение (зарегулированность) доступа к данным усложняет и замедляет развитие технологий ИИ на основе как машинного обучения, так и других методов. Продуманное законодательство и аккуратное правоприменение позволили бы соблюсти баланс регулирования объемов и степени анонимизации персональных данных без введения многочисленных запретов. Но такое законодательство только предстоит создать.

2.1.2.5 Пользовательские данные, размещенные в открытом доступе

Сбор данных «по умолчанию» проводится безусловно, когда человек пользуется мобильными устройствами, интернетом, устройствами ИВ (см. разделы 2.2.1, 4.3). Считается, что данные, которые пользователи выкладывают в бесплатных социальных сетях, в переписке в мессенджерах и оставляют в качестве цифрового следа, принадлежат самим людям, а дата-корпорации управляют этими данными только потому, что владеют площадками, на которых эти данные были оставлены, но на практике это совсем не так. Для дата-корпораций данные пользователей практически превратились в бесплатный и почти неограниченный по объему ресурс для извлечения прибыли.
Стандартный механизм получения согласия на обработку и хранение данных постепенно становится неактуальным из-за невозможности контролировать этот процесс, а с условием длительного (10−20 лет и более) срока использования данных — и недействительным по своей сути. Данные хранятся так долго, что в момент получения согласия невозможно уведомить человека о том, какие его данные и как именно будут обрабатываться и использоваться в будущем.

2.1.2.6 Утечки данных: причины и последствия

Утечки данных — это массовое явление по всему миру, от него не застрахован ни один оператор данных: ни государственные органы и их информационные системы, ни коммерческие организации. Прямой целенаправленный взлом происходит редко. Причинами утечек, как правило, являются:

  • ошибки в законодательстве;
  • недостаточно продуманная работа регулирующих и контролирующих органов;
  • ошибки непосредственных разработчиков баз данных (например, неправильно настроенные сервера, из-за чего сторонние специалисты по анализу могут получить данные, доступ к которым должен быть закрыт для них по умолчанию);
  • действия недобросовестных сотрудников, которые копируют данные для последующей продажи.

В открытом доступе в выдаче поисковых систем оказались около 2,25 млн записей из баз российских госорганов с персональными данными граждан РФ, в том числе почти 63 000 записей в реестрах сертификатов удостоверяющих центров; 2,2 млн записей из баз электронных торговых площадок. Причиной стало сочетание недостаточной защиты данных на сайтах по вине разработчиков и ошибок в законодательстве. Проблема защиты данных граждан актуальна во всем мире. В 2019 году произошла утечка данных 20,8 млн жителей Эквадора (большинства населения страны) в результате неправильных настроек базы данных. В Казахстане в 2019 году в открытом доступе оказались данные 11 млн граждан, но госорган, хранивший данные, вину не признал.
Еще более критичны утечки данных, собираемых о перемещениях, социальных связях, повседневной деятельности людей через инфраструктуру «умного» города. Даже отдельные «умные» носимые устройства способны причинить ущерб своим владельцам и целым странам из-за непредумышленного раскрытия информации (см. раздел 4). По причине недоразумения или безответственности сотрудников становятся публичными значимые государственные данные, включая те, которые могут представлять государственную тайну.

2.1.3 Риски оборота данных в России

Государство может столкнуться с большими проблемами этического характера, связанными в том числе с получением данных, качество которых не позволяет использовать их для принятия решений, а также с другими рисками оборота данных в современной России (таблица 3).
Таблица 3
Риски оборота данных в России
Двинских Д.Ю., Талапина Э.В. Риски развития оборота данных в государственном управлении // Вопросы государственного и муниципального управления. 2019, №3.
Общим способом снижения рисков в сфере оборота данных во всех отраслях будет являться повышение цифровой грамотности госслужащих, сотрудников коммерческих организаций и рядовых граждан России
На оборот данных в государственном управлении, открытых и больших, должно откликнуться все законодательство. Только комплексное, сбалансированное реформирование законодательства способно обеспечить непротиворечивые правовые режимы. Другим общим способом снижения рисков в сфере оборота данных во всех отраслях будет являться повышение цифровой грамотности госслужащих, сотрудников коммерческих организаций и рядовых граждан России, для чего необходимы, в частности:
разработка учебных программ по повышению цифровой грамотности, обучение сотрудников госучреждений и населения основам цифровой экономики и основам дата-этики;
организация информационных платформ для обмена актуальными данными о киберугрозах и их источниках всеми участниками информационных рынков.
Двинских Д.Ю., Талапина Э.В. Риски развития оборота данных в государственном управлении // Вопросы государственного и муниципального управления. 2019, №3.