Как COVID-19 заставил нас отказаться от приватности во имя безопасности

Всемирный карантин дал толчок развитию технологий в разных сферах: образовании, бизнесе и медицине, а также обозначил проблему нехватки данных для разработчиков этих технологий. Какие важные технологические решения появились в кризис и как их используют?

В конце января 2020 года китайское подразделение издания Global Time опубликовало ролик, демонстрирующий, как дроны-беспилотники ищут нарушителей карантина. На видео женщина в полицейской форме использует громкоговорители на дронах, чтобы сообщить об опасности вируса и убедить людей оставаться дома.

В мартовской публикации Business Insider предположили, что именно этому примеру последовали в Испании. На видео, опубликованном BBC News, беспилотники летают по непривычно пустынным улицам Мадрида. Дронами управляет полиция, сотрудники которой соблюдают дистанцию: не выходя из машин, просят людей покинуть парк и вернуться в свои дома.

В США дроны не просто убеждают граждан оставаться дома, но и пытаются выявить заболевших. CNET сообщает, что в штате Коннектикут тестируют «пандемические беспилотники» от компании Draganfly, оснащенные сенсорными и компьютерными системами зрения. С расстояния около 60 метров дроны измеряют температуру, пульс и частоту дыхания, а также способны обнаружить в толпе кашляющих или чихающих. Как потом поступают с потенциальными больными, неизвестно. В публикации пишут, что дроны не обладают технологией распознавания лиц, а используются лишь с целью выявления закономерностей о распространении вируса, чтобы принимать решения на основании этой информации. В демократической Америке за сбор данных без согласия или их обезличивание грозят серьезные штрафы, и, похоже, лидерство по количеству заболевших COVID-19 этого не изменило.

Политика конфиденциальности значительно затрудняет сбор данных, которые лежат в основе многих технологий и необходимы не только маркетинговым отделам компаний, пытающихся нам что-то продать. Эпидемиологические модели по распространению вируса, прогнозирование нагрузок на здравоохранение, нейросети для клинической диагностики и другие технологии нуждаются в огромных массивах данных для функционирования. Пандемия усилила синергию технологий и медицины, популяризовала технологические решения, сделав их видимыми для большинства, и обнажила проблемы технологий и человеческие страхи.

Какие технологии получили развитие во время пандемии

Всемирный карантин и желание пережить кризис заставили людей менять поведение и способы потребления, изучать новые возможности. К технологиям пришлось обратиться даже далеким от «креативного класса» — тем, кто в обычное время этого бы не сделал.

Если раньше новые технологии входили в массы постепенно, то теперь пришлось срочно осваивать платформы для видеоконференций (количество ежедневных пользователей Zoom выросло в 20 раз за три месяца), интерактивного обучения (Google.Classroom доступен учебным заведениям и некоммерческим организациям бесплатно), сервисы для постановки задач. Новые навыки массы приобрели вынужденно и быстро, а именно пользовательский опыт в конечном счете влияет на то, станут ли люди пользоваться опробованными технологическими продуктами.

Это изменит развитие разных сфер: бизнес станет более автоматизированным, кто-то решится перевести больше сотрудников на удаленный формат работы, дистанционное образование перестанет казаться диковинным. Хотя будут и те, кто с радостью вернется к привычному образу жизни, часть пользователей продолжит пользоваться новыми продуктами. Они станут и дальше менять поведение, способы потребления и будут продолжать пробовать новые технологические решения. А приток новых пользователей позволяет получить важный ресурс — данные, благодаря которым продукт будет развиваться.

Технологии нашли применение в науке, в том числе и для борьбы с пандемией. Университет Джона Хопкинса создал интерактивную карту, показывающую распространение COVID-19 в мире. На основании данных о заболеваемости они ищут тенденции: как будет расти смертность, кто больше подвержен риску, как протекают вспышки.

Интерактивная карта от Университета Джона Хопкинса, фото Mohammad Fahim, Unsplash

Классические эпидемиологические модели опираются на данные, прогнозируя вспышку. В текущей ситуации пандемии они часто не учитывают, что сдерживающие меры различаются в зависимости от страны, а это влияет на распространение болезни. Команда из Университета Роберта Коха в проекте «Горизонт событий — COVID-19» использовала данные от Университета Джона Хопкинса, чтобы построить эпидемиологическую модель, учитывающую влияние социального дистанцирования и принятых правительствами разных стран мер для сдерживания пандемии.

Значимые результаты показывает и сетевая медицина — медицинские проекты, основанные на анализе больших массивов данных. Например, когда вы загружаете в нейросеть изображения тканей с опухолями и обучаете систему искать их признаки. Пока на такие решения нельзя полностью положиться и компетентного врача-онколога они не заменят, но способны стать хорошим подспорьем в диагностике: ведь даже самые опытные врачи ограничены в ресурсах времени и внимания. Folding@home — проект, направленный на исследование болезней, таких как рак, болезни Альцгеймера и Паркинсона. Ученые предлагают подключить компьютер к общей сети, увеличивая таким образом ее вычислительную мощность. Сеть распределенных вычислений используется для моделирования изменений в белках, связанных с заболеваниями. Это пример не только сетевой медицины, но и гражданской науки: когда любой желающий может помочь ученым, не обладая для этого специальными знаниями.

Теперь проект также помогает бороться с COVID-19. Для этого создается сеть из компьютеров по всему миру, которые перебирают множество вариантов. Это нужно, чтобы смоделировать точную структуру вируса: зная его строение, ученые поймут, куда надо «бить». Так можно будет целенаправленно работать над лекарствами и вакцинами.

{«preview_thumbnail»:»/sites/default/files/styles/video_embed_wysiwyg_preview/public/video_thumbnails/NTLU1anxe8c.jpg?itok=CyTcRtYe»,»video_url»:»https://youtu.be/NTLU1anxe8c»,»settings»:{«responsive»:1,»width»:»854″,»height»:»480″,»autoplay»:0},»settings_summary»:[«Embedded Video (Адаптивный).»]}

Видео показывает часть симуляции, работающей на Folding@home. Это структура белка, в котором атомы (изображены виде сфер) отодвигаются, обнажая место, с которым сможет образовать связь молекула лекарства. Этот белок — β-лактамаза отвечает за некоторые виды устойчивости к антибиотикам

Лаборатория Барабаши тоже работает с исследованиями в области сетевой науки и активно включилась в борьбу с COVID-19. Их инструменты для прогнозирования и вычислительные мощности позволили быстро изучить взаимодействие между патогеном и заболевшим, чтобы разобраться с механизмом инфекции и найти подходящие лекарства. Лаборатория разместила на препринте (предварительное размещение теоритических выводов без проверки других экспертов, позволяющее быстро поделиться полученными результатами; перед публикацией в журнал исследование пройдет рецензирование. — Курсив.) исследования о процессах, протекающих при заражении COVID-19, и потенциальных лекарствах, способных воздействовать на эти процессы. Теперь исследователи проверяют точность прогнозов, используя данные о лекарствах, применяемых на стадии клинических испытаний. Так они определяют, что именно и насколько хорошо работает, и какие еще препараты стоит быстро переводить в стадию клинических испытаний.

Карта-схема, созданная в лаборатории Барабаши с помощью методов сетевой медицины. Жёлтые точки показывают мишени, в которые стоит попытаться бить существующими лекарствами, covid.barabasilab.com

У сетевой медицины, прогностических моделей и массовых пользовательских технологий есть общая проблема: для успешного функционирования им всем нужны данные. И чем больше — тем лучше.

Почему данные так ценны и как их используют

Data Science, или наука о данных, использует большие массивы данных (Big Data или Dataset) для понимания связей между явлениями, выявления закономерностей и их анализа. Некоторые исследователи утверждают, что это скорее другое название для статистики, чем новая отрасль. Более распространено мнение, что Data Science — междисциплинарная отрасль, объединяющая статистику, математику, информатику и, опционально, другие сферы — в зависимости от конкретных задач.

Неопределенность в терминах связана с тем, что отрасль довольно молодая: современная концепция появилась в начале 2000-х, хотя первые разговоры о новой дисциплине начались в 1970-х. Технологические мощности тогда не позволяли развернуться в работе, что затормозило развитие отрасли. Понятные и значимые результаты общественность может наблюдать последние лет десять.

В машинном обучении важны 3 составляющих: данные, признаки и методы.

Данные. Чем больше и разнообразнее входные данные, тем точнее результат. В базах данных должны быть несколько десятков, а лучше несколько сотен тысяч примеров. Хорошие и объемные наборы данных — большая ценность, они всем нужны. Компании выкладывают в открытый доступ алгоритмы, но мало кто делится датасетами. Тип данных зависит от задачи исследователя: учим машину определять спам — берем примеры спам-писем, предсказываем землетрясения — изучаем данные с датчиков за длительный период.
Признаки или фичи (features). Машине нужно указать, на что реагировать. Для этого данные помечаются в зависимости от характеристик. Например, для писем со спамом это может быть счетчик частоты появления слов в тексте, а для катаклизмов — временные ряды и показатели активности тектонических плит.
Методы. Задачи решаются разными способами. Нейросети, которые в медиа часто называют искусственным интеллектом (ИИ — это вся область, как биология или физика, а не только нейросети. — Курсив), — только один из методов машинного обучения. Эпидемиологические модели, прогнозирующие распространение болезни, основаны на статистических методах. В таких математических моделях ищет закономерности и предсказывает возможное развитие событий тоже машина. Нейросетям тут применения не находят, потому что прогнозировать с их помощью социальные события пока неэффективно.

В машинном обучении на результат влияет количество и качество данных. Если данных мало и они неверные, то никакой алгоритм не даст на выходе точный результат. Некоторые представители США сомневались в данных, предоставленных Китаем о ситуации с COVID-19, считая что страна утаивала информацию так же, как делала это в 2003 году во время вспышки атипичной пневмонии (болезнь вызывал коронавирус SARS-CoV, похожий на виновника нынешней пандемии, названного SARS-CoV-2). Тогда Китай не информировал ВОЗ о вспышке нового заболевания, скрывая информацию около трех месяцев. Поэтому под сомнение поставили прогностические модели: если данные изначально неверны, то не получится точно предсказать распространение инфекции.

Помимо самих данных, важна их разметка: какие признаки им определили. Просто загрузить в машину кучу несистематизированных данных и надеяться на лучшее — неэффективный подход. Разметка данных порой занимает больше времени, чем само обучение, ведь нужно определить самые значимые признаки, и их не должно быть много.

habr.com

Некоторые используют для этого пользователей: вспомните, как Google просит отметить все машины или дорожные знаки на фотографии. Но значительно удобнее сразу собрать данные, размеченные пользователями. Пусть они сами укажут признаки: пол, интересы, местонахождение. А машины научатся не только подсовывать рекламу ресторанов, но и предупреждать о возможном катаклизме или нахождении поблизости инфицированного.

Кибербезопасность или кибердиктатура

В Германии с марта отслеживают передвижения граждан. Это часть стратегии по борьбе с COVID-19. Оператор T-Mobile предоставляет вирусологам из Университета Роберта Коха обезличенные данные 46 миллионов абонентов. Передача данных ученым была легализована в Германии в 2015 году и не нарушает законодательства ЕС о персональных данных, потому что не содержит имен, сведений о заболеваниях абонентов и любых других данных, позволяющих их установить. Кроме того, специалисты оценивают данные 30 абонентов в одном «пакете» и не могут отследить конкретного пути каждого из них.

В начале апреля Университет запустил приложение Datenspende, которое предлагает «пожертвовать» данные, сохраняя при этом анонимность. Сервис запрашивает у смартфона информацию о времени сна, пульсе и физической активности пользователя в течение дня. Некоторые гражданские активисты сомневаются в безопасности сервиса: код приложения не выложили в открытый доступ, так что проверить его безопасность путем проведения независимой экспертизы нельзя, а разработку спонсировал предприниматель Карстен Машмайер, которого пресса обвиняла в посягательствах на свободу слова и теневом участии в избирательных кампаниях.

Доктор Ален Лабрик, эпидемиолог-инфекционист и доцент в Школе общественного здравоохранения имени Джона Хопкинса, написал колонку для CNN, озаглавленную «Глупо беспокоиться о конфиденциальности, когда данные могут помочь в борьбе с коронавирусом». Он объясняет, что многие страны давно и успешно применяют данные, полученные со смартфонов пользователей, и призывает не бояться таких технологий, ведь они собирают данные анонимно с помощью опросов, а геопозиция пользователя определяется не точно. Однако никто не даст гарантий, что согласившись поступиться приватностью, мы не окажемся в мире с системой социального кредита, подобной той, что хочет построить Китай, когда каждое твое действие оценивают извне, выставляя рейтинг.

С середины апреля Германия и Франция постепенно делают послабления и выходят из карантина, в чем тоже решили положиться на технологии. Они обратились к техногигантам — Google и Apple. Страны попросили компании поддержать их подход к использованию технологий смартфонов для отслеживания пользователей: поскольку симптомы COVID-19 проявляются не сразу, после регистрации заболевания приложение предупредит пользователей всех устройств, что контактировали с заболевшим. Они получили отказ, поскольку французское и немецкое приложения хотели собирать данные пользователей на централизованном сервисе, в отличие от стратегии большинства европейских стран, где предпочли использовать передачу данных о местонахождении от устройства к устройству с помощью Bluetooth. Такой подход основан на информировании самих пользователей, а не отслеживании всех граждан правительством (как в некоторых странах Азии).

С помощью приложений, созданных правительствами разных стран, устройства будут «запоминать», кого вы встречали, фото Engin Akyurt, Unsplash

Reuters пишет, что это добавило политическое измерение в дебаты по установлению стандартов. Французский чиновник заявил, что Европе пора перестать уступать давлению со стороны Соединенных Штатов. «Европейские государства полностью находятся в заложниках у Google и Apple», — сказал он. Германия позже изменила курс и заявила, что примет децентрализованный подход.

Apple (компания давно «продает» концепцию приватности) и Google решили внести изменения в технологию, сделав акцент на большей защите данных и конфиденциальности. Apple выпустила раннюю бета-версию обновления в iOS 13.5, позднее выйдет версия для Android. После тестирования выйдет версия, доступная всем пользователям. Когда система обновится, смартфон сможет использовать Bluetooth для поиска тех, с кем контактировал заболевший и присылать уведомления о потенциальном заражении. Во время первой фазы запуска здравоохранительные организации со всего мира получат программное обеспечение от технокомпаний, на основе которого смогут создавать собственные приложения для оповещения контактировавших с заболевшим COVID-19. Законодательное регулирование, разработка и распространение приложений будут в собственной зоне ответственности каждой страны.

И вот над пустой улицей Мадрида — или какого угодно города — летит дрон, ищущий нарушителей карантина. Он помогает ограничить социальные контакты, пока врачи сутками сражаются против опасной болезни. На смартфон приходит оповещение, что пользователь контактировал с заболевшим. Человек остается дома, разрывая цепочку потенциального распространения инфекции. И это не сюжет из фантастического фильма, это новая реальность. Возможно, что без поддержки технологий в борьбе с пандемией и ее последствиями нам не справиться. Технологии — благо, но в сочетании с безответственностью — это худшее, на что может положиться человечество.