Совсем ЧИПнулись

В рубрике Исследования - 2023-01-20

Фантастика, которая еще вчера рассказывала о каких-то неземных технологиях, сегодня превращается в реальность. И если одни технологические новинки вызывают только восторг, то другие наоборот – заставляют задуматься, нужны ли нам эти технологии будущего в настоящем.

 

Из хороших побуждений

В наступившем году одной из главных новостей IT-технологий стало известие о том, что ученые научили ИИ (искусственный интеллект) эмитировать голос человека. Причем для того, чтобы скопировать голос, ему достаточно прослушать речь всего три-пять секунд. Если же роботу дать больше времени для анализа, то есть записывать голос человека чуть дольше, но ИИ может воспроизводить и тембр, и манеру общения, что сделает речь неотличимой от речи реального человека. Сам проект получил название VALL-E, а авторство разработки принадлежит Microsoft. Случайно или нет, VALL-E созвучно с названием мультфильма WALL-E, вышедшего в прокат в 2008 году. Голливудская фантастика рассказывает о добром роботе, который прилежно трудится на опустевшей Земле, очищая планету от гор мусора. По всей видимости, таким образом в Microsoft намекают на безобидность разработки, которая должна сделать нашу жизнь лучше.

Главной задачей VALL-E является производство высококачественных приложений преобразования текста в речь. Проект основан на технологии EnCodec, о которой Meta объявила в октябре 2022 года. В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, дискретные сигналы EnCodec состоят из текстовых и акустических подсказок. С помощью них искусственный интеллект генерирует соответствующие акустические маркеры голоса и использует их для синтеза речи. Специалисты Microsoft обучали ИИ VALL-E на звуковой библиотеке, собранной Meta, под названием LibriLight. Она содержит 60 тысяч часов англоязычной речи от более чем семи тысяч носителей, в основном взятых из общедоступных аудиокниг LibriVox.

Microsoft уже выложила примеры работы VALL-E по имитации голосов. Некоторые результаты не слишком отличаются от привычного голоса, синтезированного компьютером, но есть и другие, которые просто неотличимы от оригинала. И это действительно поражает и настораживает одновременно.

Помимо сохранения вокального тембра и эмоционального тона говорящего, VALL-E также может имитировать акустическое окружение. Например, если звуковой фрагмент взят из телефонного звонка, то ИИ сымитирует соответствующий фоновый шум, как в оригинале.

Конечно, хочется верить в то, что новые технологии будут работать исключительно только во благо. Допустим, для людей с ограниченными возможностями, которые лишены способности говорить, VALL-E стер бы границы, и они могли бы беседовать даже с теми людьми, которые не обучены языку жестов. Но действительно ли ИИ находится под полным контролем человека, тем более что сейчас эти самые роботы уже начали руководить людьми в буквальном смысле?

 

Они правят нами

В августе 2022 года генеральным директором одной из китайских компаний стала Тан Ю (Tang Yu) - виртуальный человекоподобный робот с искусственным интеллектом.

На него (или нее) возложена функция управления операциями в известной китайской компании, занимающейся играми и метавселенной, в частности отвечать за организацию повседневной деятельности компании. Ожидают, что интеграция Tang Yu в компанию повысит качество рабочих задач и скорость их выполнения. Помимо этого, на ИИ возложена обязанность сбора и обработки аналитических данных для совета директоров.

В компании надеются, что работа ИИ поможет лучше управлять рисками. Кроме того, Тан Ю поможет развивать таланты сотрудников и создавать справедливые и равные условия работы для всех. Здесь главное, чтобы у подчиненных не развилась фобия. Не секрет, что многие сотрудники позволяют себе во время рабочего процесса немного отвлечься от основных обязанностей, будь то игра в «Косынку», просмотр личной почты или скидок в каком-нибудь бутике. Степень отвлеченности особо возрастает, когда руководителя нет поблизости. Здесь же начальник-робот будет не просто стоять над душой у каждого сотрудника одновременно, а теоретически может отслеживать даже нажатие клавиши.

Но это, как говорится, о клерках, само же руководство компании верит, что ИИ - будущее корпоративного управления. Компания планирует расширять использование искусственного интеллекта для создания открытой, интерактивной и прозрачной модели управления.

Другой пример допуска робота к человеческим функциям и обязанностям можно увидеть на противоположной стороне континента. В Дании пошли еще дальше, и в ноябре 2022 года стало известно, что искусственный интеллект возглавил ни много ни мало, а политическую партию. Она получила незамысловатое название «Синтетическая» (Synthetic Party) и была основана в мае коллективом художников Computer Lars и некоммерческой арт-технической организацией MindFuture Foundation.

Возглавляет партию ИИ, получивший название Лидер Ларс, запрограммированный на политике всех датских партий с 1970-х годов и призванный представлять ценности 20 процентов датчан, которые не голосуют на выборах. Однако, поскольку Ларс не является человеком, то по закону он сам не может баллотироваться на государственную должность. Поэтому учувствуют в выборах и представляют его в парламенте другие члены партии.

«Синтетический» политик сравнительно недолго трудится на благо общественности, однако уже успел отличиться. Ларс посчитал, что необходимо введение «общего базового дохода» в размере 100 тысяч датских крон в месяц, что чуть меньше 14 тысяч долларов. Что именно подразумевалось под словом «общий», не уточняют. Можно предположить, что речь о ББД (безусловном базовом доходе) - это социальная концепция, предполагающая регулярную выплату суммы денег вне зависимости от уровня дохода и без необходимости выполнения работы. Если так, то ИИ можно только поаплодировать стоя. Такому новшеству были бы рады все датчане, тем более что озвученная сумма вдвое больше средней заработной платы в Дании.

Есть, правда, один нюанс – предложив назначать всем обязательные выплаты, Ларс не сообщил, откуда казна должна будет брать деньги, чтобы реализовать такую «благотворительную акцию».

А в США ИИ доверили работу, результаты которой напрямую влияют на то, как будет складываться судьба того или иного человека, – виртуального адвоката.

Компания DoNotPay разработала программу, которая должна помочь подсудимым сэкономить деньги на услугах адвокатов. По замыслу основателя компании, ученого из Стэнфордского университета Джошуа Браудера, ИИ будет работать через приложение в смартфоне, прослушивая судебное заседание, а затем консультируя ответчика через наушник. То есть «робот-адвокат» будет подсказывать «клиенту», что именно ему следует говорить в суде. Понятно, что эта услуга будет не бесплатной, но, судя по заявлению разработчиков, станет значительно дешевле услуг настоящего адвоката. Если при этом «машина» начнет выигрывать одно дело за другим, то услуги виртуального помощника могут быстро набрать популярность.

Плюсы робота-адвоката налицо: его не мучает совесть, такой адвокат никогда не проспит, не забудет сноску в законе, да и анализ гигантской базы данных может провести за доли секунды. Правда, есть здесь и недостатки. Что если в самый ответственный момент пропадет интернет или выйдет из строя смартфон, кто тогда будет защищать подсудимого?

  

Степень риска

Возвращаясь к основной теме – созданию ИИ, который копирует человеческую речь, невольно вспоминается сцена из фильма «Терминатор», где робот-убийца, приняв облик своей жертвы, начинал говорить тем же голосом. Конечно, VALL-E не сможет нанести прямой вред человеку, не выстрелит из пистолета и не проткнет глазницу колющим предметом. Однако он может стать не менее страшным оружием, если попадет не в те руки.

Представьте ситуацию, в которой этой технологией завладели мошенники. В целом и сегодня криминальный сектор использует новейшие технологии. Мошенники могут компилировать и собирать из нарезок записи голоса человека полноценные предложения, позволяющие обходить защитные системы различных финансовых организаций. Но это, напомним, делается путем долгого сбора данных (слов) конкретного человека.

Здесь же требуется всего несколько секунд, и основа уже в кармане. Если получится вытянуть человека на более долгую беседу, то технологии могут создать практически неотличимый слепок голоса. И не стоит недооценивать интернет-мошенников. Уж кто-кто, а они не жалеют средств на интеграцию в свое ремесло новых технологий.

В Microsoft заявили, что понимают риски VALL-E и не будут делиться кодом с другими, пока не придумают детектор, способный отличать сублимированную речь от настоящей. Но является ли это гарантом безопасности? Конечно, нет. Ведь если такие технологии уже созданы человеком, то их можно украсть или воссоздать самостоятельно – это лишь вопрос времени. Такая технология, как VALL-E, даст большое поле для распространения различных фейков и информационных диверсий. Только представьте симбиоз VALL-E и технологии Deepfake (подделка визуального образа – вновь все тот же искусственный интеллект)!

К слову, американские ученые из университета Флориды изучили достижения артикуляционной фонетики и разработали технику распознавания дипфейк-аудио. Созданный детектор способен определить подмену с точностью до 92,4 процента. То есть  7,6 процента – это ситуации, когда не только человек, но и автоматика не способны выявить подделку. При этом неизвестно - сможет ли детектор вычислить работу передовой технологии VALL-E. Так готово ли человечество к таким технологиям или стоит чуть больше изучить ИИ, прежде чем доверять ему так много?!

Алексей Мальченко

Поделиться