ASRJam: как вежливо свести с ума голосовой фейк

QR‑код подменяет интерфейс.
Deepfake — подменяет голос.
Но по‑настоящему опасно — то, что подменяет тебя.

Ты берёшь трубку — и слышишь себя.
Не запись. Не эхо. Ты — говоришь, но это не ты.

Голос знакомый. Речь выверена. Интонации совпадают.
Добро пожаловать в вишинг нового поколения.

Сегодня подмена голоса — это не имитация. Это симуляция.
ИИ не притворяется — он воспроизводит тебя: тембр, ритм, микропаузы.
И самое опасное — делает это в реальном времени, удерживая диалог.

Так возникает замкнутая петля:
ты говоришь → тебя слышат → машина отвечает твоим голосом → цикл продолжается.
Реальный ты — становится триггером фальшивого.

Новый фронт: не обнаружение, а дезориентация

10 июня 2025 года на arXiv появилась работа, которая не распознаёт угрозу, а нарушает её механику.
ASRJam — это не фильтр и не антиспам. Это активная помеха, встроенная в голосовой поток.
Не скрежет. Не искажение. Не подозрение.
Шум, не слышимый человеком — но смертельный для синхронизации.

В чём принцип:
система держится на синхронизации — когда началась фраза, где пауза, где конец.
ASRJam встраивает в поток эхо-апертуры и реверберационные смещения — микросдвиги, которые ломают ритм.
ИИ «слышит», но теряет опорные точки:
где начало, где пауза, где смысл.

Она не может правильно разрезать фразы — и значит, не может сгенерировать ответ.
Цикл рушится не в один момент — а как диалог, в котором собеседник перестаёт понимать, на каком ты слове.

Почему это не скремблер

Большинство защитных решений против deepfake-звонков идут по двум путям:

  1. Анализ сигнала — определение фейков по спектральным искажениям (обходится легко).
  2. Дополнительная проверка — кодовая фраза, CAPTCHA, ручная верификация (заметно, неудобно, работает постфактум).

ASRJam действует иначе:
он разрушает саму способность системы слышать.

— Не мешает человеку.
— Не требует дополнительных действий.
— Не блокирует звонок.

Он просто нарушает восприятие машины — без шума, без усилий, без признаков вмешательства.
И это работает уже сейчас:

  • через VoIP
  • на SIP-серверах
  • в корпоративных платформах (Zoom, Teams, Webex)

Технология адаптирована под стандартные аудиоканалы.
Это не реформа системы — это сбой, встроенный как дополнение.

Где ломается цикл

Чтобы понять силу ASRJam, нужно увидеть, как работает голосовая атака сегодня:

  1. Злоумышленник запускает бота.
  2. Используются TTS + LLM, обученные на вашей публичной речи.
  3. ASR разбивает вашу речь на сегменты.
  4. Модель подбирает ответ.
  5. Ответ возвращается в диалог — с вашей интонацией.

ASRJam бьёт по шагу №3.
Если система не может определить, что вы сказали и когда — она теряет опору.
Она “слышит”, но не может понять. А значит — не может ответить.

Например, звонок от “банка” с твоим голосом, спрашивающим код из SMS.
В обычных условиях — ты не распознаешь подвох: голос твой, речь убедительна.
С ASRJam — система не может распарсить даже твоё “алло”, сбивается на старте.
Ответа не будет. Только тишина.

Это и есть точка отказа.
Вместо “разговора” — пустота, в которой фейк не может ничего сказать.

Шум как безопасность

ASRJam предлагает другое понимание цифровой защиты.
Не верификация. Не запрет. Не тревожное уведомление.

А невидимый сбой, встроенный в саму коммуникацию.
Он не даёт машине слушать — и не мешает человеку говорить.
Это не интерфейсная мера. Это архитектура отказа.

В центре конфликта — несовместимость целей:

  • человеку нужна ясность
  • ИИ нужна точность

ASRJam сохраняет первое — и уничтожает второе.
Тихо. Эффективно. В моменте.


Будущая безопасность не кричит.
Она сбоит — там, где система обязана была слушать.


ASRJam — не коммерческий продукт, а открытая разработка.
Но архитектура уже совместима с enterprise-решениями.
Если это направление примут платформы — голосовой фишинг может потерять опору до того, как вы скажете первое слово.


Natallia — digital identities observer
Спецвыпуск REESTR · Лето 2025
Telegram-канал REESTR

0
Subscribe to my newsletter

Read articles from Natallia Vasilyeva directly inside your inbox. Subscribe to the newsletter, and don't miss out.

Written by

Natallia Vasilyeva
Natallia Vasilyeva

I observe how the architecture of digital control embeds itself into interfaces. I write to give structure to what anxiety already senses.