ASRJam: как вежливо свести с ума голосовой фейк


QR‑код подменяет интерфейс.
Deepfake — подменяет голос.
Но по‑настоящему опасно — то, что подменяет тебя.
Ты берёшь трубку — и слышишь себя.
Не запись. Не эхо. Ты — говоришь, но это не ты.
Голос знакомый. Речь выверена. Интонации совпадают.
Добро пожаловать в вишинг нового поколения.
Сегодня подмена голоса — это не имитация. Это симуляция.
ИИ не притворяется — он воспроизводит тебя: тембр, ритм, микропаузы.
И самое опасное — делает это в реальном времени, удерживая диалог.
Так возникает замкнутая петля:
ты говоришь → тебя слышат → машина отвечает твоим голосом → цикл продолжается.
Реальный ты — становится триггером фальшивого.
Новый фронт: не обнаружение, а дезориентация
10 июня 2025 года на arXiv появилась работа, которая не распознаёт угрозу, а нарушает её механику.
ASRJam — это не фильтр и не антиспам. Это активная помеха, встроенная в голосовой поток.
Не скрежет. Не искажение. Не подозрение.
Шум, не слышимый человеком — но смертельный для синхронизации.
В чём принцип:
система держится на синхронизации — когда началась фраза, где пауза, где конец.
ASRJam встраивает в поток эхо-апертуры и реверберационные смещения — микросдвиги, которые ломают ритм.
ИИ «слышит», но теряет опорные точки:
где начало, где пауза, где смысл.
Она не может правильно разрезать фразы — и значит, не может сгенерировать ответ.
Цикл рушится не в один момент — а как диалог, в котором собеседник перестаёт понимать, на каком ты слове.
Почему это не скремблер
Большинство защитных решений против deepfake-звонков идут по двум путям:
- Анализ сигнала — определение фейков по спектральным искажениям (обходится легко).
- Дополнительная проверка — кодовая фраза, CAPTCHA, ручная верификация (заметно, неудобно, работает постфактум).
ASRJam действует иначе:
он разрушает саму способность системы слышать.
— Не мешает человеку.
— Не требует дополнительных действий.
— Не блокирует звонок.
Он просто нарушает восприятие машины — без шума, без усилий, без признаков вмешательства.
И это работает уже сейчас:
- через VoIP
- на SIP-серверах
- в корпоративных платформах (Zoom, Teams, Webex)
Технология адаптирована под стандартные аудиоканалы.
Это не реформа системы — это сбой, встроенный как дополнение.
Где ломается цикл
Чтобы понять силу ASRJam, нужно увидеть, как работает голосовая атака сегодня:
- Злоумышленник запускает бота.
- Используются TTS + LLM, обученные на вашей публичной речи.
- ASR разбивает вашу речь на сегменты.
- Модель подбирает ответ.
- Ответ возвращается в диалог — с вашей интонацией.
ASRJam бьёт по шагу №3.
Если система не может определить, что вы сказали и когда — она теряет опору.
Она “слышит”, но не может понять. А значит — не может ответить.
Например, звонок от “банка” с твоим голосом, спрашивающим код из SMS.
В обычных условиях — ты не распознаешь подвох: голос твой, речь убедительна.
С ASRJam — система не может распарсить даже твоё “алло”, сбивается на старте.
Ответа не будет. Только тишина.
Это и есть точка отказа.
Вместо “разговора” — пустота, в которой фейк не может ничего сказать.
Шум как безопасность
ASRJam предлагает другое понимание цифровой защиты.
Не верификация. Не запрет. Не тревожное уведомление.
А невидимый сбой, встроенный в саму коммуникацию.
Он не даёт машине слушать — и не мешает человеку говорить.
Это не интерфейсная мера. Это архитектура отказа.
В центре конфликта — несовместимость целей:
- человеку нужна ясность
- ИИ нужна точность
ASRJam сохраняет первое — и уничтожает второе.
Тихо. Эффективно. В моменте.
Будущая безопасность не кричит.
Она сбоит — там, где система обязана была слушать.
ASRJam — не коммерческий продукт, а открытая разработка.
Но архитектура уже совместима с enterprise-решениями.
Если это направление примут платформы — голосовой фишинг может потерять опору до того, как вы скажете первое слово.
Natallia — digital identities observer
Спецвыпуск REESTR · Лето 2025
→ Telegram-канал REESTR
Subscribe to my newsletter
Read articles from Natallia Vasilyeva directly inside your inbox. Subscribe to the newsletter, and don't miss out.
Written by

Natallia Vasilyeva
Natallia Vasilyeva
I observe how the architecture of digital control embeds itself into interfaces. I write to give structure to what anxiety already senses.