Теперь ИИ распознает ваш голос даже в шумной толпе
27.10.2017 956 0
Теперь ИИ может отделять друг от друга голоса множества одновременно говорящих людей в реальном времени. Это придаст автоматическому распознаванию речи значительное развитие, и вскоре такие системы могут быть и в лифте на вашей работе.
Технология, разработанная исследователями из Лаборатории электрических исследований Мицубиси в Кембридже, Массачусетс, и впервые была продемонстрирована в этом месяце в Токио.
Она использует технику машинного обучения под названием «глубокое аггрегирование» для определения уникальных черт в «отпечатке голоса» различных людей. Затем она группирует различные черты каждого говорящего вместе, что позволяет различить отдельные голоса друг от друга в точности реконструировать, что говорит каждый человек. Систему тренировали на 100 англоговорящих людях, но она разделяла голоса, даже если требуемый человек говорил по‑японски.
Система может разделить и реконструировать речь двух человек, говорящих в один микрофон с 90% точностью. С тремя говорящими точность понижается до 80%. И в том, и в другом случае система никогда раньше не слышала людей, которых анализировала.
В предварительных испытаниях такой ИИ различал до пяти голосов одновременно, и это может быть использовано как в домашних системах, так и в системах автоматического распознавания\голоса.
Технология, разработанная исследователями из Лаборатории электрических исследований Мицубиси в Кембридже, Массачусетс, и впервые была продемонстрирована в этом месяце в Токио.
Она использует технику машинного обучения под названием «глубокое аггрегирование» для определения уникальных черт в «отпечатке голоса» различных людей. Затем она группирует различные черты каждого говорящего вместе, что позволяет различить отдельные голоса друг от друга в точности реконструировать, что говорит каждый человек. Систему тренировали на 100 англоговорящих людях, но она разделяла голоса, даже если требуемый человек говорил по‑японски.
Система может разделить и реконструировать речь двух человек, говорящих в один микрофон с 90% точностью. С тремя говорящими точность понижается до 80%. И в том, и в другом случае система никогда раньше не слышала людей, которых анализировала.
В предварительных испытаниях такой ИИ различал до пяти голосов одновременно, и это может быть использовано как в домашних системах, так и в системах автоматического распознавания\голоса.
Читайте также |
Комментарии (0) |