Алгоритм, недавно разработанный учеными, получил название Speech2Face. Имея запись голоса человека он способен точно выявить его пол и слегка менее точно — национальность. Еще с меньшей точностью программа определяет возраст. Кроме того, алгоритму даже удалось создать портрет человека, хотя и достаточно примерный.

Для того, чтобы обучить нейросеть, специалисты воспользовались массивом, куда вошли более миллиона небольших видеозаписей с голосами людей. Программа занималась разделением видео и аудиодорожки. Сперва она обрабатывала лицо человека, а после этого работала с дорожкой аудио. После этого данные двух алгоритмов объединили и соотнесли лицо с полученной спектрограммой.

По завершению обучения, исследователи провели тесты на снимках лиц людей. Выяснилось, что программа легко определяет пол человека, однако возраст с точностью до десяти лет ей удается угадать не всегда. Кроме того было отмечено, что алгоритм удачнее справляется с воссозданием лиц людей, отличающихся европейской и азиатской внешностью. Предполагается, что на последний факт повлияла неравномерность выборки по национальностям.

Нейросети удалось воссоздать лицо человека по голосу

Результат работы нейросети. В первом столбце фотографии из видео, во втором — восстановленные по фото лица, а в третьем — лицо, воссозданное по голосу /©Tae-Hyun Oh et al.

Исследователи отметили, что точность воссоздания внешности по голосу никогда не сможет быть особенно высокой из-за наличия большого числа особенностей, оказывающих влияние на речь. Также голос человека может изменяться с течением времени, так что его стопроцентное сопоставление с внешним видом пока невозможно.

Ученые решили обратить внимание на выявление таких показателей, как пол, возраст и национальность. И если первые два программа уже способна определить с достаточно высокой точностью, то последний пока вызывает некоторые вопросы.

Специалисты также отметили, что созданный ими алгоритм будет полезен для куда лучшего понимания связи внешнего вида человека и его голоса.

Поделиться в социальных сетях