Разработчики программного обеспечения для искусственного интеллектуального перевода речи полностью обречены
Около месяца назад я взял несколько старых кассет, которые у меня были, и несколько старых видеокассет, которые я сохранил с выступлений, и попытался их оцифровать. У меня была глупая, но очень умная идея; Я включил программу распознавания голоса на своем компьютере, надел наушники на телевизор, включил телевизор на достаточно высокую мощность и воспроизвел видео. Теория заключается в том, что он будет записывать все, что говорится в программном обеспечении для распознавания голоса, и я могу преобразовать его в электронные книги, статьи и текстовые файлы.
Это не сработало.
Затем я взял несколько старых кассет с микромагнитофона, которые часто записывал на различных общественных выступлениях и на презентациях в колледже, где выступал с речами. Включил магнитолу и попробовал то же самое. Это тоже не очень хорошо работало. Когда я посмотрел на текстовый файл, созданный моим программным обеспечением для распознавания речи, он оказался почти мусором. Хотя то, что он написал, было довольно забавно.
В самом деле, я подумал, может быть, мой голос был слишком громким, или мой голос был слишком живым. Я также обнаружил, что ленты были слишком старыми и/или записанными достаточно хорошо, чтобы их можно было преобразовать в единицы и нули. Интересно, что однажды я прочитал статью, которая побудила меня переосмыслить свою предыдущую стратегию.
Действительно, в Wall Street Journal от 4 мая 2011 года была отличная статья под названием «Скажи что? Расширенные сообщения могут потеряться при переводе — устройства облегчают или делают общение непонятным; телефонные звонки я не ругаюсь» — статья забавная, и все же это не так уж и смешно, потому что люди все больше и больше полагаются на эти вещи?
Теперь для меня очевидно, что разработчикам программного обеспечения для перевода речи с искусственным интеллектом предстоит еще много работы, и я вижу, что они столкнулись с серьезной проблемой. Часто слишком много фонового шума, и каждый человек говорит на немного другом диалекте, акценте, и все это зависит от их языка происхождения и региона, из которого они прибыли, когда развили свой язык.
Вы можете себе представить, как сложно запрограммировать программное обеспечение для распознавания речи, а затем перевести его с одного языка на другой. Конечно, проблем достаточно, чтобы запись хорошо получилась с разными акцентами или плохой аудиосистемой. Затем возникает проблема с переводом, и некоторые фразы и слова просто не соответствуют другим языкам.
Интересно, что профессиональные переводчики могут брать речь с одного языка и переводить ее на другой, адаптируя фразы на каждом языке, чтобы они имели смысл. У Организации Объединенных Наций есть несколько интересных программ перевода, и они работают довольно хорошо, но даже этого недостаточно, что затрудняет общение и иногда ранит чувства.
Возможно, это станет одной из самых больших проблем для разработчиков искусственного интеллекта перевода речи в будущем. Думаю, так и будет. Действительно, я надеюсь, что вы все это обдумаете и обдумаете. Если у вас есть какие-либо новые стратегии, идеи или новые концепции в этом отношении, пожалуйста, свяжитесь со мной.