Софт который переводит в реалтайме
Я столкнулся с такой проблемой. Когда я звонил по телефону всегда было очень тяжело понимать другой язык когда ты не очень знаешь язык. И хотелось такое приложение где ты звонишь и слышишь речь на русском и говоришь на русском. На том стороне провода тебя слышат на испанском и говорят с тобой на испанском
Начали с партнером делать Proof Of Concept и сделали прилку через которую можно звонить и общаться на их языке. Примерно уже был продукт сырой но задержки были очень долгие примерно 3 секунды перевод делался и потом озвучивалось это все собеседнику и в общем было не очень общаться.
Главная проблема была следующая
Ты говоришь предложение целиком и полностью (10 сек)
Перевод и озвучка твоей фразы (3 сек)
Озвученное аудио слышит твой собеседник (10 сек)
В итоге 23 секунды ты говоришь 1 предложение. Поэтому решили сделать так
Мой собеседник слышит и разговаривает со мной на английском
Я читаю текст и ничего не слышу но говорю на русском
Так мы времени сэкономили на озвучку себе так как читать быстрее
В общем вот такая была самая первая версия приложения где я звонил подруге и общался с ней на русском но она слышала и отвечала на английском

В общем это была самая первая версия как вы поняли и распознователь текста работал не очень хорошо
Я был уже готов запускаться на рынок с костыльными решениями и быстро проверить продукт на жизнеспособность и принять решение дальше развивать или похоронить проект. Партнеру такой проект совсем не нравился я думаю он бы умер от стыда если мы запустились с этим проектом и далее развивали
Надо решать с распозновалкой голоса чтобы ускорить его и максимально приблизиться к такому уровню чтобы выгледело как будто ты разговариваешь с человеком напрямую.
Потом решили перенести все это на комп.
Лучше делать софт который показывает “субтитры“ собеседника но ты говоришь и твое аудио переведенным услышит собеседник сразу после того как ты закончишь говорить.
Пусть видит как губы движутся не слышит как ты говоришь в оригинале но как ты закончишь говорить услышит на английском
Такая идея показалась более имеющим шанс на жизнь так как по телефону если ты разговариваешь ты слышишь 13 секунд тишины.
По дороге домой накинул технический дизайн в первом листе что попалось под руку

В итоге написал виртуальный микрофон и спикер
Далее написал драйвер на MacOS и мы пришли к следующему этапу и она выглядела так

Далее столкнулись с такой проблемой что размер буффера на определенных версиях MacOS отдается нестандартным образом не стандартные 44800 герц а 48600 тоесть было всегда рандомом и приходилось подгонять костыльно изза этого обрывался звук или некоторые высокие частоты превращались в шум
Далее начали делать дизайн и пришли к такому интерфейсу

Как вы видите мы подключили ChatGPT
И можно на любом сказанном предложении можно было получить ответ. Например HR спросит любой вопрос и у тебя уже есть ответ и неважно на каком языке у тебя спросили
В общем: проект на глубокой заморозке так как в это время начал заниматься уже другим проектом и пришлось эту идею пока что приостановить
Когда нибудь руки дойдут мб продолжу

