Open AI опять решили подразнить обычных пользователей и предоставили ограниченный доступ к своей новой нейросети для преобразования текста в голос - Voice Engine. Она позволяет скопировать голос человека из 15-секундной аудиозаписи:
Технология как и ElevenLabs поможет компаниям, преподавателям и инфлюенсерам обращаться к аудитории на любом языке собственным голосом, причем сохранив родной акцент.
Доступ к ней получили пока только серьезные компании HeyGen, Age of Learning и Dimagi.
HeyGen вообще красавчики - используют технологии как ElevenLabs, так и OpenAI, чтобы предложить своим пользователям более широкие возможности при создании видео с искусственным интеллектом.
Так вот, тестирование Voice Engine показалокак можно использовать технологию во благо в различных отраслях. Вот несколько ранних примеров: перевод контента, помощь в чтении и поддержка лиц, не способных говорить, восстановление голоса людям с нарушениями речи, улучшение обслуживания в отдаленных районах.
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.
Open AIпоказали нейросеть, которая может клонировать голос — Voice Engine.
Именно Voice Engine дал «голос» ChatGPT, а теперь еще и умеет клонировать чужие голоса по 15 секундам аудио образца.
Open AI заявляет, что Voice Engine может помочь детям и взрослым, которые не умеют читать, воспринимать текстовый контент. По словам разработчиков, модель не только сотрёт языковые барьеры, но и позволит блоггерам и компаниям общаться с аудиторией на любом языке собственным голосом. Также этот инструмент будет полезен людям, которые по каким-либо причинам потеряли голос или столкнулись с нарушением речи.
Простым смертным модель всё ещё нельзя попробовать, пока ее тестируют it - компании. И не спроста пока ее не выпускают в широкие массы, Open AI серьезно подстраховываются.
Меры против мошенничества
Тем, кто беспокоится о мошенничестве, Open AI серьезно позаботилось о безопасности.
Во-первых, партнеры, тестирующие Voice Engine, согласились с их политикой использования, которая запрещает выдавать себя за другое физическое лицо или организацию без согласия или законного права.
Во-вторых, все должны получить согласие первоначального докладчика, и мы не разрешаем разработчикам создавать способы для отдельных пользователей создавать свои собственные голоса.
В-третьих, партнеры должны сообщать своей аудитории, что голоса, которые они слышат, генерируются искусственным интеллектом.
В-четвертых, Open AI внедрили ряд мер безопасности, включая водяные знаки для отслеживания происхождения любого звука, генерируемого Voice Engine.
В-пятых, в США уже запретили звонки с использованием сгенерированных голосов из-за случая спам-звонков от Байдена )) Остальные страны тоже подтянутся в стремлении ограничить неэтичное использование голосовых технологий ИИ.
Подписывайтесь на ИИшница 🍳 - тут все самое интересное из мира новых технологий и нейросетей 🤖
Всем, доброй ночи. Имеется два компьютера на базе windows 10 и 11. Накаждом из этих компьютеров установленна программа NVDA, она используется незрячими и слабовидящими людьми для взаимодействия с компьютером при помощи клавиатуры, и синтеза речи. То есть вся работа у незрячего происходит при помощи этой программы с клавиатурой и синтезатором речи, который озвучивает все действия пользователя.
Тут начала появляться проблема, что есть родственники, у них ноутбук, жесткий диск на терабайт, система windows 10. По привычке они все скидывали на диск ц.
Сегодня залез при помощи удаленного управления компьютером при помощи программы ТNVDA, у этой программы имеется хорошее дополнение для управление другим компьютером, правда это дополнение ставится дополнительно, дополнение должно быть у каждого установлено, чтобы была возможность подключаться к другому компьютеру при помощи адреса сервера и ключа, который можно создать самому или сгенерировать дополнением автоматически.
Более быстрым способом решения задачи решил поступить так, что просто взял и переместил все файлы с рабочего стола на диск д.
Может быть я сделал совсем неправильно, как нужно было это сделать.
Просто не имею желание сидеть и выбирать каждый файлик, что оставлять, а что просто в другое место скидывать.
Я предупредил их об этом, посмотрю, что будет дальше!
Надеюсь, что будут разбираться, куда что кидать, так как диск ц на 118 гигабайт, а освободил в районе 37.3 гигабайта, а точнее в районе 43 гигабайта.
Просто все скачивали сразу на рабочий стол, чтоб потом быстрее искать и с этим работать. А вот как оно оказывается, что на этом диске оставалось в районе 300 мегобайт свободного места всего лишь!
Ка говорит Леонид Семенович Каневский: "А это совсем уже другая история".
Мы постарались сделать каждый город, с которого начинается еженедельный заед в нашей новой игре, по-настоящему уникальным. Оценить можно на странице совместной игры Torero и Пикабу.
Не секрет, что у Baldur's Gate 3 не было оригинальной русской озвучки. Мы сделали так, что главные персонажи из игры могут говорить на русском языке. Некоторые говорят с небольшим акцентом … а некоторые с заметным акцентом.
К вопросу о том насколько это правомерно/законно/человечно использовать чужие голоса в обучении нейросетей (в контексте обновления киберпанка): Если всё берётся из общего доступа и не нацелено на оскорбление/дискредитацию/унижение человека, то не думаю, что кто-то может сказать что-то против, кроме CDPR. А самим CDPR во-первых: выгодно чтобы у игры была хоть и неофициальная, но всё же озвучка на русском; во-вторых: что они сделают рандомному пользователю из инета, клепающему мод на игру? Некоторые умудряются DENUVO взламывать и им ничего не делается, а пиратская озвучка намного менее серьёзный проступок, если проступок вообще. Поэтому болею сейчас за всех, кто трудится над озвучкой обновления нейросетями!
Привет, любители технологий! Сегодня я рад представить вам S.T.A.R.K. (Speech and Text Algorithmic Recognition Kit). Если вы когда-либо мечтали создать голосового ассистента, который будет современным, продвинутым и невероятно интуитивным, S.T.A.R.K. - лучшее решение.
Почему именно S.T.A.R.K.?
Автономность и конфиденциальность: S.T.A.R.K. работает полностью на устройстве, гарантируя сохранность ваших данных.
Распознавание контекста: С S.T.A.R.K. вы можете легко определять контекст и параметры для последующих запросов, а также одновременно выполнять несколько команд.
Асинхронные команды: Запустите задачу и продолжайте использовать ваш голосовой ассистент. S.T.A.R.K. уведомит вас о завершении.
Множественные ответы: Получайте обновления в реальном времени для текущих задач, будь то мониторинг процесса загрузки или отслеживание доставки.
Продвинутый синтаксический анализ: Специальная синтаксическая система упрощает извлечение любого параметра из строк.
Расширяемость с помощью ведущих языковых моделей: Улучшите когнитивные способности S.T.A.R.K., интегрируя его с ведущими языковыми моделями, такими как ChatGPT.
Поддержка нескольких языков: Взаимодействуйте со своим голосовым ассистентом на нескольких языках.
Полная настройка: Создавайте сложные команды, интегрируйте различные голосовые или текстовые интерфейсы и даже переопределяйте существующие классы.
Поддержка сообщества: Присоединяйтесь к репозиторию STARK-PLACE и пользуйтесь библиотекой расширений от сообщества.
Присоединяйтесь к нам
Для более подробного изучения каждой функции и понимания всех возможностей S.T.A.R.K. посетите официальную документацию и репозиторий на GitHub. Если вам понравился фреймворк, не забудьте добавить звезду ⭐ репозиторию.
У меня есть желание, финансовые ресурсы, мощности GPU фермы, а так же некоторые способности, что бы озвучить DLC Сyberpunk 2077 Phantom liberty полностью на русском языке синтезированными голосами которые вы с трудом отличите от реальных голосов актеров озвучки. Для этого мне потребуются семплы голосов из оригинальной игры, умельцы которые помогут их взлечь уже нашлись.
Суть моей затеи следующая:
1) Набираю по 20 минут голосов всех персонажей игры,
2) Обучаю нейросеть голосам и создаю все голоса персонажей игры ну или большую часть ключевых (просто неписей я думаю можно озвучить 1 голосом)
3) Выгружаю все субтитры из DLC
4) Пишу скрипт который будет по API загружать тексты в мою нейросеть для озвучивания
4) Создаю все звуковые файлы с голосами персонажей для текстовых файлов субтитров. (самое трудозатратное и по деньгам и по времени)
5) Пишу скрипт который все голоса упакует в игру обратно
6) Получаю игру с русской озвучкой
Я не уверен, что всю получится, на каждом этапе можно споткнуться (навыки программирования у меня достаточно слабые) а ведь ещё есть такое понятие как липсинк. Ну вообщем идея такая. Демонстрация возможностей синтеза голосов можете увить на видео ниже. В этом же видео будут приведены в пример куски оригинальных голосов с которых нейросеть обучалась. Очевидно, что чем больше будет голосовых данных с разными эмоциями тем точнее и интереснее можно будет делать озвучку. В идеале 20 минут голоса на каждого персонажа.
Нужна ли синтетическая озвучка голосами привычных нам персонажей в Сyberpunk 2077 Phantom liberty, на русском языке?
Обсуждение проекта русификации происходит на на этом дискорд сервере:
Руководствуясь логикой "актрисульки" из видео, можно идти ломать монтировками сервера Midjourney , ChatGPT ну и по дороге обоссать сервера, на которых работают современные переводчики текста. Ишь чо посмели! Работу отнимать у художников, дикторов и переводчиков! Мерзавцы, не иначе!
Коротко о том, как грести бабки, если ты не преуспел в дизайне к 2023 году.
Далее я озвучу свое непопулярное (скорее всего) мнение, а вы уж сами решайте прислушиваться или заминусить меня, чтобы я потом в холодном поту просыпался от мыслей про пикабу., Итак, что я вынес для себя из первого 30-минутного видео и большого двухчасового стрима «Актёрской курилки» - воруютЬ везде! И прогресс так летит, так летит – ну просто невозможно угнаться и хотя бы матчасть изучить. И пока этот самый прогресс летит в 2019 и презентует нам умные колонки с голосом Алисы (который кстати принадлежит актрисе дубляжа Татьяне Шитовой, для тех кто в танке), актриса Алёна Андронова идёт и пишет голосовые заготовки для виртуального помощника в банке, который по её словам киданёт её вот-вот и синтезирует её речь. Здесь стоит сделать отступление. На тот момент я, будучи инженером в группе эксплуатации телефонных сетей, уже как год был знаком с синтезом речи. Собственно, Яндекс и не скрывал, что у него есть api и что ты можешь им сыпануть шекелей в ладошку и пользоваться этим инструментом для записи IVR (приветствий). Возвращаемся к записи «помощника». Идёт 2019 год. Ты актриса и тебя, судя по твоим же словам волнует вопрос синтеза речи не меньше, чем задротов из кремниевой долины. Что мешает взять договор заранее и вместе со своим агентом/юристом проштудировать пункты и внести изменения? Здесь мы конечно и вроде как спросили. И даже нам вроде как ответили, что всё норм. Как я вижу описанную актрисой ситуацию? Да как-то вот так:
Письменно ответили-то хоть? Нет.
Может вы правки внести хотели? Нет.
Ну хоть чем-то вы подкрепить можете свои слова? Нет.
А подкрепить свои слова не могут лишь потому, что «один нечистый на руку» банк дал такую сумму, которая заставила задуматься «Сейчас не запишу – они ведь за такой гонорар другую найдут по щелчку пальцев». Я просто другой причины не вижу записывать свой голос с сырым договором, тащить своего ХОРОШЕГО ЗНАКОМОГО на мужской голос этого самого помощника, бежать на дозапись образцов и длительное время молчать. И молчалось ровно до того момента, пока деньги не кончились пока не стало мало интересной и творческой работы. Да и судя по Кинопоиску 30+ фильмов после сотрудничества с банком это весьма неплохой результат. Хотя кому я вру, там в списке настолько посредственные фильмы, где сложно заметить невероятную и конечно же исключительную актёрскую игру. К слову, уже тогда пошли посты про то, что хочется и над крутыми проектами поработать, но и финансовая часть тоже нужна. Прошло ещё полгода и вот на Youtube всплеск на эту тему, на DTF, на Пикабу и прочих информационных ресурсах. Мне разве что начальник на работе не ухо не шепчет «Ты прикинь? Актриса там половой орган без соли доедает!»
Совсем скоро все актёры дубляжа/дизайнеры/сценаристы:
Да, местами грустно. Да что уж там – видео создано для того, чтобы у тебя, мой друг, не осталось сомнений. Мы хорошие – они плохие. И плохих много – и те, кто синтезирует умерших актёров. И тех, кто синтезирует голоса умерших детей. И служба безопасности зелёного банка, которая вот-вот тебе позвонит и твоим голосом скажет, что произошла кража. И вообще, там оказывается порно озвучили этим синтезом! Лично я не представляю чего там можно в порно такого озвучить (Пётр Гланц, это не к вам, у вас норм получилось). У меня сразу всплывает такой фрагмент:
А тем, кто вскрыл голосовые исходники в играх и заполучил их на стороне – дык вообще не в отдельном котле надо вариться в аду, а в общем…ну чтобы максимально неудобно было. А то ишь какие! За подписку они продавать вздумали синтез реплик. А в конце видео естественно слёзные просьбы подписать петицию. Затем стрим в «Актёрской курилке», где уже в несколько голосов проговаривается тоже самое. Подтянули второго бедолагу, который помогает ведущему хайповать на этой теме. И всё это время, начиная от первого видео, проскальзывает один и единственный посыл: были бы роялти – не было бы криков. Просто рукалицо. Ни больше. Ни меньше.
И вот наконец, что хочется сказать. Если человек так рьяно взялся бороться за авторские права, за свой голос и правоту – он должен быть как минимум олицетворением своей идеи, иначе всё это пустое лицемерие. Можно подписать тысячи петиций об авторском праве, но при этом пиратить игры. Можно запретить платформы с синтезом, но при этом пиратить озвучку. А можно просто сесть и проанализировать то, что предлагают агенства и платформы по сотрудничеству с актёрами. Я не поленился и нашёл следующее:
Один из бедолаг у которых воруютЬ!
Выше - средний ценник Павла Дорофеева, голосом которого можно озвучить сейчас всё что душе угодно. И ведь озвучивают! Едем дальше - Всеволод Кузнецов. Обожаю кстати его голос и возможно обратился бы за его услугами, НО...ценник в 13 000 минимум не позволит мне этого сделать. И да, это не за рабочий день, а за 1-2 минуты озвучки. К слову один мастер, который мне штробил однажды каналы под розетки получил 15000 за 11 розеток,4 канала и уборку за собой. Борис Репетур - от 10 000. Сергей Чонишвили - по согласованию (но там ценник не сильно ниже). Ну и наконец наша прекрасная автор(ка) данных видео - тоже пишет по согласованию.
Как простой пользователь, которому вот вдруг до зуда в попе захотелось озвучить название ролика в 5-10 секунд голосом кого-то из мэтров дубляжа, я куда должен пойти? К актёру за 13к, к боту с синтезом речи и подпиской в 1-2к в месяц или сразу на *** ? Что мешало ВАМ влиться в этот самый прогресс за последние 4 года? Что мешало собрать небольшую группу актёров, скажем человек 10-20, прийти к людям, которые действительно практикуют синтез и заявить о себе. "Здравствуйте, мы актёры дубляжа. Давайте дружить, мы вам голоса - вы нам платформу с подпиской на озвучку и роялти за то, что нашим голосом где-то что-то записали. Мы сидим на попе ровно - деньги нам идут. А если хотите без косяков синтеза и с озвучкой - вот мой НОРМАЛЬНЫЙ ценник за работу в студии."
Пути обхода всегда будут. Мошенники не вымрут. Технологии полетят дальше. Так может пора в эволюцию?...