Open AIвыпустили новую модель ChatGPT 4o (“o” означает “omni” - мультимодальная). Сам Сэм Альтман сравнил новую версию модели с ИИ из фильма «Она».
Саму презентацию с переводом можно посмотреть здесь.
Что нового в ChatGPT 4o:
Лучше стал понимать иностранные языки, переводить стал лучше, поддерживает 50 языков
Быстрее ChatGPT-4, лучше в программировании и на 50% дешевле в API.
Будет программа для Mac, ее показали, но непонятно, когда выпустят в массы
Уже понимает видео, что на нем и тд
Озвучивает ответы
В приложении голосовой ассистент очень похож на человека: отвечает без задержки, понимает эмоции, сам меняет интонации по ситуации и шутит. Также ассистент может переводить речь с другого языка в рилтайме
И главное! ChatGPT 4о и GPT Store стали бесплатными (про это подробнее внизу)
Однако, по наблюдениям, доступ быстрее получают платные подписчики ChatGPT. Но тут тогда напрашивается самый главный вопрос...
Если ChatGPT 4о и даже GPT Store сделали бесплатными для всех, то за что собственно платить?
Для бесплатных пользователей есть ограничение по запросам в GPT-4o, в зависимости от использования и спроса, когда лимит будет достигнут, ChatGPT 4o переключится на модель 3.5.
Потом может быть и поменяется что-то, а пока чем больше пользователей будут испытывать модель, тем больше данных для обучения в нее загрузят, и, соответственно, она быстрее обучится.
Мои личные наблюдения и опыт взаимодействия с ChatGPT 4о
Удобно, что в чате теперь можно переключать модель, например, у вас закончился лимит сообщений, но начатый чат можно продолжить с другой моделью
Нереально быстро генерит ответ, буквально, сделала запрос, нажала enter, и он погнал мне расписывать, даже секунды не замешкался.
Ответы стали более конкретными, причем я не задавала ему роль типа “представь, что ты самый лучший бла-бла”, просто описала ситуацию, и получила вместо воды конкретные действия, понятно, что он начал мне выдавать плюсы и минусы обеих ситуаций, но в конце четко сказал свой конкретный совет - тут я прям выпала
Про творческую составляющую: по креативности и работе с текстом мне все равно Claude 3 импонирует больше
Древние письмена неплохо расшифровывает, но не так, как все преподносят:
1) Сначала я скормила ему страницу из Библии, напечатанной в Великом Княжестве Литовском, а снизу - Лицевой свод Ивана Грозного - чат-бот без проблем понял, что текст о сотворении мира и относится к библейской тематике, перевел тоже без проблем.
2) Письмо, которое нашли в Иране, написанное между 224 – 651 годами нашей эры, в котором брат просит сестру вернуть лечебное масло - вот тут он не смог, сослался на плохое состояние документа и разбитость чернил, бывает
3) Далее скормила ему труд Иогана Понтануса (17 век), который цитирует скифскую поговорку “лающие собаки все вместе только лают, а тишайшие воды глубокие земли размывают”. Сам текст он без проблем перевел, правильно определил, что это пословицы и мудрости, относящиеся к старым скифам. Но вот авторство присвоил Титу Ливию. Когда я его спросила, разве это не Иоган Понтанус, он естееееественно 😄 со мной согласился, еще и авторитетно подчеркнул “Это типичный стиль Понтануса.” Я так на экзамене вертелась, как уж на сковородке )
Для чего можно использовать ChatGPT 4о, готовые кейсы применения:
На видео незрячий человек снимает вокруг себя видео — модель в реальном времени рассказывает, что она видит.
Работает в Zoom как полноценный участник созвона, готовый ответить на вопрос.
Может объяснить школьнику задачу по математике, подбадривает и может заменить учителя.
Подготовит к собеседованию как рекрутер, пока не будет довольна вашими ответами.
Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпиcывайтесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.
🎉🤖 OpenAI на подходе с революцией в мире ИИ-ассистентов! Компания готовит к большому дебюту новаторского помощника, способного не просто распознавать речь, но и постигать тонкости общения, включая искусство сарказма. 🎭 Скорое мероприятие OpenAI обещает стать кульминацией, на котором мир увидит мультимодальную мощь ИИ, одаренного уникальными способностями ведения диалогов и распознавания всего на свете, от лиц до предметов. 🖼️🔍
Изнутри индустрии сочли новинку OpenAI настоящим прорывом для всех, кто работает с клиентскими запросами: благодаря продвинутой обработке визуальной и аудиальной информации, службы поддержки получат мощный инструмент для понимания не только слов, но и интонаций, эмоций, и даже скрытого смысла слов клиентов. 🗣😄📞
💡📱 OpenAI не останавливается на достигнутом – в раскладе работ по интеграции возможностей телефонии в ChatGPT! Разработчик Ананай Арора рассказывает о грандиозных планах на реализацию звонков и видеозвонков в реальном времени, предвещая новую эру коммуникаций. 📞💻
Ожидания настолько велики, что появились предположения о включении этих инноваций в предстоящую модель GPT-5. Но Сэм Альтман, лидер OpenAI, утихомиривает умы: он опроверг слухи и заявил, что обновление следующей недели сюрпризами не ограничится. Совершенно новые горизонты развития ИИ еще впереди! 👀🌐
GPT-4o будет постепенно внедряться для разработчиков и для потребителей в течение следующих нескольких недель. Название "GPT-4o" включает в себя "omni", что означает многофункциональность модели.
⚡️ Как сообщает технический директор OpenAI Мури Мурати, GPT-4o сохраняет уровень интеллекта предыдущей модели GPT-4, но значительно расширяет её возможности в обработке текстов, изображений и теперь также аудио и речи.
Это открывает новые горизонты в взаимодействии человека с машиной, поскольку GPT-4o может анализировать голос, текст и изображения.
📈 Важным улучшением является усовершенствование ChatGPT — теперь GPT-4o позволяет пользователям общаться с чат-ботом более естественно, как с помощником. Модель реагирует в реальном времени, позволяет прерывать ответы и адаптируется к эмоциям в голосе пользователя, создавая ответы в разных эмоциональных стилях.
⭐️ Улучшены и возможности восприятия изображений: например, ChatGPT теперь может быстро ответить на вопросы о том, что происходит в коде на скриншоте или какой бренд одежды носит человек на фото.
💰 GPT-4o доступна в бесплатной версии ChatGPT с сегодняшнего дня и для подписчиков премиум-версий ChatGPT Plus и Team с увеличенным в пять раз лимитом сообщений.
Дополнительные корпоративные опции появятся в ближайшее время. Также стоит отметить, что переход на более старую версию GPT-3.5 произойдет автоматически, если пользователи достигнут предела использования.
🔋 OpenAI также подчеркивает, что GPT-4o стала более многоязычной, улучшив свою работу на 50 разных языках. В API OpenAI новая модель вдвое быстрее предыдущей версии GPT-4 Turbo и стоит вдвое дешевле.
🎵 Что касается аудиовозможностей, вначале доступ к ним получат только "небольшая группа доверенных партнёров" из-за риска неправомерного использования.
💎 Среди других новостей — обновлённый интерфейс ChatGPT на веб-сайте с более удобным дизайном и настольная версия ChatGPT для Mac, которая позволяет задавать вопросы и обсуждать скриншоты как текстом, так и голосом.
Доступ к этим функциям первыми получат пользователи Plus, а версия для Windows появится позже в этом году. Кроме того, доступ к GPT Store, библиотеке сторонних чат-ботов на базе моделей AI от OpenAI, теперь открыт для пользователей бесплатной версии ChatGPT.
Ждём нововведения для работы с речью, это очень упростит процесс взаимодействия с чат-ботом!💡
Больше интересного из мира нейросетей в источнике - 🎯 Нейро-Пушка
🚨 Руководитель OpenAI Сэм Альтман выражет серьёзную озабоченность: мир на пороге грандиозных изменений, принесенных искусственным интеллектом, которые могут радикально сократить количество рабочих мест.
Разговоров о влиянии ИИ на выборы хватало, но Альтман поднимает более насущный вопрос: а именно, воздействие ИИ на экономику и социальную сферу в широкомасштабных размерах. Замечены стремительные темпы и обширность будущих социально-экономических перемен, прогноз что они окажут глубокое влияние на мир труда. Основатель ChatGPT видит потенциал ИИ в массовой автоматизации и, как следствие, потере работы для многих.
🤖💼 Пока GPT-4 не несет непосредственной угрозы существующим профессиям, расслабленность общества сейчас в ближайшем будущем может сыграть злую шутку. Многие, по словам Альтмана, слишком легкомысленно относятся к текущему положению вещей. Он выражает опасения, что в будущем к вопросам, связанным с ИИ, подход не будет достаточно серьёзным, что может привести к нежеланным последствиям.
📉 Шокирующие данные от Международного валютного фонда утверждают, что около 60% рабочих мест в развитых странах могут быть под угрозой из-за ИИ. Половина из них - подвержена риску автоматизации, что и волнует Альтмана. В прошлом CNBC зафиксировало его беспокойство о ChatGPT, который имеет потенциал заменить специальности.
🤖 ИИ, отправляющийся на помощь в рабочих обязанностях, может и увеличить продуктивность, но также и снести позиции людей. Некоторые лидеры бизнеса уже сообщили о замене рук человека ИИ ради усиления рентабельности и плодотворности.
⚠️ Слова Сэма Альтмана выступают как предостережение: ИИ моментально преображает экономический ландшафт, и, чтобы предотвратить негативный сценарий, нужно приготовиться уже сейчас.
Пока инструмент проходит внутреннее тестирование, но уже может с точностью до 98% определить изображения, сгенерированные при помощи DALL-E 3. Но это касается только картинок, которые после создания ИИ дополнительно не обрабатывались.
Система не так успешно работает, если созданную ИИ картинку обрезать или отредактировать каким-то другим способом. В OpenAI собираются привлечь сторонних тестеров, чтобы повысить эффективность работы инструментария.
Компания рассматривает идею о платном доступе к "премиальным" функциям поиска на основе искусственного интеллекта.
Согласно отчету Financial Times, компания намерена ввести платную версию своего поисковика с ИИ-функциями. Примечательно, что в отчете указывается, что даже при наличии подписки пользователи продолжат видеть рекламу.
С чего все началось:
С появлением ChatGPT от OpenAI в ноябре 2022 года, который умеет давать быстрые и полные ответы, традиционный поиск с его списками ссылок и рекламой оказался под угрозой. Google не мог остаться в стороне и начал эксперименты с ИИ, чтобы предложить что-то новенькое: более глубокие и детализированные ответы на ваши запросы.
В мае Google начал тестировать экспериментальную поисковую службу на основе ии, предоставляя более подробные ответы на запросы, продолжая при этом предоставлять пользователям ссылки на дополнительную информацию и рекламу.
Но вот незадача – все это требует гораздо больше вычислительных ресурсов 🙄 Да и люди стали меньше обращать внимание на рекламу и переходить по ссылкам, зачем, ведь им итак дают исчерпывающие ответы, а это не очень нравится рекламодателям и бьет по карману💸
В итоге деньги откуда-то надо брать, и Google думает добавить расширенные функции ИИ-поиска в свои премиальные службы подписки, которые уже предлагают доступ к новому помощнику Gemini AI в Gmail и Docs.
При этом традиционная поисковая система Google останется бесплатной для всех.
Пока руководство Google не приняло окончательное решение о запуске премиального поиска.
Нормально они свою бизнес-модель переделывают, да? 😐
Если вам интересны новые технологии, полезные сервисы и новости будущего, добро пожаловать в ИИшница 🍳 - пища для ума в мире высоких технологий
Представьте, что вы смотрите музыкальный клип, в котором каждая сцена, каждый персонаж и каждое движение камеры созданы искусственным интеллектом. Звучит как научная фантастика? Что ж, будущее уже наступило. Встречайте The Hardest Part - первый в истории музыкальный клип, полностью сгенерированный нейросетью Sora от OpenAI.
Этот новаторский проект - плод совместных усилий инди-музыканта Washed Out (настоящее имя - Эрнест Грин) и режиссера Пола Трилло. Клип на песню “The Hardest Part” демонстрирует впечатляющие возможности генеративных моделей в создании реалистичных и захватывающих визуальных образов. Но как именно работает эта технология, и какое влияние она окажет на индустрию развлечений? Давайте разберемся.
Под капотом Sora: Как нейросеть создает видео
Примечание: Следующее описание основано на рассуждениях Итана Хи (Ethan He), исследователя ИИ из NVIDIA, бывшего сотрудника FAIR и выпускника CMU, с более чем 6000 цитирований и 5000 звезд на GitHub. Оригинальная статья доступна на LinkedIn Pulse. Реальные технологии являются коммерческой тайной OpenAI и еще не были обнародованы.
Предполагается, что в основе Sora лежит DiT (диффузионный трансформер) - архитектура, которая использует возможности масштабирования трансформеров наряду с итеративным процессом уточнения диффузионных моделей, я уже рассказывал про AnimateDiff, который позволяет генерировать видео на моделях Stable Diffusion, тут этот принцип многократно улучшен.
Схема работы диффузионного трансформера
Трансформеры известны своей эффективностью в обработке последовательных данных и обеспечивают надежную архитектуру для моделирования временной динамики видео. Процесс диффузии, в свою очередь, итеративно уточняет выходные данные, начиная с зашумленного начального состояния и двигаясь к желаемому видеовыходу, повышая качество и согласованность сгенерированных видео.
Для сжатия видео Sora использует векторный квантованный вариационный автоэнкодер (VQ-VAE) на основе трехмерной сверточной нейронной сети (3D CNN). Эта архитектура сети состоит из энкодера, который уменьшает размерность визуальных данных до скрытого пространства, и декодера, который реконструирует видео из этого сжатого представления.
Схема работы VQ-VAE для сжатия видео
Использование 3D CNN позволяет захватывать временную динамику видео, что важно для создания согласованного и плавного движения в сгенерированных клипах. Симметричная конструкция энкодера и декодера обеспечивает эффективное сжатие и реконструкцию видео, сохраняя высокую точность исходного контента.
Процесс обучения Sora
Во время обучения к видеотокенам добавляется случайный шум. Трансформер получает на вход текстовое условие, временной шаг диффузии и зашумленные видеотокены.
Генерация текста в видео
Универсальность Sora распространяется на различные приложения, включая анимацию статических изображений и создание идеально зацикленных видео. Анимация статического изображения достигается путем кодирования изображения как первого токена и использования шума для остальных токенов. Для создания бесшовно зацикленных видео Sora обеспечивает идентичность первого и последнего токенов на каждом шаге диффузии, улучшая эстетическую привлекательность сгенерированного контента.
Генерация видео из изображения
Одним из самых замечательных аспектов Sora является ее способность демонстрировать такие возникающие возможности, как 3D-согласованность и постоянство объектов, без явного программирования. Традиционно для достижения 3D-согласованности в сгенерированных видео требовались специальные функции потерь. Однако Sora показывает, что при масштабировании эти возможности могут возникать естественным образом, позволяя генерировать видео, точно имитирующие реальную динамику и взаимодействия.
Таким образом, Sora представляет собой значительный скачок в области генерации видео с помощью ИИ, объединяя несколько передовых технологий для создания высококачественных видеороликов из текстовых описаний.
Создание клипа “The Hardest Part”: Сложности и уроки
Несмотря на впечатляющий результат, процесс создания клипа The Hardest Part с помощью Sora был далеко не простым. Режиссеру Полу Трилло пришлось сгенерировать более 700 видеофрагментов, чтобы отобрать из них 55 лучших для финального клипа. Каждый фрагмент требовал детального текстового описания, учитывающего не только визуальные элементы, но и движения камеры, ракурсы и действия персонажей.
Без динамики сцены смотрятся откровенно странно
“Мы пролетаем сквозь пузырь, он лопается, мы пролетаем сквозь жвачку и выходим на открытое футбольное поле”, - так Трилло описывал одну из сцен клипа.
Пока у Пола Трилло был доступ к Сора он так же сделал промо заставку для TED Talks, со столь полюбившимися ему пролетами камеры. Как по мне, получилось интереснее чем в клипе.
Этот опыт показывает, что даже с использованием передовых алгоритмов ИИ создание качественного видеоконтента требует значительных усилий и творческого подхода. Сора, безусловно, открывает новые возможности, но она не заменяет человеческий талант, а дополняет его.
Барьеры на пути к массовому использованию
Несмотря на огромный потенциал Sora и подобных технологий, их широкое применение в индустрии развлечений пока сталкивается с рядом препятствий. Главным из них является высокая стоимость генерации видео.
Для создания согласованных и реалистичных видеопоследовательностей Sora требуется огромное количество вычислительных ресурсов и объем памяти. По оценкам экспертов, генерация даже короткого клипа может обходиться в сотни или тысячи долларов. Для сравнения, другие мультимодальные модели, такие как LLaVA и CogVLM, которые работают только с изображениями и текстом, уже требуют существенных затрат на GPU и электроэнергию.
Еще одним барьером является вопрос авторских прав и интеллектуальной собственности. Модели вроде Sora обучаются на огромных массивах видеоданных, принадлежащих различным правообладателям и в том числе открытых. Использование сгенерированного ИИ контента в коммерческих проектах может привести к юридическим спорам и конфликтам интересов.
OpenAI и Голливуд: Стратегия внедрения
Сгенерированный Сэм Альтмен на фоне сгенерированных голливудских холмов
OpenAI, разработчик Sora, активно продвигает свою технологию в киноиндустрии. В марте 2024 года генеральный директор компании Сэм Альтман и другие представители провели серию встреч с голливудскими студиями, режиссерами и продюсерами. Цель этих встреч - найти партнеров для дальнейшего развития и внедрения Sora в кинопроизводство.
Для крупных киностудий использование генеративных моделей может означать существенное сокращение затрат на производство визуальных эффектов и ускорение процесса создания фильмов. OpenAI рассчитывает, что партнерство с Голливудом поможет не только улучшить Sora, но и продемонстрировать ее возможности широкой аудитории.
Однако не все в киноиндустрии разделяют энтузиазм по поводу внедрения ИИ. Многие актеры, режиссеры и другие творческие работники опасаются, что генеративные модели могут лишить их работы и нивелировать ценность человеческого таланта. Поэтому OpenAI предстоит найти баланс между технологическим прогрессом и интересами профессионального сообщества.
Sora и будущее развлечений
Первый музыкальный клип, созданный с помощью Sora, - это лишь начало большого пути. По мере развития генеративных моделей и снижения стоимости их использования, мы увидим все больше примеров применения ИИ в киноиндустрии, музыке, видеоиграх и других сферах развлечений.
Однако важно помнить, что технологии вроде Sora - это инструменты, а не замена человеческого творчества. Они открывают новые горизонты и позволяют воплощать самые смелые идеи, но за каждым успешным проектом по-прежнему стоят талантливые люди - режиссеры, сценаристы, художники и многие другие.
Будущее индустрии развлечений - это симбиоз творчества и технологий, в котором ИИ дополняет и усиливает человеческие способности. И клип “The Hardest Part” - это лишь первый шаг на пути к этому будущему.
А что вы думаете о потенциале генеративных моделей вроде Sora? Как они повлияют на индустрию развлечений и творческие профессии? Поделитесь своим мнением в комментариях!
Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Всех обнял.