Новая AI-модель изображений "Banana" от Google взорвала интернет: пользователи сходят с ума по "Vibe Photoshoping"

Bitget App

Торгуйте разумнее

Bitget

Новости

MarsBit2025/08/30 06:53

Показать оригинал

Автор:TechFlow

Google AI Studio выпустила Gemini 2.5 Flash Image (кодовое название nano-banana), что является самой передовой моделью генерации и редактирования изображений от Google. Она отличается высокой скоростью работы и отличными результатами в различных рейтингах. Резюме создано Mars AI. Это резюме сгенерировано моделью Mars AI, точность и полнота представленной информации находятся на стадии итерационного обновления.

Помните загадочную модель для редактирования AI-изображений «nano-banana», которая недавно вызвала бурные обсуждения? В LMArena, арене соревнований больших языковых моделей, она благодаря выдающимся результатам стала настоящей сенсацией. Инженеры Google Gemini также активно подогревали интерес в социальных сетях, и модель даже считалась прототипом легендарной Gemini 3.0 Pro.

Теперь Google наконец-то сняла завесу тайны с этой разработки.

В ночь на 27 августа по восточноазиатскому времени Google AI Studio официально представила Gemini 2.5 Flash Image (кодовое название nano banana) 🍌.

Gemini 2.5 Flash Image, долгожданная новинка после длительного анонса | Источник: GeekPark

Это самая передовая на сегодняшний день модель генерации и редактирования изображений от Google: она не только невероятно быстрая, обеспечивая практически «молниеносный» опыт, но и занимает лидирующие позиции во многих рейтингах, а на LMArena опережает конкурентов с большим отрывом.

Gemini 2.5 Flash Image сразу же достигает SOTA-уровня | Источник: LMarena.ai

В техническом блоге Google отмечает, что Gemini 2.0 Flash уже завоевала популярность среди разработчиков благодаря низкой задержке и высокой эффективности, но пользователи всегда ждали более качественных изображений и большего контроля над творчеством. Gemini 2.5 Flash Image как раз и реализует эти долгожданные улучшения: теперь согласованность персонажей сохраняется полностью, редактирование изображений по подсказкам стало точнее, слияние нескольких изображений выглядит естественно и плавно, а понимание реального мира позволяет использовать модель не просто как инструмент, а как «отправную точку» для приложений нового поколения.

GeekPark также одним из первых протестировал новинку. И, что удивительно, это не просто обновление модели — впервые становится ясно, каким будет будущее AI-редактирования фотографий.

В Google AI Studio уже открыт доступ к тестированию | Источник: GeekPark

Сначала я подходил к тесту с обычным интересом — «посмотрим, насколько быстрее стала новая модель». Но всего за несколько часов использования я словно заглянул в будущее хитов следующего поколения.

Раньше мы привыкли к инструментам вроде MeituPic: нажал кнопку, наложил фильтр — и фото тут же стало красивее. Но Gemini 2.5 Flash Image ощущается совершенно иначе. Она невероятно быстрая и умная, словно дизайнер, который понимает твои мысли: достаточно просто описать желаемый эффект — и через несколько секунд результат уже готов.

Помимо качества, скорость — еще одно заметное отличие Gemini 2.5 Flash Image от предыдущих генераторов изображений | Источник: GeekPark

01 Молниеносная генерация — результат за считанные секунды

Самое очевидное впечатление от nano banana — это скорость. Раньше даже при хорошем «железе» для генерации приличного изображения с помощью open-source моделей приходилось ждать десятки секунд, а то и дольше. Для пользователей мобильных устройств это ожидание было особенно мучительным.

Но Gemini 2.5 Flash Image снижает этот порог до нескольких секунд. Это «самая новая, быстрая и эффективная» нативная мультимодальная модель от Google, в которую вложено много усилий по оптимизации. В моем тесте результат по текстовому запросу появлялся за 3–4 секунды, при этом разрешение и детализация были на высоте. (UTC+8)

Этот опыт напоминает использование MeituPic: нажал кнопку «улучшить» — и результат виден мгновенно. Разница в том, что MeituPic применяет фильтры, а Gemini 2.5 Flash Image создает изображение с нуля или кардинально меняет фото по вашему запросу. Такой «точечный» эффект невозможен при традиционном ручном редактировании.

Задачи вроде «удалить прохожих на заднем плане» теперь решаются одним prompt’ом | Источник: GeekPark

Если скорость решает проблему пользовательского опыта традиционного редактирования, то «нативная мультимодальность» расширяет границы возможностей AI-обработки изображений.

Gemini 2.5 Flash Image не только генерирует изображения, но и понимает как текстовые, так и визуальные входные данные. Это значит, что я могу загрузить фото и добавить текстовый запрос — модель объединит обе подсказки и поймет, что именно мне нужно.

Например, я загрузил уличное фото и попросил: «Сделай фоном ночной Токио, район Синдзюку». Модель не только распознала главный объект на фото, но и аккуратно вырезала человека, заменив фон на неоновый Синдзюку. Более того, она сохранила единство светотени, избежав типичного для ручного вырезания эффекта «грубой вставки».

Такое понимание напоминает функцию «замены фона в один клик», которую в последние годы часто рекламируют производители смартфонов. Но раньше края часто были размыты, светотень не совпадала, и результат выглядел неестественно. Теперь же Gemini 2.5 Flash Image использует знания о мире и визуальное восприятие для доработки деталей, обеспечивая гораздо более естественный результат и точную передачу деталей по сравнению с традиционными инструментами.

Оригинал & результат Gemini 2.5 Flash Image | Источник: GeekPark

Вот почему я считаю, что эта модель переопределяет опыт редактирования: теперь не нужно вручную настраивать каждую деталь — модель сама понимает смысл задачи и выполняет ее «в лоб», например, при обработке портретов, где важна каждая мелочь.

Для задач обработки портретов Gemini 2.5 Flash Image обеспечивает невиданную ранее «Vibe Photoshoping» — согласованность персонажа на высшем уровне.

За секунду «спасает» программиста | Источник: GeekPark

Этот опыт ломает привычное представление о генерации AI-изображений как о «магии»: если prompt хороший — результат отличный, если нет — всё может пойти не так.

Но в Gemini 2.5 Flash Image «магия» стала гораздо менее выраженной. Модель точнее понимает подсказки и ближе к интуиции пользователя — поэтому многим она кажется гораздо удобнее.

Например, я попросил «размыть фон, выделить человека на переднем плане» — и через несколько секунд получил именно такой результат; попросил «заменить выражение лица на улыбку» — и не только уголки губ поднялись, но и взгляд изменился, детали были проработаны; даже при «раскрашивании» черно-белых фото цвета были максимально приближены к историческим реалиям.

Такая «точность исполнения» напоминает, как раньше в MeituPic при попытке просто сгладить кожу лицо превращалось в «куклу с максимальным бьюти-эффектом». Теперь же Gemini 2.5 Flash Image действует аккуратно и точно, действительно понимая ваш запрос и стараясь его реализовать.

02 Усиленные возможности — возврата нет

Для наглядности я сравнил модель с привычными мобильными инструментами для редактирования.

В Snapseed, чтобы размыть фон, мне нужно вручную выделять передний план и настраивать степень размытия — на это уходит пара минут и несколько попыток.

В MeituPic есть функция размытия фона в один клик, но она часто размывает и края объекта, делая результат неестественным.

В Gemini 2.5 Flash Image достаточно одной фразы — модель сама определяет границы между человеком и фоном, а размытие выглядит естественно, без доработок.

Это сравнение показывает главное: Gemini 2.5 Flash Image освобождает пользователя от сложных действий, перекладывая работу на модель. Для обычных людей это снижает порог входа, а для профессионалов экономит массу времени.

В результате я понял, что Gemini 2.5 Flash Image — это уже не просто инструмент для редактирования, а скорее «умный помощник».

Раньше мы использовали MeituPic как набор готовых функций: фильтры, улучшение, мозаика — каждая кнопка отвечала за отдельную задачу. Нужно было выбирать и настраивать до тех пор, пока не получишь желаемое.

Теперь же логика Gemini 2.5 Flash Image иная: не вы учитесь пользоваться инструментом, а инструмент понимает ваши потребности. Просто скажите — и он всё сделает за вас.

На первый взгляд это мелочь, но на деле полностью меняет сам процесс редактирования: раньше мы подстраивались под инструмент, теперь инструмент подстраивается под нас. Такой подход — прообраз приложений нового поколения.

Пока Gemini 2.5 Flash Image еще на ранней стадии, и у него есть свои ограничения. Но его скорость, понимание и точность уже позволяют мечтать о будущем.

Что если объединить его с MeituPic? Возможно, вы откроете приложение, скажете: «Сделай кожу естественнее», — и через несколько секунд получите результат (UTC+8); или во время путешествия попросите: «Сделай погоду солнечной», — и фото тут же преобразится; или даже в видеоредакторе одной фразой измените атмосферу целого фрагмента.

В будущем такой подход может быстро стать стандартом для мобильных ОС | Источник: Twitter

Вот почему я уверен: эта модель быстро изменит существующие процессы редактирования и определит новое поколение «MeituPic» — не просто инструмент для обработки, а новый способ взаимодействия с изображениями, где AI становится вашим партнером по постобработке.

Однако сейчас Gemini 2.5 Flash Image еще не готов стать массовым приложением «из коробки»: его основная задача — генерация изображений, а не доработка существующих, и все созданные или отредактированные изображения получают цифровой водяной знак SynthID для идентификации AI-контента на платформах.

03 Точка взлета для хита

Вспомним, почему MeituPic когда-то стал национальным приложением: он простым способом решал универсальную задачу — делал фото красивее.

Gemini 2.5 Flash Image идет дальше: превращает сложные AI-возможности в «мгновенный» опыт, доступный каждому.

Когда я впервые сказал: «Размой фон», — и через несколько секунд получил естественный результат, я понял: это и есть момент рождения хита. Это не просто модель, а фундамент для будущих продуктов.

Функция AI-замены неба, ставшая хитом среди пользователей смартфонов в последние годы | Источник: сообщество vivo

Возможно, через несколько лет мы забудем кодовое имя Banana, но увидим всё больше инструментов, где «достаточно сказать — и сразу получить результат». Такие приложения, как когда-то MeituPic, станут частью коллективной памяти нового поколения.

Только теперь AI раздвинет границы воображения еще дальше.

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.

APR до 12%. Аирдропы новых токенов.

Внести!

Вам также может понравиться

Будет ли в сентябре снова значительное понижение показателя занятости вне сельского хозяйства, что откроет дверь для снижения ставки на 50 базисных пунктов?

Министерство труда США пересмотрит данные по занятости вне сельского хозяйства, ожидается понижение показателя на 550 000–800 000 рабочих мест, что в основном связано с искажением модели и переоценкой из-за сокращения числа нелегальных иммигрантов. Это может вынудить Федеральную резервную систему резко понизить ключевую ставку на 50 базисных пунктов.

MarsBit•2025/08/31 09:11

Будет ли в сентябре снова значительное понижение показателя занятости вне сельского хозяйства, что откроет дверь для снижения ставки на 50 базисных пунктов?

SoftBank и Rakuten используют высокий спрос на розничные облигации в Японии

新浪财经•2025/08/31 07:08

Американский фондовый рынок завершил август резким падением — как будут развиваться события в сентябре? Уолл-стрит внимательно следит за этим отчетом.

新浪财经•2025/08/31 07:07

Meta временно изменила политику в отношении AI-чат-ботов для подростков

新浪财经•2025/08/31 07:07

Новая AI-модель изображений "Banana" от Google взорвала интернет: пользователи сходят с ума по "Vibe Photoshoping"

01 Молниеносная генерация — результат за считанные секунды

02 Усиленные возможности — возврата нет

03 Точка взлета для хита

Вам также может понравиться

Популярное

Цены на крипто