Mô hình AI hình ảnh "Banana" mới nhất của Google khiến cộng đồng mạng phát cuồng với "Vibe Photoshoping"

Bitget App

Giao dịch thông minh hơn

Bitget

Tin tức

深潮2025/08/29 15:14

Hiển thị bản gốc

Theo:深潮TechFlow

Độ nhất quán vai trò cao đã mang lại trải nghiệm "Vibe Photoshoping" chưa từng có.

Độ nhất quán vai trò cao mang lại trải nghiệm "Vibe Photoshoping" chưa từng có.

Bạn còn nhớ mô hình chỉnh sửa ảnh AI bí ẩn "nano-banana" từng gây xôn xao trước đây không? Khi đó, tại đấu trường mô hình ngôn ngữ lớn LMArena, nó đã được bàn tán sôi nổi nhờ hiệu suất xuất sắc. Các chuyên gia công nghệ của Google Gemini cũng lần lượt xuất hiện, khiến cộng đồng mạng tò mò, thậm chí từng được đồn đoán là Gemini 3.0 Pro.

Giờ đây, Google cuối cùng đã vén màn bí mật này.

Vào rạng sáng ngày 27 tháng 8 theo giờ Đông 8, Google AI Studio đã chính thức ra mắt Gemini 2.5 Flash Image (mã hiệu nano banana) 🍌.

Gemini 2.5 Flash Image được chờ đợi từ lâu cuối cùng cũng ra mắt ｜ Nguồn ảnh: GeekPark

Đây là mô hình tạo và chỉnh sửa hình ảnh tiên tiến nhất của Google cho đến nay, không chỉ có tốc độ cực nhanh, mang lại trải nghiệm "như tia chớp", mà còn đạt thành tích SOTA trên nhiều bảng xếp hạng, dẫn đầu vượt trội tại LMArena.

Gemini 2.5 Flash Image đạt năng lực SOTA ngay khi ra mắt ｜ Nguồn ảnh: LMarena.ai

Trong blog kỹ thuật, Google cho biết Gemini 2.0 Flash đã được các nhà phát triển ưa chuộng nhờ độ trễ thấp và hiệu quả chi phí cao, nhưng người dùng vẫn mong đợi chất lượng hình ảnh cao hơn và khả năng kiểm soát sáng tạo mạnh mẽ hơn. Gemini 2.5 Flash Image ra đời với những nâng cấp quan trọng này: Độ nhất quán vai trò cuối cùng đã được duy trì đầy đủ, chỉnh sửa ảnh dựa trên prompt chính xác hơn, hiệu ứng hòa trộn nhiều hình ảnh tự nhiên mượt mà, cùng với khả năng hiểu biết về thế giới thực, khiến nó không chỉ là một mô hình mà còn là "điểm khởi đầu" đặt nền móng cho thế hệ ứng dụng đột phá tiếp theo.

GeekPark cũng đã trải nghiệm nó ngay từ đầu. Điều bất ngờ là, đây không chỉ đơn thuần là một bản cập nhật mô hình, mà lần đầu tiên khiến người ta thực sự cảm nhận được tương lai của AI chỉnh sửa ảnh đã ở rất gần.

Hiện đã mở trải nghiệm tại Google AI Studio ｜ Nguồn ảnh: GeekPark

Lúc đầu, tôi chỉ định trải nghiệm thông thường, "xem thử mô hình mới nhanh ở điểm nào". Không ngờ, chỉ vài giờ trải nghiệm đã khiến tôi như nhìn thấy trước hình hài của ứng dụng đột phá thế hệ tiếp theo.

Trước đây chúng ta quen dùng các công cụ như Meitu Xiuxiu, chỉ cần nhấn nút, áp bộ lọc là ảnh đã đẹp lên nhanh chóng. Nhưng Gemini 2.5 Flash Image mang lại cảm giác hoàn toàn khác. Nó nhanh đến khó tin, thông minh như một nhà thiết kế hiểu ý bạn, bạn chỉ cần nói ra hiệu ứng mong muốn, nó sẽ trình bày hình ảnh trong vài giây.

Bên cạnh hiệu ứng, tốc độ cũng là trải nghiệm khác biệt rõ rệt của Gemini 2.5 Flash Image so với các sản phẩm tạo ảnh trước đây ｜ Nguồn ảnh: GeekPark

01 Tạo ảnh siêu tốc, có kết quả chỉ trong vài giây

Trải nghiệm trực quan nhất với nano banana chính là tốc độ. Trước đây khi dùng một số mô hình mã nguồn mở, dù máy tính cấu hình tốt, từ lúc nhập prompt đến khi tạo ra một bức ảnh tạm ổn cũng phải đợi vài chục giây, thậm chí lâu hơn. Với người dùng di động, quá trình chờ đợi này càng mệt mỏi hơn.

Nhưng Gemini 2.5 Flash Image đã hạ thấp rào cản này xuống chỉ còn vài giây. Đây là mô hình đa phương thức gốc "mới nhất, nhanh nhất, hiệu quả nhất" mà Google công bố, rõ ràng đã được tối ưu hóa rất nhiều. Trong thử nghiệm thực tế của tôi, chỉ cần nhập một câu prompt, khoảng ba bốn giây là có kết quả (UTC+8), độ phân giải và chi tiết đều rất rõ nét.

Trải nghiệm này rất giống khi dùng Meitu Xiuxiu chỉnh ảnh: nhấn nút "làm đẹp", hiệu quả gần như tức thì. Khác biệt là, Meitu Xiuxiu dùng thuật toán áp bộ lọc, còn Gemini 2.5 Flash Image xây dựng ảnh từ con số 0, hoặc chỉnh sửa mạnh mẽ một bức ảnh theo yêu cầu của bạn. Cảm giác "chỉ đâu đánh đó" này hoàn toàn không thể tưởng tượng được với quy trình P ảnh thủ công phức tạp trước đây.

Những nhu cầu như "xóa người nền" chỉ cần một prompt là giải quyết được ｜ Nguồn ảnh: GeekPark

Nếu tốc độ giải quyết trải nghiệm người dùng P ảnh truyền thống, thì "đa phương thức gốc" chính là thứ mở rộng ranh giới năng lực ảnh AI.

Gemini 2.5 Flash Image không chỉ tạo ảnh mà còn hiểu đồng thời cả văn bản và hình ảnh đầu vào. Điều này có nghĩa là tôi có thể đưa cho nó một bức ảnh và một đoạn prompt, nó sẽ kết hợp thông tin từ cả hai để hiểu chính xác tôi muốn gì.

Ví dụ, tôi tải lên một bức ảnh chụp ngoài phố, rồi bảo nó "đổi nền thành cảnh đêm Shinjuku Tokyo". (UTC+8) Kết quả, nó không chỉ nhận diện chính xác chủ thể trong ảnh mà còn tách người ra, thay nền bằng phố Shinjuku rực rỡ đèn neon. Đáng quý hơn, nó còn giữ được sự thống nhất ánh sáng của nhân vật, hoàn toàn không có cảm giác "cắt dán cứng" như khi tách ảnh thủ công.

Khả năng hiểu này khiến tôi nhớ đến tính năng "một chạm đổi nền" mà các hãng điện thoại thường nhắc đến trong album hệ thống những năm gần đây. Nhưng khác biệt là, đổi nền ngày xưa thường bị mờ viền, ánh sáng không khớp, trông rất giả. Còn bây giờ, Gemini 2.5 Flash Image có thể dùng kiến thức thế giới và hiểu biết thị giác để bổ sung các chi tiết này, kết quả tự nhiên hơn nhiều, giữ lại chi tiết hình ảnh chính xác hơn hẳn các công cụ tạo ảnh từ văn bản/hình ảnh truyền thống.

Ảnh gốc & hiệu ứng tạo bởi Gemini 2.5 Flash Image ｜ Nguồn ảnh: GeekPark

Đó cũng là lý do tôi nghĩ nó sẽ định nghĩa lại trải nghiệm chỉnh sửa ảnh: không còn phụ thuộc vào chỉnh sửa thủ công, mà dựa vào hiểu biết ngữ nghĩa tự nhiên của mô hình để "làm mạnh tay", ví dụ như trong các cảnh chỉnh sửa chân dung đòi hỏi chi tiết cực cao.

Với nhu cầu xử lý ảnh chân dung như thế này, độ nhất quán vai trò của Gemini 2.5 Flash Image thực sự mang lại trải nghiệm "Vibe Photoshoping" chưa từng có.

Một giây giúp lập trình viên "giữ thể diện"｜ Nguồn ảnh: GeekPark

Trải nghiệm này phá vỡ ấn tượng trước đây của nhiều người về tạo ảnh AI —— "huyền học": prompt viết hay thì ảnh đẹp, prompt bình thường thì kết quả có thể lệch hoàn toàn.

Nhưng với Gemini 2.5 Flash Image, tôi nhận thấy cảm giác "huyền học" này đã giảm đi rất nhiều. Nó hiểu prompt chính xác hơn, cũng gần với trực giác người dùng hơn —— đó là lý do nhiều người bất ngờ thấy nó dễ dùng hơn hẳn.

Ví dụ, tôi bảo nó "làm mờ nền, làm nổi bật nhân vật tiền cảnh" (UTC+8), vài giây sau ảnh ra đúng hiệu ứng tôi muốn; tôi bảo nó "đổi biểu cảm người trong ảnh thành cười", kết quả không chỉ khóe miệng nhếch lên mà cả ánh mắt cũng được điều chỉnh, chi tiết rất chuẩn; tôi thậm chí thử "tô màu cho ảnh đen trắng", ảnh màu xuất ra không phải tô bừa mà cố gắng sát với không khí màu sắc của ảnh lịch sử.

Khả năng "nói là làm" này khiến tôi nhớ lại khi dùng Meitu Xiuxiu trước đây, rõ ràng chỉ muốn làm mịn da mà cả khuôn mặt thành "mặt giả" với cấp độ làm đẹp tối đa. Còn bây giờ, thao tác của Gemini 2.5 Flash Image rất chính xác, tiết chế, thực sự hiểu bạn muốn gì và cố gắng tái hiện lại.

02 Năng lực tăng cường, dùng rồi khó bỏ

Để trực quan hơn, tôi đã so sánh nó với các công cụ chỉnh ảnh di động tôi thường dùng hàng ngày.

Trên Snapseed, nếu muốn làm mờ nền, tôi thường phải mất một hai phút khoanh vùng tiền cảnh thủ công rồi chỉnh mức độ mờ. Dù thao tác thành thạo cũng không tránh khỏi sửa đi sửa lại.

Trên Meitu Xiuxiu, dù có chức năng làm mờ nền một chạm nhưng thường làm mờ luôn cả viền nhân vật, hiệu ứng không tự nhiên.

Nhưng với Gemini 2.5 Flash Image, tôi chỉ cần một câu nói, nó tự động nhận diện ranh giới nhân vật và nền, hiệu ứng mờ tự nhiên, hoàn toàn không cần chỉnh sửa lại.

Khi thay đổi chi tiết trong ảnh, các phần nền khác vẫn tránh được tình trạng "tô vẽ lung tung" thường gặp ở các công cụ AI trước đây ｜ Nguồn ảnh: Twitter

Sự so sánh này thực ra cho thấy một điều: Gemini 2.5 Flash Image đã giải phóng người dùng khỏi các thao tác phức tạp, giao nhiều việc hơn cho mô hình. Với người bình thường, nó hạ thấp ngưỡng chỉnh sửa ảnh; với chuyên gia, nó tiết kiệm rất nhiều thời gian.

Sau trải nghiệm, cảm nhận lớn nhất của tôi là Gemini 2.5 Flash Image không còn chỉ là một công cụ chỉnh ảnh, mà gần giống như "trợ lý thông minh".

Trước đây, chúng ta dùng Meitu Xiuxiu là sử dụng một bộ chức năng định sẵn, bộ lọc, làm đẹp, mosaic, mỗi nút tương ứng một chức năng. Bạn phải chọn từng chút, chỉnh từng bước cho đến khi hài lòng.

Nhưng giờ đây, logic của Gemini 2.5 Flash Image hoàn toàn khác. Nó không yêu cầu bạn học logic công cụ, mà trực tiếp hiểu nhu cầu của bạn. Bạn chỉ cần nói ra, nó sẽ làm thay bạn.

Thay đổi này tưởng như nhỏ, nhưng thực chất đã thay đổi hoàn toàn mối quan hệ trong quy trình P ảnh. Trước đây là chúng ta thích nghi với công cụ, giờ là công cụ thích nghi với chúng ta. Kiểu tương tác này chính là hình thái ứng dụng thế hệ tiếp theo.

Nhìn ở hiện tại, Gemini 2.5 Flash Image vẫn còn ở giai đoạn đầu, chức năng có thể còn giới hạn. Nhưng tốc độ, khả năng hiểu và tái hiện mà nó thể hiện đủ để khiến người ta kỳ vọng vào tương lai.

Nếu kết hợp nó với Meitu Xiuxiu sẽ thế nào? Có thể bạn mở ứng dụng, nói với điện thoại "giúp tôi chỉnh ảnh này cho da tự nhiên hơn", vài giây sau có kết quả (UTC+8); hoặc khi đi du lịch, bạn bảo nó "đổi thời tiết thành nắng đẹp" (UTC+8), ảnh lập tức trở nên rực rỡ; thậm chí trong chỉnh sửa video, bạn chỉ cần một câu là thay đổi được không khí cả đoạn phim.

Cách này có thể nhanh chóng trở thành chức năng chỉnh sửa ảnh chủ đạo trong hệ điều hành di động tương lai ｜ Nguồn ảnh: Twitter

Đó là lý do tôi nghĩ nó sẽ nhanh chóng cách mạng hóa quy trình thao tác của các công cụ P ảnh hiện tại, định nghĩa thế hệ "Meitu Xiuxiu" tiếp theo: không chỉ là chỉnh sửa ảnh, mà còn tái định hình cách tương tác xử lý hình ảnh, biến AI thành bạn đồng hành hậu kỳ nhiếp ảnh của bạn.

Nhưng hiện tại Gemini 2.5 Flash Image vẫn chưa thể trở thành ứng dụng P ảnh đại chúng "mở hộp là dùng ngay": không chỉ vì mục đích chính của nó vẫn là tạo ảnh chứ không phải tinh chỉnh trên nền tảng sẵn có, mà còn vì tất cả ảnh được tạo hoặc chỉnh sửa qua Gemini 2.5 Flash Image đều sẽ có watermark số SynthID, dùng để các nền tảng nội dung xã hội nhận diện nội dung do AI tạo ra.

03 Điểm bùng nổ của ứng dụng đột phá

Nhìn lại, Meitu Xiuxiu từng trở thành ứng dụng quốc dân nhờ giải quyết vấn đề ai cũng muốn một cách đơn giản nhất —— làm ảnh đẹp hơn.

Còn Gemini 2.5 Flash Image, trên nền tảng đó, tiếp tục mài giũa năng lực AI phức tạp thành trải nghiệm "ra ảnh trong giây lát" mà ai cũng dùng được.

Khi lần đầu tôi nói với nó "giúp tôi làm mờ nền" (UTC+8), chỉ vài giây sau ảnh đã được xử lý tự nhiên, tôi biết rất rõ: đây là điểm bùng nổ của ứng dụng đột phá. Nó không chỉ là một mô hình, mà còn là năng lực nền tảng cho vô số sản phẩm mới trong tương lai.

Tính năng AI đổi trời một chạm từng gây sốt trong cộng đồng người dùng di động vài năm trước ｜ Nguồn ảnh: cộng đồng vivo

Có thể vài năm nữa, chúng ta sẽ quên cái tên Banana, nhưng sẽ thấy ngày càng nhiều công cụ xử lý ảnh mới cho phép bạn "muốn gì chỉ cần nói, lập tức thực hiện", có thể sẽ giống như Meitu Xiuxiu năm xưa, trở thành ký ức chung của một thế hệ người dùng.

Chỉ khác là lần này, AI sẽ đẩy trí tưởng tượng đi xa hơn nữa.

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.

APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.

Khóa ngay!

Bạn cũng có thể thích

17 công ty niêm yết nắm giữ 3,4 triệu ETH, lượng ETH do các tổ chức nắm giữ trong quý 2 đạt mức cao nhất lịch sử

Quy mô nắm giữ của các công ty tư vấn đầu tư vượt xa các loại hình tổ chức khác.

区块链骑士•2025/08/29 16:53

17 công ty niêm yết nắm giữ 3,4 triệu ETH, lượng ETH do các tổ chức nắm giữ trong quý 2 đạt mức cao nhất lịch sử

Ứng cử viên hàng đầu cho vị trí Chủ tịch Fed, Waller: Ethereum và stablecoin là bước tiếp theo trong phát triển thanh toán, các tổ chức nên áp dụng

Ứng cử viên hàng đầu cho vị trí Chủ tịch tiếp theo của Cục Dự trữ Liên bang, Waller, đã công khai bày tỏ quan điểm lạc quan đối với tài sản số (đặc biệt là Ethereum và stablecoin), đồng thời kêu gọi các tổ chức tài chính chấp nhận tiền mã hóa như một bước phát triển tự nhiên tiếp theo trong lĩnh vực thanh toán.

ForesightNews•2025/08/29 16:22

Ứng cử viên hàng đầu cho vị trí Chủ tịch Fed, Waller: Ethereum và stablecoin là bước tiếp theo trong phát triển thanh toán, các tổ chức nên áp dụng

Xây dựng đội ngũ BD crypto từ 0 đến 1: Chia sẻ kinh nghiệm thực chiến của a16z

Thuê đúng người vào đúng thời điểm là chìa khóa thành công.

深潮•2025/08/29 15:14

Gần đây, Wall Street đang bận rộn với RWA: quỹ tiền tệ, repo trong ngày, và thương phiếu

JPMorgan chỉ ra rằng các ông lớn trên phố Wall đang token hóa tài sản thế giới thực (RWA) với tốc độ chưa từng có và tích hợp chúng vào các hoạt động tài chính cốt lõi.

深潮•2025/08/29 15:13