Theo Microsoft, không chỉ tạo cử động môi "đồng bộ một cách tinh tế" kèm âm thanh, VASA-1 còn thể hiện thần thái nhân vật thông qua chuyển động khuôn mặt và đầu tự nhiên, từ đó tăng tính chân thực.
Hãng phần mềm Mỹ cho biết đây là "hệ thống động học cho khuôn mặt" được huấn luyện thông qua mô hình tạo chuyển động "tốt hơn một cách toàn diện so với các phương pháp trước đó". AI này hỗ trợ xử lý ảnh chân dung với phần đầu và phần trên của thân, với các biểu cảm vui vẻ, tức giận, ngạc nhiên hoặc nghiêm nghị.
Khả năng của AI Microsoft VASA-1. Video: Microsoft
Trong video được Microsoft giới thiệu trên YouTube, AI của hãng có thể khiến các bức ảnh, tạo bởi Dall-E 3 và StyleGAN2, nói chuyện tự nhiên. Người dùng cũng có thể điều chỉnh thông số khuôn mặt, biểu cảm, giọng nói và nhiều chi tiết khác. Trang chuyên về hình ảnh PetaPixel đánh giá VASA-1 cho khả năng thể hiện tốt hơn so với các AI tương tự, khiến khó nhận biết nếu xem lần đầu.
Microsoft từ chối đề cập mô hình đứng sau, cũng như không có kế hoạch phát hành sản phẩm riêng, hay cung cấp API cho nhà phát triển. Họ giới thiệu VASA-1 "nhằm phô diễn một trong những khả năng của AI".
Ý kiến ()