LivePortrait: Ghép cử động gương mặt vào hình ảnh, rất nhanh, tiềm năng hơi đáng sợ

Có vẻ như nếu chỉ không cập nhật thông tin về những giải pháp AI mới, chúng ta sẽ ngay lập tức trở nên lỗi thời, vì tốc độ phát triển cũng như hoàn thiện công nghệ của những thuật toán AI, đặc biệt là ở mảng AI tạo sinh và phân tích hình ảnh, video hiện giờ đang phát triển rất nhanh.
Chỉ mới tròn 2 tuần trước, các nhà nghiên cứu đến từ đai học Fudan và tập đoàn công nghệ Kuaishou của Trung Quốc đã công bố một mô hình hoàn toàn mới, được họ hợp tác phát triển để nhận diện cử động gương mặt, rồi chuyển cử động đó sang một tấm hình tĩnh. Trùng hợp là vừa rồi, AI tạo hình và tạo video mang tên Kling của Kuaishou cũng đã mở cửa thử nghiệm rộng rãi trên toàn thế giới, không cần tạo tài khoản và bị giới hạn bằng số điện thoại bên Trung Quốc nữa. Mô hình này mình sẽ có bài trải nghiệm riêng gửi tới anh em trong những ngày tới.

LivePortrait

Còn công nghệ mã nguồn mở được công bố hoàn toàn miễn phí của Kuaishou và đại học Fudan có tên LivePortrait, và thành quả của nó anh em có thể nhìn ngay vào tấm hình cover.

Video Player is loading.

Current Time 0:00

Duration -:-

Loaded: 0%

0:00

Stream Type LIVE

Remaining Time –-:-

Chapters

descriptions off, selected

subtitles settings, opens subtitles settings dialog
subtitles off, selected

This is a modal window.

The media could not be loaded, either because the server or network failed or because the format is not supported.

Beginning of dialog window. Escape will cancel and close the window.

End of dialog window.

Một điểm mà anh em có thể nhận ra rất nhanh, đó là cử động gương mặt và cử động môi được thuật toán AI nhận diện theo cách chính xác hơn rất nhiều, chứ không chỉ đơn thuần nhận diện cử động môi để ghép vào hình tĩnh, còn lại tất cả những chi tiết khác trong tấm hình thì đơ như gỗ, nhìn vừa không thực tế lại vừa không tự nhiên.
Tuy nhiên chỉ cần nhìn đến video thứ hai, làm thử nghiệm ngay trên trang HuggingFace của trung tâm nghiên cứu tạo sinh hình ảnh và tương tác của Kuaishou Technology, thì giới hạn của công nghệ này cũng đã được hé lộ. Thứ nhất, video hoặc hình ảnh gốc để ghép vào hình ảnh tĩnh không được có cử động đầu quá nhiều, vì mô hình AI khó lòng tạo sinh những chi tiết như hai bên đầu lúc xoay qua xoay lại. Lắc đầu qua lại thì không sao, chứ ngoái đầu sang chỗ khác thì sẽ hơi khó. Và thứ hai, nếu chọn bắt chước cử động môi, thì toàn bộ phần còn lại của gương mặt sẽ đứng yên, không có chuyển động.

Video Player is loading.

Current Time 0:00

Duration -:-

Loaded: 0%

0:00

Stream Type LIVE

Remaining Time –-:-

Chapters

descriptions off, selected

subtitles settings, opens subtitles settings dialog
subtitles off, selected

This is a modal window.

The media could not be loaded, either because the server or network failed or because the format is not supported.

Beginning of dialog window. Escape will cancel and close the window.

End of dialog window.

Nhưng trước hết, có lẽ phải đề cập tới những gì LivePortrait làm được:

Ghép cử động gương mặt tự nhiên và chính xác hơn nhiều giải pháp khác đang có như AniPortrait, DaGAN hay Face v2v.
Tạo ra những tấm chân dung động với cử động tự nhiên hơn hẳn so với những giải pháp có trước đó.
Điều chỉnh đúng vị trí đôi mắt và đôi môi trong tấm hình dựa trên chi tiết video đầu vào, rồi điều chỉnh được cả độ mở của mắt và môi so với hình ảnh tĩnh.
Ghép được cả cử động môi và mắt cho động vật chứ không chỉ dùng được cho hình người.

Thuật toán AI hoạt động thế nào?

Về cơ bản, LivePortrait được tạo ra để làm giải pháp thay thế cho những cách biến video thật thành video tạo bằng AI hoặc ghép vào hình ảnh tĩnh. Bên cạnh việc huấn luyện mô hình AI nhận diện cử động gương mặt thông qua 69 triệu khung hình video chất lượng cao, các nhà nghiên cứu AI còn ghép thêm với kỹ thuật đánh dấu những điểm chuyển động trên khuôn mặt, chẳng hạn như lông mày, cằm và má để cử động gương mặt của video tạo bằng AI tự nhiên nhất.
Thay vì những giải pháp nội suy theo kiểu diffusion thường gặp thời gian gần đây, thì mô hình AI phân tích cử động gương mặt bằng “keypoint”, không khác nhiều so với quy trình làm game hay làm phim hoạt hình, chuyển từ gương mặt được quay motion capture với diễn viên thật, đưa vào phần mềm 3D để ghép lên gương mặt của nhân vật ảo trong game.

Với kỹ thuật này, tốc độ xử lý cực kỳ nhanh. Lấy ví dụ đoạn clip chuyển cử động gương mặt của mod Gia Huy sang hình một bức tượng cẩm thạch ở trên là dài 6 giây, xử lý qua RTX 4080 thông qua plug in LivePortrait vận hành nhờ ComfyUI, chỉ mất tròn 30 giây cho 180 khung hình ở tốc độ 30FPS. Nếu như mô hình AI phải nội suy từng khung hình rồi ghép đủ 180 khung hình lại, có lẽ phải mất cả chục phút, thậm chí hơn, để có một đoạn video chất lượng 1280×960 như vậy. Screenshot 2024-07-24 184616.jpg

Trái lại, LivePortrait vận hành dựa trên vài bước. Bước đầu tiên là sử dụng một mô hình gọi là Appearance Extractor để lấy được những chi tiết gương mặt mấu chốt trong đoạn video. Bước 2, những “keypoint” cử động gương mặt mà mô hình lấy được từ đoạn video clip gốc sẽ được bỏ vào module làm biến dạng gương mặt của tấm hình tĩnh, rồi decode thành đoạn video hoàn chỉnh. Ở đây, những mô hình machine learning dạng GAN nhận diện và mô phỏng cử động môi, gương mặt sẽ vận hành.

Rồi đến bước 2, những module ghép cử động gương mặt, ghép cử động đôi mắt và đôi môi sẽ vận hành, copy hết những cử động trong video clip gốc, để gán lên tấm hình anh em muốn làm video. Cuối cùng, kết quả là một đoạn video với thời lượng, cử động và âm thanh giống hệt như video gốc, nhưng với hình ảnh mà anh em tùy chọn:

Lại quay lại với đoạn clip dài 5 giây của Cu Hiệp chào anh em ở đầu clip trải nghiệm MacBook Air M3. Thay vì chế lại video ghép vào hình ảnh khác trên trang web vận hành miễn phí của Kwaishou Technology, thì mình quyết định cài plugin LivePortrait để xử lý local trên máy tính của mình, không phải xếp hàng đợi tới lượt có GPU dư thừa cho mình dùng thử. Kết quả là, ngay cả với một đoạn clip có rất nhiều cử động đầu, quay cả sang một bên, mô hình cascade tạo sinh từng khung hình của LivePortrait vận hành không hề tồi chút nào:

Video Player is loading.

Current Time 0:00

Duration -:-

Loaded: 0%

0:00

Stream Type LIVE

Remaining Time –-:-

Chapters

descriptions off, selected

subtitles settings, opens subtitles settings dialog
subtitles off, selected

This is a modal window.

The media could not be loaded, either because the server or network failed or because the format is not supported.

Beginning of dialog window. Escape will cancel and close the window.

End of dialog window.

Video Player is loading.

Current Time 0:00

Duration -:-

Loaded: 0%

0:00

Stream Type LIVE

Remaining Time –-:-

Chapters

descriptions off, selected

subtitles settings, opens subtitles settings dialog
subtitles off, selected

This is a modal window.

The media could not be loaded, either because the server or network failed or because the format is not supported.

Beginning of dialog window. Escape will cancel and close the window.

End of dialog window.

Nếu anh em muốn trải nghiệm miễn phí công cụ AI vừa được ra mắt này, có thể truy cập trang web: https://huggingface.co/spaces/KwaiVGI/LivePortrait rồi bắt đầu kéo thả những đoạn clip và những hình ảnh anh em muốn chế cháo lại. Hay thậm chí muốn chụp hình ngay trên webcam để tạo video cũng được luôn. Tuy nhiên vì sử dụng miễn phí, nên anh em sẽ phải đợi tới lượt mình để trải nghiệm ghép video vào hình tĩnh.

Các nhà nghiên cứu LivePortrait cũng đưa ra lời khuyên, rằng để video có chất lượng tốt nhất, hãy sử dụng video hình vuông, gương mặt nằm ở chính giữa khung hình video dùng để AI nhận diện và ghép vào hình ảnh. Thêm nữa, cử động của đầu và cổ cũng nên giữ ở mức tối thiểu. Đấy chính là lý do đoạn clip mod Gia Huy chào anh em trong video trải nghiệm Asus Vivobook S16 OLED nhìn rất đẹp, còn clip Cu Hiệp thì có những đoạn cử động đầu của pho tượng khá mờ.

Tiềm năng vừa ấn tượng vừa đáng sợ

Rồi tới khi sức mạnh phần cứng máy tính hay smartphone tăng lên, kỹ thuật nhận diện cử động gương mặt có thể sẽ đủ nhẹ để vận hành theo thời gian thực, tức là không còn cần phải render từ video gốc và hình ảnh gốc để tạo ra những đoạn clip vui vẻ hay content mới nữa.
Một tiềm năng của những giải pháp ghép cử động gương mặt như LivePortrait trong ngành giải trí, đó là những nhà làm phim, làm nội dung đơn lẻ hoặc không chuyên sẽ có thể tạo ra những đoạn video sáng tạo, phong cách hoạt hình hay siêu thực, chẳng hạn ví dụ rất đơn giản là bức tượng hay những nhân vật giả tưởng ngồi review đồ công nghệ chẳng hạn.
Nhưng ở khía cạnh ngược lại, những công nghệ như thế này hoàn toàn có thể bị lợi dụng để biến thành công cụ giúp những kẻ lừa đảo hoặc trục lợi có thể làm giả mạo danh tính người khác, hoặc đóng giả công an để lừa đảo chiếm đoạt tài sản của người khác.
Mình làm ra một ví dụ ghép video dưới đây chỉ mang giá trị vui vẻ, và đã cố tình lấy clip của anh Trương Thế Vinh hát với nhiều cử động đầu, rồi tới khi ghép vào CR7 thì ai cũng sẽ nhận ra là AI làm. Nhưng nếu hiểu cách những công cụ như LivePortrait vận hành, những kẻ lừa đảo có thể ghép luôn cả cử động gương mặt lẫn giọng nói rất giống, với rất ít cử chỉ để AI không bị loạn, từ đó đóng giả người của cơ quan hành pháp, phục vụ mục đích xấu.

Video Player is loading.

Current Time 0:00

Duration -:-

Loaded: 0%

0:00

Stream Type LIVE

Remaining Time –-:-

Chapters

descriptions off, selected

subtitles settings, opens subtitles settings dialog
subtitles off, selected

This is a modal window.

The media could not be loaded, either because the server or network failed or because the format is not supported.

Beginning of dialog window. Escape will cancel and close the window.

End of dialog window.

Những công cụ ghép mặt dạng deep fake đang có hiện tại còn chưa giải quyết được vấn đề há miệng ra bên trong đen ngòm, và nó đã trở thành một yếu tố để nhận diện những kẻ lừa đảo. Nhưng bây giờ những công cụ thế hệ mới đã nội suy được cả hàm răng và lưỡi lúc nhân vật trong hình được ghép để mở miệng rồi. Vậy là càng lúc, những công cụ và mô hình AI lại càng tạo ra những hình ảnh giống thật. Còn mọi người thì sẽ lại phải đi tìm những giải pháp để nhận diện hình ảnh nào là thật, hình ảnh nào là giả mạo, làm bằng công cụ deepfake.
Rồi một khả năng công cụ do con người phát triển để hoàn thiện công nghệ AI có khả năng được sử dụng phục vụ mục đích xấu, đó chính là việc tạo tin giả, ghép video và âm thanh giả mạo, vu khống vào hình ảnh các nhân vật có thật. Vậy mới thấy, mọi công nghệ luôn là trung lập, nó hữu ích hay nguy hiểm phụ thuộc hết vào bàn tay con người ứng dụng chúng.

Nguồn: Tinhte.vn