Máy học (machine learning) đã giỏi tới mức có thể tạo ra các khuôn mặt người rất giống thực tới mức có thể làm bạn cảm thấy rùng mình. Phương pháp mới của các nhà nghiên cứu tại Nvidia vượt trội ở chỗ họ có thể phân tách ra nhiều mức độ chi tiết trên mặt và cho phép điều chỉnh riêng biệt sau khi máy tính đã cho ra kết quả.

Nghiên cứu này mô tả cấu trúc mới giúp tạo ra và pha trộn hình ảnh, đặc biệt là khuôn mặt người, dẫn đến “tính chất nội suy tốt hơn, và linh hoạt hơn đối với các mức độ đa dạng của yếu tố tiềm ẩn.”

Về cơ bản, điều trên có nghĩa là hệ thống này sẽ chú ý hơn tới những sự khác biệt có ý nghĩa giữa hình ảnh, và có nhiều thang đo để tăng hoặc giảm.

Ví dụ, hệ thống cũ có thể tạo ra 2 khuôn mặt “khác biệt” nhưng lại hầu như y hệt nhau, chỉ khác ở tai và màu áo thun. Điều này không thực sự khác biệt do hệ thống cũ không biết chi tiết nào là quan trọng để tập trung vào.

Video giải thích cách thuật toán mới hoạt động:

Hệ thống mới lấy ý tưởng từ sự “copy phong cách,” ví như trong một bức tranh, những yếu tố phong cách quan trọng như bố cục (tập trung vào giữa, nhìn sang trái/phải…) và tính chất của khuôn mặt (màu da, tàn nhang, tóc…) sẽ được chuyển sang cho hình ảnh mới. Các nhà nghiên cứu đã sử dụng 70.000 bức ảnh chân dung từ Flickr để làm nguồn cho máy tính “học” thuật toán mới.

Những tính chất này có thể được điều chỉnh theo đang đo: từ chi tiết (các đặc điểm trên mặt) cho tới trung bình (bố cục chung của hình ảnh) và toàn cục (phong cách màu sắc). Các nhà nghiên cứu có thể tùy chọn thay đổi tất cả các tính chất này, để thay đổi toàn bộ hình ảnh; hay chỉ tùy chỉnh một yếu tố riêng lẻ như màu tóc, tàn nhang, râu…

Hãy thử quan sát bức ảnh trên, các khuôn mặt đều rất khác nhau, nhưng các yếu tố của ảnh “nguồn” (source) và “phong cách” đều hiện diện rất rõ ràng, ví dụ như chiếc áo xanh dương ở hàng dưới cùng, hay xét theo hàng dọc thì trang phục ở mỗi cột đều rất xuyên suốt và cùng loại với ảnh nguồn. Lưu ý rằng độ phong phú là rất cao, không chỉ là A+B=C, nhưng các yếu tố A và B ít hay nhiều là phụ thuộc vào tùy chỉnh của nhà nghiên cứu.

Không chỉ cho người. Các thuật toán này cũng hoạt động với xe hơi, mèo hay thậm chí phong cảnh. Các yếu tố chi tiết, trung bình và toàn cục có thể được tách ra và tái tạo một cách độc lập.

Không có ảnh nào trong đây là người thật. Có lẽ cũng khá đáng sợ khi giờ đây chúng ta đã có một chiếc máy tạo ra hình ảnh mặt người hoàn toàn tự nhiên, muốn bao nhiêu cũng có. Cùng với thuật toán có thể tạo ra video hình người hoạt động chỉ từ 1 bức ảnh chụp, trong tương lai không xa người ta có thể làm phim mà không cần tới diễn viên thật (trí tuệ nhân tạo có thể viết kịch bản và tự tạo ra từ diễn viên tới bối cảnh!) hoặc các tin tức giả sẽ trở nên rất khó phân biệt bằng mắt thường.

Theo Techcruch, Futurism,
Phong Trần tổng hợp