Meta tiết lộ năm mô hình AI để xử lý đa phương thức, tạo nhạc và hơn thế nữa

Bài Liên quan

Meta đã tiết lộ năm mô hình và nghiên cứu AI mới quan trọng, bao gồm các hệ thống đa phương thức có thể xử lý cả văn bản và hình ảnh, mô hình ngôn ngữ thế hệ tiếp theo, tạo nhạc, phát hiện giọng nói AI và nỗ lực cải thiện tính đa dạng trong hệ thống AI.

Các bản phát hành đến từ nhóm Nghiên cứu AI Cơ bản (FAIR) của Meta, nhóm đã tập trung vào việc thúc đẩy AI thông qua nghiên cứu và cộng tác mở trong hơn một thập kỷ. Khi AI nhanh chóng đổi mới, Meta tin rằng làm việc với cộng đồng toàn cầu là rất quan trọng.

Meta cho biết: “Bằng cách chia sẻ công khai nghiên cứu này, chúng tôi hy vọng sẽ truyền cảm hứng cho việc lặp lại và cuối cùng là giúp phát triển AI một cách có trách nhiệm”.

Tắc kè hoa: Xử lý văn bản và hình ảnh đa phương thức

Trong số các bản phát hành có các thành phần chính của mô hình ‘Tắc kè hoa’ của Meta theo license nghiên cứu. Chameleon là một nhóm các mô hình đa phương thức có thể hiểu và tạo ra cả văn bản và hình ảnh cùng một lúc—không giống như hầu hết các mô hình ngôn ngữ lớn thường là mô hình đơn phương thức.

Meta giải thích: “Giống như con người có thể xử lý đồng thời các từ và hình ảnh, Chameleon có thể xử lý và cung cấp cả hình ảnh và văn bản cùng một lúc”. “Tắc kè hoa có thể lấy bất kỳ sự kết hợp nào giữa văn bản và hình ảnh làm đầu vào và cũng có thể xuất ra bất kỳ sự kết hợp nào giữa văn bản và hình ảnh.”

Các use case tiềm năng hầu như không có giới hạn, từ việc tạo chú thích sáng tạo đến gợi ý các cảnh mới bằng văn bản và hình ảnh.

Dự đoán nhiều Token để đào tạo mô hình ngôn ngữ nhanh hơn

Meta cũng đã phát hành các mô hình được đào tạo trước để hoàn thiện mã sử dụng ‘dự đoán nhiều Token’ theo license nghiên cứu phi thương mại. Đào tạo mô hình ngôn ngữ truyền thống không hiệu quả nếu chỉ dự đoán từ tiếp theo. Mô hình nhiều Token có thể dự đoán đồng thời nhiều từ trong tương lai để đào tạo nhanh hơn.

“Trong khi [the one-word] Cách tiếp cận đơn giản và có thể mở rộng nhưng cũng không hiệu quả. Nó đòi hỏi nhiều văn bản hơn nhiều so với những gì trẻ em cần để học cùng một mức độ thông thạo ngôn ngữ,” Meta nói.

JASCO: Mô hình chuyển văn bản thành nhạc nâng cao

Về mặt sáng tạo, JASCO của Meta cho phép tạo các clip nhạc từ văn bản đồng thời mang lại nhiều quyền kiểm soát hơn bằng cách chấp nhận các đầu vào như hợp âm và nhịp.

Meta giải thích: “Trong khi các mô hình chuyển văn bản thành nhạc hiện có như MusicGen chủ yếu dựa vào đầu vào văn bản để tạo nhạc, thì mô hình mới của chúng tôi, JASCO, có khả năng chấp nhận nhiều đầu vào khác nhau, chẳng hạn như hợp âm hoặc nhịp, để cải thiện khả năng kiểm soát đầu ra âm nhạc được tạo ra”. .

AudioSeal: Phát hiện giọng nói do AI tạo ra

Meta khẳng định AudioSeal là hệ thống đóng dấu âm thanh đầu tiên được thiết kế để phát hiện giọng nói do AI tạo ra. Nó có thể xác định chính xác các phân đoạn cụ thể do AI tạo ra trong các clip âm thanh lớn hơn nhanh hơn tới 485 lần so với các phương pháp trước đây.

“AudioSeal đang được phát hành theo license thương mại. Đây chỉ là một trong một số dòng nghiên cứu có trách nhiệm mà chúng tôi đã chia sẻ để giúp ngăn chặn việc lạm dụng các công cụ AI tổng quát,” Meta cho biết.

Cải thiện tính đa dạng của văn bản thành hình ảnh

Một bản phát hành quan trọng khác nhằm mục đích cải thiện tính đa dạng của các mô hình chuyển văn bản thành hình ảnh thường có thể thể hiện những thành kiến về địa lý và văn hóa.

Meta đã phát triển các chỉ báo tự động để đánh giá sự chênh lệch tiềm ẩn về mặt địa lý và thực hiện một nghiên cứu chú thích lớn hơn 65.000 để hiểu cách mọi người trên toàn cầu nhìn nhận về đại diện địa lý.

Meta cho biết: “Điều này mang lại sự đa dạng hơn và thể hiện tốt hơn trong các hình ảnh do AI tạo ra”. Mã và chú thích có liên quan đã được phát hành để giúp cải thiện tính đa dạng trên các mô hình tổng quát.

Bằng cách chia sẻ công khai những mô hình đột phá này, Meta cho biết họ hy vọng sẽ thúc đẩy sự hợp tác và thúc đẩy sự đổi mới trong cộng đồng AI.

(Ảnh của Dima Solomin)

Xem thêm: NVIDIA giới thiệu những tiến bộ mới nhất về AI trực quan

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Hãy xem AI & Big Data Expo diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị Tự động hóa Thông minh, BlockX, Tuần lễ Chuyển đổi số và Triển lãm An ninh Mạng & Cloud.

Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp tại đây.

thẻ: ai trí tuệ nhân tạo audioseal tắc kè hoa hội chợ jasco meta

www.artificialintelligence-news.com

Tags: AI Automation bịt kín âm thanh chuyển văn bản thành hình ảnh con tắc kè hội chợ jasco mã nguồn mở meta meta ai mô hình thế hệ âm nhạc trí tuệ nhân tạo

Meta tiết lộ năm mô hình AI để xử lý đa phương thức, tạo nhạc và hơn thế nữa

Bài Liên quan

Tắc kè hoa: Xử lý văn bản và hình ảnh đa phương thức

Dự đoán nhiều Token để đào tạo mô hình ngôn ngữ nhanh hơn

JASCO: Mô hình chuyển văn bản thành nhạc nâng cao

AudioSeal: Phát hiện giọng nói do AI tạo ra

Cải thiện tính đa dạng của văn bản thành hình ảnh

SCG ra mắt Xi măng Super Carbon thấp SCG đầu tiên tại Việt Nam

Sự đột biến AI của Broadcom thách thức sự thống trị của Nvidia

Related Posts

Bài đọc nhiều

Danh mục

Bài mới nhất

Case Studies

Welcome Back!

Retrieve your password