Báo Kiên Giang Báo Kiên Giang
  • Thời sự
  • Chính trị
  • Kinh tế
  • Xã hội
  • Văn hóa - Thể thao
  • Du lịch
  • Quốc phòng - An ninh
  • Phóng sự - Ghi chép
  • Pháp luật
  • Quốc tế
  • Đời sống
  • Media

Trang chủ Công nghệ

Microsoft phát triển công cụ có thể nhại giọng bất kỳ ai sau 3 giây

19/01/2023 16:17

(KGO) - Các mô hình chuyển văn bản thành giọng nói có thể giúp bảo toàn âm điệu cảm xúc của người nói cũng như môi trường âm thanh của giọng nói.

Các nhà nghiên cứu của công ty Microsoft vừa công bố một mô hình trí tuệ nhân tạo (AI) có khả năng chuyển văn bản thành giọng nói mới mang tên VALL-E. Điều thú vị là VALL-E có thể mô phỏng rất sát giọng nói của một người, khi được cung cấp một mẫu âm thanh do người này đọc, với độ dài chỉ 3 giây.

Sau khi học được một giọng nói cụ thể, VALL-E có thể tổng hợp và tạo ra âm thanh của người đó đang nói bất kỳ nội dung gì, kèm theo diễn cảm khi nói rất giống thật.

Những người tạo ra VALL-E cho rằng AI này có thể được sử dụng cho các ứng dụng chuyển văn bản thành giọng nói chất lượng cao. VALL-E cũng có thể được dùng để chỉnh sửa giọng nói, trong đó bản ghi âm của một người có thể được chỉnh sửa và thay đổi để họ nói thêm điều gì đó mà ban đầu không nói tới. Ngoài ra, VALL-E cũng có thể được dùng để tạo nội dung âm thanh, khi kết hợp với các mô hình AI sáng tạo khác như GPT-3.

Mô hình của VALL-E cho phép AI nhại giọng của bất kỳ ai. (Nguồn: ARS Technica)

Microsoft gọi VALL-E là "bộ giải mã thần kinh của mô hình ngôn ngữ" và nó được xây dựng dựa trên công nghệ có tên EnCodec mà công ty Meta từng công bố vào tháng 10-2022. Không giống như các phương thức chuyển văn bản thành giọng nói khác, thường tổng hợp giọng nói bằng cách điều chỉnh các dải sóng âm, VALL-E tạo ra các bộ mã âm thanh riêng biệt từ dữ liệu nhập vào là văn bản và âm thanh.

Về cơ bản, nó sẽ phân tích cách một người phát âm khi nói, rồi chia thông tin thành các thành phần riêng biệt (được gọi là các "token") nhờ EnCodec. Tiếp đó, AI sử dụng dữ liệu được đào tạo để khớp với những gì nó "hiểu biết" về cách thức âm thanh được tạo ra khi một người nói và tạo ra các âm thanh mới, giống hệt với lối nói và cảm xúc nằm trong đoạn âm thanh mẫu dài 3 giây ban đầu.

Hoặc chúng ta có thể hiểu về VALL-E như giải thích chính thức của Microsoft: Để tổng hợp ra một giọng nói được cá nhân hóa, VALL-E tạo token âm thanh tương ứng dựa trên token âm thanh của bản ghi âm mẫu dài 3 giây và dữ liệu đầu vào về âm vị, sẽ hạn chế thông tin về nội dung và người nói tương ứng. Cuối cùng, token âm thanh tạo ra từ quá trình này sẽ được sử dụng để tổng hợp thành dải sóng âm, thông qua một giải mã thần kinh của mô hình ngôn ngữ tương ứng.

Microsoft đã đào tạo khả năng tổng hợp giọng nói của VALL-E dựa trên một thư viện âm thanh do Meta tổng hợp, có tên là LibriLight. Nó chứa 60.000 giờ bài phát biểu bằng tiếng Anh, từ hơn 7.000 người nói. Hầu hết các giọng nói này thực tế là những sản phẩm sách nói, được trích xuất từ kho sách nói công cộng LibriVox.

Để VALL-E cho ra kết quả tốt, giọng nói trong mẫu ghi âm dài 3 giây phải khớp với giọng nói trong dữ liệu huấn luyện AI này.

Trên trang web trình diễn năng lực của VALL-E, Microsoft cung cấp rất nhiều ví dụ cho thấy hoạt động của mô hình AI. Người hứng thú với sản phẩm này có thể truy cập theo địa chỉ https://valle-demo.github.io/ để trải nghiệm.

Mô hình hoạt động của VALL-E. (Nguồn: ARS Technica)

Ngoài việc bảo toàn âm sắc giọng nói và giai điệu cảm xúc của người nói, VALL-E cũng có thể bắt chước "môi trường âm thanh" của âm thanh mẫu. Ví dụ: nếu mẫu đến từ một cuộc gọi điện thoại, thì đầu ra âm thanh sẽ mô phỏng các thuộc tính âm thanh và tần số của một cuộc gọi điện thoại trong sản phẩm tổng hợp cuối.

Nhưng có lẽ do khả năng của VALL-E quá mạnh, có thể bị kẻ xấu sử dụng để phục vụ cho các trò lừa đảo, nên hiện Microsoft không cho phép công chúng thử nghiệm AI này. Nhóm nghiên cứu dường như cũng nhận thức được tác hại xã hội tiềm ẩn liên quan tới sản phẩm của họ.

Vì thế, họ đã kết luận ở cuối bài báo khoa học giới thiệu về VALL-E như sau: "Vì VALL-E có thể tổng hợp giọng nói để duy trì danh tính của người nói, nên nó có thể chứa những rủi ro tiềm ẩn nếu sử dụng sai mô hình, chẳng hạn như giả mạo giọng nói hoặc mạo danh một người nói cụ thể. Để giảm thiểu những rủi ro như vậy, có thể xây dựng thêm một mô hình phát hiện, để phân biệt liệu một đoạn âm thanh có phải là sản phẩm do VALL-E tổng hợp hay không. Chúng tôi cũng sẽ áp dụng các Nguyên tắc AI của Microsoft vào thực tế khi phát triển thêm AI này".

Theo VietnamPlus

  • Từ khóa:
  • Microsoft
  • chuyển văn bản thành giọng nói

Tin cùng mục

Nhúng chatbot ChatGPT vào Bing và trình duyệt Edge, Microsoft tự tin lật đổ Google

Apple có thể ra mắt iPhone Ultra vào năm 2024, cao cấp và đắt tiền hơn cả iPhone Pro Max

(KGO) - Theo báo cáo của Bloomberg, Apple đang phát triển một mẫu iPhone “Ultra”, cao cấp và đắt tiền hơn cả phiên bản iPhone Pro và Pro Max.

  • Vi phạm dữ liệu Google Fi cho phép tin tặc thực hiện các cuộc tấn công hoán đổi SIM
  • Mắc sai lầm sơ đẳng, Facebook khiến khả năng bảo mật 2 lớp vô dụng trước hacker
  • Các công ty Nhật Bản triển khai dịch vụ giao hàng bằng UAV
  • ChatGPT: "Cơn bão AI" có làm đổi thay thế giới?

Tin nổi bật

Thanh niên Kiên Giang nô nức lên đường nhập ngũ

Những chiến sĩ mới "đặc biệt"

Thủ tướng Phạm Minh Chính bắt đầu thăm chính thức Cộng hòa Singapore

Kiên Giang xác minh tài sản, thu nhập ngẫu nhiên một số người tại 11 cơ quan, đơn vị, địa phương

Hành khách báo mất đồng hồ trị giá hơn 11.000 đô la Mỹ tại Cảng hàng không quốc tế Phú Quốc

Tổ chức lễ kỷ niệm 50 năm “Chiến thắng trở về” tại Phú Quốc

Phát động cuộc thi viết và phóng sự truyền hình về phong trào thi đua yêu nước trên địa bàn Kiên Giang

PHÁT TRIỂN ĐẢNG VIÊN TRONG HỌC SINH Ở KIÊN GIANG - Bài cuối: Nhiều tổ chức Đảng trường học gặp khó, vì sao?

  • Thời sự
  • Ẩm thực
  • Chính trị
  • Trong tỉnh
  • Kinh tế
  • Thời trang
  • Trong nước
  • Y tế
  • Xã hội
  • Xây dựng nông thôn mới
  • Môi trường
  • Văn hóa - Thể thao
  • Du lịch
  • Quốc phòng - An ninh
  • Phóng sự - Ghi chép
  • Pháp luật
  • Quốc tế
  • Đời sống
Media Báo in
  • Theo dõi báo Kiên Giang trên
  • Cơ quan chủ quản: Tỉnh ủy Kiên Giang
  • Tổng Biên tập: Nguyễn Tấn Vạn
  • Phó Tổng Biên tập: Võ Hoàng Đương - Nguyễn Việt Tiến - Lâm Việt Khởi
  • Toà soạn: Số 16 đường Mạc Đĩnh Chi, TP. Rạch Giá, tỉnh Kiên Giang
  • Điện thoại: 0297.3949561 - Email: toasoan@baokiengiang.vn
  • © 2021 Bản quyền thuộc về Báo Kiên Giang
  • Liên hệ quảng cáo: 0297.3949460. - Fax: 0297.3877518
  • Giấy phép số 60/GP-BTTTT do Bộ Thông tin và Truyền thông, cấp ngày 25/01/2022 
  • Ghi rõ nguồn khi phát hành thông tin tại website này.

Tổng số lượt truy cập: