Google đánh dấu cột mốc mô hình AI 1000 ngôn ngữ

(SHTT) - “Gã khổng lồ” Google đã hoàn thành bước đầu hướng tới việc xây dựng mô hình trí tuệ nhân tạo (AI) hỗ trợ 1000 ngôn ngữ thông dụng nhất trên thế giới.

Trong một bài đăng trên blog, Google đã tiết lộ chi tiết về Mô hình giọng nói phổ quát (USM) của mình. Theo đó, công ty đã hoàn thành 'bước quan trọng đầu tiên' hướng tới việc xây dựng mô hình trí tuệ nhân tạo (AI) hỗ trợ một nghìn ngôn ngữ được nói nhiều nhất trên thế giới.

Thông báo của Google là một phần trong quá trình chuẩn bị cho sự kiện I/O hàng năm, nơi họ có kế hoạch ra mắt một loạt sản phẩm được hỗ trợ bởi AI. Được lên kế hoạch vào tháng 5 năm nay, sự kiện này sẽ là dịp Google trưng bày hơn 20 sản phẩm có tính năng AI, một sự thúc đẩy cần thiết để lấy lại vị thế trước sự cạnh tranh quyết liệt của Microsoft đối với các sản phẩm hỗ trợ GPT của OpenAI.

Ảnh: 400tmax/iStock 

Mô hình giọng nói phổ quát là gì?

Vào tháng 11/2022, Google đã công bố ý tưởng về mô hình 1000 ngôn ngữ với mục đích mang lại sự kết nối và hòa nhập cho hàng tỷ người trên toàn cầu.

Theo bài đăng trên blog, mô hình giọng nói phổ quát (USM) là một nhóm các mô hình giọng nói bao gồm hai tỉ tham số đã được lập trình trên 12 triệu giờ nói và 28 tỷ câu văn bản. Hiện tại, mô hình này dựa trên hơn 300 ngôn ngữ nhưng đã được sử dụng trong các sản phẩm của Google, chẳng hạn như YouTube.

Nếu bạn đã sử dụng Nhận dạng giọng nói tự động (ASR) trong khi xem video YouTube không phải là ngôn ngữ mẹ đẻ, thì chính USM sẽ giúp bạn hiểu nội dung dễ dàng hơn. Các nhà nghiên cứu của Google, Yu Zhang và James Qin, đã giải thích thêm về cách tạo ra mô hình công nghệ này.

Các nhà nghiên cứu nói rằng khó khăn cơ bản trong việc tạo ra một mô hình như USM chủ yếu xoay quanh vấn đề truy cập đủ dữ liệu. Trong phương pháp giám sát thông thường, dữ liệu âm thanh cần phải gắn nhãn hoặc thu thập theo cách thủ công từ bản chép lời có sẵn. Điều này trở nên quá tốn kém và tốn thời gian, tùy thuộc vào ngôn ngữ và cách thể hiện của nó mà các hạn chế trở nên trầm trọng hơn tùy theo các cấp độ khác nhau.

Ảnh: Google Research 

Thay vào đó, Google đã sử dụng phương pháp  tự giám sát, tận dụng dữ liệu chỉ có âm thanh có sẵn với số lượng lớn trên các ngôn ngữ giúp dễ dàng mở rộng quy mô hơn. Sau quá trình đó, Google sẽ đưa mô hình qua bước thứ hai trong đó chất lượng và phạm vi phủ sóng của nó được cải thiện bằng cách sử dụng dữ liệu văn bản, sau đó tinh chỉnh nó bằng cách sử dụng các tác vụ nhất định như ASR.

Bằng cách sử dụng phương pháp này, Google nhận thấy rằng tỉ lệ lỗi từ (WER) của họ thấp hơn 30 phần trăm trên 73 ngôn ngữ - một thành tích nổi bật đối với công ty. Đối với các ngôn ngữ phổ thông như tiếng Anh Mỹ, tỷ lệ tương đối thấp hơn 6% so với mô hình nội bộ tiên tiến nhất mà công ty đã sử dụng. Ngoài ra,  việc so sánh với các bộ dữ liệu  khai khác cũng cho thấy USM hoạt động tốt hơn ở ASR và các tác vụ dịch giọng nói.

Công ty hiện đang tìm cách sử dụng kiến trúc mô hình dựa trên USM và quy trình chọn lọc để xây dựng mô hình 1.000 ngôn ngữ. Mark Zuckerberg's Meta, công ty đã đặt cược vào việc xây dựng metaverse, cũng đã phát hành mô hình ngôn ngữ lớn giống như ChatGPT vào tháng trước, cho thấy triển vọng phát triển mô hình đa ngôn ngữ trong tương lai.

Đức Anh Nguyễn