Amazon phát triển thuật toán chuyển văn bản thành giọng nói cho các quảng cáo địa phương

(SHTT) - Mới đây, Amazon đã phát triển thành công thuật toán chuyển văn bản thành giọng nói, Brand Voice, nhằm hướng tới việc giảm chi phí và thời gian cho quá trình làm quảng cáo video phục vụ cho từng địa phương đặc thù.

Theo Venture Beat, thuật toán Brand Voice của Amazon sẽ giúp việc làm các video quảng cáo nhanh hơn các diễn viên chuyên nghiệp. Cụ thể, Amazon cùng với bộ phận AWS dựa trên thuật toán đám mây sẵn có để phát triển thuật toán Brand Voice, một dịch vụ biến văn bản thành giọng nói tự nhiên.

Nhà quản lý dự án cho biết, các tổ chức sẽ có thể mang lại sự độc đáo cho thương hiệu của họ thông qua thuật toán này bằng cách tạo ra các sản phẩm quảng cáo mang đậm dấu ấn bản thân với phần âm là giọng nói giống với các âm thanh do những người nổi tiếng tạo ra.

 

Đưa dự án vào ứng dụng, Amazon đã giúp chuỗi cửa hàng thức ăn nhanh của KFC ở Canada tạo ra một quảng cáo với âm thanh là giọng Nam Mỹ điển hình của đại tá Sanders. Và đối với Ngân hàng quốc gia Úc, một giọng nói đã được phát triển với đặc điểm phát âm của cư dân xứ sở chuột túi.

Các tác giả của thuật toán này cho biết, chỉ cần vài giờ luyện tập, hệ thống học cách bắt chước cách phát âm mới của Brand Voice đã có thể hoàn thành nhiệm vụ và phát ra âm thanh theo yêu cầu, thay vì chờ đợi  các diễn viên luyện đọc để có được ngữ điệu cần thiết trong hàng chục giờ đồng hồ.

Mô hình AI của Amazon có 2 thành phần, bao gồm: một mạng nơ-ron phát triển tín hiệu âm thanh và một bộ phát âm theo phong cách trung tính được kết hợp với một lượng nhỏ lời nói theo phong cách mong muốn.

Mặc dù thuật toán mới của Amazon có thể khiến các nhà quảng cáo tiết kiệm được thời gian và chi phí sản xuất, nhưng đây cũng có thể là miếng mồi béo bở đối với những kẻ xấu muốn lợi dụng vào mục đích lừa đảo hay thực hiện các hành vi vi phạm pháp luật.

Bình An