Giấc mơ sữa Việt Nam

Chân dung kỹ sư 9x dùng AI viết 10 bài hát trong một giây

(SHTT) - Nguyễn Hoàng Bảo Đại là một kỹ sư công nghệ thông tin có khả năng sáng tác và ca hát, bởi thế anh chàng đã nảy ra ý tưởng độc đáo: tự làm mô hình trí tuệ nhân tạo (AI) sáng tác nhạc.

Nguyễn Hoàng Bảo Đại sinh năm 1994 và đam mê âm nhạc từ nhỏ. Sau này, Đại lại quay sang học Công nghệ Thông tin nhưng với tố chất nghệ sĩ, các sản phẩm IT của Đại sau này đều dính dáng tới âm nhạc.

Năm 24 tuổi, Đại cùng đồng đội đạt giải nhất cuộc thi Zalo AI Challenge với phần mềm nhận diện giọng nói. Hai năm sau, Đại tự xây dựng mô hình "AI nhạc sĩ".

Cũng không rõ là AI đến với Đại hay Đại đến với AI. Tuy nhiên, theo Đại chia sẻ, AI như vị cứu tinh của cuộc đời cậu bởi nếu không khám phá ra AI, Đại chẳng biết mình sẽ làm gì. 

bao dai

 Chân dung kỹ sư 9x dùng AI viết 10 bài hát trong một giây

Tốt nghiệp đại học, Đại tiếp tục nghiên cứu chuyên sâu về AI. Cậu nảy ra ý định tạo ra ra một mô hình AI có thể viết nhạc cho người Việt, theo đúng thị hiếu của người Việt. Bắt nguồn từ thói quen viết nhạc của bản thân, anh chàng thường dành rất nhiều thời gian cho quá trình viết giai điệu, bởi giai điệu hay thì tác phẩm mới hay. Nhiều lúc viết xong một giai điệu nhưng anh lại bỏ đi vì chưa ưng ý. Thế là anh chàng tưởng tượng, sẽ ra sao nếu mình có thể rút ngắn được thời gian cho phần viết giai điệu? Lúc này toàn bộ quá trình sáng tác sẽ diễn ra nhanh hơn, từ đó nghệ sĩ có thể phát hành nhạc nhanh hơn.

Khi nghiên cứu về các mô hình AI trong âm nhạc đang được xây dựng trên thế giới, Bảo Đại đúc kết ba mô hình có thể tạo được nhạc: Mạng neuron truyền thẳng; vanilla RNN (mạng neuron hồi quy) và Transformer. Tuy nhiên, nhược điểm của những mô hình này là sáng tác nhạc cổ điển, khác rất nhiều với thị hiếu nghe nhạc của người Việt là những bản nhạc nhẹ, nhạc Pop. "Hơn nữa, những mô hình này vẫn còn một số hạn chế, như nhiều quãng nghịch, nghe chói và không bắt tai. Mình nghĩ, nếu cứ chờ, sẽ không biết đến bao giờ mới có một mô hình AI viết nhạc cho người Việt. Nếu muốn nhanh, chỉ có cách tự mình xây dựng một thuật toán cho riêng mình", Bảo Đại nói.

bao dai 2

 

Tuy nhiên, việc xây dựng một mô hình AI không đơn giản, hầu hết các sản phẩm AI đều thuộc các công ty công nghệ hoặc viện nghiên cứu. Ngoài vấn đề về kinh phí, nhân lực, hai thách thức lớn nhất với bất kỳ ai làm về AI là dữ liệu đầu vào để huấn luyện máy học và phải có một hệ thống máy tính lớn để làm các thuật toán.

Mô hình Đại dùng để huấn luyện AI là Encoder - Decoder kết hợp thuật toán Attention và một vài công cụ cho nhạc pop Việt Nam. Để máy đọc được các giai điệu, dữ liệu đầu vào phải là file ở định dạng Midi. Anh giải thích: "Có thể hiểu nôm na rằng một bài hát hoàn chỉnh cũng như một món ăn. Mình ăn thấy ngon nhưng rất khó để biết được trong đó có những nguyên liệu, gia vị nào, liều lượng ra sao. Máy móc nghe nhạc ở định dạng Wav, Mp3... sẽ không thể tự tách hoà âm, phối khí ra để lấy giai điệu nên phải dùng nhạc định dạng Midi".

Khó khăn tiếp theo là âm nhạc định dạng Midi trên Internet rất hiếm. Bảo Đại phải "lang thang" khắp các diễn đàn âm nhạc để thu thập các bản nhạc, nhưng vẫn không đủ dữ liệu. Cuối cùng anh phải tự nghe đi nghe lại các bài hát và đàn lại để lấy dữ liệu cho máy học. "Các bài hát mới, được yêu thích thì không có ngay file Midi trên Internet, nên mình phải tự đàn giai điệu, chuyển hết về nốt Đô trưởng và La thứ. Công đoạn này có thể hiểu nôm na là chuẩn hoá dữ liệu trước khi đưa vào mô hình cho AI học".

Đến nay kho dữ liệu của Bảo Đại có khoảng 30.000 bài hát, trong đó 60% là do anh tự đàn. Trong hai năm ròng rã, anh đã đàn gần 18.000 bài hát. Có những ngày, Đại chỉ nhốt mình trong phòng và đàn từ sáng đến đêm để lấy dữ liệu cho máy học. "Ngày cao điểm mình đàn đến 300 bài hát, chỉ ăn và đàn", Bảo Đại kể.

bao dai 3

 

Sau hai năm xây dựng, mô hình AI này đã có thể viết được 10 bài hát trong vòng một giây. AI sáng tác nhạc của Đại hoạt động theo mô hình: Nhạc sĩ "mớm" cho máy 3 - 5 nốt nhạc, sau đó, AI sẽ tự hoàn thiện, đưa ra một bài hát hoàn chỉnh. Theo Bảo Đại, điều đặc biệt của mô hình AI này là người dùng chỉ cần chọn một giai điệu ngắn muốn viết, sau đó bấm nút. Máy sẽ cho ra các lựa chọn khác nhau, bạn sẽ chỉ cần nghe và chọn giai điệu mình thích. Trong từng giai điệu cũng có thể tiếp tục điều chỉnh theo ý mình. Nếu AI chưa đưa ra được kết quả như ý, có thể bắt "nó" viết tiếp đến khi nào ưng ý thì thôi. Thuật toán ngẫu nhiên trong AI cho phép tạo ra các bản nhạc không trùng nhau. Vì vậy, nỗi lo về bản quyền cũng có thể được kiểm soát bằng chính AI.

Khi có AI can thiệp vào quá trình sáng tác, hẳn nhiều người cũng đặt ra lo ngại rằng vị trí của những người nhạc sĩ sẽ nằm đâu. Để giải đáp thắc mắc này, Bảo Đại cho biết, còn rất nhiều công việc mà con người cần phải tham gia vào quá trình hoàn thiện một dự án âm nhạc, ví dụ như viết lời, hòa âm phối khí cho ca khúc, thực hiện thu âm cho ca sĩ, mixing và mastering, và kể cả làm truyền thông cho ca khúc.

"Hiện tại mô hình AI mình xây dựng chỉ mới có thể sáng tác được giai điệu mang phong cách nhạc pop, vẫn còn nhiều quá trình cần con người tham gia để có thể hoàn thành được sản phẩm một cách chỉn chu", chàng nhạc sĩ kiêm coder tài năng chia sẻ.

Hương Mi