Nghiên cứu mới: Kỹ thuật trực quan hoá giúp thúc đẩy khám phá khoa học, phân tích khách hàng

(SHTT) - Các nhà nghiên cứu từ Đại học Skoltech, Nga và Viện Nghiên cứu Trí tuệ Nhân tạo, Mỹ đã phát minh ra một kỹ thuật trực quan hoá giúp con người có thể tiếp cận các bộ dữ liệu y sinh, tài chính và các bộ dữ liệu khác rất phức tạp, nhưng không làm mất đi cấu trúc đa chiều của chúng.

Việc giữ lại liên kết đa chiều rất quan trọng trong việc đưa ra kết luận về gen ung thư, hành vi của người tiêu dùng,... Tuy nhiên, các phương pháp hiện nay đều chưa giải quyết được vấn đề này.

Các nhà phân tích của công ty và nhà khoa học thường phải hiểu các bộ dữ liệu, trong đó mọi mục được mô tả theo nhiều chiều. Ví dụ, một ngân hàng có thể xếp hạng từng khách hàng của mình theo một loạt các chỉ số hành vi. Các nhà sinh học xem xét các tế bào khác nhau theo mức độ hoạt động của lượng lớn gen trong chúng. Dữ liệu thời tiết cũng có tính chất như vậy, số lượng thông số được báo cáo cho mọi thời điểm tại mọi địa điểm.

Tuy nhiên, mọi người không quen suy nghĩ theo nhiều chiều và nếu không giảm tập dữ liệu thành biểu diễn hai hoặc ba chiều rõ ràng, các giả thuyết mang ý nghĩa và hình mẫu quan trọng khó có khả năng được hình thành và nhận ra.

Sáu phương pháp để giảm kích thước dữ liệu chuyển đổi bản quét bộ xương voi ma mút ba chiều thành biểu diễn phẳng ở hai chiều

Đồng tác giả Daniil Cherniavskii cho biết: Trực quan hóa làm cho dữ liệu trở nên trực quan, nhưng không nhất thiết tiết lộ 'hình dạng' của chúng. Một bộ dữ liệu có thể sở hữu cấu trúc lớn, hoàn chỉnh với các cụm, khoảng trống, vòng lặp,... và chúng tôi muốn tất cả những thứ đặc điểm đó được biểu diễn dưới dạng giảm chiều.

Các nhà nghiên cứu thị trường sẽ dùng phương pháp trực quan hoá để xác định nhóm người tiêu dùng, các nhà khoa học khí hậu ứng dụng chúng trong việc xác định nơi bắt đầu và kết thúc của một quá trình. Có một số cách tiếp cận để giảm kích thước dữ liệu, có thể kể đến bộ mã hóa tự động. Đây là những mạng lưới thần kinh tạo ra các biểu diễn dữ liệu có chiều thấp hơn. Tuy nhiên, theo Cherniavskii, hầu hết các kỹ thuật được sử dụng, bao gồm cả những kỹ thuật liên quan đến bộ mã hóa tự động, hoạt động cục bộ đều tập trung vào vị trí của một điểm dữ liệu hơn các điểm lân cận, và cấu trúc quy mô lớn bị mất.

“Chúng tôi đã thêm tính năng mất bổ sung mới cho bộ mã hoá tự động. Mục đích của hàm này giúp giảm thiểu sự khác biệt về cấu trúc liên kết giữa tập dữ liệu ban đầu và biểu diễn ít chiều của nó. Từ đó, “hình dạng” của hình ảnh trực quan được đảm bảo để phù hợp với bản gốc.

Đồng tác giả nghiên cứu, Giáo sư Evgeny Burnaev cho biết: Phân tích dữ liệu cấu trúc liên kết đang trở thành một công cụ ngày càng phổ biến giúp làm rõ các thuộc tính của dữ liệu đa chiều. Hy vọng phương pháp nhóm chúng tôi đã phát triển và các phương pháp tương tự khác sẽ trở thành tiêu chuẩn trong tương lai gần nhất.

Hải Hà