Tương lai AI được xây từ những viên gạch dữ liệu

Tương lai AI được xây từ những viên gạch dữ liệu

Trí tuệ nhân tạo đang trở thành một trong những trọng tâm lớn nhất trong các chiến lược chuyển đổi số của doanh nghiệp. AI được kỳ vọng sẽ giúp tổ chức tự động hóa quy trình, cải thiện khả năng ra quyết định và mở ra những mô hình kinh doanh mới. Tuy nhiên, khi quan sát quá trình triển khai AI tại nhiều tổ chức khác nhau, có thể thấy rằng khoảng cách giữa kỳ vọng và giá trị thực tế vẫn còn tồn tại. Không ít dự án AI được đầu tư bài bản về công nghệ nhưng lại gặp khó khăn khi đi vào vận hành hoặc không tạo ra tác động rõ rệt lên hoạt động kinh doanh.

Trong nhiều trường hợp, vấn đề không nằm ở thuật toán hay mức độ hiện đại của mô hình, mà bắt nguồn từ nền tảng dữ liệu phía dưới.

Trong quá trình tham gia triển khai các dự án AI và dữ liệu trong lĩnh vực tài chính – ngân hàng tại FPT, tôi có dịp quan sát rõ mối quan hệ mang tính nền tảng giữa dữ liệu và khả năng tạo ra giá trị thực tế của AI. Những chia sẻ trong bài viết này không nhằm đưa ra một công thức chung cho mọi doanh nghiệp, mà phản ánh các quan sát và kinh nghiệm tích lũy khi làm việc cùng nhiều tổ chức ở những mức độ trưởng thành dữ liệu khác nhau.

Ai 1770368146

AI chỉ thông minh trong giới hạn của dữ liệu mà nó được học

Về bản chất, AI không phải là một thực thể “thông minh” theo cách con người thường hình dung. AI là một hệ thống học từ dữ liệu, tìm ra các mối quan hệ và đưa ra dự đoán dựa trên những gì đã được cung cấp trong quá khứ. Điều đó có nghĩa là chất lượng, độ đầy đủ và mức độ đại diện của dữ liệu đầu vào đóng vai trò quyết định trực tiếp đến kết quả đầu ra của AI.

Trong thực tế triển khai, không hiếm gặp những mô hình đạt độ chính xác cao trong môi trường thử nghiệm nhưng lại hoạt động kém hiệu quả khi đưa vào vận hành. Nguyên nhân thường đến từ việc dữ liệu huấn luyện không phản ánh đúng bối cảnh thực tế, hoặc dữ liệu chỉ “đẹp” về mặt kỹ thuật nhưng thiếu chiều sâu nghiệp vụ. Khi đó, AI vẫn trả ra kết quả, nhưng kết quả đó không đủ đáng tin để hỗ trợ ra quyết định.

Khi dữ liệu không phản ánh đúng thực tế vận hành

Một vấn đề phổ biến là dữ liệu được thu thập trong điều kiện lý tưởng, trong khi môi trường vận hành thực tế lại phức tạp và nhiều biến động hơn rất nhiều. Chẳng hạn, trong các bài toán nhận diện hình ảnh hay hành vi, dữ liệu huấn luyện thường được chuẩn hóa về ánh sáng, góc chụp hoặc ngữ cảnh. Khi mô hình được triển khai ngoài thực tế, nơi điều kiện môi trường không ổn định, hiệu quả nhanh chóng suy giảm.

Tình huống này cho thấy rằng AI không sai, mà dữ liệu chưa đủ “thật”. Nếu dữ liệu không đại diện cho thế giới mà AI sẽ hoạt động trong đó, thì việc kỳ vọng AI tạo ra giá trị bền vững là rất khó.

Thiên lệch dữ liệu và rủi ro trong các quyết định dựa trên AI

Thiên lệch dữ liệu (data bias) là một trong những thách thức tinh vi nhất khi triển khai AI, bởi nó không phải lúc nào cũng thể hiện rõ qua các chỉ số kỹ thuật. Khi dữ liệu lịch sử phản ánh những quyết định hoặc hành vi thiên lệch trong quá khứ, AI được huấn luyện từ dữ liệu đó rất dễ học lại và khuếch đại các thiên lệch này trong tương lai.

Trong lĩnh vực nhân sự, điều này thể hiện khá rõ ở các bài toán tuyển dụng. Nếu dữ liệu lịch sử cho thấy doanh nghiệp từng ưu tiên tuyển một nhóm ứng viên có xuất thân, giới tính, độ tuổi hoặc nền tảng nhất định, thì mô hình AI dùng để sàng lọc hồ sơ rất dễ mặc định rằng những đặc điểm đó là “tín hiệu tốt”. Kết quả là các ứng viên khác, dù có năng lực phù hợp, lại bị loại bỏ ngay từ vòng đầu chỉ vì không giống với dữ liệu quá khứ mà AI đã học.

Một ví dụ khác là bài toán tinh gọn nguồn lực hoặc tối ưu chi phí nhân sự. Khi dữ liệu hiệu suất chỉ được đo lường dựa trên các chỉ số định lượng như số giờ làm việc, số đầu việc hoàn thành hoặc chi phí trên mỗi nhân sự, AI có thể đề xuất cắt giảm những vị trí tưởng như “kém hiệu quả”. Tuy nhiên, các dữ liệu đó thường không phản ánh đầy đủ những đóng góp mang tính nền tảng như kinh nghiệm, khả năng dẫn dắt đội nhóm hay tri thức ngầm mà nhân sự đó đang nắm giữ. Nếu ra quyết định dựa thuần túy trên các chỉ số này, doanh nghiệp có thể vô tình làm mất đi những năng lực cốt lõi mà dữ liệu không đo lường được.

Những ví dụ này cho thấy rằng rủi ro không nằm ở bản thân AI, mà nằm ở cách dữ liệu được lựa chọn, diễn giải và sử dụng trong từng bối cảnh nghiệp vụ cụ thể.

Thiên lệch dữ liệu trong AI mang lại những hậu quả mở rộng và nghiêm trọng đối với doanh nghiệp, vượt xa thiệt hại về nguồn lực và niềm tin. Cụ thể, các quyết định dựa trên AI thiên lệch có thể dẫn đến tổn thất tài chính đáng kể khi mô hình đưa ra các quyết định nghiệp vụ sai lầm như từ chối các cơ hội kinh doanh tiềm năng hoặc gây ra các vấn đề vận hành như dự báo nhu cầu sai lệch, dẫn đến chi phí tồn kho không cần thiết; đồng thời, việc mất mát năng lực cốt lõi xảy ra khi AI đề xuất loại bỏ nhân sự có kinh nghiệm và tri thức ngầm chỉ dựa trên các chỉ số định lượng, làm suy yếu khả năng cạnh tranh dài hạn của công ty. Về mặt rủi ro pháp lý và uy tín, AI thiên lệch có thể khiến doanh nghiệp đối mặt với các vụ kiện tụng liên quan đến phân biệt đối xử trong tuyển dụng hay các quy trình khác, từ đó làm xói mòn nghiêm trọng niềm tin của cả nhân viên, ứng viên lẫn khách hàng, gây tổn hại không thể đo đếm được cho danh tiếng và văn hóa doanh nghiệp. Cuối cùng, thiên lệch dữ liệu còn có nguy cơ khuếch đại bất bình đẳng xã hội khi AI học lại và củng cố những hành vi thiên lệch lịch sử, tạo ra một vòng lặp tiêu cực đi ngược lại các giá trị đạo đức và chuẩn mực văn hóa về sự công bằng.

Thực trạng dữ liệu tại nhiều doanh nghiệp Việt Nam

Qua quá trình làm việc với nhiều tổ chức, có thể nhận thấy rằng thách thức dữ liệu vẫn là rào cản lớn nhất khi doanh nghiệp muốn triển khai AI. Dữ liệu thường nằm rải rác ở nhiều hệ thống khác nhau, được tạo ra cho các mục đích vận hành riêng lẻ, thiếu sự kết nối và ngữ cảnh chung. Việc truy xuất và tổng hợp dữ liệu vẫn phụ thuộc nhiều vào con người, khiến quá trình phân tích chậm và khó mở rộng.

Trong bối cảnh đó, việc “nhảy cóc” sang AI khi nền tảng dữ liệu chưa sẵn sàng thường dẫn đến các dự án thử nghiệm kéo dài, khó nhân rộng và không tạo ra tác động rõ rệt lên hoạt động kinh doanh.

Khi AI cho kết quả đúng nhưng vẫn không được sử dụng

Một thực tế khác là không phải mọi mô hình AI có độ chính xác cao đều được đưa vào vận hành. Trong nhiều trường hợp, mô hình AI có thể cho kết quả dự đoán hoặc đề xuất chính xác, nhưng lại hoạt động như một “hộp đen” (black-box), không thể giải thích rõ ràng cơ chế hoặc lý do dẫn đến quyết định đó. Sự thiếu khả năng giải thích (explainability) và minh bạch này trở thành rào cản lớn, đặc biệt trong các lĩnh vực nhạy cảm như tài chính, y tế hay pháp lý, nơi người dùng và cơ quan quản lý cần phải hiểu và kiểm chứng được căn cứ của quyết định để đảm bảo sự tin tưởng và tuân thủ quy định. Thêm vào đó, kết quả AI cũng có thể không phù hợp với bối cảnh văn hóa, pháp lý và con người của tổ chức. AI có thể đề xuất phương án tối ưu về mặt số liệu, nhưng lại thiếu sự cân nhắc về các yếu tố mềm mà con người coi trọng.

Điều này cho thấy rằng AI cần được đặt trong một hệ sinh thái rộng hơn, nơi dữ liệu, con người và quy trình cùng tồn tại và tương tác với nhau.

Gen AI và sự thay đổi trong cách nhìn về dữ liệu

Sự bùng nổ của Gen AI đang khiến bài toán dữ liệu trở nên rõ nét hơn bao giờ hết. Gen AI không chỉ cần dữ liệu lớn, mà còn cần dữ liệu có ngữ cảnh, có cấu trúc tri thức và có khả năng liên kết. Khi dữ liệu thiếu ngữ cảnh hoặc không được quản trị tốt, Gen AI rất dễ tạo ra những câu trả lời nghe có vẻ hợp lý nhưng không đáng tin cậy.

Điều này buộc doanh nghiệp phải nhìn lại cách mình đang lưu trữ, tổ chức và khai thác dữ liệu, không chỉ để phục vụ phân tích truyền thống mà còn để hỗ trợ tương tác giữa con người và AI.

Kết luận

AI không phải là điểm khởi đầu, cũng không phải là đích đến cuối cùng của chuyển đổi số. AI là một công cụ, và giá trị của công cụ này phụ thuộc rất lớn vào nền tảng dữ liệu phía dưới. Những viên gạch dữ liệu nếu được xây dựng một cách bài bản, có quản trị và gắn với đúng ngữ cảnh nghiệp vụ sẽ giúp AI phát huy vai trò hỗ trợ ra quyết định và tạo ra giá trị bền vững cho doanh nghiệp.

Trong bối cảnh AI hiện tại, các bài toán dữ liệu đặt ra cho doanh nghiệp không còn dừng lại ở việc làm thế nào để lưu trữ hay truy vấn một tỷ bản ghi. Câu hỏi quan trọng hơn là làm thế nào để biến một tỷ bản ghi đó thành một mạng lưới tri thức, nơi cả con người lẫn AI đều có thể đối thoại, khai thác và cùng nhau tạo ra hiểu biết mới. Khi dữ liệu được nâng từ mức thông tin sang tri thức, AI mới thực sự trở thành một phần hữu cơ trong hoạt động của doanh nghiệp, thay vì chỉ là một lớp công nghệ được gắn thêm vào hệ thống hiện hữu.

 

Bài viết độc quyền bởi chuyên gia công nghệ FPT

Trần Minh Châu
Data Scientist Lead – Khối Tài chính & Ngân hàng, FPT IS
Tập đoàn FPT

Chia sẻ:
Img Contact

Đăng ký nhận tin tức mới nhất từ FPT IS

    Tôi đồng ý chia sẻ thông tin và đồng ý với Chính sách bảo mật dữ liệu cá nhân
    Bot Avatar