Dark Data – Vén bức màn bóng tối
1. Bạn đã nghe nói tới “Dark Data” – dữ liệu “tối” chưa?
Hãy tưởng tượng một người yêu nhiếp ảnh tỉ mỉ ghi lại từng khoảnh khắc ánh bình minh, từng góc phố thú vị, từng bữa ăn ngon mà họ thưởng thức. Cuộn camera của anh được lấp đầy bởi hàng nghìn bức ảnh, nhưng hầu hết vẫn chưa được chỉnh sửa, chưa được sắp xếp. Những niệm, những khoảnh khắc này có thể bị chôn vùi trong kho lưu trữ kỹ thuật số qua thời gian, và nhiếp ảnh gia sẽ bị choáng ngợp bởi số lượng ảnh khổng lồ mà không chắc sẽ xem được hết. Kịch bản này là minh họa của hiện tượng “tích trữ hình ảnh” – “picture hoarding”.
Hoặc, tưởng tượng bạn theo dõi chi tiêu của mình một cách tỉ mỉ bằng ứng dụng lập ngân sách, nhưng không bao giờ phân tích các biên lai cũ được cất trong ngăn kéo trong nhiều năm trời. Ẩn sâu trong những lần mua hàng bị lãng quên đó có thể là những thông tin tiềm ẩn – về xu hướng chi tiêu quá mức tại một số nhà hàng nhất định, một số trường hợp còn vượt quá cả ngân sách của bạn. Kho thông tin chưa được khai thác này là một ví dụ rất cá nhân về việc “tích trữ dữ liệu” mà không dùng tới – “data hoarding”.
Những hành động tích trữ đó là ví dụ điển hình góp phần tạo ra thuật ngữ “dữ liệu tối” – “dark data”.
Dữ liệu tối cũng ẩn mình tại các doanh nghiệp,tổ chức, phát sinh từ lượng thông tin lớn được thu thập trong hoạt động kinh doanh và thường xuyên không được quan tâm tới. Đôi khi doanh nghiệp thu thập dữ liệu cụ thể với ý định sử dụng trong tương lai nhưng lại không sử dụng, đôi khi dữ liệu được thu thập chỉ vì… có thể thu thập, mặc dù doanh nghiệp thực tế không sử dụng đến.
Dữ liệu tối có thể cũ, không đầy đủ, không tương thích, trùng lặp hoặc rất rời rạc. Đối với hầu hết các công ty, dữ liệu tối không có giá trị hoặc có giá trị rất ít. Trong nhiều trường hợp, công ty thậm chí không biết nó tồn tại . Nhưng chúng lại có tiềm năng ẩn đang chờ doanh nghiệp mở khóa để cải thiện hoạt động, phát triển sản phẩm doanh nghiệp và gia tăng sự hài lòng của khách hàng.
Dữ liệu tối – Dark Data là gì?
Gartner định nghĩa “dữ liệu tối” là tài sản thông tin được thu thập, xử lý và lưu trữ trong các hoạt động thông thường nhưng không được sử dụng để phân tích thêm . Hãy coi nó như sự lộn xộn kỹ thuật số tích tụ lâu ngày, cản trở khả năng nhìn thấy bức tranh toàn cảnh hơn của bạn.
Mặc dù thuật ngữ dữ liệu tối nghe có vẻ đáng lo ngại nhưng nó chỉ đơn giản là những thông tin đang chờ được khai thác. Giống như một căn gác mái bề bộn có thể chứa những kho báu bị lãng quên, dữ liệu tối có thể chứa đựng những hiểu biết có giá trị. Dữ liệu tối là một người bạn, không phải kẻ thù. Hơn nữa, dữ liệu tối là hiện tượng phổ biến trong thời đại thông tin hiện nay, khi mà chúng ta tạo ra khối lượng dữ liệu khổng lồ hàng ngày, đi kèm đó là việc thiếu các chiến lược quản lý dữ liệu, góp phần thúc đẩy sự tồn tại của nó.
Một lượng dữ liệu lớn tới đáng kinh ngạc trên thế giới đang được đánh giá là dữ liệu tối. Nghiên cứu cho thấy hơn một nửa và có khả năng lên tới 75% hoặc hơn lượng thông tin của các doanh nghiệp vẫn chưa được sử dụng tới. Con số này cho thấy một phần đáng kể những hiểu biết sâu sắc, có giá trị lại đang bị phủ bụi!
The dark data brief view
Ví dụ về Dữ liệu tối
Dữ liệu tối không dễ dàng gì được phát hiện. Vậy tìm chúng ở đâu? Những dấu hiệu nhận biết rõ ràng là gì? Chúng ta có thể xem một số ví dụ dưới đây:
- Dữ liệu có cấu trúc:
-
-
- Dữ liệu cảm biến: Các nhà máy sản xuất và công ty hậu cần sử dụng một loạt cảm biến để giám sát mọi thứ, từ biến động nhiệt độ đến hiệu suất của máy móc. Dữ liệu này dù được sắp xếp gọn gàng nhưng vẫn là dữ liệu tối nếu không được phân tích để xác định các lỗi thiết bị tiềm ẩn hoặc tối ưu hóa quy trình sản xuất.
- Tệp nhật ký máy chủ: Mỗi lần nhấp chuột, tìm kiếm và xem thông tin trên trang web của người dùng đều được ghi lại trong nhật ký máy chủ. Nếu không phân tích các mẫu nhật ký này, ta có thể bỏ lỡ cơ hội tối ưu hóa trải nghiệm khách hàng.
- Khác: sao kê ngân hàng điện tử, hồ sơ bệnh án…
-
- Dữ liệu bán cấu trúc:
-
-
- Khảo sát khách hàng: Doanh nghiệp tiến hành khảo sát khách hàng để thu thập phản hồi. Các cuộc khảo sát này thường vẫn là dữ liệu bán cấu trúc nếu không được phân loại và phân tích đúng cách bằng các công nghệ phân tích cảm xúc.
- Bản ghi cuộc gọi dịch vụ khách hàng: Trung tâm cuộc gọi hay CSKH lưu rất nhiều thông tin bán cấu trúc. Sự thất vọng của khách hàng, phản hồi về sản phẩm và yêu cầu về các tính năng đều được đưa vào bản ghi cuộc gọi.
- Khác: mã HTML, hóa đơn, đồ thị, bảng biểu và tài liệu XML…
-
- Dữ liệu phi cấu trúc:
-
- Tệp nhật ký máy: Máy móc phức tạp tạo ra lượng lớn dữ liệu nhật ký. Nếu không có các công cụ thích hợp để phân tích dữ liệu phi cấu trúc này, dữ liệu sẽ vẫn là một bản ghi khó hiểu về hoạt động của máy, không cung cấp thông tin chuyên sâu về các vấn đề bảo trì tiềm ẩn hoặc các lĩnh vực cần cải thiện hiệu suất.
- Đề cập trên phương tiện truyền thông xã hội: Đề cập đến thương hiệu, đánh giá của khách hàng và phân tích đối thủ cạnh tranh có thể được thu thập từ các nền tảng truyền thông xã hội. Dữ liệu phi cấu trúc này yêu cầu các công cụ phân tích cảm xúc để biến nó thành những hiểu biết sâu sắc giúp đưa ra đối sách.
- Khác: Thư từ qua email, PDF, tài liệu văn bản, bản ghi trung tâm cuộc gọi, nhật ký trò chuyện và đoạn video giám sát…
Mặc dù dữ liệu tối có rất nhiều tiềm năng chưa được khai thác, sự tồn tại của nó không phải là một khám phá mới mẻ. Để hiểu chúng ta đến được thời điểm này như thế nào, hãy xem dòng lịch sử của nó bên dưới.
Dữ liệu tối: Lịch sử khám phá
- 2012: “Dữ liệu tối” xuất hiện, nêu bật thách thức của dữ liệu được lưu trữ với giá trị chưa được biết tới.
- 2013: Gartner hoàn thiện khái niệm và khám phá các phương pháp phân tích.
- 2015: IBM tiết lộ mặt tối của dữ liệu cảm biến không được sử dụng trong thời đại IoT.
- 2016: Một nghiên cứu cho thấy những người ra quyết định chủ chốt vẫn chưa tiếp cận được một lượng lớn dữ liệu.
- 2017: Các thương vụ mua lại lớn báo hiệu nỗ lực khai thác tiềm năng của dữ liệu tối.
- 2018: Định nghĩa mở rộng để bao gồm dữ liệu ẩn ngoài các nguồn truyền thống.
2. Cái giá của “bóng tối”
Trong thế giới dựa trên dữ liệu ngày nay, việc không tận dụng được tất cả thông tin có sẵn có thể là một bất lợi đáng kể. Dữ liệu tối – lượng thông tin khổng lồ chưa được phân tích được các tổ chức thu thập, chính là một chi phí ẩn dù tiềm năng lại chưa được khai thác. Đây là lý do tại sao bạn nên quan tâm đến dữ liệu tối:
Gánh nặng tài chính
- Chi phí lưu trữ: Việc lưu trữ dữ liệu không sử dụng đòi hỏi cơ sở hạ tầng vật lý hoặc kỹ thuật số, dẫn đến chi phí tăng lên khi khối lượng dữ liệu tăng lên. Một nghiên cứu của Veritas tiết lộ rằng 52% ngân sách lưu trữ dữ liệu trung bình của công ty được dành cho dữ liệu tối. Điều này đồng nghĩa với việc lãng phí hàng triệu đô la vào việc lưu trữ thông tin không có giá trị hiện tại. Công ty của bạn có thể đang dành một nửa ngân sách để lưu trữ dữ liệu mà bạn không sử dụng tới.
Nghiên cứu của Veritas
- Tuân thủ quy định: Luật bảo mật dữ liệu áp dụng cho tất cả dữ liệu, thậm chí cả dữ liệu tối, dẫn đến khả năng bị phạt nếu không tuân thủ.
- Không hiệu quả: Việc quản lý các tập dữ liệu lớn, bao gồm cả dữ liệu tối, làm chậm quá trình truy xuất và phân tích, giảm năng suất và tăng chi phí lao động.
- Rủi ro bảo mật: Dữ liệu tối có thể là gánh nặng bảo mật, làm tăng nguy cơ vi phạm và đánh mất dữ liệu.
Một nghiên cứu năm 2019 cho thấy các công ty như Netflix chi hàng triệu USD để lưu trữ dữ liệu trên AWS, một phần đáng kể trong số đó có thể là dữ liệu tối. Tương tự, các vi phạm dữ liệu liên quan đến dữ liệu tối có thể phải chịu mức phạt nặng, như trong trường hợp của công ty Equifax (số tiền: 1,38 tỷ USD) .
Những cơ hội bị bỏ lỡ
- Hạn chế về Phân tích dữ liệu: Các công cụ phân tích tạo ra chất lượng phân tích dữ liệu cao nhất khi chúng có quyền truy cập vào dữ liệu hoàn chỉnh. Việc thiếu quyền truy cập vào dữ liệu tối sẽ hạn chế lượng thông tin có thể phân tích được. Báo cáo năm 2015 của IBM nhấn mạnh rằng 60% dữ liệu tối sẽ mất giá trị nhanh chóng sau khi được tạo ra .
- Tiềm năng chưa được khai thác: Dữ liệu tối chưa được khai thác chứa đựng những hiểu biết có giá trị về khách hàng, doanh nghiệp và vận hành. Dữ liệu này có thể tiết lộ thông tin quan trọng về hành vi của khách hàng, mô hình bảo mật mạng và xu hướng đầu tư.
Mối quan tâm về bảo mật
Dữ liệu tối không bảo mật có thể bị khai thác bởi những kẻ tấn công đang tìm kiếm thông tin chi tiết về vận hành hoặc cấu trúc tài liệu trong một tổ chức. Điều này có thể dẫn đến rò rỉ dữ liệu hoặc gặp các hình phạt theo quy định nếu việc lưu trữ dữ liệu và kiểm soát truy cập thích hợp không được triển khai. Tính toàn vẹn của thông tin là rất quan trọng và doanh nghiệp phải đảm bảo nguồn và chất lượng dữ liệu được sử dụng để phân tích.
May mắn thay, những tiến bộ trong công nghệ và phân tích đã đưa ra các giải pháp để xử lý dữ liệu tối. Những kỹ thuật này cho phép phân tích tự động, tiết kiệm chi phí và quy mô lớn, giảm thiểu các tài nguyên cần thiết để khai thác giá trị của dữ liệu tối. Ngoài ra, bằng cách sử dụng các chiến lược phù hợp, các tổ chức có thể biến dữ liệu tối từ chi phí tiềm ẩn thành lợi thế cạnh tranh. Phần tiếp theo của bài viết này nói về cách chúng ta có thể khai thác sức mạnh của dữ liệu tối.
3. Khai thác sức mạnh của dữ liệu tối
Chỉ riêng từ năm 2022 đến năm 2023, thị trường hồ dữ liệu – data lake đã chứng kiến sự đột biến, với giá trị dự kiến đạt hơn 34 tỷ USD vào năm 2030 . Tuy nhiên, lời hứa ban đầu về hồ dữ liệu – rằng chỉ cần có tất cả dữ liệu của bạn ở một nơi sẽ mở ra những hiểu biết sâu sắc – không phải lúc nào cũng thành hiện thực. Phần lớn dữ liệu này vẫn chưa có cấu trúc và không được sử dụng, biến hồ dữ liệu thành một đầm lầy dữ liệu tối tăm. Các tổ chức đang nhận ra sự cần thiết của một cách tiếp cận phức tạp hơn để quản lý dữ liệu. Lộ trình ba bước sau đây là giải pháp được đề xuất để giải quyết thách thức này – làm sáng tỏ Dữ liệu tối.
Bước 1: Đặt nền móng
Hành trình của chúng ta bắt đầu bằng việc thiết lập một nền tảng vững chắc. Phần đầu tiên này tập trung vào hai lĩnh vực chính:
- Đánh giá dữ liệu: Ở đây, chúng ta vượt qua hồ dữ liệu đơn thuần khi tiến hành đánh giá dữ liệu kỹ lưỡng. Nên nhìn xa hơn các nguồn truyền thống như hệ thống ERP và Điểm bán hàng (POS); nhật ký máy chủ, tương tác trên mạng xã hội, dữ liệu cảm biến – tất cả những thứ này có thể là mỏ vàng tiềm năng của dữ liệu tối. Như người ta thường nói, “tất cả dữ liệu tối cần phải được truy xuất nguồn gốc”, kiểm tra dữ liệu đóng một vai trò quan trọng, cho biết các nguồn như giao dịch của khách hàng, nhật ký hệ thống hoặc thậm chí luồng dữ liệu từ thiết bị Internet of Things (IoT) .
- Quản trị dữ liệu: Bước đầu tiên để xây dựng văn hóa dữ liệu mạnh mẽ trong tổ chức của bạn là bắt đầu xây dựng quản trị dữ liệu phù hợp. Điều này liên quan đến việc thiết lập các giao thức kiểm soát quyền sở hữu và quyền truy cập rõ ràng, xác định chính sách lưu trữ dữ liệu dựa trên sự tuân thủ và giá trị dữ liệu, đồng thời thúc đẩy văn hóa dữ liệu mạnh mẽ trong tổ chức của bạn. Các công cụ như IBM Watson Knowledge Catalog là một trong những ứng viên nổi bật để thực hiện quản trị dữ liệu quy mô lớn cho một tập đoàn.
Bước 2: Áp dụng các công cụ để chuyển đổi
Khi bạn đã xác định được dữ liệu tối của mình và thiết lập các phương pháp quản trị tốt, đã đến lúc trang bị cho mình những công cụ phù hợp. Ở đây, có ba lĩnh vực chính cho việc chuyển đổi:
- Phân loại dữ liệu: Bạn có thể phân loại dữ liệu dựa trên nhu cầu kinh doanh và yêu cầu tuân thủ, ưu tiên thông tin có giá trị nhất để khám phá thêm. Các công cụ như IBM Watson Knowledge Catalog với các chức năng Khám phá tự động (Automated Discovery – AD) và Quét nhanh (Quick Scan – QS) có thể giúp bạn hiểu mục đích và tính hữu ích tiềm tàng của dữ liệu tối của bạn. Chức năng Quét nhanh cực kỳ tốc độ và được xây dựng để phân tích nông cho hàng triệu thành phần dữ liệu.
Đối với một số trường hợp, cần phải điều tra rất sâu trên lượng yếu tố dữ liệu hẹp hơn mà doanh nghiệp xác định là quan trọng đối với hoạt động kinh doanh của họ. Chức năng Khám phá tự động cung cấp các tính năng cần thiết để phân tích và điều tra sâu các yếu tố dữ liệu quan trọng trong doanh nghiệp.
- Khai thác dữ liệu: Việc mở khóa những bí mật trong dữ liệu tối cần có các công cụ chuyên dụng. Dưới đây là một số lựa chọn đáng cân nhắc: DeepDive (mã nguồn mở được phát triển bởi Đại học Standford), Amazon Textract từ Amazon Web Services (AWS) hoặc Dark Vision (công nghệ sử dụng dịch vụ IBM Watson để trích xuất dữ liệu tối từ video). Những công cụ này có thể trích xuất thông tin có giá trị từ nhiều định dạng khác nhau như văn bản, hình ảnh và thậm chí cả dữ liệu video.
Sử dụng Amazon Textract để trích xuất dữ liệu từ hình ảnh & PDF
Cách Dark Vision xử lý video để khám phá nội dung bên trong
- Trực quan hóa dữ liệu: Triển khai các công cụ cho phép bạn nhìn thấy bức tranh toàn cảnh hơn bằng cách đưa dữ liệu từ tất cả các nguồn, bao gồm cả dữ liệu tối, vào một nền tảng duy nhất. Điều này giúp xác định các xu hướng và thông tin chi tiết ẩn trong dữ liệu có thể không hiển thị rõ ràng ở dạng thô.
Bước 3: Nắm bắt tương lai
Phần cuối cùng của hành trình tập trung vào các chiến lược dài hạn để tối đa hóa giá trị dữ liệu tối của bạn:
- Lưu trữ đám mây: Xem xét việc di chuyển bộ lưu trữ dữ liệu lên đám mây (Cloud) để cải thiện khả năng truy cập, khả năng mở rộng và xử lý dữ liệu theo thời gian thực. Các nền tảng đám mây như Google Cloud Platform (GCP) với bộ công cụ (API Cloud Vision, Document AI, AutoML, API xử lý ngôn ngữ tự nhiên (NLP)) cung cấp các chức năng được thiết kế đặc biệt để xử lý dữ liệu tối.
- Áp dụng AI và Machine Learning: Đầu tư vào các công cụ AI và Machine Learning như Snorkel (mã nguồn mở do Đại học Stanford phát triển) và Azure Cognitive Services của Microsoft (với các chức năng như Thị giác máy tính, Trình nhận dạng biểu mẫu, Phân tích văn bản). Những công cụ này có thể xử lý, phân tích và bảo mật dữ liệu tối của bạn trên quy mô lớn, xác định các mẫu, ngoại lệ và thông tin chi tiết tiềm năng về doanh nghiệp. Ngoài ra, các giải pháp Xử lý tài liệu thông minh (IDP) kết hợp Tự động hóa quy trình bằng robot (Robotic Process Automation) và AI có thể là công cụ trích xuất thông tin có giá trị từ các định dạng tài liệu khác nhau.
Một số cân nhắc bổ sung
- Bảo mật: Đảm bảo tất cả dữ liệu, bao gồm cả dữ liệu tối, được bảo mật đúng cách để giảm thiểu rủi ro an ninh mạng. Áp dụng các tiêu chuẩn mã hóa mạnh mẽ cho dữ liệu của bạn, bao gồm dữ liệu máy chủ nội bộ và dữ liệu trong bộ lưu trữ đám mây.
- Tuân thủ: Luôn cập nhật các quy định về quyền riêng tư dữ liệu và đảm bảo các biện pháp quản lý dữ liệu tối của bạn được tuân thủ. Việc triển khai Nghị định 13 của Việt Nam về Bảo vệ Dữ liệu Cá nhân gần đây (có hiệu lực từ tháng 7 năm 2023) đã tạo thêm một mức độ cấp bách khác cho việc điều tra dữ liệu tối. Quy định này trao cho các cá nhân quyền truy cập và xóa thông tin cá nhân của họ. Việc thực hiện các quyền này một cách hiệu quả có thể yêu cầu các tổ chức phải đi sâu vào kho dữ liệu tối của họ để xác định và quản lý những dữ liệu cá nhân này. Nếu không, có thể dẫn đến việc không tuân thủ Nghị định 13 và khả năng bị phạt tiền hoặc gặp thiệt hại về danh tiếng. Điều này nhấn mạnh tầm quan trọng ngày càng tăng của việc chủ động phân loại và tìm hiểu dữ liệu tối để đảm bảo tuân thủ các quy định về bảo mật dữ liệu ngày càng thắt chặt như Nghị định 13.
Giống như vật chất tối – dark matter trong vật lý, dữ liệu tối đại diện cho một lượng lớn thông tin vô hình nhưng tiềm ẩn nhiều năng lực. Bằng cách nắm rõ khái niệm và cách tích lũy của dữ liệu tối, doanh nghiệp có thể thực hiện các bước để quản lý dữ liệu tối hiệu quả hơn. Điều này có thể liên quan đến việc thực hiện các chiến lược quản trị dữ liệu, dọn dẹp và sắp xếp thông tin cũng như đầu tư vào các công cụ để phân tích các định dạng dữ liệu khác nhau. Làm sáng tỏ dữ liệu tối có thể mở ra những hiểu biết có giá trị và giúp cho doanh nghiệp đưa ra quyết định tốt hơn, cải thiện trải nghiệm của khách hàng và tối ưu hóa vận hành.
Bài viết độc quyền của chuyên gia FPT IS
Tác giả Trần Minh Châu – Chuyên gia Khoa học dữ liệu, FPT IS |