Ứng dụng AIOps trong quản trị vận hành hạ tầng CNTT

Ứng dụng AIOps trong quản trị vận hành hạ tầng CNTT

1. Giới thiệu về AIOps

Trong bối cảnh ứng dụng và cơ sở hạ tầng công nghệ thông tin không ngừng thay đổi nhanh chóng với việc áp dụng công nghệ và giải pháp mới như điện toán đám mây, dữ liệu lớn, trí tuệ nhân tạo,… các tổ chức đang gặp thách thức trong việc đảm bảo hoạt động 24/7 cùng khả năng mở rộng quy mô và đáp ứng nhu cầu ngày càng cao hơn về khả năng sẵn sàng cũng như sự linh hoạt trong việc thay đổi dựa trên phản hồi từ khách hàng và thị trường.

Bên cạnh đó, với tốc độ phát triển theo cấp số nhân trong sự đa dạng của nền tảng và ứng dụng, bao gồm cả việc chuyển sang kiến trúc vi dịch vụ (microservices) và đám mây, một lượng lớn dữ liệu đang được tạo ra trong các hoạt động quản trị vận hành. Đội ngũ vận hành đang gặp khó khăn trước lượng dữ liệu khổng lồ này cùng sự đa dạng trong các ứng dụng, nền tảng và cơ sở hạ tầng của môi trường CNTT. Hầu hết các doanh nghiệp ngày nay đang nhanh chóng chuyển đổi và áp dụng công nghệ mới như đám mây và kiến trúc vi dịch vụ, do đó tốc độ thay đổi trong cơ sở hạ tầng và nền tảng ứng dụng là điều chưa từng thấy trước đây. Thách thức trong vận hành CNTT là duy trì hoạt động ổn định mà không gặp gián đoạn, đồng thời hỗ trợ tính linh hoạt và sự dịch chuyển lên đám mây, cũng như đưa các dịch vụ mới vào hoạt động. Những đột phá và thay đổi công nghệ đang tạo ra một áp lực vô cùng lớn cho đội ngũ vận hành. Các quy trình và hệ thống đã hoạt động trong quá khứ hiện không còn hiệu quả nữa, và thế giới số hóa mới với những thay đổi nhanh chóng cả trong ứng dụng lẫn cơ sở hạ tầng đang dẫn đến những thách thức mới. Do đó, AIOps đã phát triển trong vài năm qua như một giải pháp tiềm năng cho các thách thức vận hành của mô hình mới.

AIOps là một thuật ngữ phổ biến trong hoạt động quản trị vận hành được Gartner đưa ra vào năm 2016. Như tên gọi của nó, AIOps có nghĩa là áp dụng trí tuệ nhân tạo vào phân tích dữ liệu nhằm mang lại những hiểu biết sâu sắc hơn về hoạt động của hệ thống CNTT. AIOps về cơ bản là tính năng cho phép liên kết, thu thập và phân tích dữ liệu. AIOps đề cập đến phương pháp chuyển đổi trong công tác vận hành sử dụng công nghệ AI và học máy trong các lĩnh vực khác nhau như giám sát (monitoring), quan sát (observability), phân tích sự kiện, quản lý dịch vụ và tự động hóa.

Nhờ sự phát triển mạnh mẽ của trí tuệ nhân tạo và học máy, AIOps đã trở thành một giải pháp tiên tiến, hỗ trợ doanh nghiệp nâng cao hiệu suất vận hành và tăng khả năng phản ứng trước các biến động.

Theo Gartner, “Trong năm 2023, 40% các nhóm DevOps đã bổ sung công cụ giám sát ứng dụng và hạ tầng CNTT với tính năng AIOps”. Nền tảng AIOps là nền tảng “sử dụng dữ liệu lớn, học máy và các công nghệ phân tích tiên tiến hiện đại để trực tiếp và gián tiếp nâng cao chức năng vận hành CNTT với những tri thức hiểu biết mang tính chủ động, cá nhân hóa và linh hoạt.”

Lượng dữ liệu khổng lồ được tạo ra từ các hệ thống giám sát và quan sát là một trong những nguồn dữ liệu được đưa vào các hệ thống AIOps, sau đó các kỹ thuật AI và học máy được sử dụng để phân tích dữ liệu và lọc bỏ nhiễu khỏi các sự kiện quan trọng. Điều này dẫn đến việc tự động hóa hầu hết các tác vụ mà trước đây phải thực hiện thủ công và dựa vào phán đoán của con người cùng với kinh nghiệm tập thể. Các sự kiện có thể gây gián đoạn trong hoạt động kinh doanh và là nguyên nhân gốc rễ được xác định hiệu quả bằng kỹ thuật phân tích để từ đó cho phép thông báo ngay lập tức cho các nhóm đang xử lý sự cố. Nếu không có AIOps, quá trình này sẽ rất khó thực hiện khi công nghệ thay đổi nhanh chóng; việc dựa vào các hệ thống cũ và kinh nghiệm tập thể có nghĩa là hoạt động sẽ khó có thể mở rộng và không thể dự đoán được.

Hình 1 chỉ ra việc áp dụng AIOps trong hoạt động vận hành CNTT, bao gồm giám sát, phân tích sự kiện, hệ thống dự đoán và đề xuất, cộng tác và tương tác (collaboration and engagement), cùng các tính năng báo cáo và bảng điều khiển (dashboarding).

0 1754911902

Hình 1. AIOps trong hoạt động vận hành CNTT

AIOps có thể áp dụng trong nhiều lớp công nghệ thông tin. Từ hạ tầng mạng đến các thiết bị đầu cuối, hầu hết các thành phần trong hệ thống CNTT đều có thể sử dụng AIOps để tận dụng những lợi ích mà nó mang lại, từ tối ưu hóa hiệu suất, giảm thiểu sự cố đến nâng cao khả năng tự động hóa và dự đoán vấn đề.

Hệ thống giám sát (Enterprise Monitoring) cung cấp luồng dữ liệu theo thời gian thực cho hệ thống AIOps để thực hiện phân tích và tương quan dữ liệu dựa trên học máy (ML) sử dụng các kỹ thuật khác nhau để phát hiện các hình mẫu (patterns) và sự bất thường, cũng như thực hiện phân tích tác động nhân quả. Đây là một trong những giai đoạn quan trọng nhất vì phân tích này cần phải xem xét cả luồng dữ liệu thời gian thực cũng như dữ liệu lịch sử để cung cấp các khuyến nghị dự báo hoặc các biện pháp khắc phục chủ động, sau đó được thực thi bằng các công cụ tự động hóa quy trình CNTT hoặc sổ tay hướng dẫn (runbook). Các khuyến nghị để giải quyết vấn đề giúp tổ chức đạt được tự động hóa toàn diện bằng cách giải quyết vấn đề mà không cần sự can thiệp của con người.

Lớp báo cáo và bảng điều khiển cung cấp góc nhìn cho đội ngũ CNTT và các bên liên quan để cộng tác và quản lý sự cố, quản lý năng lực, quản lý thay đổi và quản lý vấn đề, nhằm hỗ trợ doanh nghiệp hơn nữa bằng cách cung cấp các KPI và SLA được đưa ra nhờ thông tin tri thức hiểu biết sâu sắc, đồng thời cung cấp yếu tố phân tích dự báo để làm cho hoạt động quản trị vận hành trở nên chủ động hơn.

Hệ thống AIOps sử dụng Cơ sở Dữ liệu Quản lý Cấu hình (CMDB) để cải thiện chất lượng của các mối tương quan cùng độ chính xác của dự đoán và khuyến nghị, tuy vậy các tổ chức thường gặp khó khăn trong việc duy trì mức độ chính xác của CMDB và dữ liệu khám phá (discovery data) do cơ sở hạ tầng luôn thay đổi. Với điện toán đám mây, việc cập nhật CMDB bằng các công cụ và quy trình truyền thống là gần như không thể. Một hệ thống AIOps giải quyết vấn đề này bằng cách tự động điền vào các dữ liệu thiếu trong CMDB. Bên cạnh đó, hệ thống AIOps cần tuân thủ các chính sách bảo mật được xác định trong khung quản trị của tổ chức. Các yêu cầu tuân thủ khác nhau như GDPR, phân loại dữ liệu, v.v., cần phải được xem xét ở mỗi lớp của AIOps trong khi chúng được tích hợp hoặc thiết lập. Khi AIOps được triển khai và vận hành, chúng dần học các hình mẫu, sự bất thường và hành vi sử dụng dữ liệu trong một khoảng thời gian. Qua thời gian, dựa trên mức độ trưởng thành, hệ thống AIOps sẽ được các bộ phận công nghệ hoặc kinh doanh sử dụng, chẳng hạn như ChatOps, tự động hóa quy trình bằng robot (RPA), tự động hóa quy trình kinh doanh, v.v. Các luồng quy trình kinh doanh phức tạp hơn hoặc phản hồi hội thoại có thể được kích hoạt dựa trên khuyến nghị của hệ thống AIOps.

Giống như trong kỹ thuật phần mềm, tích hợp liên tục và triển khai liên tục (CI/CD) kết hợp các hoạt động phát triển, kiểm thử, triển khai ứng dụng và chia sẻ phản hồi để cải tiến. Tương tự, AIOps là một giải pháp cung cấp sự tích hợp liền mạch giữa các thành phần vận hành khác nhau đồng thời cung cấp phản hồi để cải tiến dịch vụ liên tục.

Định nghĩa cơ bản của AIOps là sử dụng trí tuệ nhân tạo và học máy để hỗ trợ tất cả các hoạt động CNTT quan trọng. Như được minh họa trong Hình 2, có ba lớp trong AIOps liên quan đến việc thực hiện tương quan sự kiện.

1 1754911927

Hình 2. Thiết kế tương quan sự kiện với AIOps

Lớp tiếp nhận dữ liệu (Data Ingestion Layer)

Có rất nhiều thực thể khác nhau trong hạ tầng CNTT, và để thực hiện giám sát toàn diện sẽ cần nhiều công cụ và giải pháp kết hợp với nhau. Lớp tiếp nhận dữ liệu là nơi dữ liệu từ các ứng dụng, nền tảng và lớp hạ tầng khác nhau được thu thập thông qua các cơ chế tích hợp khác nhau. Dữ liệu được tiếp nhận thường bao gồm sự kiện (events), nhật ký (logs), chỉ số (metrics) và dấu vết (traces). Các cơ chế phổ biến để tiếp nhận dữ liệu bao gồm REST, SNMP và API.

Lớp xử lý dữ liệu (Data Processing Layer)

Lớp xử lý dữ liệu là trái tim của hệ thống AIOps. Tại đây, các kỹ thuật AI và học máy được sử dụng để xử lý dữ liệu và tạo ra các thông tin giá trị (insights). Sau khi dữ liệu được tiếp nhận vào hệ thống AIOps, lớp xử lý dữ liệu sử dụng kỹ thuật học máy và học sâu để phát hiện các bất thường trong dữ liệu. Nó cũng sử dụng dữ liệu chỉ số để dự đoán các vấn đề có thể gây ra sự cố và gián đoạn dịch vụ kinh doanh. Lớp này tạo thành lõi của AIOps liên quan đến việc quản lý sự kiện.

Lớp biểu diễn dữ liệu (Data Representation Layer)

Lớp biểu diễn dữ liệu là nơi mà kết quả của lớp xử lý dữ liệu được hiển thị thông qua các bảng điều khiển trực quan dưới nhiều định dạng khác nhau. Những thông tin giúp cho việc ra quyết định hành động giải quyết vấn đề cũng được chuyển tiếp đến các hệ thống bên ngoài như ITSM, nhờ đó đội ngũ quản trị vận hành có thể xử lý các sự cố một cách nhanh chóng.

Mục tiêu ở đây là sử dụng lượng dữ liệu khổng lồ mà các hệ thống CNTT đang tạo ra, áp dụng AI và học máy để hiểu dữ liệu, từ đó có được phân tích và thông tin giá trị, giúp các hệ thống CNTT hoạt động nhanh hơn, tốt hơn và rẻ hơn, đồng thời làm cho chúng trở nên bền bỉ hơn trước các sự cố có thể xảy ra.

AIOps giúp đội ngũ CNTT xóa được khoảng cách về khả năng đáp ứng dịch vụ đối với nhu cầu ngày càng cao của hoạt động quản trị vận hành. Nó không thay thế vai trò của con người mà bổ sung năng lực giúp chúng ta cung cấp dịch vụ tốt hơn và kịp thời bằng cách tận dụng AIOps.

Cùng nhau, con người và AI có thể cung cấp một cấp độ dịch vụ mà nếu tách rời thì mỗi bên đều không thể tự mình làm được. Hình 3 chỉ ra sự phối hợp các chức năng giữa con người và tác nhân AI (AI agents) nhằm mang lại dịch vụ vận hành CNTT tốt hơn. Lượng sự kiện khổng lồ ngày càng gia tăng này khiến con người không thể phân tích để viết ra các quy tắc và chính sách. Sự không hiệu quả trong quá trình phân tích sẽ ảnh hưởng trực tiếp đến các dịch vụ CNTT như lập kế hoạch năng lực, quản lý vấn đề, quản lý sự cố, vv… AI và con người liên kết chặt chẽ và cùng nhau cung cấp dịch vụ vận hành CNTT trong mô hình AIOps. AIOps đảm nhận phần lớn các tác vụ tốn thời gian và phức tạp như tiền xử lý dữ liệu, lọc và phân tích, từ đó cung cấp những thông tin quan trọng cho đội ngũ chuyên gia để đưa ra quyết định sáng suốt.

4 1754911982

Hình 3. Sự cộng tác giữa AI và con người trong mô hình AIOps

Thông qua việc áp dụng phân tích dữ liệu dựa trên AI/ML và các phương pháp suy luận, các kỹ sư CNTT có thể phản ứng với sự cố một cách chủ động nhờ sự trợ giúp của AIOps giúp họ định hướng đúng cũng như cung cấp dữ liệu quá khứ về các giải pháp đã thực hiện. AIOps cũng được sử dụng một cách chủ động để xác định cách tối ưu hóa hiệu suất ứng dụng và hiệu suất hạ tầng bằng cách phân tích dữ liệu về hiệu suất và năng lực.

Giám sát ứng dụng và AIOps được tích hợp như một phần của vòng đời phát triển sẽ hỗ trợ các đội phát triển sản phẩm chủ động phát hiện các vấn đề về tính sẵn sàng và hiệu năng liên quan tới ứng dụng hay hạ tầng triển khai, từ đó giải quyết chúng trước khi ứng dụng được phát hành vào môi trường sản xuất.

Việc áp dụng AIOps giúp doanh nghiệp tiết kiệm chi phí bằng cách đảm bảo sử dụng tối ưu năng lực hệ thống trong khi tránh được thời gian ngừng hoạt động của chúng. Nếu có sự cố xảy ra, các kỹ sư CNTT có thể khôi phục hệ thống nhanh hơn nhiều so với việc sử dụng các công cụ truyền thống.

AIOps giúp tự động hóa các tác vụ nhàm chán, giảm bớt gánh nặng cho đội ngũ vận hành CNTT, đồng thời cung cấp thông tin bối cảnh cho các nhà phát triển sản phẩm để cải thiện thời gian khắc phục trung bình (MTTR) và trải nghiệm khách hàng. Mặc dù tính chủ động là yếu tố cốt lõi của AIOps, nhưng nó cũng được áp dụng hiệu quả trong các tình huống phản ứng.

Các doanh nghiệp đang áp dụng AIOps cho nhiều mục đích khác nhau. Hình 4 cho thấy các trường hợp sử dụng phổ biến nhất trong AIOps. Các tổ chức bắt đầu với cảnh báo thông minh, nơi họ có thể thực hiện phân tích nguyên nhân gốc rễ cơ bản, sau đó chuyển sang phân tích tương quan để xác định nguyên nhân gốc rễ giữa các hệ thống khác nhau. Khi các tổ chức tiến bộ trên đường cong trưởng thành, các tính năng như phát hiện bất thường được cấu hình để các hoạt động trở nên thiên về chủ động hơn là phản ứng. Các doanh nghiệp ở đỉnh của đường cong đã có thể triển khai các công nghệ tự phục hồi và tự động hóa việc giải quyết sự cố, để chu trình phát hiện và sửa chữa được tự động hóa hoàn toàn.

2 1754911951

Hình 4. Các trường hợp sử dụng chính của AIOps

Đội ngũ DevOps và vận hành hạ tầng CNTT đã triển khai nhiều công cụ giám sát để thu thập dữ liệu phục vụ cho quan sát hệ thống, và hiện nay họ đang bị choáng ngợp bởi quá nhiều sự kiện. Các tổ chức đã triển khai nhiều công cụ giám sát như Nagios, Zabbix, ELK, Prometheus, bộ công cụ BMC, bộ công cụ Microfocus, SolarWinds, Zenoss, Datadog, Appdynamics, Dynatrace, v.v. Ngoài ra, các doanh nghiệp còn sử dụng nhiều công cụ giám sát như Azure Monitor và AWS CloudWatch để theo dõi các hệ thống trên môi trường điện toán đám mây. Tất cả các công cụ này đều thu thập một lượng lớn dữ liệu từ góc độ quan sát hệ thống. Việc giám sát toàn bộ hệ thống từ mạng đến ứng dụng đang được thực hiện ở nhiều tổ chức. Tuy nhiên, dù đã đầu tư nhiều vào các công cụ và hệ thống này, các tổ chức vẫn gặp khó khăn trong việc thu thập thông tin giá trị và tri thức hỗ trợ quyết định hành động. Các kỹ sư CNTT bị quá tải với các cảnh báo giả và quá nhiều yêu cầu hỗ trợ phải xử lý.

Trong mô hình DevOps, nếu không áp dụng công nghệ như AIOps, đội ngũ DevOps sẽ dễ bị choáng ngợp bởi vô số cảnh báo và cuộc gọi hỗ trợ trực tiếp. Việc đưa AIOps vào quy trình hoạt động sẽ đảm bảo chỉ những cảnh báo chứa thông tin toàn diện kèm công cụ hỗ trợ trực tiếp hành động khắc phục sự cố mới được gửi đến đội ngũ vận hành để giải quyết. AIOps triển khai trên các hệ thống phi sản xuất giúp phát hiện các vấn đề trong phát triển sản phẩm và cấu hình, từ đó cải thiện sự cộng tác giữa đội ngũ phát triển và vận hành. AIOps đóng vai trò quan trọng trong việc đảm bảo các dịch vụ kinh doanh không bị ảnh hưởng, bên cạnh đó đội ngũ và nguồn lực phù hợp sẽ được sắp xếp để giải quyết vấn đề phát sinh.

Nhiều cán bộ IT hiện nay không được trang bị đầy đủ để thích nghi với những yêu cầu thay đổi nhanh chóng của công nghệ, nhất là khi mô hình điện toán đám mây với việc áp dụng rộng rãi Hybrid Cloud cho tới Cloud Native trong các doanh nghiệp.

Đội ngũ quản trị vận hành trong giai đoạn cơ sở hạ tầng và môi trường ứng dụng đang chuyển đổi sẽ không có đủ thời gian để đánh giá các cảnh báo và xác định nguyên nhân gốc rễ của vấn đề phát sinh. Trong những tình huống như vậy, các tổ chức sẽ đối mặt với rủi ro không đảm bảo cam kết về tính sẵn sàng và thời gian ngừng hoạt động của dịch vụ.

Các giải pháp giám sát và quản lý CNTT truyền thống không thể theo kịp với những thay đổi về công nghệ và chiều sâu giám sát dẫn đến khối lượng dữ liệu giám sát khổng lồ được tạo ra. Môi trường công nghệ thay đổi liên tục có nghĩa là dữ liệu nhật ký và dữ liệu theo dõi đang được tạo ra với khối lượng ngày càng tăng, và việc định nghĩa tất cả quy tắc trong các hệ thống giám sát là điều không thể. AIOps sẽ là lời giải cho vấn đề này bằng cách thu thập và phân tích tất cả dữ liệu này để hiểu rõ chúng, từ đó đưa ra các cảnh báo toàn diện và có ý nghĩa, giúp đội ngũ vận hành có thể tập trung vào công việc chính của họ, đảm bảo tính sẵn sàng cao và đáp ứng các mục tiêu SLA.

3 1754912029

Hình 5. Sự bùng nổ dữ liệu tác động đến hoạt động vận hành CNTT truyền thống

Hình 6 hiển thị chức năng chính mà công cụ AIOps có thể cung cấp.

5 1754912046

Hình 6. Chức năng chính của công cụ AIOps

Nhập dữ liệu: Dữ liệu từ các công cụ giám sát khác nhau, bao gồm các chỉ số, dấu vết và nhật ký, được thu thập, lưu trữ và lập chỉ mục để xử lý sau đó. Ngoài ra, dữ liệu từ các hệ thống quản lý cấu hình và dữ liệu sơ đồ cấu trúc cũng được lưu trữ trong hệ thống AIOps để cung cấp mối tương quan dựa trên CMDB và các mối quan hệ trong sơ đồ cấu trúc.

Phân tích sử dụng học máy: AIOps sử dụng nhiều phương pháp khác nhau để phân tích dữ liệu thu thập được nhằm tìm kiếm các hình mẫu và thông tin bất thường. Các phương pháp dựa trên quy tắc và học máy được sử dụng kết hợp trong AIOps để hiểu dữ liệu. Một số kỹ thuật có thể kể đến gồm phân tích thống kê sử dụng phân nhóm, tương quan và phân loại; phát hiện dị thường để nhận ra sự bất thường trong dữ liệu sự kiện; phân tích dự đoán để tìm những gì có thể xảy ra trong tương lai gần dựa trên các mẫu; tương quan dựa trên sơ đồ cấu trúc và CMDB. Mục tiêu là chuyển tất cả dữ liệu sự kiện này thành các cảnh báo nguyên nhân có thể xảy ra là nguyên nhân gốc rễ của vấn đề để đội ngũ vận hành có thể tập trung giải quyết sự cố một cách kịp thời.

Chẩn đoán và khắc phục tự động: Các công cụ tự động hóa trong AIOps cho phép áp dụng kết quả của các bước xử lý trước đó giúp cho việc chẩn đoán và khắc phục tự động, tức là lấy nguyên nhân có thể xảy ra làm đầu vào, đưa ra phương pháp khắc phục và có thể tự động thực hiện phương pháp khắc phục. Điều này dẫn đến khả năng tự động sửa lỗi cũng như cung cấp một quy trình vận hành và xử lý sự cố hoàn chỉnh từ đầu đến cuối.

Hãy cùng thảo luận chi tiết về các lợi ích của AIOps.

2. Lợi ích của AIOps

Nhiều doanh nghiệp đã triển khai giải pháp AIOps và trải nghiệm những lợi ích mang tính chuyển đổi. Một số lợi ích bao gồm:

  • Tăng cường khả năng sẵn sàng của hệ thống: Đây là một trong những lý do chính và lợi ích của AIOps, giúp đảm bảo dịch vụ liên tục và hoạt động kinh doanh không bị gián đoạn. AIOps đã chứng minh là một yếu tố thay đổi cuộc chơi tiềm năng, đảm bảo tính sẵn sàng cao trong cơ sở hạ tầng lai (hybrid infrastructure) hiện nay đang vận hành các ứng dụng container hóa.
  • Tuân thủ SLA tốt hơn về thời gian trung bình khắc phục sự cố: Đây là mục tiêu chính của mọi hoạt động vận hành IT và là mong đợi thực tế từ doanh nghiệp. Việc tích hợp hệ thống AIOps với các chức năng ITSM làm cho điều này trở nên khả thi bằng cách khám phá những thông tin hữu ích, tìm kiếm các mẫu vấn đề và hỗ trợ cộng tác với các giải pháp tự động hóa để giải quyết sự cố một cách nhanh chóng. Tất cả điều này có nghĩa là thời gian trung bình khắc phục sự cố sẽ giảm và giúp đội ngũ vận hành IT không chỉ đáp ứng mà còn vượt qua các SLA hiện tại.
  • Phát hiện sự cố tự động tốt hơn: Đây là một lợi ích quan trọng khác của AIOps. Hệ thống AIOps loại bỏ rất nhiều lãng phí nhờ giảm thiểu các cảnh báo giả. Sử dụng AIOps giúp phân tích kỹ lưỡng các sự kiện nhằm đưa ra các cảnh báo đáng tin cậy với mức độ nghiêm trọng phù hợp. Điều này giúp đội ngũ vận hành IT tiết kiệm thời gian, tránh lãng phí khi theo đuổi các thông tin cảnh báo sai về sự cố xảy ra trong hệ thống.
  • Dự đoán và ngăn ngừa sự cố: AIOps giúp tạo ra hoạt động vận hành chủ động và là một KPI quan trọng để đo lường hiệu suất hoạt động. Hệ thống AIOps tạo ra các khuyến nghị thông minh giúp hoạt động vận hành IT đạt được mục tiêu này.
  • Tối ưu hóa chi phí: IT vẫn được coi là một khoản chi phí đối với nhiều tổ chức. Một hệ thống AIOps hoàn thiện có thể giảm mạnh chi phí vận hành. Bằng cách chuyển giao công việc cho các thuật toán AI và giải phóng nguồn lực con người để tập trung vào các công việc mang lại giá trị, các tổ chức có thể sử dụng tốt hơn nguồn lực quý giá của mình.
  • Cải thiện khả năng nhận biết về hạ tầng IT: AIOps không chỉ giúp hoạt động vận hành IT xác định các khu vực cần cải thiện mà còn giúp các doanh nghiệp phát hiện cơ hội mới hoặc đưa ra các quyết định chiến lược. Vì AIOps tác động đến tất cả các chức năng IT, chúng rất phù hợp để lọc bỏ những thông tin không cần thiết và cung cấp cái nhìn rõ ràng về cơ sở hạ tầng IT của doanh nghiệp cho các bên liên quan.
  • Giảm rủi ro hoạt động vận hành: Quản lý rủi ro là một lĩnh vực quan trọng trong hoạt động vận hành IT. Hệ thống AIOps sẽ đảm nhận việc thực hiện tự động các nhiệm vụ, giảm thiểu sai sót của con người, đồng thời cho phép phân tích nâng cao nhờ các công cụ AI giúp giảm đáng kể rủi ro trong hoạt động IT, bất kể đó là rủi ro liên quan đến bảo mật, phục hồi sau thảm họa (DR) hay các công việc vận hành hàng ngày như quản lý sự cố, quản lý thay đổi và quản lý vấn đề.
  • Lợi ích tự động hóa: Tự động hóa là một hành trình, nhưng nó thường thất bại hoặc không đạt được kết quả mong đợi khi hoạt động đơn lẻ. Hệ thống AIOps, ngược lại, cho phép tích hợp các chức năng IT cốt lõi bằng cách cung cấp dịch vụ tự động hóa toàn diện.
  • Mức độ trưởng thành cao hơn trong hoạt động vận hành IT: Phản hồi liên tục từ AIOps cung cấp cái nhìn rõ ràng về những thiếu hụt và điểm yếu trong các quy trình, công cụ và cơ sở hạ tầng IT. Điều này giúp hoạt động vận hành IT chuyển từ trạng thái phản ứng sang trạng thái chủ động toàn diện.
  • Cải thiện khả năng hiển thị, quản trị và kiểm soát: Các tổ chức thường triển khai nhiều công cụ quản lý sự kiện và báo cáo cho công tác quản trị và kiểm soát hoạt động của hạ tầng IT, nhưng thường thất bại do tính chất thay đổi liên tục của cơ sở hạ tầng và năng lực của đội ngũ vận hành trong việc giữ cho các hệ thống quản trị được cập nhật. Ngược lại, AIOps có thể tự động phát hiện và nhận biết những thay đổi này bằng các thuật toán AI và cung cấp cái nhìn toàn diện cho công tác quản trị và kiểm soát.
  • Dễ dàng chuyển sang mô hình DevOps và SRE: Hệ thống AIOps mang lại tính tự động hóa và sự hoàn thiện trong các quy trình và công cụ CNTT, do đó cho phép đội ngũ vận hành áp dụng mô hình DevOps và SRE.
  • Sử dụng hiệu quả hơn năng lực cơ sở hạ tầng IT: Hệ thống AIOps cung cấp khả năng hiển thị thông tin trực quan chi tiết và hiệu quả trong việc sử dụng năng lực hệ thống IT, cho phép đội ngũ quản trị vận hành phân tích “Dự báo-Nhu cầu” và phân tích “Chi phí-Lợi ích” theo cách tốt hơn và nhanh hơn nhiều so với các công cụ truyền thống.
  • Cung cấp dịch vụ mới nhanh hơn: Hệ thống AIOps loại bỏ lãng phí, nâng cao kỹ năng cho đội ngũ vận hành và mang lại sự hoàn thiện trong các quy trình và công cụ. Điều này cho phép các đội ngũ CNTT hỗ trợ tốt hơn cho các sáng kiến ​​và dịch vụ mới.

3. Kiến trúc AIOps

Hệ thống AIOps chủ yếu bao gồm ba dịch vụ cốt lõi trong hoạt động CNTT, đó là Giám sát, Quản lý dịch vụ CNTT và Tự động hóa. Kiến trúc AIOps chỉ ra các công nghệ và phương pháp để tích hợp liền mạch giữa ba dịch vụ này nhằm mang lại một hệ thống AIOps hoàn chỉnh. Hình 7 định nghĩa nền tảng AIOps và khả năng ứng dụng của nó trong các quy trình và chức năng khác nhau của ba dịch vụ cốt lõi đã được xác định trong chuỗi giá trị hoạt động CNTT theo định nghĩa của Gartner. Hãy cùng tìm hiểu sâu hơn về kiến trúc AIOps này.

6 1754912121

Hình 7. Kiến trúc AIOps

3.1. Nền Tảng Cốt Lõi

Công nghệ Big Data kết hợp với các thuật toán học máy cung cấp giải pháp và tạo thành nền tảng cốt lõi của hệ thống AIOps.

Hệ thống AIOps được thiết kế để tiếp nhận hàng triệu điểm dữ liệu được tạo ra với tốc độ cao và cần phải được phân tích nhanh chóng cùng với dữ liệu lịch sử để mang lại giá trị, vì vậy nền tảng này cần được xây dựng trên công nghệ Big Data.

Ngoài Big Data, một thành phần cốt lõi của AIOps là học máy. Các công nghệ trí tuệ nhân tạo và học máy nằm ở trung tâm của AIOps. Các hệ thống truyền thống đã được sử dụng để giám sát và liên kết sự kiện; tuy nhiên, chúng chủ yếu dựa trên các quy tắc mà không sử dụng công nghệ học máy để rút ra các thông tin giá trị một cách hiệu quả cùng các tính năng cao cấp có thể đạt được thông qua việc tận dụng các công nghệ học máy.

AIOps tận dụng sức mạnh của học máy để phân tích dữ liệu được cung cấp từ các hệ thống khác nhau và phát hiện mối quan hệ giữa các thực thể và sự kiện được giám sát, nhằm phát hiện các mẫu và thông tin bất thường.

Dữ liệu này sau đó được sử dụng để tạo ra thông tin giá trị và phân tích giúp tìm ra các cảnh báo nguyên nhân gốc rễ. Nền tảng AIOps kết hợp với CMDBs, tương quan dựa trên quy tắc cùng học máy có giám sát và không có giám sát để đạt được mục tiêu cuối cùng là tìm ra nguyên nhân gốc rễ, đồng thời cung cấp những thông tin dự đoán để phát hiện các vấn đề tiềm ẩn có thể phát sinh sau này. Các chủ đề cốt lõi bao gồm tính khả dụng cao hơn của hệ thống, các thông tin giá trị và quản lý CNTT tốt hơn, cùng với việc nâng cao điểm số hài lòng của khách hàng.

Hãy cùng tìm hiểu cách AIOps cải thiện các hoạt động CNTT.

3.2. Ba yếu tố chính trong AIOps

AIOps bao gồm ba yếu tố chính trong hoạt động vận hành CNTT, đó là Quan Sát (Observe), Tương tác (Engage), và Hành Động (Act).

Trước đây, một số tính năng thuộc phạm vi Quan sát Observe) đã có trong Giám sát (Monitoring), giờ đây với sự tập trung hướng tới khả năng quan sát toàn diện thì Khả năng quan sát (Observability) đã trở nên hoàn thiện và ngày càng phổ biến.

Yếu tố thứ hai là sự Tương tác (Engage), là một phần của dòng giá trị, liên quan đến các chức năng của quản lý dịch vụ CNTT (ITSM) như bộ phận hỗ trợ dịch vụ (service desk), trung tâm chỉ huy (command center), và nhóm giải quyết sự cố (resolution groups), cũng như các quy trình ITSM như quản lý sự cố (incident management), quản lý thay đổi (change management), quản lý vấn đề (problem management), quản lý cấu hình (configuration management), lập kế hoạch năng lực (capacity planning), và cải tiến dịch vụ liên tục (continual service improvement).

Yếu tố thứ ba là Hành động (Act), xác định chức năng kỹ thuật mà các nhóm kỹ thuật giải quyết sự cố, hoàn thành yêu cầu dịch vụ, và điều phối các thay đổi trong hệ thống CNTT.

Chúng ta sẽ đi sâu hơn vào từng yếu tố này và xem AIOps ảnh hưởng như thế nào đến chúng.

3.2.1. Quan Sát (Observe)

Khác với các công cụ giám sát và quản lý sự kiện truyền thống, Quan sát sử dụng các chức năng dựa trên học máy và đảm bảo không có bất kỳ “điểm mù” hay khoảng trống nào, đồng thời đáp ứng nhu cầu giám sát doanh nghiệp của các tổ chức, bất kể là các ứng dụng đơn khối (monolithic) chạy trên hạ tầng vật lý hoặc ảo hóa, hay các ứng dụng hiện đại chạy trên nền tảng đám mây hoặc kiến trúc microservices. Chủ yếu có bốn chu trình được thực hiện trong giai đoạn này, như được trình bày trong Hình 8.

7 1754912157

Hình 8. Khả năng quan sát sử dụng AIOps

Thu thập Dữ liệu (Data Ingestion)

Thu thập dữ liệu trong AIOps là bước quan trọng đầu tiên, tại đây tất cả dữ liệu giám sát và quản lý sẽ được nạp vào hệ thống AIOps để sẵn sàng cho việc phân tích. Đôi khi, tại thời điểm triển khai các dự án AIOps, người ta nhận thấy rằng dữ liệu giám sát cơ bản chưa được thiết lập đầy đủ, nhưng tổ chức vẫn yêu cầu tiếp tục triển khai AIOps. Trong những tình huống như vậy, một cuộc thảo luận cơ bản về cách AIOps hoạt động và cách các thuật toán học máy hoàn toàn phụ thuộc vào dữ liệu sẽ giúp giải quyết vấn đề. Việc thiết lập các yếu tố giám sát đúng có thể được triển khai như một dự án riêng biệt trong chương trình, trong khi AIOps tiếp tục tích hợp và tiến hành kế hoạch tích hợp các nguồn dữ liệu của mình. Khi toàn bộ dữ liệu đã có sẵn, các thuật toán sẽ được huấn luyện và điều chỉnh để phản ánh dữ liệu mới.

Đối với quản lý sự kiện, các loại dữ liệu sau đây là cần thiết:

  • Sự kiện (Events): Đây là các sự kiện được tạo ra từ nhiều nguồn khác nhau bao gồm hệ điều hành, thiết bị mạng, nền tảng điện toán đám mây, ứng dụng, cơ sở dữ liệu và nền tảng trung gian. Tất cả các nền tảng này đều tạo ra sự kiện và chúng được thu thập thông qua các công cụ giám sát, sau đó được chuyển tiếp đến hệ thống AIOps.
  • Chỉ số (Metrics): Đây là các chỉ số hiệu suất, bao gồm các chỉ số hạ tầng như sử dụng CPU, bộ nhớ và các tham số hiệu suất ổ đĩa, sử dụng mạng và các chỉ số thời gian phản hồi. Chúng cũng bao gồm các chỉ số ứng dụng như thời gian phản hồi của ứng dụng, thời gian tải trang web, thời gian hoàn thành các truy vấn, v.v. Các chỉ số này được thu thập theo chu kỳ, ví dụ tần suất năm phút một lần, và dữ liệu này được sử dụng để hiểu hành vi của hệ thống qua một khoảng thời gian. Dữ liệu này còn được gọi là chỉ số hiệu suất.
  • Nhật ký (Logs): Nhiều hệ thống lưu giữ thông tin hoạt động trong các tệp nhật ký. Việc thu thập nhật ký có thể được cấu hình và điều chỉnh để ghi lại các loại thông tin nhất định. Các tệp nhật ký này được gửi đến các hệ thống AIOps để tìm kiếm các mẫu (patterns).
  • Dấu vết (Traces): Các ứng dụng sử dụng cơ chế truy vết (tracing) để cung cấp thông tin về một giao dịch nghiệp vụ hoàn chỉnh từ trình duyệt của người dùng đến các máy chủ ứng dụng. Những thông tin này được ghi lại thông qua các cơ chế khác nhau, bao gồm các định dạng phổ biến như OpenTracing. Dữ liệu dấu vết cung cấp thông tin về giao dịch từ đầu đến cuối, chỉ ra trình tự và thời gian mà mỗi bước trong giao dịch được thực hiện. Mọi phát sinh lỗi hoặc vấn đề về hiệu năng trong bất kỳ thành phần nào đều có thể được chẩn đoán thông qua dữ liệu dấu vết.

Ngoài dữ liệu thời gian thực đã được đề cập, các công cụ AIOps còn cần dữ liệu khám phá và dữ liệu cấu hình để các tương quan dựa trên mối quan hệ và sơ đồ cấu trúc có thể hoạt động hiệu quả. Dữ liệu này có thể được thu thập theo định kỳ thay vì thu thập theo thời gian thực.

Tích hợp

Để việc thu thập dữ liệu diễn ra, cần thực hiện việc tích hợp trong nền tảng AIOps. Nền tảng AIOps nên hỗ trợ cả tích hợp kiểu đẩy (push) và kéo (pull). Trong mô hình đẩy, các công cụ giám sát hoặc thành phần chuyển tiếp có thể gửi dữ liệu đến bộ công cụ AIOps. Trong mô hình kéo, các công cụ AIOps có khả năng kéo dữ liệu từ các hệ thống giám sát khác nhau.

Khía cạnh khác của việc tích hợp là tải dữ liệu theo thời gian thực và theo định kỳ. Dữ liệu sự kiện, chỉ số, nhật ký và dữ liệu dấu vết được tích hợp theo thời gian thực vì các nhóm vận hành cần thực hiện hành động ngay lập tức. Dữ liệu khám phá và CMDB có thể được tích hợp với hệ thống AIOps theo định kỳ, ví dụ, mỗi ngày hoặc cuối tuần dưới dạng một tác vụ xử lý theo lô (batch), hoặc ngay sau khi đồng bộ hóa các tác vụ CMDB. Điều này giúp duy trì dữ liệu AIOps luôn cập nhật về sơ đồ cấu trúc và các mối quan hệ. Tuy nhiên, trong môi trường điện toán đám mây và các môi trường định nghĩa bởi phần mềm, việc khám phá dữ liệu CMDB diễn ra theo thời gian thực và tích hợp được thực hiện ngay lập tức trong quá trình cấp phát và thu hồi tài nguyên (sử dụng công cụ IaC – Infrastructure As Code).

Các bộ chuyển đổi (adapter) để tích hợp với các hệ thống giám sát và quản lý khác nhau là một phần của hệ thống AIOps. Các bộ chuyển đổi này cần được cấu hình để đưa dữ liệu từ các hệ thống khác nhau vào một kho dữ liệu Big Data duy nhất để phục vụ cho phân tích dữ liệu và suy luận.

Giảm thông tin sự kiện

Nhờ thực hiện tích hợp và thu thập dữ liệu, tất cả dữ liệu từ các công cụ giám sát và quản lý khác nhau sẽ được đưa vào nền tảng AIOps. Lượng dữ liệu khổng lồ này cần được làm sạch để loại bỏ sai sót và dư thừa. Bước đầu tiên là giảm thông tin sự kiện, trong đó các cảnh báo không mong muốn sẽ bị loại bỏ hoặc bỏ qua khỏi hệ thống. Cần chú ý để đảm bảo rằng bất kỳ dữ liệu nào có liên quan đến việc xử lý tiếp theo hoặc có thể cung cấp thông tin cho công cụ AIOps không bị loại bỏ trong quá trình giảm thông tin sự kiện. Một ví dụ về giảm thông tin sự kiện có thể là việc loại bỏ các sự kiện được phân loại “thông tin” bởi chúng chỉ mang tính chất thông tin và không chỉ ra vấn đề tiềm ẩn trong hệ thống. Một loại dữ liệu khác có thể có trong các tệp nhật ký đã thu thập là các lần thực thi thành công; dữ liệu này lại chỉ mang tính chất thông tin và không có liên quan đến việc tìm kiếm vấn đề trong hệ thống. Ngoài ra, các sự kiện cảnh báo cũng có thể bị loại bỏ. Quyết định này cần được đưa ra bởi các chuyên gia trong từng lĩnh vực.

Nếu không thực hiện giảm thông tin sự kiện, hệ thống AIOps sẽ bị quá tải với dữ liệu không cần thiết cho việc xử lý và phân tích tiếp theo.

Loại bỏ sự kiện trùng lặp

Sau khi giảm thông tin sự kiện, bước tiếp theo là loại bỏ sự kiện trùng lặp. Loại bỏ trùng lặp là một bước quan trọng trong việc xử lý dữ liệu AIOps. Trong bước này, các sự kiện trùng lặp được gom lại và loại bỏ. Ví dụ, nếu một hệ thống bị hỏng, công cụ giám sát có thể gửi dữ liệu thông báo tình trạng này mỗi phút một lần; dữ liệu này sẽ hiển thị thông tin giống nhau nhưng với dấu thời gian khác nhau. Hệ thống AIOps sẽ nhận dữ liệu này và tăng số đếm của sự kiện gốc, sau đó cập nhật dấu thời gian để phản ánh thời điểm sự kiện xảy ra. Điều này cung cấp thông tin cần thiết cho hệ thống AIOps cũng như cho các kỹ sư về hệ thống bị hỏng từ thời điểm nào và dấu thời gian của điểm dữ liệu cuối cùng.

Loại bỏ trùng lặp bảo vệ thông tin được gửi bởi các sự kiện liên tiếp vẫn còn trong hệ thống và được sử dụng để xử lý bởi hệ thống AIOps. Tuy nhiên, thay vì hiển thị nhiều lần, thông tin sẽ được tổng hợp trong bảng điều khiển và cơ sở dữ liệu.

Nếu không có bước loại bỏ sự kiện trùng lặp, bảng điều khiển sự kiện sẽ bị rối với nhiều sự kiện hiển thị lại cùng một sự kiện lặp đi lặp lại.

Tương quan dựa trên quy tắc

Hệ thống AIOps sử dụng công nghệ học máy để phân tích dữ liệu. Các hệ thống trước đây sử dụng tương quan dựa trên quy tắc để giải mã và phân tích dữ liệu. Trong hệ thống AIOps, tương quan dựa trên quy tắc vẫn đóng một vai trò quan trọng, và có thể có các chính sách trong tổ chức cần được triển khai thông qua cấu hình dựa trên quy tắc thay vì sử dụng các mô hình học máy xác suất. Một ví dụ về điều này có thể là đưa ra một quy tắc tăng mức độ nghiêm trọng của sự kiện dựa trên mức độ ưu tiên cho mỗi hệ thống. Điều này đạt được bằng cách tra cứu CMDB để tìm loại thiết bị và sau đó áp dụng một quy tắc hoặc chính sách để nâng cao hoặc giảm mức độ nghiêm trọng của sự kiện dựa trên phân loại của hệ thống. Có những quy tắc quan trọng khác cần thiết trong các hệ thống AIOps như “thời gian bảo trì”, trong đó các cảnh báo bị ẩn trong thời gian bảo trì hoặc hoạt động vá lỗi. Điều này giảm thiểu thông tin nhiễu trong hệ thống và ngăn không cho bảng điều khiển sự kiện hiển thị cảnh báo cho các hệ thống đã được khởi động lại hoặc tắt máy vì các hoạt động bảo trì.

Tương quan dựa trên quy tắc cũng có một dạng gọi là tương quan dựa trên cấu trúc (topology). Topology và mối quan hệ giữa các hệ thống được sử dụng trong cả tương quan dựa trên quy tắc và tương quan dựa trên học máy. Trong các hệ thống dựa trên quy tắc, topology của hệ thống và mối quan hệ của chúng được sử dụng để ẩn hoặc liên kết các sự kiện. Ví dụ, nếu một thiết bị chuyển mạch bị hỏng, thì tất cả các máy chủ hoặc cơ sở hạ tầng phụ thuộc chuyển mạch này sẽ không thể truy cập được từ các hệ thống giám sát. Tương quan dựa trên topology sẽ đánh dấu các sự kiện này, tương quan tất cả các sự kiện cơ sở hạ tầng với sự kiện thiết bị chuyển mạch bị hỏng, và đánh dấu thiết bị chuyển mạch bị hỏng như một nguyên nhân có thể gây ra tất cả các sự kiện lỗi khác.

Tương quan dựa trên học máy

Tương quan dựa trên học máy là yếu tố tạo nên sự khác biệt của AIOps. Các tính năng khác mà chúng ta đã thảo luận cũng có sẵn trên các nền tảng truyền thống, nhưng khả năng dựa trên học máy chính là yếu tố phân biệt sản phẩm AIOps với các công cụ quản lý và tương quan sự kiện khác. Hình 9 cho thấy các loại liên kết khác nhau được thực hiện bởi động cơ AIOps.

8 1754912208

Hình 9. Thực hiện tương quan trong hệ thống AIOps

Trong phần này, chúng ta sẽ đi sâu vào tìm hiểu từng loại tương quan, bắt đầu với phát hiện bất thường.

Phát hiện bất thường

Phát hiện bất thường là quá trình nhận diện các sự kiện bất ngờ hoặc các sự kiện có tần suất hiếm gặp trong dữ liệu. Phát hiện bất thường cũng được gọi là phát hiện ngoại lệ, vì nó nhằm phát hiện các sự kiện ngoại lệ hoặc hiếm gặp.

Sự kiện ngoại lệ hoặc bất thường khác với sự kiện bình thường. Các thuật toán phát hiện bất thường cố gắng nhận diện những sự kiện này và đánh dấu chúng là bất thường. Thông thường, các sự kiện bất thường có thể chỉ ra một số vấn đề trong hệ thống. Các kỹ thuật phát hiện bất thường đã được sử dụng trong nhiều trường hợp như phát hiện gian lận trong giao dịch thẻ tín dụng và ngân hàng, hệ thống an ninh để phát hiện các cuộc tấn công mạng, v.v. Với AIOps, các kỹ thuật và thuật toán tương tự hiện đang được áp dụng cho dữ liệu vận hành CNTT.

Các bất thường không chỉ là sự kiện hiếm gặp hoặc ngoại lệ. Bất thường cũng được phát hiện trong các hệ thống AIOps đối với dữ liệu chỉ số như các tham số sử dụng mạng hoặc hệ thống. Trong dữ liệu chỉ số, các bất thường là những thay đổi đột biến trong việc sử dụng tài nguyên hoặc hoạt động của hệ thống, và những điều này có thể chỉ ra các nguyên nhân tiềm ẩn mà hệ thống AIOps sẽ đánh dấu.

Kỹ thuật phát hiện bất thường sử dụng phương pháp học máy không giám sát (unsupervised), giám sát (supervised) và bán giám sát (semisupervised) để đánh dấu các sự kiện là bất thường và đánh dấu dữ liệu chỉ số khi có sự vi phạm hoạt động bình thường.

Phát hiện bất thường có những lợi thế so với các hệ thống dựa trên quy tắc trước đây. Thuật toán phát hiện bất thường có thể phát hiện sự biến động theo thời kỳ của dữ liệu và chỉ đánh dấu hành vi bất thường của hệ thống sau khi xem xét thời điểm của các biến động. Dữ liệu chỉ số thường có tính thời điểm vì tải ứng dụng và các tác vụ chạy trên hạ tầng CNTT thường tuân theo một chu kỳ thời gian trong ngày. Một số công việc chạy theo chu kỳ hàng tháng cũng làm tăng mức độ sử dụng của hệ thống nhưng không phải là bất thường.

Phát hiện bất thường có thể được thực hiện bằng nhiều thuật toán có sẵn trong hệ thống AIOps. Đội ngũ AIOps có thể sử dụng các thuật toán này để điều chỉnh thiết lập thông số dựa trên loại dữ liệu và môi trường cụ thể.

Do đó, các hệ thống AIOps sử dụng phát hiện bất thường sẽ phù hợp hơn để giảm thiểu thông tin nhiễu trong dữ liệu sự kiện hoặc dữ liệu chỉ số bằng cách đánh dấu các sự kiện đúng dựa trên tính thời điểm của dữ liệu, đồng thời phát hiện những mẫu bất thường mà các hệ thống dựa trên quy tắc có thể bỏ qua. Cùng với nhau, những tính năng này giúp đội ngũ vận hành có cái nhìn sâu sắc về những gì đang xảy ra trong môi trường CNTT của họ, từ đó họ có thể thực hiện các bước phản ứng và phòng ngừa để khắc phục sự cố hoặc ngăn ngừa sự cố xảy ra trong môi trường này.

Tương quan sự kiện

Hầu hết ứng dụng trên nền tảng số đều có sự kết nối lẫn nhau. Ngay cả các ứng dụng truyền thống cũng đã được phát triển bằng kiến trúc phân tán, trong đó các máy chủ web, máy chủ ứng dụng và máy chủ cơ sở dữ liệu hoạt động phối hợp để hoàn thành chức năng của ứng dụng. Hạ tầng CNTT cũng được tổ chức phân tán trong cấu trúc mạng với các bộ định tuyến, chuyển mạch và tường lửa chuyển hướng lưu lượng từ người dùng ở các vị trí khác nhau đến trung tâm dữ liệu chính nơi ứng dụng được lưu trữ.

Các ứng dụng và hạ tầng CNTT được giám sát bằng nhiều công cụ khác nhau. Do đó, một môi trường sẽ có các cảnh báo đến từ các công cụ giám sát mạng, giám sát máy chủ, giám sát cơ sở dữ liệu và nền tảng, đồng thời, chính ứng dụng cũng sẽ tự ghi lại các thông tin sự kiện và dấu vết. Tất cả dữ liệu này cần phải được tương quan để loại bỏ thông tin nhiễu, từ đó có thể xác định và đánh dấu các sự kiện gây ra vấn đề một cách tự động. Trong trường hợp không triển khai công cụ AIOps, hoạt động này sẽ được thực hiện bởi các nhóm chuyên môn khác nhau, tập hợp lại để phân tích tất cả các hệ thống và dữ liệu, từ đó cùng nhau xác định nguồn gốc của vấn đề trong một hệ thống phân tán. Chúng ta có thể hình dung được độ phức tạp và thời gian cần thiết để duyệt qua tất cả các dữ liệu và đưa ra kết luận về nguyên nhân gây ra vấn đề trong trường hợp đó.

Tương quan sự kiện cũng lấy dữ liệu từ các hệ thống quản lý cấu hình và quản lý thay đổi, qua đó tương quan các thay đổi trong hệ thống với các sự kiện được tạo ra từ các công cụ giám sát. Điều này giúp trong việc phân tích nguyên nhân gốc rễ, vì nhiều sự cố và vấn đề phát sinh sau khi thực hiện thay đổi cấu hình hoặc vá lỗi hệ thống hiện có. Dữ liệu quản lý thay đổi và cấu hình cần được cung cấp cho hệ thống AIOps để tương quan với dữ liệu sự kiện và hiệu năng đến từ các hệ thống giám sát. Thực tế, điều đầu tiên mà các chuyên gia thường tìm kiếm là bất kỳ thay đổi nào đã được thực hiện gần đây đối với hệ thống có thể đã gây ra sự cố.

Tương quan sự kiện dựa trên học máy giúp giải quyết vấn đề này bằng cách tự động nhóm các cảnh báo liên quan lại với nhau nhờ tương quan qua các tham số khác nhau, giúp nhóm giải quyết sự cố có tất cả thông tin ở một nơi duy nhất. Tương quan sự kiện được thực hiện sử dụng thông tin về sơ đồ cấu trúc và mối quan hệ có sẵn trong dữ liệu khám phá và CMDB, nó cũng sử dụng dấu thời gian và dữ liệu lịch sử để nhóm các sự kiện lại và cung cấp thông tin nhận biết sâu sắc cho đội ngũ vận hành.

Với thời gian và đủ dữ liệu học có giám sát, yếu tố tương quan sự kiện sẽ trở nên chính xác hơn trong việc cung cấp dữ liệu giúp phân tích nguyên nhân gốc rễ. Chúng ta sẽ tìm hiểu chi tiết về phân tích nguyên nhân gốc rễ trong phần tiếp theo. Nếu không có sự tương quan sự kiện, việc thực hiện phân tích nguyên nhân gốc rễ hoặc phân tích dự đoán là không thể. Vì vậy, tương quan sự kiện là bước đầu tiên để tiến hành phân tích nguyên nhân gốc rễ và phân tích dự đoán.

Phân tích nguyên nhân gốc rễ

Phân tích nguyên nhân gốc rễ là mô-đun quan trọng nhất của AIOps và cũng là yếu tố mang lại giá trị cao nhất đối với hoạt động quản trị vận hành. Với sự phức tạp trong hoạt động của hạ tầng và ứng dụng CNTT, việc thực hiện phân tích nguyên nhân gốc rễ sẽ là không thể nếu không có sự hỗ trợ của các hệ thống tương quan sự kiện. Dù một tổ chức sử dụng phương pháp dựa trên quy tắc hay phương pháp dựa trên AIOps, mà không tận dụng công nghệ, thì việc thực hiện phân tích nguyên nhân gốc rễ và khắc phục các sự cố nhằm đáp ứng các cam kết về mức độ dịch vụ đã được thỏa thuận là điều không thể.

Việc xác định nguyên nhân gốc rễ một cách thủ công hoặc với sự tương quan sự kiện và phân tích tự động đòi hỏi nhiều đội ngũ từ các lĩnh vực IT khác nhau cùng phân tích tình huống để đi đến kết luận về vấn đề có thể xảy ra. Điều này cũng yêu cầu sự cộng tác cùng các công cụ hỗ trợ cộng tác để các bên liên quan có thể cùng làm việc trên một nền tảng chung và thực hiện phân tích nguyên nhân gốc rễ một cách hiệu quả. Phân tích nguyên nhân gốc rễ với AIOps xem xét tất cả dữ liệu được đưa vào hệ thống AIOps và cung cấp thông tin cho đội ngũ vận hành để xác định nguyên nhân gốc rễ nhanh chóng và chính xác hơn. Vì công nghệ học máy mang tính xác suất, phân tích nguyên nhân gốc rễ trong ngữ cảnh AIOps còn được gọi là phân tích nguyên nhân có khả năng xảy ra; do đó, nó có thể đưa ra nhiều nguyên nhân có khả năng xảy ra cho một nguyên nhân gốc rễ với một điểm số tin cậy đi kèm. Điểm số tin cậy được gán cho một sự kiện càng cao thì xác suất mà hệ thống AIOps xác định sự kiện đó là nguyên nhân gốc rễ càng lớn. Dựa trên nguyên nhân có khả năng xảy ra, đội ngũ vận hành có thể đi sâu vào phân tích và xác định nguyên nhân gốc rễ cuối cùng, rồi đánh dấu nó là nguyên nhân gốc rễ trong hệ thống.

Phân tích nguyên nhân gốc rễ sử dụng các kỹ thuật phát hiện bất thường và tương quan sự kiện cũng như phản hồi từ học máy có giám sát để tìm ra nguyên nhân gốc rễ. Phân tích nguyên nhân gốc rễ sử dụng cả kỹ thuật có giám sát và không giám sát để đạt được kết quả này.

Vì dữ liệu IT rất lớn và phụ thuộc vào môi trường, vòng phản hồi là một khía cạnh quan trọng trong phân tích nguyên nhân gốc rễ. Một lượng lớn kiến thức kinh nghiệm của đội ngũ vận hành có thể chưa được ghi chép và chỉ được biết đến dưới dạng kiến thức truyền miệng. Khi đội ngũ vận hành cộng tác với nhau để trao đổi, rút ra kết luận và đánh dấu nguyên nhân gốc rễ từ các dữ liệu nguyên nhân có khả năng xảy ra, hệ thống AIOps sẽ học và cập nhật mô hình của nó. Do đó, hệ thống có thể lưu lại các hành động mà đội ngũ vận hành đã thực hiện và có thể tìm lại nguyên nhân gốc rễ từ các sự cố trước đó. Chúng ta sẽ tìm hiểu chi tiết hơn về điều này trong phần phản hồi; tuy nhiên, điều quan trọng là phải hiểu rằng phân tích nguyên nhân gốc rễ phụ thuộc vào phản hồi của con người, và nếu không có phản hồi này, độ chính xác của phân tích nguyên nhân gốc rễ có thể bị giới hạn.

Lợi ích của phân tích nguyên nhân gốc rễ tự động là rất lớn. Có sự cải thiện rõ rệt trong thời gian trung bình để phản hồi và thời gian trung bình để giải quyết vấn đề vì hệ thống giúp công việc của đội ngũ vận hành dễ dàng hơn bằng cách đánh dấu nguyên nhân có khả năng xảy ra và loại bỏ thông tin nhiễu khỏi hệ thống. Khi tích hợp với quản lý tri thức và vòng phản hồi từ đội ngũ vận hành, phân tích nguyên nhân gốc rễ tạo ra một hệ thống mạnh mẽ và có độ chính xác cao khi được sử dụng ngày càng nhiều theo thời gian.

Có một số hạn chế trong việc phân tích nguyên nhân gốc rễ sử dụng công nghệ học máy. Vì đây là phương pháp dựa trên xác suất nên không có sự đảm bảo rằng nguyên nhân gốc rễ đã được xác định là chính xác. Hạn chế khác của phân tích nguyên nhân gốc rễ là, khác với phát hiện bất thường và phân tích dự đoán có thể được thực hiện chỉ với dữ liệu, phân tích nguyên nhân gốc rễ phụ thuộc vào phản hồi của con người. Nếu không có sự tham gia từ đội ngũ vận hành, độ chính xác của phân tích nguyên nhân gốc rễ sẽ ở mức thấp. Vì vậy, yếu tố con người, phản hồi và đào tạo các hệ thống AIOps là những yếu tố quan trọng và cũng là những hạn chế. Cố gắng thực hiện phân tích nguyên nhân gốc rễ chỉ với học máy không giám sát sẽ không hiệu quả, vì nó chỉ có thể đánh dấu những bất thường, nhưng liệu sự bất thường đó có thực sự gây ảnh hưởng xấu tới hệ thống hoặc gây ra sự cố hay không có thể không được nền tảng AIOps xác định chính xác. Một hạn chế khác của phân tích nguyên nhân gốc rễ là tính chất của các sự cố trong lĩnh vực CNTT; một sự cố có thể là duy nhất và có sự kết hợp duy nhất của các sự kiện được tạo ra trong sự cố đó, và sự cố đó có thể chưa từng xảy ra trong quá khứ, do đó không có tiền lệ hay dữ liệu trong hệ thống AIOps mà nó có thể sử dụng để đưa ra kết luận. Vì vậy, các sự cố mới hoặc chưa từng có với các sự kiện mới chưa từng được thấy là một thách thức đối với các hệ thống AIOps.

Do đó, chúng ta chưa thể kỳ vọng nền tảng AIOps sẽ xác định chính xác nguyên nhân gốc rễ mà không có sự đào tạo từ các chuyên gia và đội ngũ vận hành. Một tổ chức khi áp dụng AIOps kỳ vọng rằng công cụ này sẽ như một cây đũa thần cho phép tự động bắt đầu tìm ra nguyên nhân gốc rễ và khắc phục sự cố; tuy nhiên, các hệ thống học sâu và học máy phụ thuộc vào dữ liệu có nhãn và đào tạo, và nếu không có sự đào tạo này, hệ thống không thể cung cấp kết quả chính xác.

Vì phân tích nguyên nhân gốc rễ là yếu tố quan trọng và phức tạp nhất trong toàn bộ hệ sinh thái AIOps, việc chú trọng tối đa đến việc triển khai và hiệu quả hoạt động liên tục của nó là vô cùng quan trọng. Hướng đi trong tương lai, các công cụ AIOps có thể sử dụng nhiều thuật toán và một tập hợp các thuật toán để thực hiện phân tích nguyên nhân gốc rễ, từ đó cung cấp độ chính xác cao hơn ngay cả với dữ liệu huấn luyện hạn chế.

Phân tích nguyên nhân gốc rễ cung cấp thông tin cho tự động hóa; nếu bước quy trình này không được đào tạo và tạo ra kết quả chính xác, thì tự động hóa và khắc phục sự cố từ đầu đến cuối là không thể thực hiện được. Khi nguyên nhân gốc rễ được xác định, vấn đề sẽ được giải quyết một cách tự động và đưa tổ chức đạt đến mức độ trưởng thành cao nhất về khả năng tự sửa lỗi (autohealing).

Phân tích dự đoán

Phân tích dự đoán mang yếu tố dự đoán vào hoạt động vận hành CNTT, đây là điều luôn được mong đợi nhưng chưa thể đạt được. AIOps mang lại khả năng phân tích dự đoán cho hoạt động CNTT và đáp ứng nhu cầu chưa được đáp ứng này từ đội ngũ vận hành.

Như tên gọi, phân tích dự đoán có nghĩa là khả năng dự đoán những điều trước khi chúng xảy ra dựa trên dữ liệu được cung cấp cho hệ thống AIOps. Hãy cùng tìm hiểu một số trường hợp để thấy được vai trò của phân tích dự đoán trong lĩnh vực hoạt động vận hành CNTT.

Một ứng dụng quan trọng của phân tích dự đoán là trong quản lý hiệu năng và lập kế hoạch năng lực. Với dữ liệu chỉ số (metric) có sẵn cho các hệ thống AIOps, có thể giúp công cụ AIOps dự đoán mức độ sử dụng hệ thống trong tương lai. Dữ liệu về người dùng truy cập ứng dụng và mức độ sử dụng liên quan đến hệ thống có thể được sử dụng để đưa ra dự đoán dựa trên các kịch bản như số lượng người dùng sẽ truy cập ứng dụng và năng lực cơ sở hạ tầng cần thiết để hỗ trợ những người dùng này. Các kỹ thuật hồi quy có thể được sử dụng để xem xét hiệu năng và khối lượng công việc hiện tại của hệ thống để dự đoán mức độ sử dụng cơ sở hạ tầng trong tương lai. Việc có thể dự đoán trước mức độ sử dụng giúp đội ngũ vận hành CNTT lập kế hoạch tốt hơn cho năng lực hạ tầng, từ đó có thể nhanh chóng bổ sung tài nguyên, chẳng hạn như triển khai các máy ảo mới trong trung tâm dữ liệu hoặc trên đám mây để đáp ứng nhu cầu được dự báo trước. Trong các ứng dụng triển khai dạng microservices, các pods mới được sinh ra tự động để đáp ứng nhu cầu tăng cao về cơ sở hạ tầng.

Phân tích dự đoán sử dụng các kỹ thuật hồi quy có thể xem xét tính thời điểm của dữ liệu và cung cấp kết quả chính xác. Ví dụ, một công việc sao lưu hoặc xử lý dữ liệu vào cuối hoặc đầu tháng có thể gây ra ảnh hưởng tới hiệu năng và lỗi trong ứng dụng. Sử dụng các kỹ thuật phân tích dự đoán có thể đảm bảo rằng hệ thống AIOps có thể dự báo mức độ sử dụng, và đội ngũ vận hành có thể thực hiện các hành động thích hợp để tăng cường năng lực xử lý trong khoảng thời gian đó bằng cách mở rộng tài nguyên theo chiều ngang hoặc chiều dọc để hiệu năng không bị ảnh hưởng cũng như không có sự cố xảy ra đối với ứng dụng.

Một trường hợp khác có thể là tìm kiếm xu hướng dựa trên số liệu, trong đó hệ thống AIOps có thể phát hiện một xu hướng và sự kiện liên quan khi kết thúc xu hướng đó. Dựa trên mối quan hệ này có thể dự đoán trước các sự kiện như sự cố hệ thống. Ví dụ về vấn đề này là sự cố rò rỉ bộ nhớ (memory leak) trong một ứng dụng khiến mức sử dụng bộ nhớ của máy tính ngày càng tăng, tạo thành một xu hướng. Sau khi dùng hết bộ nhớ khả dụng, ứng dụng bắt đầu chậm lại và cuối cùng bị lỗi, gây ra một loạt các sự kiện. Mô hình này có thể được phát hiện bởi hệ thống phân tích dự đoán, khi nhận thấy xu hướng, hệ thống AIOps có thể cảnh báo cho đội ngũ vận hành về sự cố sắp xảy ra.

Một ví dụ khác là lỗi trong mã kết nối cơ sở dữ liệu, ở đó các kết nối cơ sở dữ liệu không được giải phóng và sau một thời gian làm tắc nghẽn toàn bộ cơ sở dữ liệu, khiến ứng dụng bắt đầu nhận được cảnh báo về lỗi kết nối. Các chỉ số liên quan đến kết nối cơ sở dữ liệu khi vẽ ra sẽ tạo thành một xu hướng tăng dần và có thể được hệ thống AIOps giải mã để cảnh báo trước cho đội ngũ vận hành.

Giống như các yếu tố khác trong AIOps, phân tích dự đoán cũng dựa trên xác suất và do đó có thể không đạt độ chính xác 100%. Phân tích dự đoán trong hoạt động vận hành CNTT sẽ xem xét các sự kiện và số liệu để dự đoán những kết quả có khả năng xảy ra và sau đó cảnh báo tới đội ngũ vận hành.

Một tổ chức đôi khi coi các công cụ AIOps như “chiếc đũa thần”, mong đợi chúng có thể dự đoán và ngăn ngừa mọi loại sự cố. Điều này là không thể với công nghệ hiện tại, vì không phải tất cả các sự cố đều có thể dự đoán được. Chỉ những sự kiện có mô hình cơ sở có thể giải mã được qua các xu hướng hoặc chuỗi sự kiện trước sự cố mới có thể được hệ thống AIOps giải mã. Chúng ta cần nhận thức rõ về những hạn chế của hệ thống và cấu hình chúng để tận dụng tối đa khả năng của chúng thay vì mong đợi điều kỳ diệu. Có rất nhiều sự cố không thể dự đoán được và xảy ra ngẫu nhiên. Các thiết bị và hệ thống có thể hỏng một cách ngẫu nhiên mà không có bất kỳ cảnh báo trước nào, và việc dự đoán chính xác sự cố của chúng là một thách thức lớn.

Phân tích dự đoán có thể đơn giản dựa trên một biến duy nhất, hoặc có thể hoạt động trên nhiều biến và mối quan hệ giữa chúng để đưa ra dự đoán. Các hệ thống phân tích dự đoán có thể nhận ra tính thời điểm trong mô hình dữ liệu để đưa ra dự đoán với mức độ chính xác cao.

Phân tích dự đoán mang lại tính chủ động trong hoạt động vận hành và tăng cường khả năng sẵn sàng của hệ thống vì vấn đề được khắc phục trước khi nó có thể ảnh hưởng đến khả năng sẵn sàng hoặc thời gian phản hồi của ứng dụng.

Hiển thị trực quan (Visualization)

Hiển thị trực quan là một yếu tố quan trọng trong AIOps. Có nhiều loại giao diện và bảng điều khiển cần thiết từ góc độ vận hành trong các công cụ AIOps.

Một trong những giao diện cơ bản nhất là bảng điều khiển sự kiện. Các công cụ AIOps cần có bảng điều khiển sự kiện trực quan và dễ sử dụng. Bảng điều khiển sự kiện là một giao diện dạng bảng có tất cả các cảnh báo cần hành động hoặc phân tích từ đội ngũ vận hành.

Thông tin quan trọng có sẵn trong bảng điều khiển sự kiện bao gồm:

  • Định danh sự kiện (cảnh báo)
  • Mô tả
  • Lần xuất hiện đầu tiên
  • Lần xuất hiện cuối cùng
  • Số lần sự kiện đã xảy ra
  • Các sự cố liên quan với cảnh báo
  • Mức độ nghiêm trọng của sự kiện
  • Có phải là nguyên nhân khả nghi hay không
  • Tình trạng, mở hay đã xử lý
  • Lịch sử sự kiện với các hành động và thay đổi trạng thái liên quan

Bảng điều khiển sự kiện thường mã hóa màu các sự kiện theo mức độ nghiêm trọng của chúng và gắn thẻ chúng là nguyên nhân có thể xảy ra hay không. Các sự kiện có mối tương quan với nhau sẽ được hiển thị cùng nhau trong một bảng điều khiển hợp nhất nhằm giúp đội ngũ vận hành xem tất cả các sự kiện liên quan tới một nguyên nhân khả nghi tại một nơi duy nhất để phân tích nguyên nhân gốc rễ.

Ngoài bảng điều khiển sự kiện, bảng điều khiển AIOps còn có các bảng điều khiển khác cung cấp thông tin tổng hợp và thống nhất như sau:

  • Xu hướng sự kiện, mẫu sự kiện; đồ thị xu hướng sự kiện
  • Các sự kiện cần lưu ý trước tiên trong toàn bộ môi trường
  • Các ứng dụng hoặc thành phần cơ sở hạ tầng gây ra sự kiện nhiều nhất
  • Thông tin về tình trạng tràn ngập sự kiện
  • Đồ thị dữ liệu hiệu suất cho các chỉ số
  • Xem CMDB/ Xem cấu trúc hệ thống
  • Dữ liệu lịch sử về sự kiện, cảnh báo và chỉ số hiệu năng

Ngoài các bảng điều khiển trên, hệ thống AIOps cũng có thể cung cấp các bảng điều khiển và thông tin về hiệu năng của chính hệ thống AIOps.

Trực quan hóa trong hệ thống AIOps do đó bao gồm bảng điều khiển sự kiện, các bảng điều khiển cho dữ liệu thời gian thực và báo cáo cho phân tích dữ liệu lịch sử giúp thúc đẩy quá trình cộng tác và sẽ được thảo luận trong phần tiếp theo.

Sự cộng tác (Collaboration)

Sự cộng tác giữa các nhóm vận hành CNTT là rất quan trọng để xác định nguyên nhân gốc rễ và tìm cách giải quyết vấn đề. Trung tâm điều hành trong vận hành CNTT là nơi các nhóm từ các lĩnh vực kỹ thuật khác nhau phối hợp với nhau bằng các công cụ cộng tác trực tuyến theo thời gian thực qua các kênh giao tiếp như Microsoft Teams và điện thoại để cùng nhau xem xét các sự kiện và sự cố, phân tích và tìm ra nguyên nhân gốc rễ của vấn đề hiện tại.

Trong AIOps, quy trình tương tự diễn ra, tuy nhiên có một vài sự khác biệt. Ngày càng có nhiều nhóm sử dụng tính năng ChatOps tích hợp trong công cụ AIOps, nơi các thành viên trong nhóm có thể trò chuyện và chạy các script để chẩn đoán và giải quyết vấn đề.

Một thay đổi khác trong AIOps là thay vì phải xem xét các bảng điều khiển và sự kiện khác nhau, đội ngũ vận hành có thể truy cập vào bảng điều khiển sự kiện AIOps, tại đây các sự kiện đã được hợp nhất và liên kết cùng với nguyên nhân có thể xảy ra, được hệ thống AIOps đánh dấu và cung cấp.

Khung nhìn về sơ đồ cấu trúc và mối quan hệ giữa các hệ thống bị ảnh hưởng hoặc đang được kiểm tra cũng có sẵn từ bảng điều khiển AIOps; do đó, đội ngũ vận hành không cần phải truy cập vào nhiều hệ thống khác nhau để có được bức tranh đầy đủ.

Điều này giúp tăng tốc toàn bộ quá trình phân tích nguyên nhân gốc rễ, xác định vấn đề và giải quyết sự cố.

Một khía cạnh quan trọng khác của sự cộng tác trong AIOps là không chỉ có sự cộng tác giữa con người. Hệ thống trí tuệ nhân tạo cũng tham gia vào toàn bộ quá trình cộng tác và lưu trữ thông tin trong hồ sơ của nó để sử dụng như một công cụ học tập và có thể được dùng tới trong các sự cố tương lai liên quan đến cùng một tập hợp sự kiện hoặc nguyên nhân có khả năng xảy ra. Công cụ AIOps có thể truy xuất các hồ sơ trước đây và giúp đội ngũ vận hành tham khảo lại kiến thức tích lũy từ các phân tích cộng tác đã được thực hiện trước đó. Do đó, kiến thức lịch sử không bị mất đi mà được tích lũy để sử dụng trong tương lai.

Phản hồi

Phản hồi là bước cuối cùng trong quy trình Quan sát nhưng có thể là bước quan trọng nhất. Như trình bày trong các phần trước, phân tích nguyên nhân gốc rễ hoặc nguyên nhân có khả năng xảy ra là một trong những yếu tố quan trọng nhất trong AIOps, và nền tảng của phân tích nguyên nhân gốc rễ là việc cung cấp phản hồi liên tục về độ chính xác và điểm số tin cậy của nó từ đội ngũ vận hành. Mỗi nguyên nhân gốc rễ được xác định bởi nền tảng AIOps đều được phân tích, để từ đó đội ngũ vận hành sẽ cung cấp phản hồi trong hệ thống. Do đó, một nguyên nhân gốc rễ không chính xác do AIOps đưa ra sẽ được đánh dấu là sai, và nguyên nhân chính xác sẽ được đánh dấu là đúng. Dữ liệu phản hồi này giúp hệ thống AI hiểu được môi trường và cải thiện mô hình của nó. Đây là dữ liệu đã được gán nhãn, cần thiết cho việc huấn luyện hệ thống học có giám sát trong AIOps. Khi có đủ dữ liệu về những sự kiện nào là nguyên nhân gốc rễ và những sự kiện nào không phải, hệ thống có thể phân tích và giải thích tốt hơn về các sự kiện tiếp theo dựa trên việc học này. Do đó, phản hồi chính là yếu tố thúc đẩy quá trình học liên tục của hệ thống. Điều này giúp hệ thống AI học hỏi để cải thiện độ chính xác và điểm số tin cậy, đạt được mức độ chính xác mà dữ liệu có thể được sử dụng để kích hoạt tự động hóa.

Thông thường, sau vài tháng vận hành hệ thống AIOps và cung cấp thông tin phản hồi, độ chính xác và điểm số tin cậy của hệ thống sẽ đạt đến mức mà tự động hóa có thể được kích hoạt từ nền tảng AIOps đối với các cảnh báo có xác suất nguyên nhân có thể xảy ra cao, giúp toàn bộ quá trình từ phát hiện vấn đề đến thực hiện hành động sửa chữa qua tự động hóa được thực hiện hoàn toàn mà không cần sự can thiệp của con người. Đây là phần kết thúc giai đoạn Quan sát của hệ thống AIOps. Bây giờ, chúng ta sẽ chuyển sang chức năng cốt lõi khác trong AIOps, đó là Tương tác (Engage).

3.2.2. Tương tác (Engage)

Giai đoạn Tương tác liên quan đến ITSM và là một phần quan trọng trong AIOps vì ở đây chủ yếu xử lý các vấn đề liên quan đến quy trình và con người. Giai đoạn này xử lý dữ liệu quản lý dịch vụ và do đó là kho lưu trữ tất cả thông tin về hành động đang diễn ra trong các chức năng ITSM quan trọng như quản lý sự cố, quản lý vấn đề, quản lý thay đổi, quản lý cấu hình, thỏa thuận mức dịch vụ, quản lý khả dụng và quản lý năng lực. Hình 10 minh họa điều này.

9 1754912242

Hình 10. Quản lý dịch vụ CNTT sử dụng AIOps

Cải tiến dịch vụ liên tục là một chu trình quan trọng trong ITSM, và đó là nơi hầu hết các phân tích được thực hiện trong AIOps. Trong giai đoạn Quan sát, dữ liệu chính bao gồm các sự kiện, chỉ số, nhật ký và dấu vết, nhưng ở đây, dữ liệu chính liên quan đến các hoạt động đang được thực hiện trong các quy trình. Các quy trình công việc trong giai đoạn Quan sát chủ yếu là máy với máy; ở đây, các quy trình công việc liên quan đến yếu tố con người.

Dữ liệu trong giai đoạn Quan sát chủ yếu là thời gian thực, nhưng trong giai đoạn Tương tác, nó là sự kết hợp giữa phân tích thời gian thực và phân tích theo yêu cầu.

Hãy đi sâu tìm hiểu các yếu tố và giai đoạn của nó.

Tạo thông tin sự cố (Incident Creation)

Giai đoạn Tương tác bắt đầu bằng việc giai đoạn Quan sát tạo ra thông tin sự cố trong hệ thống ITSM. Sau khi phân tích nguyên nhân có khả năng xảy ra và tạo ra một cảnh báo được xem là tin cậy, cảnh báo này sẽ được gửi đến hệ thống ITSM để tạo ra thông tin sự cố với thông tin đẩy đủ nhằm hỗ trợ đội quản trị vận hành trong việc xử lý sự cố. Các công cụ trong AIOps và ITSM được tích hợp để tự động tạo thông tin sự cố trong hệ thống ITSM cũng như tự động điền thông tin vào các trường trong ITSM, trong đó bao gồm mô tả về cảnh báo và các thông tin liên quan khác đã được định nghĩa trước đó trong giai đoạn Quan sát.

Nếu một cảnh báo bị xóa khỏi giai đoạn Quan sát, công cụ AIOps sẽ tự động cập nhật trong ITSM để thông tin sự cố có thể được đóng lại. Nếu cảnh báo nhận được sự kiện mới được kích hoạt, hệ thống sẽ cập nhật thông tin sự cố trong ITSM với thông tin mới để cảnh báo cho đội ngũ vận hành.

Với tình huống mà các thông tin sự kiện trên bảng điều khiển trong giai đoạn Quan sát không tự động bị xóa khi vấn đề đã được giải quyết, khi đó, có sự tích hợp hai chiều để hệ thống ITSM sẽ xóa báo động khi sự cố được đóng, giúp bảng điều khiển sự kiện phản ánh trạng thái chính xác của các hệ thống đang được giám sát.

Phân công nhiệm vụ

Trong các hệ thống trước đây, nhiệm vụ được phân công cho các thành viên bởi trưởng nhóm theo sự sẵn có của nguồn lực và kỹ năng cần thiết để hoàn thành một nhiệm vụ cụ thể. Trong các hệ thống hiện đại dựa trên AIOps, việc phân công nhiệm vụ được thực hiện thông qua tự động hóa được định nghĩa trong hệ thống ITSM hoặc bên ngoài hệ thống đó. Công cụ phân công nhiệm vụ xem xét sự sẵn có của nguồn lực trong ca làm việc cụ thể, trình độ kỹ năng của họ, công nghệ cần thiết để giải quyết một nhiệm vụ hoặc sự cố, và khối lượng công việc mà nguồn lực đó đã có. Dựa trên các tham số này, phiếu nhiệm vụ (ticket) sẽ được phân công cho mỗi cá nhân để làm việc và cập nhật tiến độ cho đến khi hoàn thành.

Việc phân công nhiệm vụ được thực hiện bằng hệ thống dựa trên quy tắc thay vì học máy vì cần phù hợp kỹ năng với nhiệm vụ và phù hợp với mức độ kinh nghiệm của nguồn lực cùng với khối lượng công việc hoặc nguồn lực sẵn có.

Tuy nhiên, các hệ thống dựa trên xử lý ngôn ngữ tự nhiên và trích xuất văn bản có thể được sử dụng để trích xuất thông tin sự cố và đề xuất kỹ năng phù hợp, từ đó hỗ trợ công cụ phân công nhiệm vụ. Việc sử dụng hoặc không sử dụng học máy cho điều này hoàn toàn phụ thuộc vào quy mô, kích thước và độ phức tạp của môi trường CNTT trong tổ chức. Đối với tổ chức nhỏ, các hệ thống dựa trên quy tắc sẽ hoạt động rất tốt, và việc tận dụng học máy có thể không cần thiết. Tuy nhiên, các hoạt động lớn và phức tạp hơn có thể áp dụng học máy để hoạt động vận hành hiệu quả hơn.

Phân tích nhiệm vụ

Nhiệm vụ được phân công cho cá nhân cần phải được phân tích; vì vậy, mỗi nhiệm vụ trong hệ thống đều tạo ra dữ liệu. Phân tích thống kê các nhiệm vụ trong hệ thống được sử dụng để có được sự thấu hiểu về cách thức quy trình và con người đang hoạt động. Nhiệm vụ có thể được phân tích đối với dữ liệu khối lượng công việc cũng như dữ liệu hiệu quả theo thời gian thực hiện. Việc phân tích các nhiệm vụ mang lại nhận biết sâu sắc quan trọng để triển khai các dự án cải tiến quy trình (Six Sigma hoặc Lean) trong tổ chức.

Việc phân tích nhiệm vụ cũng được sử dụng để đánh giá độ chính xác của công cụ phân công nhiệm vụ nhằm xem liệu các nhiệm vụ có được phân công đúng cách hay không. Nếu các nhiệm vụ không được phân công đúng, chúng sẽ liên tục được chuyển qua lại giữa các nhóm khác nhau, làm giảm hiệu quả hoạt động quản trị vận hành.

Phân tích tác nhân (Agent Analytics)

Tương tự như phân tích nhiệm vụ, yếu tố quan trọng khác trong ITSM là những tác nhân hoặc nguồn lực đang thực hiện các nhiệm vụ này. Phân tích này đánh giá hiệu suất của các tác nhân tự động cũng như con người theo các tham số như độ chính xác, thời gian giải quyết vấn đề, hiệu suất cá nhân và hiệu suất so với các chuẩn mực. Điều này có thể giúp phát hiện các vấn đề về kỹ năng hoặc sự sẵn có của nguồn lực. Dữ liệu này cũng hữu ích để phân tích xem công cụ phân công có chỉ định nhiệm vụ đúng cách hay không.

Phân tích thay đổi

Sự thay đổi bao gồm cập nhật bản vá, nâng cấp, thay đổi cấu hình và phát hành phần mềm mới vào môi trường hoạt động có thể là nguồn gốc của các sự cố. Những gì trước đây làm việc bình thường có thể không hoạt động sau khi thực hiện thay đổi. Vì vậy, việc phân tích các thay đổi đang xảy ra trong cơ sở hạ tầng và môi trường ứng dụng là rất quan trọng.

Phân tích thay đổi bao gồm các lĩnh vực mà tác động của thay đổi có thể được đánh giá bằng cách sử dụng thông tin về sơ đồ cấu trúc và cấu hình. Phân tích thay đổi cũng bao gồm phân tích xác suất về rủi ro đối với cơ sở hạ tầng và các nền tảng bị ảnh hưởng bởi sự thay đổi. Điều này có thể liên quan đến việc phân tích dữ liệu về sơ đồ cấu trúc, mối quan hệ giữa các thành phần khác nhau, phạm vi và độ phức tạp của thay đổi, cùng với dữ liệu lịch sử liên quan đến những thay đổi này để đưa ra điểm số mức độ rủi ro cho một thay đổi cụ thể. Điểm số phản hồi từ đánh giá của kỹ thuật viên và người phê duyệt thay đổi cũng là yếu tố quan trọng để phân tích thay đổi và lên kế hoạch thực thi, với việc lưu ý đến các rủi ro mà nó mang lại.

Phân tích quy trình

Việc phân tích các quy trình cơ bản quan trọng trong ITSM bao gồm quản lý sự cố và quản lý thay đổi. Tuy nhiên, tất cả các quy trình trong ITSM đều cần phải có phân tích, đặc biệt là xung quanh các KPI được định nghĩa cho từng quy trình.

Ví dụ, quản lý thay đổi có các KPI liên quan đến các thay đổi được triển khai trong một khoảng thời gian nhất định, các thay đổi gây ra sự cố và sự kiện, v.v. Tương tự, quản lý sự cố có các KPI liên quan đến thời gian phản hồi và thời gian giải quyết sự cố cùng với các KPI quy trình khác như thời gian để xác định nguyên nhân gốc rễ, vv…

Quy trình quản lý cấp độ dịch vụ (SLA) có KPI liên quan đến các SLA cho việc phản hồi và giải quyết các vấn đề theo mức độ ưu tiên. Ví dụ, tất cả các sự cố mức 1 nên được phản hồi trong vòng 5 phút và giải quyết trong vòng 30 phút với SLA đạt 90% trong chu kỳ hàng tháng. Điều này có nghĩa là 90% các sự cố mức 1 nên được phản hồi và giải quyết trong thời gian đã định, hơn nữa phép tính này được thực hiện hàng tháng và được thiết lập lại vào đầu mỗi tháng.

Tất cả dữ liệu quy trình này được đưa vào nền tảng AIOps để thực hiện phân tích thống kê nhằm mục đích cải tiến quy trình. Có thể sử dụng các kỹ thuật học máy AIOps như hồi quy để dự đoán các chỉ số trong tương lai dựa trên dữ liệu lịch sử; các kỹ thuật hồi quy sẽ xem xét các biến động theo thời điểm và dữ liệu từ quá khứ để đưa ra các giá trị dự đoán trong tương lai.

Dữ liệu này giúp lập kế hoạch tài nguyên tốt hơn và cũng hỗ trợ các sáng kiến cải tiến quy trình.

Hiển thị trực quan (Visualization)

Vì hầu hết dữ liệu trong các hệ thống ITSM liên quan đến các khía cạnh con người, quy trình và công nghệ, việc có sẵn công cụ hiển thị trực quan và bảng điều khiển phù hợp là rất quan trọng để hiểu rõ dữ liệu này nhằm cho phép cải tiến dịch vụ liên tục.

Có nhiều bên liên quan cần truy cập vào dữ liệu này với các yêu cầu khác nhau; vì vậy, lớp hiển thị trực quan cần phải có quyền truy cập và chế độ xem dựa trên vai trò (role) để hỗ trợ đội ngũ vận hành.

Có các vai trò như người quản lý cung cấp dịch vụ, người quản lý sự cố, trưởng nhóm trung tâm điều hành, các chuyên gia phân tích quy trình, v.v. Bên cạnh đó sẽ có người quản lý cấp độ dịch vụ, người quản lý thay đổi và cấu hình, đây là những người chịu trách nhiệm về SLA với khách hàng và chịu trách nhiệm duy trì dữ liệu quản lý cấu hình CMDB. Tất cả các vai trò này đều cần có cái nhìn trực quan và sự thấu hiểu đúng mức đối với dữ liệu liên quan để có thể quản lý các quy trình của họ một cách hiệu quả.

Hiển thị trực quan cũng cần thiết cho người quản lý doanh nghiệp và người tạo ra sản phẩm. Trong trường hợp thuê dịch vụ bên ngoài sẽ cần có các thông tin trực quan cho khách hàng và nhà cung cấp dịch vụ.

Việc sử dụng công cụ hiển thị trực quan và bảng điều khiển phù hợp trong AIOps là rất quan trọng để có được thông tin toàn diện, bao gồm tri thức nhận biết sâu sắc được tạo ra bởi các thuật toán học máy, giúp vận hành với hiệu quả và độ trưởng thành cao hơn.

Cộng tác

Giống như trong giai đoạn Quan sát, cộng tác cũng rất quan trọng trong giai đoạn Tương tác. Trong giai đoạn Quan sát, sự cộng tác giữa các nhóm diễn ra trên các kênh liên lạc hoặc sử dụng ChatOps để tìm nguyên nhân gốc rễ của vấn đề. Trong giai đoạn Tương tác, cộng tác diễn ra giữa các bên liên quan khác nhau để giải quyết vấn đề. Vì vậy, các bên liên quan cộng tác trên các phiếu nhiệm vụ để giải quyết vấn đề. Khác với giai đoạn Quan sát, nơi nhiều nhóm phải cộng tác để phân tích các vấn đề, trong giai đoạn này, thường chỉ có một nhóm nhỏ người tham gia, đôi khi giới hạn trong một lĩnh vực công nghệ cụ thể; đôi khi chỉ có một cá nhân làm việc trên phiếu nhiệm vụ.

Cộng tác cũng diễn ra trong các nhiệm vụ yêu cầu dịch vụ và thực hiện thay đổi; tuy nhiên, phần lớn điều này được điều phối qua hệ thống dựa trên quy tắc, nơi mỗi nhiệm vụ được phân công để hoàn thành theo trình tự cho người cần thực hiện công việc. Trong quản lý thay đổi, yêu cầu cộng tác ở mức độ cao hơn vì nhiều nhóm có thể tham gia vào việc thực hiện một thay đổi phức tạp và lớn; quy trình quản lý thay đổi quản lý điều này thông qua phương pháp dựa trên quy tắc, nơi các bên liên quan cần thiết được hệ thống tập hợp lại ở các giai đoạn khác nhau của một thay đổi.

Nếu người chịu trách nhiệm thực hiện một nhiệm vụ không thể hoàn thành trong thời gian được giao, hệ thống sẽ phân công hoặc huy động nguồn lực có kỹ năng cao hơn để hỗ trợ và hoàn thành nhiệm vụ đúng hạn. Tất cả điều này được thực hiện thông qua hệ thống dựa trên quy tắc, theo dõi thời gian hoàn thành nhiệm vụ và nâng cao mức độ ưu tiên sau khi hết thời gian quy định.

Cộng tác cũng diễn ra trong các quy trình này trên lớp hiển thị trực quan hoặc bảng điều khiển, nơi các bên liên quan khác nhau có thể cùng nhau xem xét dữ liệu, phân tích nó và đưa ra các quyết định cần sự đóng góp từ nhiều nhóm hoặc bên liên quan.

Mặc dù chủ yếu dựa trên quy tắc, nhưng có những khía cạnh của ChatOps có thể được sử dụng trong giai đoạn Tương tác, nơi các nhóm có thể sử dụng ChatOps để cộng tác về sự cố, vấn đề và sự thay đổi trong thời gian thực. Dữ liệu này cũng được lưu trữ cho việc quản lý tri thức.

Quản lý tri thức là một yếu tố quan trọng trong giai đoạn Tương tác vì các hệ thống ITSM là kho lưu trữ chính của hầu hết thông tin trong quản lý dịch vụ CNTT. Các kỹ thuật AIOps như xử lý ngôn ngữ tự nhiên và trích xuất văn bản rất hữu ích để tìm thông tin liên quan khi giải quyết sự cố cũng như thực hiện thay đổi và yêu cầu dịch vụ. Hệ thống AIOps có thể sử dụng các kỹ thuật truy xuất thông tin và tìm kiếm để tìm thông tin liên quan một cách nhanh chóng và dễ dàng, giúp đội ngũ vận hành giải quyết sự cố nhanh hơn.

Phản hồi

Phản hồi trong giai đoạn Tương tác được tạo ra thông qua nhiều cơ chế và trong nhiều quy trình khác nhau. Trong quy trình quản lý sự cố, việc đóng một sự cố sẽ kích hoạt phản hồi do người dùng bị ảnh hưởng điền vào; tương tự, các sự cố được mở lại là một cơ chế phản hồi cho phân tích. Phản hồi về các thay đổi thất bại hoặc các thay đổi phải bị hủy bỏ cũng như các thay đổi đã được thực hiện hoàn toàn nhưng gây ra sự cố là một đầu vào quan trọng.

Những yêu cầu dịch vụ được người dùng tạo ra cũng kích hoạt một phản hồi sau khi hoàn thành và tạo thành một đầu vào cho phân tích để hiểu quy trình đang hoạt động như thế nào.
Tất cả dữ liệu này được đưa vào hệ thống để được trình diện trong lớp hiển thị trực quan và phân tích sử dụng các kỹ thuật phân tích.

Thay vì đóng vai trò là phản hồi cho một thuật toán, phản hồi ở đây chủ yếu được sử dụng trong phân tích dữ liệu để ra quyết định nhằm cải thiện quy trình tổng thể.

Hệ thống ITSM trong giai đoạn Tương tác sẽ điều phối toàn bộ quy trình, trong đó mọi bước của quy trình đều được ghi lại và cập nhật trong giai đoạn Tương tác của AIOps; tuy nhiên, hành động thực sự được thực hiện lại nằm trong giai đoạn Hành động, mà chúng ta sẽ thảo luận sau.

3.2.3. Hành động (Act)

Giai đoạn Hành động là giai đoạn thực thi các nhiệm vụ bao gồm giải quyết sự cố, thực hiện yêu cầu dịch vụ, thực hiện thay đổi, v.v… Hình 11 thể hiện hình ảnh trực quan về giai đoạn này. Theo đó, tất cả các nhiệm vụ kỹ thuật do đội ngũ vận hành thực hiện đều thuộc về giai đoạn này.

10 1754912492

Hình 11. Tự động hóa CNTT sử dụng AIOps

 Hoàn thành hành trình AIOps diễn ra ở lớp Hành động; chính tại đây sự cố được giải quyết và hệ thống được đưa về trạng thái bình thường. AIOps có lợi ích ngay cả khi không có lớp này, nơi phần lớn các hoạt động chẩn đoán và phân tích được thực hiện trong các giai đoạn Quan sát và Tương tác; tuy nhiên, việc mở rộng AIOps đến giai đoạn Hành động sẽ gia tăng lợi ích lên nhiều lần khi các tổ chức không chỉ có thể phát hiện vấn đề nhanh chóng mà còn có thể giải quyết chúng tự động mà không cần sự can thiệp của con người.

Để lớp Hành động hoạt động, điều quan trọng là phải triển khai và tinh chỉnh lớp Quan sát. Nếu nền tảng AIOps không có khả năng phát hiện sự bất thường và không chỉ ra được nguyên nhân gốc rễ, cũng như kích hoạt hành động thì rất khó để lớp Hành động thực hiện giải quyết vấn đề.

Vì vậy, lớp Hành động được tích hợp với các lớp Quan sát và Tương tác để nhận dữ liệu, sau đó thực hiện các hành động dựa trên dữ liệu đó để giải quyết hoặc thực hiện các hành động khác trên môi trường kỹ thuật. Như trình bày ở các phần trước, lớp Quan sát sử dụng các kỹ thuật trong AIOps tìm nguyên nhân gốc rễ và sau đó tạo thông tin sự cố trong hệ thống ITSM hoặc lớp Tương tác; sau đó lớp Hành động có thể nhận thông tin này từ lớp Tương tác để giải quyết sự cố một cách tự động.

Để giải quyết sự cố tự động, lớp Hành động cần biết cách giải quyết sự cố, theo đó lớp này cần hiểu sự cố và hạ tầng mà sự cố này đã xảy ra. Có nhiều kỹ thuật khác nhau được sử dụng trong AIOps để làm việc này, bắt đầu với kỹ thuật ít phức tạp nhưng rất hiệu quả là việc đề xuất tự động hóa.

Đề xuất quy trình tự động hóa

Bước đầu tiên để giải quyết vấn đề là đề xuất quy trình tự động hóa nào sẽ giải quyết một vấn đề cụ thể. Điều này có thể được thực hiện bằng cách sử dụng phương pháp dựa trên quy tắc hoặc phương pháp học máy. Trong phương pháp dựa trên quy tắc, mỗi loại nguyên nhân có thể xảy ra được ánh xạ với một quy trình tự động hóa, được kích hoạt để giải quyết nguyên nhân đó. Trong phương pháp AIOps học máy, mối quan hệ này không cố định và mang tính xác suất.

Các kỹ thuật như xử lý ngôn ngữ tự nhiên và trích xuất văn bản được sử dụng để tìm ra quy trình tự động hóa phù hợp để giải quyết vấn đề và từ đó đề xuất quy trình đó như một giải pháp cho nguyên nhân được xác định trong lớp Quan sát.

Các quy trình tự động hóa trong AIOps thường là tĩnh; tuy nhiên, công nghệ mới sử dụng kỹ thuật học máy tiên tiến kết hợp với sổ tay hướng dẫn (runbook) có thể xâu chuỗi với nhau để giải quyết vấn đề, từ đó tạo ra quy trình tự động hóa mới ngay lập tức bằng cách sử dụng học máy. Những cụ như DryICE iAutomate cung cấp tính năng tiên tiến này cùng với sổ tay hướng dẫn và mô hình đã được huấn luyện sẵn sẽ giúp tăng cường khả năng đề xuất quy trình tự động hóa một cách đáng kể.

Đề xuất quy trình tự động hóa cũng cung cấp một điểm số tin cậy cho việc tự động hóa. Theo đó, tác vụ có rủi ro thấp có thể được tự động ánh xạ để thực hiện đề xuất, trong khi các tác vụ rủi ro cao sẽ cần cán bộ vận hành xác nhận đề xuất trước khi nó được gửi để thực hiện.

Thực thi tự động hóa

Thực thi tự động hóa là hành động thực sự được tiến hành theo đề xuất được tạo ra trong bước trước. Do đó, khi nguyên nhân có thể xảy ra đã được ánh xạ với một quy trình tự động hóa, quy trình này sẽ được kích hoạt để giải quyết vấn đề.

Lớp thực thi có thể được xây dựng trong nền tảng AIOps hoặc có thể tận dụng các công cụ tự động hóa hiện có của tổ chức. Đồng thời, công cụ thực thi tự động hóa cũng cung cấp phản hồi cho nền tảng AIOps về kết quả thực thi thành công hoặc không thành công.

Tự động hóa có thể được kích hoạt bằng nhiều công cụ khác nhau, bao gồm công cụ tự động hóa runbook, công cụ quản lý cấu hình, công cụ phân bổ tài nguyên, các công cụ IaC, RPA, DevOps. Hầu hết các tổ chức có nhiều công cụ tự động hóa và các công cụ liên quan có thể được tích hợp thành nhánh thực thi tự động hóa để được kích hoạt bởi công cụ đề xuất quy trình tự động hóa.

Các tác vụ tự động hóa có thể là những tác vụ đơn giản như chạy một script PowerShell hoặc shell để khởi động lại dịch vụ hoặc có thể bao gồm các tác vụ phức tạp hơn như triển khai khởi tạo mới tài nguyên hạ tầng IT.

Việc thực thi tự động có thể áp dụng cho nhiều trường hợp khác nhau, bao gồm giải quyết sự cố, hoàn thành yêu cầu dịch vụ và điều phối thay đổi.

Giải quyết sự cố

Trong việc thực thi tự động hóa, giải quyết sự cố là công đoạn liên kết chặt chẽ với giai đoạn Quan sát. Ở đây, đầu ra của giai đoạn Quan sát, tức là nguyên nhân có khả năng xảy ra, trở thành đầu vào cho việc đánh giá tự động hóa, và nếu có một quy trình tự động hóa có sẵn cho nguyên nhân được chỉ ra đó, nó có thể được kích hoạt tự động hoặc thông qua sự xác nhận của cán bộ vận hành để giải quyết vấn đề.

Giải quyết sự cố là khía cạnh mà kỹ thuật học máy trong việc đề xuất quy trình tự động hóa có thể được sử dụng hiệu quả và sẽ mang lại kết quả tốt hơn so với các hệ thống dựa trên quy tắc.

Thực hiện yêu cầu dịch vụ (SR Fulfilment)

Thực hiện yêu cầu dịch vụ đề cập đến khía cạnh khi người dùng yêu cầu các dịch vụ cụ thể, được ghi lại trong hệ thống ITSM. Những yêu cầu dịch vụ này sẽ được thực hiện dưới dạng một chuỗi các tác vụ, được thực thi tự động hoặc có sự tham gia của con người.

Vì yêu cầu dịch vụ chủ yếu mang tính xác định và không có sự mơ hồ về cách thức thực hiện tác vụ này, vai trò của các công nghệ học máy trong lĩnh vực này là hạn chế.

Yêu cầu dịch vụ được hoàn thành thông qua một chuỗi các tiến trình tuần tự gọi là các tác vụ. Ở mỗi giai đoạn thực hiện, người yêu cầu sẽ được cập nhật về tiến độ xử lý yêu cầu của mình, cuối cùng, người yêu cầu sẽ được thông báo về việc hoàn thành và cách thức kiểm tra kết quả đã được thực hiện.

Yêu cầu dịch vụ có thể là yêu cầu bàn giao sản phẩm phần mềm hoặc hệ thống phần cứng; ví dụ, việc giao một chiếc laptop cho một nhân viên mới là một yêu cầu dịch vụ, thực tế phải trải qua một quá trình thực hiện vật lý và do đó không thể tự động hóa hoàn toàn. Tự động hóa ở đây liên quan đến việc tích hợp hệ thống yêu cầu dịch vụ với hệ thống mua sắm và đặt hàng để yêu cầu có thể được chuyển tự động đến đối tác hoặc nhà cung cấp bên thứ ba, những người sẽ tiếp nhận và thực hiện giao thiết bị.

Những tác vụ triển khai phần mềm có thể được tự động hóa hoàn toàn thông qua nền tảng triển khai phần mềm cho các yêu cầu dịch vụ, bao gồm cả việc triển khai ứng dụng cuối như Microsoft Office trên laptop.

Vai trò của học máy trong công đoạn này liên quan đến các trợ lý ảo nhận thức thể hiện qua giao diện tương tác bằng tin nhắn hoặc giọng nói giúp người dùng dễ dàng trò chuyện bằng ngôn ngữ tự nhiên, tìm ra sản phẩm hoặc dịch vụ phù hợp và sau đó đưa ra yêu cầu dịch vụ từ giao diện tương tác này. Trợ lý ảo nhận thức được tích hợp trong lớp Tương tác và tạo yêu cầu sau khi nhận được sự xác nhận từ người dùng. Các trợ lý ảo này cũng có thể được sử dụng để theo dõi tiến độ thực hiện yêu cầu.

Trợ lý ảo nhận thức sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên và hiểu ngữ nghĩa, kết hợp với các công nghệ học máy và học sâu để phân tích ý định của người dùng và cung cấp phản hồi phù hợp.

Trợ lý ảo nhận thức được áp dụng chủ yếu trong phạm vi yêu cầu dịch vụ; tuy nhiên, chúng cũng có thể được áp dụng hiệu quả trong quản lý sự cố và quản lý thay đổi. Trợ lý ảo có thể hỗ trợ tự động hóa quy trình trong các lĩnh vực này, giúp giảm bớt sự can thiệp của con người và cải thiện hiệu quả quản lý sự cố hoặc quản lý thay đổi.

Điều phối thay đổi (Change Orchestration)

Tương tự như việc thực hiện yêu cầu dịch vụ, các thay đổi được lập kế hoạch chi tiết và bao gồm một loạt nhiệm vụ cần thực hiện bởi các nhóm khác nhau.

Có những nhiệm vụ liên quan đến việc xem xét thay đổi, trong đó một hội đồng tư vấn thay đổi gồm các bên liên quan kỹ thuật và nghiệp vụ sẽ xem xét tất cả các khía cạnh của thay đổi và phê duyệt nó.

Có các bước khác như xem xét kế hoạch thử nghiệm thay đổi, kế hoạch phục hồi, vv…, và ở mỗi giai đoạn, các bên liên quan khác nhau có thể tham gia vào việc xem xét và phân tích thay đổi.

Khi mọi thứ đã được xem xét và sẵn sàng được thực hiện theo lịch trình, sự thay đổi sẽ được thực hiện theo từng bước bởi đội ngũ kỹ thuật.

Do đó, điều phối thay đổi là một quá trình được lập kế hoạch với các bước và nhiệm vụ được xác định rõ ràng ở mỗi giai đoạn, và các hệ thống dựa trên quy tắc đã được sử dụng để vận hành quy trình này trong suốt thời gian dài. Vì các nhiệm vụ trong điều phối thay đổi chủ yếu mang tính chất xác định và không có sự mơ hồ về cách thức thực hiện nhiệm vụ, vai trò của công nghệ học máy là hạn chế.

Tuy nhiên, có một số khía cạnh mà công nghệ học máy hoặc phân tích có thể được sử dụng trong điều phối thay đổi. Lập lịch thay đổi và tránh xung đột là một trong những tình huống như vậy.

Khi một thay đổi được lập lịch, nó liên quan đến các thành phần hạ tầng, nền tảng và ứng dụng tạo nên thành phần của thay đổi đó; thay đổi cũng được lên lịch vào một thời gian và ngày cụ thể. Các kỹ thuật phân tích có thể được sử dụng để phát hiện nếu có các mục bị ảnh hưởng bởi thay đổi và nếu có những thay đổi bị xung đột hoặc chồng chéo ảnh hưởng đến các thiết bị hoặc hệ thống kết nối. Dữ liệu này có thể được phân tích bằng cách so khớp dữ liệu cấu hình và sơ đồ cấu trúc với các lịch thay đổi, và thông tin này có thể được sử dụng bởi hội đồng tư vấn thay đổi để phân tích tốt hơn thay đổi và tác động của nó, từ đó có thể dẫn đến việc lập lại lịch thực hiện thay đổi trong trường hợp có xung đột.

Khía cạnh khác là phân tích rủi ro thay đổi; chúng ta biết rằng mỗi thay đổi đều mang theo một rủi ro đối với ứng dụng và hạ tầng, từ đó có thể dẫn đến thời gian gián đoạn. Các kỹ thuật phân tích dự báo có thể được sử dụng để tìm ra rủi ro của thay đổi dựa trên các thành phần liên quan, độ phức tạp của thay đổi và dữ liệu phân tích rủi ro từ những thay đổi tương tự trước đó. Thành phần phân tích dự báo này từ AIOps có thể rất hữu ích trong việc cung cấp các phân tích này và cung cấp thêm thông tin này cho hội đồng tư vấn thay đổi cũng như đội ngũ thực hiện kỹ thuật.

Các trợ lý ảo nhận thức với kỹ thuật xử lý ngôn ngữ tự nhiên và hiểu biết ngữ nghĩa có thể được sử dụng trong quá trình quản lý thay đổi để đội ngũ kỹ thuật cùng đội ngũ làm quy trình cộng tác và tìm kiếm thông tin về thay đổi bằng cách sử dụng công cụ NLP trực quan của các trợ lý ảo nhận thức này.

Chúng ta đã đề cập đến một số yếu tố này trong phần phân tích thay đổi trong giai đoạn Tương tác.

Phân tích quá trình tự động hóa (Automation analytics)

Phân tích quá trình tự động hóa là một yếu tố quan trọng trong khía cạnh thực thi. Mặc dù phần lớn phân tích liên quan đến giai đoạn Tương tác, nhưng việc thực thi tự động hóa cũng tạo ra những dữ liệu giá trị cần được phân tích.

Một số dữ liệu được tạo ra bởi quá trình tự động hóa được sử dụng để cải thiện độ chính xác và hiệu quả của hệ thống tự động hóa. Các dữ liệu khác được sử dụng để báo cáo và phân tích tình trạng hiện tại của quá trình tự động hóa đang thực hiện trong tổ chức.

Thông thường, các chỉ số KPI quan trọng trong tự động hóa bao gồm:

  • Mức độ bao phủ tự động hóa
  • Tỷ lệ thành công của tự động hóa
  • Tỷ lệ thất bại của tự động hóa
  • Các trường hợp mà quá trình tự động hóa được áp dụng nhiều
  • Các trường hợp mà quá trình tự động hóa ít được áp dụng
  • Phân tích nguyên nhân thất bại
  • Các khu vực tự động hóa thấp
Hiển thị trực quan

Giống như việc trực quan hóa và tạo bảng điều khiển đã đề cập trong giai đoạn Tương tác, giai đoạn tự động hóa cũng ghi lại dữ liệu vào hệ thống. Những thông số quan trọng trong giai đoạn này cần được trực quan hóa bằng bảng điều khiển (dashboard) để cung cấp cái nhìn tổng quan về về cách thức mà quá trình tự động hóa đang thực hiện, đồng thời tiến hành phân tích để cải tiến dịch vụ liên tục dựa trên dữ liệu này.

Cộng tác

Sự cộng tác trong quá trình tự động hóa chủ yếu được thực hiện thông qua giai đoạn Tương tác vì tất cả các hoạt động đều được ghi lại trong hệ thống quản lý dịch vụ CNTT. Do đó, sự cộng tác giữa các nhóm và cá nhân tham gia vào việc xử lý sự cố, yêu cầu dịch vụ và phối hợp thay đổi được thực hiện trong giai đoạn Tương tác bằng cách sử dụng các công cụ ITSM.

Tuy nhiên, với ChatOps trong AIOps, các tác nhân ảo nhận thức trở thành cốt lõi của sự cộng tác giữa các nhóm, nơi họ có thể tương tác với các bên liên quan cũng như lấy dữ liệu cần thiết từ các hệ thống ITSM, điều này là cần thiết trong giai đoạn Hành động. Do đó, sự cộng tác thời gian thực trong các hoạt động thực tế ở giai đoạn Hành động được thực hiện thông qua ChatOps, nơi con người giao tiếp với nhau và với máy móc để phân tích dữ liệu và đưa ra các quyết định thích hợp.

Phản hồi

Thông tin này có sẵn trong hệ thống AIOps để phân tích hiệu quả của việc thực thi tự động hóa. Phản hồi từ quá trình thực thi tự động là một đầu vào quan trọng vào hệ thống AIOps. Thành công và thất bại của các script tự động hóa là dữ liệu học tập quan trọng đối với các thuật toán học máy. Dữ liệu này giúp hệ thống cải thiện điểm chính xác và thay đổi điểm tin cậy của các công cụ và script tự động hóa khác nhau.

Cán bộ quản trị vận hành xác nhận hành động mà thuật toán AIOps đang đề xuất, do đó, thông tin đầu vào của con người sẽ cung cấp việc huấn luyện cho các thuật toán AIOps, nơi chúng có thể cải thiện mô hình của mình và thay đổi điểm tin cậy dựa trên phản hồi của con người.

Theo thời gian, hệ thống AIOps sẽ được tinh chỉnh và trở nên tối ưu hơn với môi trường mà chúng đang hoạt động nhờ vào việc học hỏi từ hành động của các cán bộ vận hành. Điểm tin cậy của các phương án giải quyết khác nhau sẽ trở nên đủ cao để chuyển sang chế độ hoàn toàn tự động, trong đó không còn cần sự can thiệp của con người đối với một số trường hợp nhất định. Làm được như vậy tức là AIOps đã thực sự biến hoạt động vận hành trở thành NoOps. Việc mở rộng thư viện các trường hợp áp dụng tự động hoàn toàn và tỷ lệ thành công của chúng sẽ chịu ảnh hưởng rất lớn bởi kiến thức về bản thiết kế ứng dụng (application blueprint) cùng mức độ liên quan hoặc mức độ tác động đến doanh nghiệp, và đó là lý do tại sao việc xác định ứng dụng trở nên quan trọng, điều mà chúng ta sẽ thảo luận tiếp theo.

Xác định và nhận biết ứng dụng (Application Discovery and Insights)

Để quản lý các KPI trong giao dịch kinh doanh và đảm bảo các thỏa thuận cấp độ dịch vụ của quy trình kinh doanh, các doanh nghiệp cũng cần có khả năng phân tích toàn diện mạnh mẽ.

Các phân tích này cần tự động ánh xạ các giao dịch kinh doanh (chẳng hạn như đơn hàng, hóa đơn, v.v.) với các dịch vụ ứng dụng của chúng (web server, application server, databases, v.v.) và hạ tầng phần cứng (máy tính, mạng, và lưu trữ) như minh họa trong Hình 12.

11 1754912530

Hình 12. AIOps trong phân tích tác động tới doanh nghiệp và dịch vụ

Điều này phải được thực hiện theo thời gian thực trên các môi trường CNTT phân tán và hybrid. Nếu không có khả năng này, doanh nghiệp sẽ buộc phải tham gia vào các tình huống xử lý sự cố phức tạp và tốn thời gian để xác định hàng trăm nghìn, nếu không muốn nói là hàng triệu điểm dữ liệu. Thời gian cần thiết để làm điều này có thể ảnh hưởng tiêu cực đến thời gian hoạt động và hiệu suất của các quy trình quan trọng như thương mại điện tử, đặt hàng, và các quy trình khác.

Kết nối dữ liệu: Giá trị của việc tương quan dữ liệu

Trong thời đại chuyển đổi số, doanh nghiệp phụ thuộc vào các ứng dụng để phục vụ khách hàng và cải thiện hoạt động. Các doanh nghiệp cần nhanh chóng triển khai các ứng dụng mới và áp dụng công nghệ mới để trở nên linh hoạt, hiệu quả và phản ứng nhanh chóng hơn.

Cùng với những nỗ lực này, doanh nghiệp đang sử dụng các giải pháp dựa trên đám mây, kiến trúc tập trung vào phần mềm và microservices, cũng như ảo hóa và container. Tuy nhiên, những kiến trúc và công nghệ mới này cũng tạo ra nhiều thách thức.

Một số ứng dụng doanh nghiệp hiện nay được triển khai trên đám mây công cộng, và các doanh nghiệp thường không có, hoặc có rất ít khả năng nhận thức trực quan những đám mây đó.

Ứng dụng ngày càng được triển khai trên các máy ảo thay vì các máy chủ vật lý, điều này tạo thêm sự phức tạp.

Các container thường tồn tại song song hoặc bên trong các máy ảo. Việc sử dụng container cũng đang nhanh chóng gia tăng trong các môi trường CNTT doanh nghiệp.

Môi trường CNTT như vậy rất khác biệt so với trước đây, các công cụ đo hiệu năng ứng dụng được tạo ra khoảng một thập kỷ trước giờ không còn phù hợp. Những công cụ chỉ xem xét ứng dụng mà không tính đến cơ sở hạ tầng bên dưới đều không đủ hiệu quả. Các công cụ này phải thu thập và liên kết thông tin về chính ứng dụng cùng với cơ sở hạ tầng bên dưới. Điều này cần bao gồm dữ liệu về hiệu năng của máy chủ ứng dụng, các sự kiện, nhật ký, giao dịch và nhiều yếu tố khác. Các tài nguyên tính toán, mạng và lưu trữ liên quan đến việc triển khai ứng dụng cũng cần được tính đến.

4. Các thách thức của AIOps

Mặc dù đội ngũ IT lạc quan và đang đẩy mạnh triển khai các công nghệ AIOps, vẫn tồn tại một số thách thức cản trở việc hiện thực hóa giá trị cũng như triển khai các công nghệ này. Phần này giải thích chi tiết hơn về những thách thức đó để các tổ chức có thể lập kế hoạch đối phó khi triển khai AIOps. Hình 13 liệt kê những thách thức chính trong hành trình AIOps mà chúng ta sẽ khám phá sâu hơn.

12 1754912551

Hình 13. Thách thức của AIOps

Quản lý Thay đổi Tổ chức

AIOps là một chủ đề mang tính chuyển đổi, liên quan đến nhiều quy trình khác nhau như ITSM, giám sát (monitoring), và tự động hóa quy trình vận hành (runbook automation). Chủ đề này cũng ảnh hưởng đến nhiều đội nhóm, bao gồm trung tâm điều hành (command center), bộ phận hỗ trợ dịch vụ (service desk), đội xử lý sự cố (resolution teams), tự động hóa, SRE, và DevOps. Để triển khai thành công và tạo ra giá trị, cần có quản lý thay đổi hiệu quả ở cấp tổ chức, cùng với sự hỗ trợ và tài trợ từ ban lãnh đạo để đảm bảo sự thay đổi liên chức năng này được thực hiện đến cùng. Các cấu trúc phân cấp tổ chức và sự phân chia chức năng có thể cản trở việc triển khai AIOps một cách hiệu quả và thành công; do đó, đây là yếu tố cần được lưu ý.

Thông thường, các đội nhóm trước đây được cấu trúc theo các cấp phân quyền chức năng khác nhau và họ chỉ cộng tác khi cần thiết thông qua các quy trình và chính sách được xác định. AIOps là một sự thay đổi đột phá, ảnh hưởng mạnh mẽ đến tất cả các đội nhóm này.

Để khởi động dự án và đạt được thành công, điều quan trọng là phải thực hiện nó như một chương trình có ý nghĩa toàn diện cho tổ chức và cần được giám sát, quản lý ở các cấp độ cao nhất.

Cấu trúc đội ngũ, quy trình, chính sách và các phương tiện giao tiếp cần được thay đổi để áp dụng AIOps một cách toàn diện và đạt được lợi ích tối đa thông qua việc triển khai các công nghệ này trên toàn bộ chuỗi giá trị.

Việc coi AIOps chỉ đơn giản là một thay đổi công nghệ có thể “đắp” lên các công nghệ và quy trình hiện có mà không cần tái cấu trúc là một kỳ vọng cần được điều chỉnh. Các tổ chức nên nhận thức rằng họ đang chuyển sang một hệ thống và phương pháp vận hành CNTT khác, đòi hỏi sự thay đổi về cấu trúc hiện tại, đội ngũ và quy trình. Do đó, điều này cần được xử lý một cách có định hướng quy trình, hệ thống hóa, không gây gián đoạn đến các hoạt động hiện tại và cung cấp hướng dẫn rõ ràng cho những người sẽ bị ảnh hưởng bởi sự thay đổi quy mô tổ chức này.

Phạm vi giám sát và khả năng sẵn có dữ liệu

Có những tổ chức đã triển khai giải pháp Giám sát và Quan sát đầy đủ, cho phép họ dễ dàng triển khai các công nghệ AIOps và tận hưởng các lợi ích mà AIOps mang lại. Tuy nhiên, cũng có những tổ chức mà phạm vi giám sát cơ bản chưa đầy đủ, khiến nhiều thành phần cơ sở hạ tầng và ứng dụng không được giám sát một cách hiệu quả. Do đó, vì thiếu dữ liệu, việc triển khai AIOps sẽ không thể cung cấp nguyên nhân có thể xảy ra hoặc nguyên nhân gốc rễ cho các thành phần ứng dụng hoặc cơ sở hạ tầng đó. Cuối cùng, các hệ thống học máy phụ thuộc vào sự sẵn có của dữ liệu và độ chính xác của dữ liệu. Ngoài ra, còn có những thách thức khác khi phạm vi giám sát có thể đầy đủ, nhưng các thông số giám sát được cấu hình sai, không cung cấp dữ liệu đầy đủ và chính xác để các thuật toán của AIOps hoạt động hiệu quả.

Nếu không có dữ liệu giám sát và quan sát, kỳ vọng AIOps giải quyết được các vấn đề giám sát hoặc quan sát cơ bản sẽ dẫn đến thất bại của sáng kiến và AIOps sẽ bị đổ lỗi, mặc dù vấn đề không nằm ở AIOps từ góc độ công nghệ hoặc quy trình.

Các hoạt động IT cần đánh giá mức độ trưởng thành và phạm vi bao phủ của hệ thống và quy trình từ các khía cạnh giám sát, quan sát, ITSM và tự động hóa trước khi bắt đầu hành trình AIOps. Điều này có thể được thực hiện nội bộ hoặc bằng cách thuê các chuyên gia tư vấn giàu kinh nghiệm trong lĩnh vực này, giúp cung cấp góc nhìn bên ngoài về tình trạng của tổ chức và so sánh hệ thống, quy trình với các công ty dẫn đầu trong lĩnh vực này. Nhờ đó sẽ dẫn đến một hành trình trưởng thành, trong đó có thể cần thực hiện các dự án và chương trình để chuẩn bị tổ chức cho AIOps. Ví dụ, nếu phạm vi giám sát chưa toàn diện, một chương trình riêng để khắc phục và cung cấp phạm vi toàn diện có thể được triển khai như một bước chuẩn bị trước khi đưa AIOps vào hoạt động.

Các quy trình cứng nhắc

Có những tổ chức mà quy trình và thủ tục quản lý sự kiện rất cứng nhắc, khiến việc thay đổi trở nên khó khăn. Các quy trình này được thiết kế dựa trên các công nghệ hiện có vào thời điểm nào đó trước đây, nghĩa là chúng không phù hợp với các mô hình xác suất và bị “cố định” cho từng loại sự kiện. Việc triển khai AIOps đòi hỏi sự thay đổi quy trình để hỗ trợ ra quyết định dựa trên mô hình xác suất thay vì dựa trên quy tắc. Đôi khi, các tổ chức triển khai các công cụ AIOps nhưng lại sử dụng logic dựa trên quy tắc thay vì học máy, khiến chúng bị “giảm cấp” thành các hệ thống tương quan sự kiện truyền thống không dựa trên trí tuệ nhân tạo.

Có những tổ chức muốn áp dụng AIOps nhưng lại không muốn thay đổi các quy trình hiện tại vốn được thiết lập dựa trên công nghệ đã phát triển từ một thập kỷ trước và gần như không có sự thay đổi lớn. AIOps đòi hỏi một sự thay đổi tư duy, trong đó bạn có thể không thể kiểm tra hệ thống một cách chi tiết với tất cả dữ liệu và xác định các trường hợp kiểm tra mô phỏng mọi tình huống thực tế hoặc hoàn toàn có thể dự đoán. Hệ thống AIOps không phải là một hệ thống dựa trên quy tắc cứng nhắc, luôn đưa ra kết quả giống nhau nếu được cung cấp cùng một dữ liệu đầu vào. Hệ thống này luôn học hỏi, do đó các mô hình liên tục thay đổi dựa trên dữ liệu được tiếp nhận cùng kiến thức mà con người cung cấp cho nó.

Kỳ vọng AIOps hoạt động giống như các hệ thống truyền thống sẽ tạo ra những kỳ vọng sai lệch về một hệ thống AI. Các hệ thống dựa trên trí tuệ nhân tạo hoạt động dựa trên dữ liệu và xác suất, do đó kết quả có thể khác nhau giữa các tổ chức, cơ sở hạ tầng, và theo thời gian, phụ thuộc vào dữ liệu đặc thù được tạo ra ở mỗi tổ chức.

Việc tinh chỉnh sẽ đảm bảo điểm số độ tin cậy và độ chính xác của hệ thống AIOps được duy trì và cải thiện liên tục.

Thiếu sự hiểu biết về Học máy và AIOps

Một số tổ chức có thể thiếu chuyên môn và kinh nghiệm trong lĩnh vực học máy và AIOps, dẫn đến khó khăn trong việc hiểu và chấp nhận các lợi ích mà sự chuyển đổi công nghệ này mang lại. Trong những trường hợp như vậy, điều quan trọng là phải giới thiệu các bên liên quan với công nghệ mới thông qua các buổi hội thảo trực tuyến, đào tạo, và thử nghiệm các mô hình để giúp họ nhận thức về các phương pháp và kỹ thuật mới.

Thiếu sự hiểu biết về cách AIOps hoạt động là một trong những yếu tố quan trọng nhất cần cân nhắc khi tiến hành một dự án AIOps.

Thông thường, các đội giám sát và quản lý đều là những chuyên gia trong lĩnh vực của mình và đã làm việc với các công nghệ phục vụ nhu cầu của họ trong nhiều thập kỷ. Các đội này thường bao gồm các chuyên gia về lĩnh vực giám sát và quan sát, cũng như các chuyên gia về các lĩnh vực công nghệ khác như mạng, điện toán đám mây, lưu trữ, bảo mật, và trung tâm dữ liệu. Tuy nhiên, họ có thể không có chuyên môn về trí tuệ nhân tạo và học máy, vì trước đây những kiến thức này không cần thiết để vận hành hoạt động CNTT.

Do đó, tồn tại một khoảng cách về năng lực và chuyên môn cần thiết để tận dụng tối đa hệ thống AIOps. Chúng ta không cần phải có chuyên môn sâu về trí tuệ nhân tạo hoặc học máy để sử dụng hệ thống AIOps; tuy nhiên, cần có sự tiếp xúc và kỹ năng ở mức cơ bản về trí tuệ nhân tạo và học máy để hiểu được hệ thống AIOps đang cố gắng thực hiện điều gì và cách sử dụng nó một cách hiệu quả nhất.

Không thỏa mãn kỳ vọng

Đôi khi, có sự không thỏa mã trong kỳ vọng khi nhà cung cấp công cụ AIOps đưa ra những hứa hẹn về việc tạo ra giá trị mà không hiểu rõ các điểm nghẽn trong quy trình, hệ thống, chức năng và những hạn chế công nghệ trong doanh nghiệp. Các công cụ này có thể cung cấp khả năng vượt trội, nhưng nếu không thay đổi quy trình và chức năng, việc hiện thực hóa lợi ích có thể sẽ không xảy ra. Một ví dụ điển hình là ChatOps cộng tác giữa các đội Dev và Ops. Nếu một tổ chức bị chia cắt và không có quy trình DevOps, thì việc triển khai một tính năng AIOps cho ChatOps và cộng tác sẽ không thể giúp thu hẹp khoảng cách. Việc này cần được xử lý ở phần khác của dự án, và tổ chức cần áp dụng DevOps trước khi đội nhóm có thể sử dụng hiệu quả các khả năng của công cụ.

Sự không thỏa mãn kỳ vọng bắt nguồn từ một số khía cạnh mà chúng ta đã đề cập trong các điểm trước. Ví dụ, việc thiếu sự hiểu biết về AIOps cũng như trí tuệ nhân tạo và học máy nói chung sẽ dẫn đến sự không khớp kỳ vọng, khi các đội nhóm có thể mong đợi AIOps là một “cây đũa thần” giải quyết tất cả các vấn đề của họ. Ngược lại, các đội vận hành có thể muốn hệ thống AIOps chỉ đơn giản sao chép các tính năng và chức năng của các hệ thống dựa trên quy tắc của họ, điều này lại dẫn đến sự không tương xứng giữa khả năng của các công cụ và kỳ vọng.

Một kỳ vọng khác mà các đội nhóm an ninh và tuân thủ có thể đặt ra đối với hệ thống AIOps mới được triển khai là đạt được độ chính xác 100% trong các thông tin mà hệ thống cung cấp. Tuy nhiên, đây là một kỳ vọng sai lầm đối với một hệ thống học máy, bởi hệ thống này hoạt động dựa trên xác suất chứ không dựa trên các quy tắc cứng nhắc.

Điều quan trọng là phải có sự tham gia của tất cả các bên liên quan trong chương trình để các kỳ vọng từ các bên liên quan khác nhau có thể được điều chỉnh và quản lý dựa trên bản chất của AIOps cũng như những gì nó mang lại cho hoạt động IT. Điều này nhằm tránh các khoảng cách hiểu biết về lĩnh vực, công nghệ, hoặc quy trình của AIOps.

Các chức năng rời rạc và CSDL quản lý cấu hình (CMDB)

AIOps hoạt động hiệu quả nhất khi toàn bộ hệ thống từ quy trình kinh doanh đến ứng dụng và cơ sở hạ tầng CNTT đều cung cấp dữ liệu cho nền tảng AIOps. Tuy nhiên, sẽ có những thách thức nếu các hệ thống giám sát và các đội nhóm thuộc các lĩnh vực công nghệ khác nhau bị phân mảnh và không sẵn sàng tích hợp vào quy trình và chức năng mới. AIOps có thể dễ dàng xử lý sự phân mảnh trong các hệ thống giám sát; tuy nhiên, các hệ thống quản lý cấu hình khác nhau và sự thiếu hụt cơ sở dữ liệu quản lý cấu hình (CMDB) gây ra khó khăn khi liên kết các sự kiện.

Hệ thống AIOps sẽ hoạt động hiệu quả nhất nếu các thuật toán học máy được cung cấp nhiều dữ liệu chính xác hơn. Việc thu thập thông tin chính xác về cấu trúc hệ thống (topology) sẽ cải thiện đáng kể độ chính xác của AIOps trong việc xác định vấn đề và cung cấp nguyên nhân gốc rễ. Nếu thiếu dữ liệu này, AIOps sẽ hoạt động như “mò mẫm”, cố gắng tìm hiểu sự tương quan giữa các sự kiện dựa vào dữ liệu dấu thời gian và các kỹ thuật thống kê để liên kết các sự kiện khác nhau, tuy nhiên độ chính xác có thể không đạt được mức mong muốn.

Không cần thiết phải cung cấp toàn bộ CSDL quản lý cấu hình (CMDB) cho AIOps; tuy nhiên, việc tích hợp thông tin cấu trúc hệ thống (topology) vào AIOps sẽ nâng cao đáng kể khả năng tương quan sự kiện và phân tích nguyên nhân gốc rễ.

Nếu việc thu thập thông tin cấu trúc hoặc cấu hình cho toàn bộ hệ thống gặp khó khăn, tổ chức có thể bắt đầu với các ứng dụng và cơ sở hạ tầng quan trọng, sau đó dần dần mở rộng phạm vi bao phủ sang các khu vực khác.

Các thách thức trong học máy

AIOps kết hợp các hệ thống dựa trên quy tắc, học máy, và cấu trúc hệ thống (topology-based), đồng thời sử dụng dữ liệu từ các hệ thống giám sát và quản lý khác nhau, cùng với cấu hình của chúng. Mỗi môi trường đều có những đặc thù riêng, điều này tạo ra thách thức cho các mô hình học máy, khi chúng phải hiểu được các sự kiện khác nhau và cung cấp các cảnh báo phân tích tự động. Quá trình tinh chỉnh mô hình theo từng môi trường độc nhất có thể trở thành một công việc tốn nhiều thời gian và công sức.

Học máy hoạt động tốt nhất khi được cung cấp dữ liệu chính xác và đầy đủ. Tuy nhiên, đây có thể trở thành một thách thức nếu các hệ thống giám sát không được cấu hình đúng cách hoặc các sự kiện và nhật ký cung cấp dữ liệu không đầy đủ hoặc không chính xác.

Các vấn đề đáng lo ngại khác trong học máy xoay quanh tính minh bạch (explainability), nơi mà việc xác định lý do tại sao hệ thống học máy đưa ra một quyết định cụ thể trở nên khó khăn. Các hệ thống AIOps hiện đại đã tích hợp các khía cạnh về tính minh bạch, cho phép thực hiện phân tích sâu để tìm hiểu lý do tại sao hệ thống AIOps đề xuất một nguyên nhân gốc rễ cụ thể hoặc đánh dấu một bất thường nhất định.

Hệ thống học máy cũng dễ bị ảnh hưởng bởi “data drift” (trôi dạt dữ liệu), và các thay đổi đối với hệ thống giám sát hoặc toàn cảnh hệ thống sẽ tác động đến AIOps. Do đó, việc có thông tin cấu trúc hệ thống (topology) sẽ hỗ trợ khắc phục những khía cạnh này.

Sai lệnh dữ liệu (Data Drift)

Tất cả các mô hình học máy đều đối mặt với thách thức về hiện tượng sai lệch dữ liệu. Điều này càng trở nên rõ ràng hơn khi tổ chức triển khai AIOps đồng thời thực hiện nhiều dự án chuyển đổi, chẳng hạn như di chuyển lên đám mây. Vì các công cụ giám sát và dữ liệu từ hệ thống thay đổi một cách đáng kể, dữ liệu sẽ sai lệch, làm giảm độ chính xác của mô hình dựa trên dữ liệu lịch sử có sẵn. Hiện tượng sai lệch dữ liệu trong AIOps cần được quản lý cẩn thận thông qua các quy trình và phân tích để đảm bảo rằng các mô hình luôn chính xác với dữ liệu hiện tại.

Khi dữ liệu thay đổi đáng kể do các dự án chuyển đổi, các sự kiện, triệu chứng, và chỉ số cũng sẽ thay đổi theo. Điều này đồng nghĩa rằng dữ liệu trước khi chuyển đổi trở nên không còn giá trị và không thể được kết hợp với dữ liệu mới để tạo ra các bất thường, đường cơ sở động, hoặc dự đoán về năng lực.

Cần cẩn trọng khi thực hiện thay đổi đối với các nguồn dữ liệu hoặc thay đổi bản thân dữ liệu, vì điều này sẽ khiến các mô hình hiện tại được triển khai trở nên lỗi thời.

Các chuyên gia vận hành hệ thống AIOps cần có hiểu biết cơ bản về dữ liệu và cách dữ liệu ảnh hưởng đến các mô hình học máy.

Các thách thức của phân tích dự đoán

Phân tích dự đoán là một lĩnh vực đầy thử thách đối với bất kỳ hệ thống học máy hoặc học sâu nào; nó không bao giờ có thể đạt độ chính xác 100%. Việc xác định chính xác thời điểm một hệ thống sẽ gặp sự cố là điều không thực tế, vì sự cố luôn có yếu tố ngẫu nhiên và do đó không thể được dự đoán với độ chính xác như mong đợi.

Như đã đề cập trước đó, AIOps sử dụng phân tích dự đoán và hoạt động dựa trên xác suất. Điều này có thể dẫn đến việc tạo ra các cảnh báo dương tính giả (false positives), trong đó các sự kiện không chính xác được gắn nhãn là nguyên nhân gốc rễ tiềm năng, hoặc âm tính giả (false negatives), khi các sự kiện thực sự có tác động lại bị đánh dấu là không quan trọng.

Đúng vậy, điều này tương tự như cách các thuật toán hoạt động trong những lĩnh vực khác. Ví dụ, khi một giao dịch thẻ tín dụng hợp lệ bị từ chối và được đánh dấu là gian lận, hoặc ngược lại, các giao dịch gian lận lại vượt qua hệ thống phân tích và được phê duyệt. Đây chính là thách thức mà các hệ thống học máy đối mặt, khi hoạt động dựa trên xác suất không thể đạt được độ chính xác tuyệt đối.

Các thách thức khác trong phân tích dự đoán liên quan đến tính thời vụ (seasonality) của dữ liệu, điều mà các công nghệ học máy hiện đại có thể xử lý. Tuy nhiên, dữ liệu thời vụ dài hạn có thể không khả dụng, do đó hệ thống sẽ không thể học được tính thời vụ cho đến khi nó thu thập đủ dữ liệu cần thiết. Ví dụ, để tạo ra các dự đoán dựa trên tính thời vụ hàng năm, chúng ta sẽ cần dữ liệu trong nhiều năm.

Kỳ vọng về tiết kiệm chi phí

Một tổ chức thường kỳ vọng vào việc tiết kiệm chi phí; tuy nhiên, chỉ riêng việc triển khai hệ thống quản lý sự kiện AIOps thì khả năng tiết kiệm chi phí sẽ hạn chế. Điều này có thể mang lại tác động đáng kể đến trải nghiệm người dùng và sự hài lòng của khách hàng, nhưng nếu thiếu tự động hóa, tác động về chi phí có thể không đạt mức mong đợi. Do đó, các công cụ như iAutomate, cung cấp khả năng tự động hóa, được triển khai song song với các nền tảng liên kết sự kiện để đạt được mức tiết kiệm chi phí đáng kể bằng cách tự động hóa toàn bộ chuỗi giá trị từ phát hiện cảnh báo đến khắc phục sự cố.

Bằng cách tận dụng AIOps, các tổ chức sẽ đạt được mức độ trưởng thành cao hơn trong hoạt động, giảm thiểu thông tin nhiễu trong hệ thống, và tài nguyên sẽ có khả năng xử lý khối lượng công việc lớn hơn cũng như cải thiện các thỏa thuận mức dịch vụ (SLAs) đã cam kết với doanh nghiệp.

Việc triển khai các công nghệ này sẽ giúp giảm đáng kể thời gian trung bình để phản hồi (Mean Time to Respond – MTTR) và thời gian trung bình để giải quyết vấn đề (Mean Time to Resolution).

Các hệ thống sẽ có mức độ sẵn sàng cao hơn và sự hài lòng của cả người dùng trong doanh nghiệp lẫn người dùng cuối sẽ được cải thiện đáng kể. Đây đều là những lợi ích đo lường được và hữu hình mà AIOps mang lại.

Tuy nhiên, để giảm chi phí, còn nhiều yếu tố khác cần được xem xét. Ví dụ, tổ chức có thể đang thiếu nhân lực hoặc đã áp dụng tất cả các biện pháp cắt giảm chi phí, chỉ duy trì đội ngũ tối thiểu để đáp ứng các cấp độ dịch vụ đã cam kết. Trong những tình huống như vậy, có thể không đạt được mục tiêu giảm chi phí.

Hệ thống AIOps cũng cần được đầu tư và bảo trì liên tục. Điều này sẽ dẫn đến các chi phí bổ sung mà tổ chức phải chịu để nâng cao mức độ trưởng thành và cung cấp dịch vụ tốt hơn cho khách hàng. Bất kỳ khoản tiết kiệm tài nguyên nào đạt được nhờ việc tận dụng các hệ thống này đều cần được điều chỉnh so với chi phí đầu tư ban đầu và chi phí vận hành cần thiết để thiết lập cũng như duy trì chúng lâu dài.

Do đó, các tổ chức cần xây dựng một kế hoạch kinh doanh và xem xét tất cả các chi phí và khoản tiết kiệm trước khi đưa ra kỳ vọng về chi phí và lợi ích.

Thiếu thông tin từ chuyên gia

AIOps cần thông tin đầu vào từ các chuyên gia công nghệ thuộc nhiều lĩnh vực đang vận hành một môi trường cụ thể. Các thông tin này có thể bao gồm việc cung cấp phản hồi về kết quả từ nền tảng AIOps hoặc bổ sung vào tài liệu và kho lưu trữ kiến thức. Việc thiếu sự đồng thuận từ các chuyên gia kỹ thuật dẫn đến không có quá trình huấn luyện có giám sát cho hệ thống AIOps, khiến nó phải dựa vào học máy không giám sát để tạo kết quả.

Nếu không có vòng lặp phản hồi từ chuyên gia, các mô hình học máy sẽ không thể tiếp tục học tập, và độ chính xác của hệ thống sẽ không đạt được mức tiềm năng tối đa.

Có nhiều thách thức trong việc thu hút các chuyên gia tham gia vào hành trình chuyển đổi này. Điều này có thể xuất phát đơn giản từ việc thiếu hiểu biết về cách các hệ thống AIOps vận hành, hoặc từ sự ưu tiên duy trì cách làm việc hiện tại và tiếp tục các quy trình mà mọi người đã quen thuộc trong nhiều thập kỷ qua.

Quản lý thay đổi tổ chức và các giai đoạn thiết lập quy trình AIOps cần có sự đồng thuận từ tất cả các chuyên gia trong nhiều lĩnh vực khác nhau, để mọi người cùng đóng góp vào dự án và hình dung được những thành công chung.

Việc xác định các bên liên quan ngay từ đầu, thiết lập các chỉ số hiệu suất chính (KPIs) cho sự cộng tác, và tạo động lực cho đội ngũ bằng cách khen thưởng thành công của dự án là một vài điều mà các tổ chức có thể thực hiện để đảm bảo thành công cho dự án AIOps.

5. Kết luận

AIOps không chỉ là một xu hướng công nghệ mà còn là lời giải cho những thách thức ngày càng phức tạp trong vận hành hệ thống CNTT hiện đại. Thông qua việc phân tích các thành phần, chức năng và lợi ích cụ thể, bài viết đã làm rõ cách AIOps có thể nâng cao hiệu suất, độ tin cậy và khả năng phản ứng của tổ chức trước các sự cố. Với ba lớp chức năng cốt lõi – Quan sát, Tương tác và Hành động – cùng với các kỹ thuật phân tích tiên tiến – Tương quan sự kiện, Phân tích dự đoán, Phát hiện bất thường và Phân tích nguyên nhân gốc rễ – AIOps sẽ đóng vai trò thiết yếu trong việc chuyển đổi cách thức doanh nghiệp quản lý hạ tầng công nghệ.

Tuy nhiên, để triển khai AIOps thành công, các tổ chức cần nhận diện sớm những rào cản tiềm ẩn và xây dựng chiến lược phù hợp nhằm giảm thiểu rủi ro. Việc chuẩn bị kỹ lưỡng ngay từ đầu sẽ là nền tảng vững chắc giúp doanh nghiệp khai thác tối đa giá trị mà AIOps mang lại, hướng tới một môi trường vận hành thông minh, linh hoạt, hiệu quả và bền vững hơn trong tương lai.

Bài viết độc quyền bởi

Bùi Ánh Dương – Chuyên gia Công nghệ FPT

Chia sẻ:
Img Contact

Đăng ký nhận tin tức mới nhất từ FPT IS

    Tôi đồng ý chia sẻ thông tin và đồng ý với Chính sách bảo mật dữ liệu cá nhân
    Bot Avatar