Data & AI

AI Agent là gì? Khám phá “tác nhân AI” từ A-Z

Ngày 22/01/2025

Nhiều nhà lãnh đạo công nghệ nổi tiếng trên thế giới đưa ra dự báo rằng AI Agent (Tác nhân AI) sẽ là công nghệ bùng nổ trong năm 2025. Theo Sam Altman, giám đốc điều hành của OpenAI, các AI Agent có khả năng tự động thực hiện các nhiệm vụ sẽ bắt đầu thay đổi đáng kể hiệu suất của các công ty trong năm nay. CEO Jensen Huang (Nvidia) dự đoán AI Agent sẽ trở thành ngành công nghiệp nghìn tỷ USD, cách mạng hóa lao động.

Vậy AI Agent là gì, hoạt động ra sao, vì sao nó được coi là công nghệ tiềm năng? Bài viết này sẽ cung cấp cái nhìn tổng quan về AI Agent (tác nhân AI), ứng dụng của AI Agent trong doanh nghiệp, cũng như phân tích các lợi ích và thách thức khi áp dụng AI Agent kèm theo triển vọng phát triển của công nghệ này trong tương lai.

1. AI Agent là gì?

1.1. Định nghĩa AI Agent

Tác nhân AI (AI Agent) là một hệ thống trí tuệ nhân tạo có khả năng nhận thức môi trường xung quanh, nhận thông tin phản hồi và đưa ra hành động phù hợp dựa trên những thông tin đó. Trong một số tài liệu, tác nhân AI còn được định nghĩa là một hệ thống có thể giải quyết các vấn đề phức tạp, lập kế hoạch hành động và thực hiện các kế hoạch này nhờ vào bộ công cụ được trang bị. Nói cách khác, một tác nhân AI được xác định bởi môi trường mà nó tương tác và các hành động mà nó có thể thực hiện trong môi trường đó.

Môi trường hoạt động của một AI Agent được xác định dựa trên ứng dụng cụ thể. Ví dụ, nếu agent được thiết kế để chơi game (VD: Minecraft, Go hoặc Dota), thì trò chơi chính là môi trường của agent. Trong trường hợp agent được sử dụng để tìm kiếm thông tin trong cơ sở tri thức, môi trường của agent là cơ sở tri thức bao gồm các tài liệu nội bộ hoặc cơ sở dữ liệu.

Agent thực hiện hành động thông qua các công cụ (tools). Ví dụ, một agent có thể sử dụng công cụ tìm kiếm thông tin để lấy dữ liệu mong muốn, như lịch sử mua sắm của khách hàng, nhằm đưa ra các khuyến nghị phù hợp. AI Agent có thể thực hiện các lời gọi API để tự động gửi email phản hồi hoặc thực hiện các giao dịch tài chính thay cho bạn. Rất nhiều các ứng dụng AI mà chúng ta đang sử dụng chính là các agent với khả năng truy cập vào các công cụ. ChatGPT là một agent với khả năng tìm kiếm thông tin trên Web, thực thi mã Python, sinh ảnh. Các hệ thống RAG là các agents sử dụng các công cụ tìm kiếm văn bản, tìm kiếm hình ảnh và công cụ thực hiện các truy vấn SQL.

AI Agent là hệ thống trí tuệ nhân tạo có khả năng nhận thức môi trường xung quanh, nhận thông tin phản hồi và đưa ra hành động phù hợp dựa trên những thông tin đó

Đọc thêm: DeepSeek là gì? Những đột phá công nghệ đằng sau DeepSeek R1

1.2. Thành phần cơ bản của AI Agent

Một hệ thống AI Agent hoạt động dựa trên mô hình ngôn ngữ lớn (LLM) bao gồm những thành phần cơ bản như trong hình dưới đây:

Thành phần cơ bản của Agent (Nguồn: Sách trắng của Google về Agent)

Thành phần cơ bản của AI Agent sẽ gồm 3 phần: Mô hình, Công cụ và Tầng điều phối. Cụ thể như sau:

Mô hình (Model)

Mô hình là thành phần quan trọng của AI Agent, đóng vai trò trung tâm trong việc giúp Agent lập kế hoạch, dự đoán và lựa chọn các hành động phù hợp nhất để đạt được mục tiêu một cách hiệu quả. Mô hình sử dụng trong Agent là mô hình ngôn ngữ lớn (LLMs) hoặc các các mô hình đa thể thức, có thể xử lý nhiều loại dữ liệu khác nhau

Để hoạt động hiệu quả, mô hình cần có khả năng hiểu các chỉ thị từ con người (instruction following), khả năng suy luận, lập kế hoạch hành động, và lựa chọn công cụ phù hợp. Trong một số trường hợp, để cải thiện hiệu quả, cần tinh chỉnh (fine-tuning) mô hình bằng cách sử dụng dữ liệu chứa các ví dụ thực tế về: Các ngữ cảnh ứng dụng của Agent, Cách lập luận mà chúng ta mong muốn Agent làm, và những công cụ mà Agent sử dụng trong các trường hợp đó. Điều này giúp mô hình đáp ứng tốt hơn với các yêu cầu thực tiễn của Agent.

Công cụ (Tools)

Mặc dù các mô hình AI tạo sinh có khả năng ấn tượng trong việc thực hiện các nhiệm vụ như tạo hình ảnh hoặc văn bản, chúng vẫn bị giới hạn trong khả năng tương tác với thế giới bên ngoài. Công cụ đóng vai trò mở rộng năng lực của AI Agent, trang bị cho Agent khả năng tương tác với dữ liệu và các dịch vụ bên ngoài mà mô hình đứng một mình không thể thực hiện được

Công cụ hỗ trợ Agent trong việc:

Thu thập dữ liệu và thông tin từ thế giới thực,
Nhận biết môi trường xung quanh,
Thực hiện các hành động cụ thể.

Ví dụ, một công cụ có thể dùng để cập nhật thông tin khách hàng trong cơ sở dữ liệu, trong khi công cụ khác có thể truy xuất lịch sử giao dịch của khách hàng.

Tầng điều phối (Orchestration layer)

Tầng điều phối giữ vai trò quản trị cách thức Agent nhận thông tin, suy luận, lên kế hoạch hành động, xác định hành động hoặc quyết định tiếp theo dựa trên suy luận. Độ phức tạp của tầng điều phối phụ thuộc lớn vào Agent và những tác vụ mà nó thực hiện. Chi tiết về cách thức Agent lên kế hoạch, suy luận và điều phối các quyết định, hành động sẽ được mô tả kỹ hơn trong các phần sau.

Xem thêm: Vision Language là gì? Khi AI “nhìn” và “hiểu” thế giới như con người

2. AI Agent hoạt động như thế nào?

Tác nhân AI hoạt động theo một vòng lặp liên tục bao gồm các bước: (1) Thu thập thông tin; (2) lập kế hoạch; (3) đánh giá kế hoạch và điều chỉnh; (4) thực thi hành động bằng cách sử dụng các công cụ; (5) đánh giá kết quả của hành động và đưa ra điều chỉnh về kế hoạch nếu cần.

Để dễ hình dùng hơn, hãy tưởng tượng bạn là một đầu bếp đang chuẩn bị bữa tiệc cho khách hàng. Để thực hiện công việc này, bạn có thể cần thực hiện các bước sau:

Thu thập thông tin, như yêu cầu về món ăn của khách hàng, sở thích của khách hàng, những nguyên liệu đang có trong bếp

Dựa trên các thông tin đã thu thập được, suy nghĩ và lập kế hoạch về các món ăn mà bạn sẽ làm

Bạn thực hiện các hành động để làm các món ăn như: thái rau, trộn gia vị, nướng thịt

Ở mỗi giai đoạn trong quy trình, bạn cần thực hiện các điều chỉnh khi cần thiết, tinh chỉnh kế hoạch của mình, chẳng hạn khi nguyên liệu được sử dụng hết hoặc khi nhận được phản hồi từ khách hàng, và sử dụng các kết quả trước đó để xác định bước hành động tiếp theo.

Vòng lặp hoạt động của Agent

Như vậy trong AI Agent hoạt động tốt hay không phụ thuộc vào khả năng lập, điều chỉnh kế hoạch hành động khi nhận thông tin và những công cụ mà Agent có thể sử dụng. Trung tâm của năng lực nhận thức của Agent nằm ở tầng điều phối – thành phần chịu trách nhiệm duy trì bộ nhớ, trạng thái, suy luận và lập kế hoạch.

2.1. Lập kế hoạch

Planning là một quy trình cốt lõi trong hoạt động của AI agent, nơi hệ thống tạo ra một lộ trình để đạt được mục tiêu của nhiệm vụ. Để hoàn thành một nhiệm vụ, AI agent phải trải qua các bước: hiểu nhiệm vụ, tạo kế hoạch, xác minh kế hoạch, thực thi, và điều chỉnh dựa trên phản hồi. Quy trình này giúp tối ưu hóa hiệu quả, giảm sai sót không cần thiết và tăng khả năng hoàn thành nhiệm vụ thành công.

Mô hình ngôn ngữ lớn thường được sử dụng trong bước lập kế hoạch. Các kỹ thuật prompt engineering và lập luận (reasoning) hiện đại được áp dụng để cải thiện hiệu quả của quy trình lập kế hoạch. Các framework cho prompt engineering và kỹ thuật lập luận phổ biến được sử dụng bao gồm:

ReAct (Reasoning and Acting) là một framework kết hợp giữa suy luận (Reasoning) và hành động (Acting) trong quá trình mô hình AI xử lý yêu cầu từ người dùng, được đề xuất bởi tác giả Yao vào năm 2022. Framework lập luận này kết hợp suy nghĩ và hành động, phân tích kết quả đầu ra, giúp AI vừa lập kế hoạch vừa thực thi và điều chỉnh ngay lập tức.

Chain-of-Thought (CoT): đây là kỹ thuật prompt engineering để hướng dẫn phép mô hình suy luận qua từng bước trung gian, phù hợp với các nhiệm vụ phức tạp.

Tree-of-Thoughts (ToT): Khám phá nhiều phương án song song để lựa chọn giải pháp tối ưu.

AI Agent có thể áp dụng một hoặc nhiều kỹ thuật trên, hoặc nhiều kỹ thuật khác, để chọn hành động tốt nhất tiếp theo cho yêu cầu của người dùng.

Ví dụ về khả năng lập kế hoạch trong công cụ Deep Research của Gemini Advanced

2.2. Công cụ

Việc sử dụng công cụ là cách mà các tác nhân AI (AI Agents) mở rộng khả năng của các mô hình ngôn ngữ lớn (LLMs), vốn bị giới hạn bởi dữ liệu mà chúng đã được huấn luyện. Công cụ giúp các Agent tương tác với dữ liệu và các dịch vụ bên ngoài. Chúng ta có thể phân loại công cụ thành hai nhóm chính:

Lời gọi hàm (Function calling)

Bổ sung tri thức từ kho dữ liệu (Data Store)

Function calling

Trong kỹ thuật phần mềm, hàm (function) là các module mã độc lập được thiết kế để thực hiện một nhiệm vụ cụ thể và có khả năng tái sử dụng. Nhà phát triển chịu trách nhiệm viết các hàm, xác định logic khi nào nên gọi hàm nào, và đảm bảo rằng đầu vào (input) và đầu ra (output) của hàm đáp ứng đúng yêu cầu. Trong thế giới AI Agents, Function Calling hoạt động tương tự, nhưng điểm khác biệt là mô hình ngôn ngữ lớn (LLM) sẽ tự động quyết định thời điểm sử dụng hàm và cung cấp các tham số cần thiết dựa trên thông số kỹ thuật của hàm đó.

Trong Function Calling, việc xử lý logic và gọi API không thực hiện trực tiếp trong agent mà được chuyển sang phía client-side (ứng dụng khách). Cách làm này giúp nhà phát triển kiểm soát chi tiết hơn cách dữ liệu được xử lý và di chuyển trong ứng dụng. Ví dụ, khi agent cần lấy thông tin từ Google Flights API, thay vì tự gọi API, agent sẽ đưa ra một hàm (Function) với tên và các tham số phù hợp. Sau đó, ứng dụng client sẽ chịu trách nhiệm gọi API, nhận kết quả và thực hiện các bước xử lý bổ sung trước khi gửi dữ liệu trở lại cho agent.

Bổ sung tri thức từ kho dữ liệu

Mô hình ngôn ngữ (language model) có thể được ví như một thư viện đồ sộ chứa các dữ liệu mà nó đã được huấn luyện. Tuy nhiên, khác với một thư viện thực tế có thể cập nhật sách mới liên tục, dữ liệu trong mô hình thường là tĩnh và không thể tự động bổ sung kiến thức mới. Điều này tạo ra một thách thức lớn vì thế giới thực luôn thay đổi và yêu cầu thông tin mới, chính xác, và liên quan. Kho dữ liệu (Data Store) chính là giải pháp giúp khắc phục hạn chế này bằng cách cung cấp nguồn dữ liệu động và cập nhật, từ đó giữ cho phản hồi của mô hình luôn dựa trên thực tế.

Kho dữ liệu được triển khai trong các ứng dụng như Retrieval Augmented Generation (RAG), một phương pháp mở rộng kiến thức của mô hình AI. Một số loại dữ liệu mà mô hình có thể truy xuất bao gồm:

Dữ liệu từ website: Nội dung trang web được lưu trữ và sử dụng khi cần thiết.

Dữ liệu có cấu trúc: Các tệp CSV, bảng tính, hoặc tài liệu Word.

Dữ liệu không có cấu trúc: Tệp PDF, TXT, hoặc HTML.

Ví dụ, khi người dùng hỏi: “Danh sách các khách hàng hàng đầu theo doanh thu năm 2023?”, hệ thống có thể tìm kiếm thông tin trong bảng tính hoặc tài liệu PDF và trả lời với kết quả chính xác, thay vì dựa vào dữ liệu tĩnh từ giai đoạn huấn luyện.

Kiến trúc cơ bản của hệ thống Retrieval Augmented Generation (RAG)

Xem thêm: RAG là gì? Ứng dụng của Tạo tăng cường truy xuất (RAG) trong doanh nghiệp

3. Ứng dụng AI Agent trong doanh nghiệp

Năm 2025 được dự đoán sẽ là giai đoạn bùng nổ của AI Agent, khi nhiều công ty phần mềm lớn như Salesforce, ServiceNow, và Microsoft giới thiệu các giải pháp AI Agent riêng. Những công cụ này được thiết kế để tự động hóa các nhiệm vụ như tuyển dụng, liên hệ với khách hàng tiềm năng, tạo nội dung marketing, và quản lý công nghệ thông tin, mang lại hiệu quả cao hơn cho doanh nghiệp.

Dưới đây là một số ứng dụng của AI Agent trong doanh nghiệp:

Ứng dụng trong phân tích tài chính: Moody’s – một công ty dịch vụ kinh doanh và tài chính của Mỹ, đã phát triển hệ thống gồm 35 AI Agent thực hiện các tác vụ từ quản lý dự án đến phân tích tài chính phức tạp. Các agent này được trang bị dữ liệu và có thể đưa ra những phân tích độc lập, thậm chí khác nhau về cùng một vấn đề. Hệ thống đa tác nhân của Moody’s giúp tăng cường hiệu suất và khả năng ra quyết định nhờ việc kết hợp kết quả phân tích của các tác nhân này.

Nghiên cứu và phát triển: AI Agent kết hợp năng lực lập kế hoạch, suy luận của mô hình ngôn ngữ và công cụ tìm kiếm thông tin trên Internet sẽ trở thành một trợ thủ đắc lực trong công việc nghiên cứu và phát triển. Google đã phát triển công cụ Gemini Advanced Deep Research có có thể tự lập kế hoạch, tìm kiếm thông tin trên Internet bằng công cụ Web search, sau đó phân tích kết quả và viết thành một bài nghiên cứu có trích dẫn đầy đủ.

Chăm sóc khách hàng: Cosentino, một công ty chuyên sản xuất vật liệu xây dựng, đã phát triển “nhân viên số” để khắc phục những hạn chế trong dịch vụ khách hàng. Tại đây, các AI agents được xem như nhân viên thực thụ, được đào tạo bài bản và giám sát cẩn thận. Hệ thống này đã thay thế công việc của 3-4 nhân viên, giúp họ có thể tập trung vào những nhiệm vụ mang lại giá trị cao hơn.

Phát triển phần mềm: Agent không chỉ dừng lại ở việc tạo mã nguồn mà còn có khả năng quản lý toàn bộ quá trình phát triển phần mềm. Các AI Agents có thể tự động hóa từ thiết kế kiến trúc hệ thống, viết và kiểm tra mã, đến giám sát các quy trình đảm bảo chất lượng. Điều này không chỉ tăng tốc độ phát triển mà còn cách mạng hóa cách chúng ta thiết kế và duy trì các sản phẩm số.

Hỗ trợ nội bộ: Deutsche Telekom – một công ty viễn thông của Đức, đã triển khai AI agent nội bộ, gọi là askT, để hỗ trợ hơn 10.000 nhân viên mỗi tuần trong việc trả lời câu hỏi liên quan đến chính sách, lợi ích nội bộ, và sản phẩm dịch vụ. Ngoài ra, askT còn được thử nghiệm thực hiện các nhiệm vụ thay mặt nhân viên, như gửi yêu cầu nghỉ phép vào hệ thống nhân sự.

Xem thêm: Computer vision – thị giác máy tính là gì? Công nghệ giúp máy tính “nhìn thấy” thế giới

4. Lợi ích và thách thức khi ứng dụng AI Agent

4.1. Lợi ích

Ứng dụng AI Agent đem lại một số lợi ích sau đây:

Tự động hóa và tiết kiệm thời gian: AI Agent có thể thực hiện các nhiệm vụ tự động thay mặt con người, từ các công việc đơn giản như điều chỉnh nhiệt độ trong nhà cho đến các nhiệm vụ phức tạp như quản lý lịch làm việc hoặc xử lý dữ liệu lớn. Điều này giúp giảm tải công việc, tiết kiệm thời gian và nâng cao hiệu quả hoạt động.

Cá nhân hóa trải nghiệm người dùng: Các AI Agent có khả năng thích nghi với sở thích, hành vi và ngữ cảnh của người dùng dựa trên việc học hỏi dựa trên các tương tác trước đó, mang lại giá trị lớn trong các ứng dụng cá nhân hóa, đặc biệt trong lĩnh vực chăm sóc khách hàng.

Tăng khả năng phối hợp và nâng cao hiệu quả của hệ thống: trong môi trường đa hệ thống hoặc đa tác nhân (multi-agent systems), các AI Agent có thể hợp tác và chia sẻ dữ liệu để giải quyết những nhiệm vụ phức tạp vượt ngoài khả năng của một tác nhân duy nhất.

Khả năng mở rộng ứng dụng trong nhiều lĩnh vực: AI Agent có thể được áp dụng trong nhiều ngành khác nhau như chăm sóc sức khỏe, sản xuất, tài chính, và thương mại điện tử, giúp tối ưu hóa quy trình và mang lại giá trị gia tăng lớn.

4.2. Thách thức khi triển khai AI Agent

Mặc dù công nghệ AI Agent hứa hẹn mang lại nhiều lợi ích, việc áp dụng công nghệ này vẫn còn nhiều khó khăn, đặc biệt với các tổ chức và doanh nghiệp. Một số thách thức nổi bật bao gồm:

Chi phí vận hành khi áp dụng ở quy mô lớn: Khi nhiệm vụ trở nên phức tạp, yêu cầu về tài nguyên tính toán tăng lên theo cấp số nhân, làm giảm khả năng ứng dụng thực tế ở quy mô lớn.

Độ tin cậy và tính minh bạch: để áp dụng được trong thực tế, AI Agent phải đáng tin cậy, minh bạch và có khả năng giải thích được các hành động của mình. Người dùng cần thời gian để xây dựng niềm tin, đặc biệt khi các tác nhân thực hiện các nhiệm vụ quan trọng như giao dịch tài chính.

Thách thức về đạo đức và xã hội: Các vấn đề liên quan đến quyền riêng tư, bảo mật dữ liệu và sự chấp nhận xã hội cần được giải quyết. Nếu không, người dùng có thể từ chối sử dụng vì lo ngại rủi ro hoặc lo ngại các tác nhân AI sẽ lấy đi công việc của mình.
Thiếu tiêu chuẩn hóa: Việc triển khai AI Agent cần có sự tiêu chuẩn hóa về giao thức, bảo mật và khả năng tương thích giữa các hệ thống để đảm bảo tính ổn định và đáng tin cậy.

5. Giải pháp Multi-Agent đang được phát triển tại FPT IS

Hiện tại, Trung tâm Nghiên cứu & Phát triển AI của FPT IS (AI R&D Center) đang phát triển một giải pháp trợ lý AI sử dụng công nghệ multi-agent, tích hợp với nền tảng Agentic RAG. Giải pháp này giúp nhà đầu tư dễ dàng tiếp cận các thông tin tài chính quan trọng như: tổng quan thị trường, phân tích chi tiết từng mã chứng khoán, định giá cổ phiếu, và theo dõi dòng tiền theo ngành, mã chứng khoán, khối ngoại, hoặc tự doanh.

Nhờ Agentic RAG, trợ lý AI có khả năng tích hợp và xử lý dữ liệu từ nhiều nguồn, cung cấp thông tin được cá nhân hóa và dự đoán xu hướng thị trường một cách chính xác. Đây là công cụ hữu ích, hỗ trợ nhà đầu tư đưa ra các quyết định chính xác hơn và tối ưu hóa chiến lược đầu tư của mình.

Doanh nghiệp có nhu cầu về các giải pháp Agentic AI, vui lòng bấm vào nút LIÊN HỆ NGAY góc phải màn hình, hoặc để lại thông tin TẠI ĐÂY để được chuyên gia FPT IS liên hệ tư vấn.

AI Agent mở ra cơ hội để con người và máy móc phối hợp hiệu quả hơn, nhưng đi kèm là thách thức về chi phí, đạo đức và độ tin cậy. Để tận dụng tiềm năng này, các tổ chức cần áp dụng AI một cách chiến lược, đồng thời đảm bảo sự bền vững. Liệu AI có chỉ thay thế công việc, hay còn tạo ra những cơ hội mới vượt xa dự đoán? Đây là thời điểm để chúng ta định hình tương lai của trí tuệ nhân tạo một cách có trách nhiệm.

Bài viết độc quyền bởi Ông Phạm Quang Nhật Minh – Giám đốc Trung tâm nghiên cứu và phát triển trí tuệ nhân tạo (FPT IS AI R&D Center)

Tiến sỹ ngành khoa học thông tin, chuyên gia trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), với 17 năm kinh nghiệm nghiên cứu và phát triển trong môi trường hàn lâm và công nghiệp, là tác giả và đồng tác giả của nhiều bài báo khoa học trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chủ đề nghiên cứu của ông hiện tại là về các mô hình ngôn ngữ lớn và ứng dụng.

FPT IS

Đăng ký nhận tin tức mới nhất từ FPT IS