Cách mạng hóa hoạt động kinh doanh với các ứng dụng của Mô hình ngôn ngữ lớn – LLM

Ngày 14/06/2024

Trong bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng, Mô hình ngôn ngữ lớn (LLM) luôn dẫn đầu, báo trước một kỷ nguyên mới trong tự động hóa quy trình và đưa ra khái niệm về các trợ lý ảo tự động. Bài viết này đi sâu vào các ứng dụng nhiều mặt của LLM, đặc biệt nhấn mạnh vai trò biến đổi của chúng trong việc nâng cao hiệu quả, ra quyết định và thực hiện nhiệm vụ trong các quy trình tự động đa dạng. Đồng thời tổng hợp những hiểu biết sâu sắc này để nhấn mạnh vai trò then chốt của LLM trong việc thúc đẩy trợ lý ảo và tự động hóa quy trình, phác thảo cả ứng dụng hiện tại và hướng đi tiềm năng trong tương lai, bao gồm cả nhu cầu liên tục cải tiến các mô hình này để có chức năng toàn diện và khách quan. Thông qua việc khám phá này, chúng tôi mong muốn cung cấp sự hiểu biết cơ bnn về khả năng và thách thức của LLM, mở đường cho việc sử dụng tối ưu chúng trong việc tự động hóa các nhiệm vụ phức tạp và xác định lại ranh giới của trí tuệ nhân tạo và các ứng dụng của nó trong thế giới hiện đại.

1. Phương pháp xây dựng các tác nhân tự động hóa dựa trên LLM

Dưới đây là tổng quan ngắn gọn về việc xây dựng và ứng dụng trong các tác nhân tự động hóa được cung cấp bởi LLM (LLM-Based Autonomous Agents).

Việc xây dựng các tác nhân tự động hóa dựa trên LLM xoay quanh hai vấn đề chính:

1.1.Thiết kế kiến trúc tác nhân

Một khung thống nhất cho thiết kế kiến trúc của tác nhân tự động hóa dựa trên LLM.

Thiết kế kiến trúc tập trung vào việc tối đa hóa khả năng của LLM, bao gồm các mô-đun như mô-đun lập hồ sơ, bộ nhớ, lập kế hoạch và hành động như trong Hình 1. Mô-đun hồ sơ xác định vai trò của tác nhân, trong khi các mô-đun bộ nhớ và lập kế hoạch đặt tác nhân vào môi trường động , cho phép nó nhớ lại các hành vi trong quá khứ và lên kế hoạch cho các hành động trong tương lai. Mô-đun hành động chuyển các quyết định thành kết quả đầu ra cụ thể.

1.2.Thu nhận năng lực của tác nhân

Minh họa sự chuyển đổi trong các chiến lược để có được khả năng của mô hình.

Việc thu nhận năng lực tập trung vào việc cho phép tác nhân hoàn thành các nhiệm vụ cụ thể, bao gồm các chiến lược như tinh chỉnh (fine-tunning) và kỹ thuật lời nhắc (prompt engineering). Tinh chỉnh nâng cao khả năng của tác nhân đối với các nhiệm vụ cụ thể thông qua bộ dữ liệu, trong khi kỹ thuật lời nhắc bao gồm việc thiết kế các lời nhắc (prompt) để gợi ra hành vi mong muốn.

Việc thu nhận với LLM tinh chỉnh bằng cách sử dụng “Bộ dữ liệu có chú thích của con người”, “Bộ dữ liệu được tạo bởi LLM” hoặc “Bộ dữ liệu trong thế giới thực”. Tuy nhiên, cách tiếp cận này có thể phức tạp, tốn kém và mất thời gian khi đòi hỏi phải nỗ lực nhiều trong việc xây dựng bộ dữ liệu. Ví dụ: để tạo tập dữ liệu có chú thích Con người, bên cạnh việc thiết kế các tác vụ chú thích, các workers là nguồn lực chính cần có để hoàn thành nó. Ngoài ra, việc sử dụng LLM khác để tạo tập dữ liệu có thể tốn kém, đặc biệt khi mô hình yêu cầu khối lượng mẫu lớn.

Tuy nhiên, trong thời đại LLM, việc tinh chỉnh LLM không phải là lựa chọn duy nhất. Khả năng của mô hình có thể đạt được mà không cần tinh chỉnh bằng cách “thiết kế các lời nhắc tinh vi”, được thực hiện bởi các kỹ sư nhanh chóng và bằng cách “thiết kế các cơ chế tiến hóa tác nhân phù hợp” mà các kỹ sư cơ chế có thể hoàn thành.

Prompt Engineering là một chiến lược mới tận dụng ngôn ngữ tự nhiên để tác động đến các hành động của Mô hình Ngôn ngữ Lớn (LLM). Bằng cách sử dụng các lời nhắc được soạn thảo cẩn thận, người dùng có thể hướng dẫn LLM thể hiện các khả năng cụ thể, chẳng hạn như lý luận nhiệm vụ phức tạp hoặc khả năng tự nhận thức. Ví dụ: Chuỗi suy nghĩ (CoT) cung cấp các bước lý luận trung gian dưới dạng ví dụ ngắn gọn để trao quyền cho LLM, trong khi Retroformer sử dụng lời nhắc để hướng dẫn các tác nhân phản ánh hồi tưởng về những thất bại trong quá khứ, nâng cao các hành động trong tương lai.
Mechanism Engineering khác với kỹ thuật tinh chỉnh và lời nhắc bằng cách tập trung vào việc thiết kế các cơ chế độc đáo để nâng cao khả năng của tác nhân. Chiến lược này liên quan đến việc phát triển các mô-đun chuyên biệt, giới thiệu các quy tắc làm việc mới hoặc kết hợp các cơ chế như thử và sai, tìm nguồn cung ứng từ cộng đồng hoặc tích lũy kinh nghiệm để giúp các tác nhân hoạt động hiệu quả và dễ thích ứng hơn.

So sánh các chiến lược để có được khả năng trong Mô hình ngôn ngữ lớn (LLM), việc tinh chỉnh sẽ điều chỉnh các tham số mô hình để kết hợp kiến thức sâu rộng về nhiệm vụ cụ thể, nhưng cách tiếp cận này chủ yếu phù hợp với LLM nguồn mở. Ngược lại, kỹ thuật nhắc nhở và kỹ thuật cơ chế nâng cao khả năng LLM thông qua các cơ chế nhắc nhở chiến lược hoặc chuyên biệt, có thể hoạt động cho cả LLM nguồn mở và nguồn đóng. Tuy nhiên, do cửa sổ ngữ cảnh hạn chế trong LLM, các phương pháp này không thể xử lý thông tin nhiệm vụ mở rộng và không gian thiết kế rộng lớn của các lời nhắc và cơ chế khiến việc tìm kiếm giải pháp tối ưu trở nên khó khăn.

2. Các ứng dụng của LLM

Điểm mấu chốt rút ra từ phân tích này là sự nhấn mạnh vào khả năng giống con người của LLM. Những mô hình này không chỉ đơn thuần là công cụ để thực hiện các nhiệm vụ được xác định trước; chúng là những thực thể đang phát triển có khả năng học hỏi từ môi trường của chúng và đưa ra các quyết định giống với lý luận của con người..

Có thể thấy rõ rằng LLM có tiềm năng to lớn trong việc thay đổi cục diện của trợ lý ảo và tự động hóa quy trình. Khả năng hiểu các hướng dẫn phức tạp, suy luận một cách tự chủ và thực hiện các nhiệm vụ nhiều bước một cách hiệu quả giúp họ trở thành những yếu tố then chốt trong tương lai của tự động hóa. Tuy nhiên, những thách thức như đảm bảo hành vi không thiên vị, tinh chỉnh dữ liệu đào tạo và tối ưu hóa hiệu suất cho các môi trường khác nhau vẫn là những lĩnh vực quan trọng đối với nghiên cứu và phát triển trong tương lai.

Khi chúng ta nhìn về phía trước, cần tập trung vào việc nâng cao tính bền vững và khả năng thích ứng của các mô hình này. Điều này bao gồm việc mở rộng ứng dụng của họ trên các lĩnh vực và nhiệm vụ khác nhau, liên tục cải thiện độ chính xác và hiệu quả của chúng, đồng thời giải quyết mọi hạn chế liên quan đến dữ liệu đào tạo và các sai lệch tiềm ẩn.

Việc tích hợp LLM trong tự động hóa quy trình và làm thành phần cốt lõi của trợ lý ảo là một bước quan trọng hướng tới các hệ thống thông minh, linh hoạt và hiệu quả hơn. Các hệ thống này có khả năng tự động xử lý các tác vụ phức tạp, mở ra nhiều khả năng cho các ứng dụng trong tương lai và không ngừng nâng cao khả năng của AI. Hành trình từ đây không chỉ bao gồm cải tiến công nghệ mà còn là sự hiểu biết sâu sắc hơn về ý nghĩa đạo đức và thực tiễn của việc triển khai các mô hình tiên tiến này trong các tình huống thực tế.

2.1.Trợ lý ảo thông minh với Tự động hóa quy trình dựa trên LLM (LLM-Based Process Automation)

Các trợ lý ảo thông minh như Siri, Alexa, Google Assistant đã trở thành một phần không thể thiếu trong cuộc sống hàng ngày. Tuy nhiên, họ vẫn gặp khó khăn với những nhiệm vụ phức tạp, nhiều bước. Với sự phát triển nhanh chóng của Mô hình ngôn ngữ lớn (LLM), hy vọng rằng những mô hình này có thể nâng cao khả năng của trợ lý ảo bằng cách hiểu ngôn ngữ tự nhiên tốt hơn, áp dụng logic và sắp xếp các chuỗi hoạt động. Khả năng suy luận nhân quả được cải thiện của LLM có thể giúp trợ lý giải thích các hướng dẫn mơ hồ, giải mã các mục tiêu phức tạp và hoàn thành các nhiệm vụ theo chuỗi một cách tự động.

Dưới đây là một hệ thống trợ lý ảo mới dựa trên Tự động hóa quy trình dựa trên LLM (LLM-Based Process Automation – LLMPA). Hệ thống này hoạt động trong các ứng dụng di động dựa trên yêu cầu cấp cao của người dùng, phân biệt nó với các trợ lý hiện có bằng cách mô phỏng các tương tác chi tiết của con người, cho phép nó thực hiện các quy trình nhiều giai đoạn phức tạp hơn dựa trên hướng ngôn ngữ tự nhiên. Không giống như các trợ lý hiện tại dựa trên các hành vi đơn giản được xác định trước, tác nhân LLMPA có thể mô phỏng các hoạt động chi tiết như nhấp chuột, cuộn và nhập, cho phép nó xử lý các mục tiêu phức tạp liên quan đến hướng dẫn dạng tự do và giải quyết vấn đề sáng tạo.

Hệ thống LLMPA bao gồm các mô-đun để phân tách hướng dẫn, tạo mô tả ngôn ngữ tự nhiên, phát hiện các thành phần giao diện, dự đoán hành động tiếp theo và kiểm tra lỗi. Hệ thống này đã được chứng minh bằng cách sử dụng ứng dụng thanh toán di động Alipay, nơi nó đã điều hướng thành công ứng dụng này để đặt mua cà phê dựa trên các hướng dẫn cấp cao. Điều này chứng tỏ cách LLM có thể cho phép trợ lý di động tự động xử lý các tác vụ phức tạp bằng cách sử dụng ngôn ngữ tự nhiên và bối cảnh môi trường.

Những đóng góp chính là kiến trúc LLMPA mới, phương pháp áp dụng trợ lý dựa trên LLM cho các ứng dụng di động và trình diễn cách hoàn thành nhiệm vụ nhiều bước trong môi trường thế giới thực. Công việc này là lần đầu tiên triển khai và đánh giá rộng rãi trợ lý ảo dựa trên LLM trong một ứng dụng di động được sử dụng rộng rãi trong thế giới thực, đánh dấu một cột mốc quan trọng trong việc chuyển nghiên cứu LLM sang các ứng dụng thực tế với tác động đáng kể. Việc triển khai thành công hệ thống trong Alipay nêu bật những tiến bộ mà LLM hiện đại có thể đạt được, chứng minh cách trợ lý có thể hiểu hướng dẫn, lý do về mục tiêu và thực hiện các nhiệm vụ một cách đáng tin cậy để hỗ trợ hàng triệu người dùng.

Kiến trúc của Trợ lý ảo thông minh bao gồm LLMPA Agent và Chatbot.

Như được mô tả trong Hình 3, hệ thống Trợ lý ảo thông minh được đề xuất yêu cầu người dùng tương tác với chatbot để phác thảo mục tiêu, trong khi Tác nhân LLMPA cộng tác với ứng dụng để hoàn thành các hoạt động. Chatbot bao gồm mô-đun đối thoại nhiều lượt và mô-đun trích xuất ý định. Thiết lập này cho phép hệ thống hiểu yêu cầu của người dùng và tạo ra các mô tả nhiệm vụ phù hợp, mặc dù bài viết không tập trung vào khía cạnh này.

Tác nhân LLMPA chịu trách nhiệm tìm hiểu nhiệm vụ, giải mã nó và thực hiện nó một cách có phương pháp. Nó bao gồm các mô-đun sau:

Instruction Chains Generator: Mô-đun này chia nhiệm vụ thành các mô tả bước chi tiết.
Previous Action Description Generator: Dựa trên hành động trước đó và nội dung trang, mô-đun này tạo ra mô tả dễ hiểu về hành động.
Object Detection: Một mô hình phát hiện đối tượng được sử dụng để nhận dạng phần trên trang. Văn bản trong mỗi phần được phân loại thành một nhóm, cung cấp cấu trúc phân cấp rõ ràng để hiểu ngữ cảnh tốt hơn.
Action Prediction: Dựa trên kết quả đầu ra của các mô-đun trước, mô-đun này xây dựng lời nhắc để dự đoán trực tiếp hành động tiếp theo.
Controllable Calibration: Mô-đun này giải quyết hiện tượng ảo giác trong LLM bằng cách xem xét kỹ lưỡng hành động được dự đoán để đảm bảo nó có thể hoạt động được.

Pipeline của LLMPA Agent cho Alipay.

Hệ thống trợ lý ảo được đề xuất (Hình 4), dựa trên các mô hình ngôn ngữ lớn (LLM), vượt trội trong việc phân tích các hướng dẫn phức tạp, lý luận về mục tiêu và tự động thực hiện các nhiệm vụ theo chuỗi. Lợi ích chính của hệ thống này nằm ở khả năng xử lý và suy luận ngôn ngữ tự nhiên được nâng cao. Bằng cách tận dụng dữ liệu đào tạo mở rộng, hệ thống có thể hiểu các hướng dẫn mơ hồ hoặc không đầy đủ, suy ra ý định của người dùng và hỗ trợ hoàn thành nhiệm vụ theo quy trình gồm nhiều bước.

Tuy nhiên, hệ thống có những hạn chế, chẳng hạn như bị hạn chế bởi dữ liệu huấn luyện và những sai lệch hoặc lỗi tiềm ẩn trong hành vi của nó. Ngoài ra, các mô hình ngôn ngữ lớn tiêu tốn nhiều tài nguyên, có thể đặt ra thách thức cho việc triển khai thiết bị di động.

Các tác giả đã giới thiệu một cách tiếp cận sáng tạo cho trợ lý ảo thông minh bằng cách sử dụng các mô hình ngôn ngữ lớn (LLM) được thiết kế dành riêng cho tự động hóa ứng dụng di động. Các nhà nghiên cứu đã đề xuất một kiến trúc đầu cuối, bao gồm mô hình LLMPA, bối cảnh môi trường và người thực thi, cho phép hoàn thành nhiệm vụ nhiều bước tự động trong ứng dụng thanh toán trong thế giới thực bằng cách sử dụng hướng dẫn ngôn ngữ tự nhiên. Thử nghiệm quy mô lớn trên nền tảng Alipay được sử dụng rộng rãi cho thấy LLM hiện đại có thể hỗ trợ các trợ lý có khả năng hiểu mục tiêu, lập kế hoạch và hoàn thành các quy trình phức tạp trong thế giới thực để hỗ trợ người dùng. Điều này đánh dấu một tiến bộ đáng kể cho trợ lý thông minh trong các ứng dụng di động phổ biến. Nghiên cứu nêu bật tiềm năng trong tương lai trong việc phát triển khả năng xử lý theo ngữ cảnh, khả năng suy luận và triển khai được tối ưu hóa trên thiết bị, nhằm tạo ra tác nhân ảo.

2.2.LLM trong các tác vụ quản lý quy trình kinh doanh

Mục tiêu của Quản lý quy trình kinh doanh (BPM) là hiểu và quản lý việc thực hiện công việc trong một tổ chức để đảm bảo kết quả nhất quán và xác định các cơ hội cải tiến. BPM sử dụng các nguồn thông tin đa dạng, từ các mô hình quy trình có cấu trúc đến các tài liệu văn bản phi cấu trúc. Trong những năm gần đây, các nhà nghiên cứu BPM ngày càng chuyển sang Xử lý ngôn ngữ tự nhiên (NLP) để tự động trích xuất thông tin liên quan đến quy trình từ dữ liệu văn bản.

Các phương pháp tiếp cận hiện tại tận dụng dữ liệu văn bản cho nhiều tác vụ BPM khác nhau, chẳng hạn như khai thác mô hình quy trình từ mô tả, phân loại phản hồi của người dùng cuối và xác định các tác vụ để tự động hóa quy trình bằng robot (RPA). Mặc dù một số phương pháp tiếp cận này sử dụng máy học nhưng hầu hết đều dựa vào các bộ quy tắc mở rộng. Tuy nhiên, mỗi cách tiếp cận thường được thiết kế cho một nhiệm vụ cụ thể và vẫn chưa tồn tại một mô hình có mục đích chung linh hoạt cho văn bản liên quan đến quy trình.

Với sự xuất hiện của các Mô hình ngôn ngữ lớn (LLM) được đào tạo trước thể hiện khả năng suy luận mạnh mẽ trên các lĩnh vực, các nhà nghiên cứu đang khám phá tiềm năng của chúng trong BPM, bao gồm phân tích các cơ hội và thách thức LLM hiện có trong vòng đời BPM. Các ấn phẩm gần đây nhấn mạnh tiềm năng và những khó khăn của LLM nhưng không giới thiệu các ứng dụng cụ thể.

Bài viết này sử dụng cách tiếp cận hướng ứng dụng bằng cách đánh giá xem liệu LLM có thể hoàn thành ba nhiệm vụ BPM hay không: (1) khai thác các mô hình quy trình mệnh lệnh, (2) khai thác các mô hình quy trình khai báo và (3) đánh giá tính phù hợp của các nhiệm vụ quy trình đối với RPA. Những nhiệm vụ này đã được lựa chọn vì sự phù hợp thực tế và nghiên cứu hiện có của chúng. Bài viết đánh giá LLM so với các phương pháp tiếp cận hiện có được phát triển cho từng nhiệm vụ, thảo luận về ý nghĩa đối với nghiên cứu trong tương lai và cách LLM có thể hỗ trợ những người thực hành.

Các nhà nghiên cứu đã phát triển và áp dụng phương pháp sử dụng GPT-4, một mô hình ngôn ngữ lớn (LLM), cho các nhiệm vụ Quản lý quy trình kinh doanh (BPM) đa dạng. Cách tiếp cận này rất đơn giản, tận dụng khả năng của GPT-4 để hoàn thành nhiệm vụ bằng cách cung cấp cho GPT-4 các hướng dẫn cụ thể. Các nhà nghiên cứu tập trung vào ba nhiệm vụ BPM để chứng minh tính hiệu quả của GPT-4: khai thác các mô hình quy trình khai báo và mệnh lệnh từ các mô tả văn bản, đồng thời đánh giá tính phù hợp của các nhiệm vụ quy trình đối với Tự động hóa quy trình bằng robot (RPA). Trong mọi trường hợp, GPT-4 hoạt động tương tự hoặc tốt hơn điểm chuẩn, vốn là những ứng dụng cụ thể cho các tác vụ tương ứng.

Lợi ích chính của phương pháp này là tính linh hoạt và hiệu suất mạnh mẽ của GPT-4 trên nhiều tác vụ BPM. Các nhà nghiên cứu nhận thấy rằng kết quả đầu ra tương đối nhất quán ngay cả với các lần thực thi khác nhau của cùng một lời nhắc, mặc dù một số lời nhắc được hưởng lợi từ việc đưa vào các ví dụ để hỗ trợ LLM. Nghiên cứu cũng phân tích độ chắc chắn của đầu vào và đầu ra, cho thấy nghiên cứu trong tương lai nên khám phá xem liệu LLM có thể được áp dụng cho các nhiệm vụ vòng đời BPM khác hay không. Nhìn chung, bài viết này minh họa các ứng dụng thực tế của GPT-4, nhấn mạnh tính hiệu quả và mạnh mẽ của nó, đồng thời đưa ra ý nghĩa cho nghiên cứu và sử dụng thực tế trong tương lai.

3. Mô hình thử nghiệm tại FIS cho hoạt động review hợp đồng

Từ việc xem xét tài liệu toàn diện ở trên, khám phá các khả năng và hạn chế của Mô hình ngôn ngữ lớn (LLM) trong Quản lý quy trình kinh doanh (BPM), chúng tôi đã xác định được một hướng nghiên cứu đầy hứa hẹn và phát triển một trợ lý ảo đổi mới. Trợ lý này tận dụng LLM để tăng cường tự động hóa quy trình trong các công ty. Trợ lý ảo thông minh của chúng tôi được thiết kế để hiểu, suy luận và thực hiện các tác vụ phức tạp dựa trên hướng dẫn ngôn ngữ tự nhiên, hỗ trợ hợp lý hóa các hoạt động và nâng cao hiệu quả. Bằng cách tích hợp công nghệ LLM tiên tiến, giải pháp của chúng tôi chứng tỏ tiềm năng tự động hóa quy trình do AI điều khiển trong môi trường tổ chức, đặc biệt là trong quy trình pháp lý nơi các hợp đồng kinh doanh được tự động trích xuất, xem xét bởi các mô hình LLM sau đó có thể được người được ủy quyền ký kết. người lao động.

Tổng quan về cách cấu trúc CHATDPA của FIS để đáp ứng các yêu cầu nghiệp vụ.

Nghiên cứu bắt đầu từ nhu cầu thực tế của bất kỳ công ty nào, đặc biệt là đội ngũ pháp lý. Công việc chính của nhóm pháp lý là xem xét hợp đồng, tìm ra những điều khoản khó hiểu, ẩn giấu trong hợp đồng. Việc xem xét các hợp đồng và thủ tục giấy tờ mà không tự động hóa quy trình dựa trên LLM có thể đặt ra một số thách thức cho các nhóm pháp lý:

Thời gian tiêu tốn: Việc xem xét hợp đồng theo cách thủ công tốn nhiều công sức và có thể mất nhiều thời gian, đặc biệt khi xử lý các tài liệu dài hoặc phức tạp. Đội ngũ pháp lý thường cần phải đọc kỹ các thủ tục giấy tờ một cách tỉ mỉ để xác định các điều khoản, điều khoản chính và các vấn đề tiềm ẩn.
Dễ bị lỗi: Đánh giá của con người rất dễ mắc sai sót, đặc biệt khi chịu áp lực về thời gian. Những chi tiết quan trọng hoặc những khác biệt nhỏ có thể bị bỏ qua, điều này có thể dẫn đến những hậu quả pháp lý không lường trước được hoặc bỏ lỡ cơ hội.
Tiêu chuẩn đánh giá không nhất quán: Các thành viên khác nhau trong nhóm có thể giải thích hoặc đánh giá các điều khoản hợp đồng một cách khác nhau, dẫn đến sự không nhất quán trong các đánh giá. Sự không nhất quán này có thể dẫn đến những đánh giá khác nhau về rủi ro hoặc các vấn đề tuân thủ.

Kiến trúc được cung cấp trong Hình 5 thể hiện một cách tiếp cận sáng tạo để nâng cao quy trình làm việc của nhóm pháp lý bằng cách sử dụng các công nghệ AI tiên tiến. Phương pháp luận, được nêu bật trong phần “Phương pháp tổng thể”, thể hiện một quy trình có cấu trúc để tận dụng Mô hình ngôn ngữ lớn (LLM) và các công nghệ liên quan để xử lý tài liệu pháp lý hiệu quả. Cách tiếp cận này bao gồm năm bước chính, bắt đầu từ việc thu thập yêu cầu nghiệp vụ, chọn LLM được đào tạo trước, tinh chỉnh mô hình, đánh giá hiệu suất của nó và triển khai giải pháp.

Kiến trúc bao gồm nhiều thành phần chức năng, như được thấy trong phần “Chức năng ChatDPA”, chẳng hạn như đánh giá hợp đồng, tóm tắt, OCR (Nhận dạng ký tự quang học) và các chức năng chuyển văn bản sang giọng nói. Các thành phần này trực tiếp giải quyết các nhu cầu cốt lõi của nhóm pháp lý, thường liên quan đến việc xử lý khối lượng lớn hợp đồng và giấy tờ.

Bằng cách tích hợp các mô hình được đào tạo trước như VietOCR, VITS, wav2vec2 và LLM như zephyr-7b-beta, vistrala-7b-chat và Llama3, kiến trúc này cung cấp một bộ công cụ mạnh mẽ để tự động hóa và hợp lý hóa các quy trình pháp lý khác nhau. Việc đưa vào công nghệ OCR tạo điều kiện thuận lợi cho việc trích xuất văn bản từ các tài liệu được quét, trong khi khả năng chuyển văn bản thành giọng nói và chuyển giọng nói thành văn bản sẽ nâng cao khả năng truy cập và tương tác của người dùng.

3.1.Những lợi ích chính

Tăng tính hiệu quả: Phương pháp có cấu trúc và các chức năng tự động giúp giảm đáng kể thời gian và công sức cần thiết cho việc xem xét và quản lý hợp đồng, giải phóng các nhóm pháp lý để tập trung vào các nhiệm vụ cấp cao hơn.
Nâng cao độ chính xác: Bằng cách sử dụng công nghệ LLM và OCR tiên tiến, kiến trúc giảm thiểu rủi ro lỗi của con người trong việc xử lý và giải thích các tài liệu pháp lý.
Quy trình làm việc được sắp xếp hợp lý: Các chức năng tích hợp, từ tóm tắt đến ký kết hợp đồng, phù hợp với quy trình pháp lý điển hình, nâng cao năng suất và giảm tắc nghẽn.
Khả năng tiếp cận: Khả năng chuyển văn bản thành giọng nói và chuyển lời nói thành văn bản giúp hệ thống dễ tiếp cận hơn, hỗ trợ các chuyên gia pháp lý có thể thích hoặc yêu cầu tương tác dựa trên âm thanh.

Kiến trúc này cung cấp một giải pháp toàn diện phù hợp với nhu cầu khắt khe của các nhóm pháp lý, mang đến sự kết hợp giữa các chức năng AI tiên tiến và những cải tiến quy trình làm việc thực tế.

Khối lượng tài liệu: Các nhóm pháp lý thường phải quản lý khối lượng lớn hợp đồng và thủ tục giấy tờ, khiến việc xem xét kỹ lưỡng từng hợp đồng mà không có sự trợ giúp tự động trở nên khó khăn. Khối lượng này có thể khiến các nhóm choáng ngợp và dẫn đến sự chậm trễ hoặc thiếu sót.
Ngôn ngữ phức tạp: Các văn bản pháp luật thường được viết bằng ngôn ngữ phức tạp hoặc thuật ngữ pháp lý, khó có thể diễn giải chính xác nếu không có kiến thức chuyên môn. Sự phức tạp này có thể cản trở việc xem xét và phân tích hiệu quả.
Sự lặp lại: Việc xem xét hợp đồng bao gồm các nhiệm vụ lặp đi lặp lại, chẳng hạn như kiểm tra các điều khoản tiêu chuẩn hoặc các điều khoản tham chiếu chéo. Tính chất lặp đi lặp lại này có thể dẫn đến mệt mỏi và giảm độ chính xác theo thời gian, ảnh hưởng đến chất lượng của bài đánh giá.
Khó khăn trong việc phát hiện điểm bất thường: Việc xác định các điều khoản bất thường hoặc không chuẩn mực trong hợp đồng đòi hỏi phải chú ý đến từng chi tiết. Nếu không có tự động hóa dựa trên LLM, việc phát hiện những điểm bất thường này có thể gặp khó khăn và có thể cần nhiều thời gian và công sức hơn.
Thiếu tiêu chuẩn hóa: Các hợp đồng khác nhau có thể tuân theo các định dạng hoặc cấu trúc khác nhau, khiến các nhóm pháp lý khó thiết lập quy trình đánh giá tiêu chuẩn hóa hơn. Việc thiếu tiêu chuẩn hóa này có thể dẫn đến sự thiếu hiệu quả và tăng nguy cơ thiếu các chi tiết quan trọng.

Kiến trúc của ChatDPA thể hiện tiềm năng của nó ngoài việc chỉ xem xét hợp đồng, định vị nó như một tác nhân xử lý tự động lý tưởng được hỗ trợ bởi Mô hình ngôn ngữ lớn (LLM) cho các nhiệm vụ khác nhau trong các ngành như ngân hàng và tài chính. Các chức năng mạnh mẽ của ChatDPA, chẳng hạn như Nhận dạng ký tự quang học (OCR), xử lý ngôn ngữ tự nhiên và khả năng chuyển văn bản thành giọng nói, khiến nó rất phù hợp cho các quy trình phức tạp như giới thiệu khách hàng, xử lý đơn đăng ký khoản vay và giám sát giao dịch tài chính.

3.2.Một số ứng dụng trong ngành tài chính/ngân hàng

Hỗ trợ khách hàng: ChatDPA có thể tự động hướng dẫn khách hàng mới trong suốt quá trình giới thiệu, từ tạo tài khoản đến xác minh tài liệu, sử dụng khả năng hiểu ngôn ngữ tự nhiên nâng cao để làm rõ các truy vấn của khách hàng và tự động điền biểu mẫu.

Hỗ trợ xử lý nghiệp vụ khoản vay: Bằng cách tận dụng khả năng xử lý tài liệu do LLM cung cấp, ChatDPA có thể xem xét và tóm tắt các đơn xin vay, thực hiện kiểm tra tín dụng và thậm chí đề xuất các sản phẩm cho vay phù hợp, đơn giản hóa toàn bộ quy trình phê duyệt khoản vay.

Giám sát giao dịch: Khả năng phân tích các mẫu và phát hiện điểm bất thường của ChatDPA khiến nó trở thành một công cụ tuyệt vời để giám sát các giao dịch tài chính nhằm phát hiện gian lận hoặc hoạt động đáng ngờ, nâng cao các biện pháp bảo mật của ngân hàng.

4. Kết luận

Trong bối cảnh công nghệ phát triển nhanh chóng ngày nay, các tác nhân xử lý tự động đã trở thành một xu hướng nổi bật, đặc biệt là trong các lĩnh vực như tài chính và ngân hàng, nơi hiệu quả và độ chính xác là tối quan trọng. Các tác nhân này, được hỗ trợ bởi các mô hình AI tiên tiến như Mô hình ngôn ngữ lớn (LLM), đang cách mạng hóa cách thức hoạt động của các doanh nghiệp, thúc đẩy tự động hóa trên một loạt các quy trình phức tạp. Sự hấp dẫn của các hệ thống này nằm ở khả năng tự động thực hiện các nhiệm vụ, xử lý khối lượng dữ liệu lớn và thích ứng với các điều kiện thay đổi, đồng thời giảm gánh nặng cho nhân viên và nâng cao hiệu quả hoạt động.

Nhu cầu về các tác nhân xử lý tự động được thúc đẩy bởi sự phức tạp ngày càng tăng của hoạt động kinh doanh và nhu cầu ngày càng tăng về các giải pháp có thể xử lý các nhiệm vụ phức tạp với sự can thiệp tối thiểu của con người. Ví dụ: trong các tổ chức tài chính, các tác nhân này có thể hợp lý hóa các quy trình như giới thiệu khách hàng, xử lý đơn xin vay và giám sát giao dịch, đồng thời duy trì mức độ chính xác và nhất quán cao. Ứng dụng của các Tác nhân tự động hóa được hỗ trợ bởi AI mở rộng ra ngoài lĩnh vực tài chính, chạm đến nhiều ngành công nghiệp khác nhau được hưởng lợi từ tự động hóa và ra quyết định thông minh.

Bài viết độc quyền của chuyên gia FPT IS

Tác giả Lê Khắc Đề – Giám đốc Trung tâm nền tảng và phân tích dữ liệu