Đồ thị tri thức và ứng dụng trong lĩnh vực pháp luật

Đồ thị tri thức và ứng dụng trong lĩnh vực pháp luật

Tóm tắt nội dung

Các mô hình ngôn ngữ lớn (LLM) đang thúc đẩy quá trình chuyển đổi mạnh mẽ trong lĩnh vực pháp luật. Tuy nhiên, những ứng dụng Legal AI sử dụng LLM vẫn tồn tại hạn chế là hiện tượng ảo giác (hallucination), trong đó hệ thống có thể tạo ra án lệ không tồn tại, trích dẫn sai quy định hoặc đưa ra kết luận thiếu căn cứ pháp lý. Nghiên cứu của Stanford năm 2024 cho thấy ngay cả các hệ thống chuyên biệt như LexisNexis và Thomson Reuters vẫn ghi nhận tỷ lệ sai lệch đáng kể. Trong môi trường pháp lý, nơi tính chính xác và khả năng truy nguồn đóng vai trò cốt lõi, đây là rủi ro đặc biệt nghiêm trọng.

Bài viết này phân tích những giới hạn của kiến trúc RAG truyền thống và giới thiệu hướng tiếp cận GraphRAG kết hợp với Đồ thị tri thức (Knowledge Graph) như nền tảng mới cho Legal AI. Nội dung tập trung vào bốn vấn đề chính: (1) khái niệm Knowledge Graph và lý do dữ liệu pháp luật đặc biệt phù hợp với mô hình đồ thị; (2) các hạn chế của RAG truyền thống và cách GraphRAG cải thiện khả năng suy luận, truy xuất và kiểm chứng pháp lý; (3) phương pháp xây dựng Knowledge Graph và các ứng dụng trong Legal AI; và (4) định hướng phát triển GraphRAG tại Việt Nam.

1. Mở đầu

Tháng 6 năm 2023, hai luật sư tại Manhattan đã nộp lên Tòa án Liên bang một bản đệ trình  trong vụ Mata v. Avianca với sáu án lệ do ChatGPT viện dẫn, nhưng tất cả đều không tồn tại. Đến cuối năm 2025, đã ghi nhận hàng  trăm vụ việc tương tự tại Hoa Kỳ cùng nhiều trường hợp tại Anh, Úc và Canada. Những sự việc này cho thấy hạn chế cốt lõi của AI thế hệ đầu trong lĩnh vực pháp luật: mô hình có thể tạo ra các thông tin có vẻ hợp lý nhưng không có cơ sở pháp lý thực tế.

Dù vậy, pháp luật vẫn được xem là một trong những lĩnh vực có tiềm năng ứng dụng AI lớn nhất hiện nay. Báo cáo của Goldman Sachs năm 2023 ước tính khoảng 44% công việc pháp lý có thể được AI hỗ trợ, trong khi khảo sát của Thomson Reuters năm 2024 cho thấy 67% hãng luật tin rằng AI sẽ tạo tác động lớn đối với ngành luật trong vòng 5 năm tới.

Tuy nhiên, thách thức lớn nhất của Legal AI không nằm ở tốc độ xử lý mà ở độ tin cậy, khả năng truy nguồn và năng lực suy luận pháp lý chính xác. Đây cũng là lý do Knowledge Graph và GraphRAG đang trở thành nền tảng cho thế hệ Legal AI tiếp theo. Thay vì xử lý văn bản như các đoạn dữ liệu rời rạc, các hệ thống này mô hình hóa toàn bộ hệ thống pháp luật dưới dạng mạng lưới các thực thể và quan hệ pháp lý, giúp AI hiểu được cấu trúc, liên kết và hiệu lực của văn bản.

2. Đồ thị tri thức (Knowledge Graph)

2.1. Định nghĩa và khái niệm cơ bản

Knowledge Graph là phương pháp tổ chức dữ liệu dưới dạng mạng lưới các thực thể và mối quan hệ giữa chúng. Trong mô hình này, mỗi con người, tổ chức, văn bản hoặc khái niệm được biểu diễn như một “nút” (node), còn các mối liên hệ giữa chúng được thể hiện bằng các “cạnh” (edge). Cách biểu diễn này gần với cách con người ghi nhớ và suy luận hơn so với việc lưu trữ dữ liệu dưới dạng các đoạn văn rời rạc.

Một Knowledge Graph thường gồm ba thành phần chính:

  • Nodes (nút): đại diện cho các thực thể trong hệ thống. Ví dụ, nút “Luật Doanh nghiệp 2020” có thể chứa các thuộc tính như số hiệu “59/2020/QH14”, ngày ban hành “17/6/2020” và trạng thái “còn hiệu lực”.
  • Edges (cạnh): đại diện cho quan hệ giữa các thực thể. Ví dụ, “Nghị định 01/2021/NĐ-CP” có quan hệ [HƯỚNG_DẪN] đối với “Luật Doanh nghiệp 2020”.
  • Properties (thuộc tính): là các thông tin mô tả gắn với nút hoặc cạnh nhằm phục vụ truy vấn, lọc dữ liệu và suy luận.

Knowledge Graph được gọi là “đồ thị” vì dữ liệu pháp luật không tồn tại theo cấu trúc tuyến tính hay phân cấp đơn giản. Một luật có thể được nhiều nghị định hướng dẫn; một điều luật có thể tham chiếu đến nhiều văn bản khác nhau; một văn bản có thể đồng thời sửa đổi văn bản cũ và bị văn bản khác sửa đổi. Toàn bộ hệ thống pháp luật vì vậy giống một mạng lưới liên kết phức tạp hơn là một cây phân cấp cố định.

Khái niệm này được biết đến rộng rãi từ năm 2012 khi Google giới thiệu Google Knowledge Graph với khẩu hiệu “things, not strings”, nhấn mạnh việc chuyển từ xử lý chuỗi ký tự sang xử lý các thực thể và quan hệ trong thế giới thực.

2.2. Vì sao Knowledge Graph đặc biệt phù hợp với dữ liệu pháp luật

Dữ liệu pháp lý không tồn tại dưới dạng các văn bản độc lập mà hình thành một mạng lưới phức tạp gồm luật, nghị định, thông tư, bản án và các khái niệm pháp lý liên kết chặt chẽ với nhau. Chính đặc điểm này khiến lĩnh vực pháp luật đặc biệt phù hợp để mô hình hóa bằng Knowledge Graph. Có bốn lý do quan trọng:

a) Tính liên kết phức tạp

Một điều luật thường liên quan đến nhiều văn bản và quan hệ pháp lý khác nhau. Ví dụ, Điều 17 của Luật Doanh nghiệp 2020 vừa được hướng dẫn bởi nhiều nghị định, vừa tham chiếu đến các luật như Luật Cán bộ, công chức, Luật Phá sản và Bộ luật Hình sự, đồng thời còn được viện dẫn trong nhiều bản án.

Knowledge Graph cho phép biểu diễn toàn bộ các quan hệ này dưới dạng đồ thị, giúp AI hiểu được cách các quy định liên kết với nhau theo hướng gần với tư duy phân tích của luật sư.

b) Cấu trúc phân cấp chặt chẽ

Hệ thống pháp luật Việt Nam có cấu trúc phân cấp nhiều tầng, từ Hiến pháp, Bộ luật, Luật, Nghị định, Thông tư đến các văn bản địa phương. Trong mỗi văn bản lại tiếp tục chia thành phần, chương, mục, điều, khoản và điểm.

Các hệ thống RAG truyền thống thường làm mất cấu trúc này khi chia văn bản thành các đoạn nhỏ độc lập, trong khi Knowledge Graph có khả năng giữ nguyên quan hệ phân cấp giữa các thành phần của hệ thống pháp luật.

c) Tính thời gian và hiệu lực

Hiệu lực của văn bản pháp luật không phải trạng thái cố định. Một văn bản có thể hết hiệu lực toàn bộ, hết hiệu lực một phần, đang trong giai đoạn chuyển tiếp hoặc được áp dụng khác nhau tùy thời điểm.

Ví dụ, một hợp đồng ký năm 2024 vẫn có thể phải áp dụng Luật Đất đai 2013 dù luật mới đã có hiệu lực sau đó. Knowledge Graph đặc biệt phù hợp với bài toán này vì mỗi thực thể và quan hệ trong đồ thị đều có thể gắn thêm thông tin về thời gian và hiệu lực pháp lý.

d) Nhu cầu suy luận pháp lý nhiều bước

Nhiều câu hỏi pháp lý không thể được trả lời bằng một văn bản đơn lẻ mà đòi hỏi chuỗi suy luận qua nhiều bước. Ví dụ, để xác định: “Các văn bản còn hiệu lực hướng dẫn những luật mà Luật Doanh nghiệp 2020 tham chiếu”, hệ thống phải:

  • Xác định các luật được tham chiếu
  • Tìm các văn bản hướng dẫn liên quan
  • Kiểm tra hiệu lực của từng văn bản
  • Loại bỏ các quy định đã bị thay thế

Vector search có thể tìm các đoạn văn gần nghĩa về mặt ngữ nghĩa, nhưng không thể tự động đi theo chuỗi quan hệ pháp lý phức tạp như vậy. Đây là điểm mà Knowledge Graph thể hiện ưu thế rõ rệt trong các bài toán Legal AI yêu cầu suy luận nhiều bước và khả năng truy nguồn chính xác.

Minh Hoạ Một Phần Đồ Thị Tri Thức Pháp Luật Quanh Luật Doanh Nghiệp 2020 1778819386

Hình 1. Minh hoạ một phần Đồ thị tri thức pháp luật quanh Luật Doanh nghiệp 2020. Mỗi nút là một thực thể (văn bản, điều khoản, khái niệm, bản án); mỗi đường nối có nhãn chỉ rõ loại quan hệ.

3. Từ RAG đến GraphRAG

3.1. RAG truyền thống và những giới hạn

Retrieval-Augmented Generation (RAG) hiện là kiến trúc phổ biến nhất trong các hệ thống AI tra cứu tài liệu. Ý tưởng cốt lõi của RAG là thay vì để mô hình ngôn ngữ trả lời hoàn toàn dựa trên kiến thức đã được huấn luyện sẵn, hệ thống sẽ truy xuất thêm thông tin từ kho dữ liệu bên ngoài tại thời điểm người dùng đặt câu hỏi. Cách tiếp cận này giúp AI cập nhật dữ liệu mới và giảm nguy cơ hallucination.

Một hệ thống RAG truyền thống thường hoạt động qua bốn bước chính:

  • Chunking: chia tài liệu thành nhiều đoạn nhỏ (chunk).
  • Embedding: chuyển mỗi chunk thành vector biểu diễn ý nghĩa ngữ nghĩa.
  • Retrieval: chuyển câu hỏi thành vector và tìm các chunk gần nghĩa nhất.
  • Generation: đưa các chunk được truy xuất vào prompt để LLM tạo câu trả lời.

Có thể hình dung embedding như “tọa độ ngữ nghĩa” của văn bản trong một không gian nhiều chiều, nơi các đoạn có nội dung tương tự sẽ nằm gần nhau. Cơ chế này hoạt động hiệu quả với nhiều bài toán như FAQ doanh nghiệp, tài liệu nội bộ hoặc hệ thống hỗ trợ khách hàng.

Tuy nhiên, khi áp dụng vào lĩnh vực pháp luật, RAG truyền thống bắt đầu bộc lộ nhiều hạn chế quan trọng.

Giới hạn 1 – Mất ngữ cảnh cấu trúc

Khi văn bản pháp luật bị chia thành các chunk nhỏ, hệ thống thường mất thông tin về vị trí và vai trò của đoạn văn trong cấu trúc tổng thể. Ví dụ, cụm từ “vốn điều lệ” có thể xuất hiện ở nhiều điều khác nhau trong Luật Doanh nghiệp 2020, nhưng mỗi điều lại áp dụng cho một bối cảnh pháp lý riêng. Có điều đưa ra định nghĩa chung, có điều chỉ áp dụng cho công ty trách nhiệm hữu hạn một thành viên, và có điều áp dụng cho công ty trách nhiệm hữu hạn hai thành viên trở lên.

Vector search có thể nhận thấy các đoạn này tương đối giống nhau về mặt ngữ nghĩa, nhưng không hiểu được sự khác biệt về bối cảnh pháp lý. Điều này khiến hệ thống dễ truy xuất sai quy định hoặc đưa ra câu trả lời thiếu chính xác.

Giới hạn 2 – Không tự đi theo tham chiếu pháp lý

Hệ thống pháp luật chứa rất nhiều tham chiếu giữa các văn bản và điều khoản. Một điều luật có thể dẫn chiếu sang luật khác hoặc yêu cầu “thực hiện theo quy định tại Điều X”. RAG truyền thống chỉ tìm được đoạn văn chứa tham chiếu, nhưng không tự động truy xuất tiếp nội dung liên quan.

Ví dụ, khi hỏi về thủ tục thành lập công ty có vốn nước ngoài, hệ thống có thể tìm được quy định trong Luật Doanh nghiệp dẫn chiếu sang Luật Đầu tư, nhưng không tiếp tục lấy các quy định liên quan đến thủ tục cấp Giấy chứng nhận đăng ký đầu tư (IRC). Kết quả là câu trả lời thiếu các bước pháp lý quan trọng.

Giới hạn 3 – Không xử lý tốt hiệu lực văn bản

Vector search tìm các nội dung gần nghĩa về mặt ngữ nghĩa, nhưng không hiểu đầy đủ trạng thái hiệu lực của văn bản pháp luật. Khi hỏi về quy định đất đai áp dụng trong năm 2026, hệ thống có thể đồng thời truy xuất thông tin từ Luật Đất đai 2013 và Luật Đất đai 2024. Nếu AI không xác định được văn bản nào còn hiệu lực tại thời điểm được hỏi, hệ thống có thể đưa ra câu trả lời dựa trên quy định đã hết hiệu lực hoặc không còn phù hợp với bối cảnh pháp lý hiện tại.

Giới hạn 4 – Mất quan hệ khi ghép kết quả

RAG truyền thống thường ghép nhiều chunk từ các nguồn khác nhau rồi đưa toàn bộ vào LLM, nhưng không hiểu mối quan hệ pháp lý giữa các văn bản đó. Hệ thống không biết văn bản nào sửa đổi văn bản nào, đâu là quy định gốc, đâu là văn bản hướng dẫn chi tiết hoặc quy định đã bị thay thế. Điều này có thể khiến AI đồng thời sử dụng nhiều quy định mâu thuẫn với nhau và tạo ra câu trả lời thiếu nhất quán hoặc thiếu căn cứ pháp lý rõ ràng.

Giới hạn 5 – Thất bại với câu hỏi nhiều bước

Đây là hạn chế lớn nhất của RAG trong các bài toán Legal AI. Nhiều câu hỏi pháp lý đòi hỏi chuỗi suy luận qua nhiều bước thay vì chỉ truy xuất một đoạn văn đơn lẻ. Ví dụ, để trả lời câu hỏi: “Các nghị định còn hiệu lực hướng dẫn những điều của Luật Doanh nghiệp 2020 liên quan đến công ty trách nhiệm hữu hạn một thành viên”, hệ thống phải:

  • Xác định các điều liên quan
  • Tìm các văn bản hướng dẫn tương ứng
  • Kiểm tra hiệu lực của từng văn bản
  • Loại bỏ các quy định đã hết hiệu lực hoặc bị thay thế

Đây là dạng suy luận nhiều bước (multi-hop reasoning) mà vector search truyền thống gần như không xử lý hiệu quả. Chính hạn chế này đã thúc đẩy sự xuất hiện của GraphRAG như một hướng tiếp cận mới cho các hệ thống Legal AI yêu cầu khả năng suy luận và truy nguồn chính xác hơn.

Năm hạn chế này cũng đồng thời là bài toán mà nhóm nghiên cứu tại FPT IS AI R&D Center đang tập trung giải quyết cho bối cảnh pháp luật Việt Nam với những đặc thù riêng về ngôn ngữ và cấu trúc hệ thống văn bản mà các pipeline tiếng Anh chưa xử lý được tốt.

3.2. GraphRAG: Sự kết hợp giữa LLM và Đồ thị tri thức

GraphRAG được Microsoft Research giới thiệu năm 2024 trong nghiên cứu From Local to Global: A Graph RAG Approach to Query-Focused Summarization. Chỉ trong thời gian ngắn, đây đã trở thành một trong những hướng tiếp cận quan trọng trong lĩnh vực AI tri thức và Legal AI.

Khác với RAG truyền thống, vốn lưu trữ dữ liệu chủ yếu dưới dạng các chunk rời rạc, GraphRAG bổ sung thêm một lớp “hiểu cấu trúc” thông qua Knowledge Graph. Trong mô hình này, văn bản pháp luật, điều khoản, bản án hoặc khái niệm pháp lý được biểu diễn thành các nút (node), còn các quan hệ như “tham chiếu”, “hướng dẫn”, “sửa đổi” hoặc “áp dụng cho” được biểu diễn thành các cạnh (edge) kết nối giữa các nút.

Khi người dùng đặt câu hỏi, hệ thống không chỉ tìm các đoạn văn gần nghĩa nhất mà còn xác định các thực thể liên quan trong đồ thị, đi theo các quan hệ pháp lý, mở rộng ngữ cảnh theo đúng cấu trúc của hệ thống pháp luật và kiểm tra trạng thái hiệu lực của văn bản trước khi tạo câu trả lời.

GraphRAG không thay thế hoàn toàn vector search. Hệ thống vẫn sử dụng embedding để tìm điểm bắt đầu phù hợp, sau đó kết hợp Knowledge Graph để suy luận và mở rộng ngữ cảnh có kiểm soát. Có thể xem GraphRAG là sự kết hợp giữa khả năng:

  • Tìm kiếm ngữ nghĩa của vector search
  • Biểu diễn quan hệ của Knowledge Graph
  • Tổng hợp ngôn ngữ tự nhiên của LLM

Nhờ đó, hệ thống không chỉ “tìm thấy” thông tin mà còn hiểu được mối quan hệ giữa các quy định pháp lý trong toàn bộ mạng lưới dữ liệu.

Có thể hình dung sự khác biệt giữa hai cách tiếp cận qua một ví dụ đơn giản. RAG truyền thống giống như việc hỏi ngẫu nhiên vài người đi đường để tìm địa chỉ, mỗi người chỉ biết một phần thông tin riêng lẻ. Trong khi đó, GraphRAG giống như sử dụng Google Maps: hệ thống không chỉ biết điểm cần tìm mà còn hiểu toàn bộ mạng lưới kết nối và cách di chuyển hợp lý giữa các điểm trong hệ thống.

3.3. GraphRAG khắc phục các giới hạn của RAG truyền thống

GraphRAG khắc phục các hạn chế của RAG truyền thống bằng cách bổ sung lớp suy luận dựa trên Knowledge Graph. Hệ thống không chỉ tìm các đoạn văn gần nghĩa mà còn hiểu vị trí của nội dung trong cấu trúc pháp luật, tự động đi theo các tham chiếu giữa văn bản, kiểm tra trạng thái hiệu lực và giữ được các quan hệ như “sửa đổi”, “thay thế” hay “hướng dẫn”. Nhờ đó, AI có thể tổng hợp thông tin chính xác hơn và thực hiện các chuỗi suy luận nhiều bước, điều mà vector search truyền thống gần như không xử lý hiệu quả.

Hình 2. So Sánh Trực Quan Hai Kiến Trúc Rag Và Graphrag 1778819413

Hình 2. So sánh trực quan hai kiến trúc. Bên trái: RAG truyền thống lấy top-k chunk gần nghĩa, không biết quan hệ giữa chúng. Bên phải: GraphRAG định vị nút khởi đầu rồi đi theo các đường nối có ý nghĩa.

Các kết quả định lượng từ Microsoft Research (Edge et al., 2024) và các benchmark độc lập rất ấn tượng:

Loại câu hỏi RAG truyền thống GraphRAG
Câu hỏi multi-hop (chính xác) 23–32% 86–87%
Câu hỏi tổng hợp toàn corpus (win rate) ~22% ~78%
Độ chính xác trích dẫn ~60% >90%
Câu hỏi cụ thể đơn lẻ ~75% ~88%

3.4. Cơ chế hoạt động của GraphRAG

GraphRAG hoạt động qua hai giai đoạn chính: indexing (xây dựng đồ thị tri thức, thực hiện một lần) và query (trả lời câu hỏi, diễn ra mỗi khi người dùng đặt câu hỏi).

Giai đoạn indexing – xây dựng đồ thị. Quá trình indexing trong GraphRAG thường gồm các bước chính sau:

  • Structure-aware chunking: Khác với RAG truyền thống chia văn bản theo số ký tự cố định, GraphRAG cố gắng giữ nguyên cấu trúc tự nhiên của văn bản pháp luật. Trong nhiều hệ thống, mỗi Điều được xem như một chunk riêng và được gắn metadata như số hiệu văn bản, vị trí trong hệ thống phân cấp, ngày có hiệu lực và trạng thái pháp lý.
  • Entity extraction: AI đọc từng chunk để nhận diện các thực thể quan trọng như tên luật, số điều, cơ quan nhà nước hoặc khái niệm pháp lý. Các hệ thống hiện nay thường kết hợp phương pháp rule-based với các mô hình AI để xử lý cả dữ liệu có cấu trúc và ngữ nghĩa phức tạp.
  • Relation extraction: Đây là bước quan trọng nhất của GraphRAG. AI xác định các quan hệ như “tham chiếu”, “hướng dẫn”, “sửa đổi”, “thay thế”, “bãi bỏ” hoặc “áp dụng cho”. Ví dụ, từ câu “Nghị định này quy định chi tiết và hướng dẫn thi hành một số điều của Luật Doanh nghiệp”, hệ thống cần hiểu tồn tại quan hệ “hướng dẫn”.
  • Graph construction: Sau khi xử lý, dữ liệu được đưa vào graph database như Neo4j để xây dựng Knowledge Graph. Hệ thống cũng chuẩn hóa tên gọi để các cách viết như “Luật DN 2020”, “Luật Doanh nghiệp 2020” và “Luật số 59/2020/QH14” được nhận diện là cùng một văn bản.
  • Community detection & Hierarchical summarization: Các thuật toán đồ thị tự động tìm các nhóm nút liên kết chặt chẽ với nhau, thường tương ứng với các lĩnh vực như doanh nghiệp, lao động hoặc thuế. Sau đó, hệ thống tạo các bản tóm tắt ở nhiều cấp độ nhằm hỗ trợ trả lời các câu hỏi tổng hợp trên phạm vi dữ liệu lớn.

Giai đoạn query

Khi người dùng đặt câu hỏi, GraphRAG bắt đầu bằng việc phân tích truy vấn để xác định ý định và các thực thể pháp lý liên quan. Sau đó, hệ thống lựa chọn chiến lược tìm kiếm phù hợp, bao gồm local search hoặc global search.

Tiếp theo, GraphRAG thực hiện traversal trên Knowledge Graph để đi qua các nút và quan hệ liên quan, từ đó mở rộng ngữ cảnh theo đúng cấu trúc pháp lý. Dữ liệu truy xuất được tiếp tục lọc theo thời gian và trạng thái hiệu lực nhằm loại bỏ các quy định không còn phù hợp. Sau khi hoàn tất bước truy xuất và suy luận, LLM sẽ tạo câu trả lời và đính kèm citation cụ thể đến điều khoản hoặc văn bản nguồn.

Cuối cùng, hệ thống thực hiện verification, tức lớp kiểm tra bổ sung nhằm đánh giá xem các citation có thực sự hỗ trợ cho kết luận được đưa ra hay không, qua đó giảm nguy cơ hallucination.

Một điểm quan trọng của GraphRAG là sự phân biệt giữa local search và global search.

  • Local search phù hợp với các câu hỏi cụ thể liên quan đến một điều luật hoặc một số ít thực thể pháp lý, ví dụ: “Điều 17 quy định gì?”. Hệ thống chỉ cần truy xuất một vùng nhỏ của đồ thị nên tốc độ nhanh và ít tốn tài nguyên.
  • Global search được dùng cho các câu hỏi tổng hợp hoặc cần suy luận trên phạm vi rộng. Cách tiếp cận này dựa trên các community summary cùng khả năng kết nối và suy luận giữa nhiều nhóm dữ liệu. Dù chậm hơn và tốn nhiều tài nguyên hơn, global search cho phép GraphRAG xử lý các câu hỏi mà RAG truyền thống gần như không thể giải quyết hiệu quả.

4. Xây dựng Đồ thị tri thức và ứng dụng

4.1. Phương pháp xây dựng Knowledge Graph pháp luật

Việc xây dựng Knowledge Graph cho lĩnh vực pháp luật là sự kết hợp giữa kỹ thuật dữ liệu, xử lý ngôn ngữ tự nhiên (NLP) và kiến thức chuyên môn pháp lý. Quá trình thường được triển khai qua bốn giai đoạn chính.

Giai đoạn 1 – Thu thập và chuẩn hóa dữ liệu nguồn

Tại Việt Nam, các nguồn dữ liệu quan trọng bao gồm vbpl.vn, cổng công khai bản án, cổng thông tin của các bộ ngành và hệ thống dịch vụ công quốc gia. Trong môi trường doanh nghiệp, dữ liệu còn bao gồm hợp đồng, quy chế nội bộ và tài liệu tuân thủ. Thách thức lớn là dữ liệu tồn tại dưới nhiều định dạng khác nhau như HTML, Word, PDF văn bản hoặc PDF scan, mỗi loại đòi hỏi pipeline xử lý riêng. Chất lượng OCR đối với tài liệu tiếng Việt scan ảnh hưởng trực tiếp đến độ chính xác của các bước xử lý phía sau.

Giai đoạn 2 – Định nghĩa ontology

Ontology đóng vai trò là “bộ khung logic” của Knowledge Graph, giúp xác định các loại thực thể và quan hệ trong hệ thống pháp luật.

Đối với pháp luật Việt Nam, ontology thường cần mô hình hóa:

  • Các loại văn bản như Hiến pháp, Bộ luật, Luật, Nghị định và Thông tư
  • Cấu trúc nội bộ gồm Phần, Chương, Điều, Khoản và Điểm
  • Các quan hệ pháp lý như “tham chiếu”, “hướng dẫn”, “sửa đổi”, “thay thế” hoặc “bãi bỏ”
  • Các thuộc tính liên quan đến thời gian và hiệu lực pháp lý

Giai đoạn 3 – Trích xuất thực thể và quan hệ

Đây là giai đoạn ảnh hưởng trực tiếp đến chất lượng của Knowledge Graph. Các hệ thống hiện nay thường kết hợp ba hướng tiếp cận:

  • Phương pháp rule-based cho các mẫu có cấu trúc rõ ràng
  • Machine learning với các mô hình NER và relation extraction được huấn luyện trên dữ liệu pháp lý tiếng Việt
  • Các mô hình LLM-based để xử lý ngữ nghĩa phức tạp hoặc tham chiếu nhiều tầng

Dù AI ngày càng mạnh hơn, các hệ thống chất lượng cao vẫn cần sự tham gia của chuyên gia pháp lý để kiểm tra và hiệu chỉnh kết quả.

Giai đoạn 4 – Tích hợp và kiểm chứng.

Sau khi trích xuất, dữ liệu được đưa vào graph database để xây dựng Knowledge Graph hoàn chỉnh. Trong giai đoạn này, hệ thống cần:

  • Chuẩn hóa các cách gọi khác nhau của cùng một văn bản
  • Xử lý dữ liệu mâu thuẫn giữa nhiều nguồn
  • Theo dõi lịch sử sửa đổi và hiệu lực của văn bản
  • Xây dựng các chỉ số đánh giá chất lượng dữ liệu

Đây là bước quan trọng nhằm đảm bảo tính nhất quán, khả năng truy nguồn và độ tin cậy của toàn bộ hệ thống Legal AI.

4.2. Lưu trữ và suy diễn trên Knowledge Graph

Trong các dự án Legal AI hiện nay, Neo4j là graph database được sử dụng phổ biến nhất nhờ cộng đồng phát triển lớn và ngôn ngữ truy vấn Cypher tương đối dễ tiếp cận. Đối với các hệ thống có quy mô rất lớn với hàng chục triệu node và quan hệ, TigerGraph cũng là lựa chọn đáng chú ý nhờ khả năng xử lý đồ thị hiệu năng cao.

Một trong những ưu điểm lớn nhất của Knowledge Graph là khả năng hỗ trợ suy diễn pháp lý trên nhiều chiều dữ liệu khác nhau.

  • Suy diễn theo chuỗi quan hệ: Nếu văn bản A sửa đổi văn bản B và văn bản B đang hướng dẫn một điều luật, hệ thống có thể suy ra rằng văn bản A cũng có ảnh hưởng gián tiếp đến điều luật đó.
  • Suy diễn theo thời gian: Hệ thống có thể xác định văn bản nào được áp dụng tại một thời điểm cụ thể dựa trên ngày có hiệu lực, thời điểm sửa đổi hoặc thời điểm bị thay thế.
  • Suy diễn theo phân cấp: Nếu một quy định áp dụng cho một nhóm pháp lý lớn, thì các nhóm nhỏ hơn thuộc nhóm đó thường cũng phải áp dụng quy định này, trừ khi pháp luật có quy định riêng khác đi.
  • Suy diễn theo nguyên tắc pháp lý: Knowledge Graph có thể hỗ trợ các nguyên tắc suy luận cơ bản như lex posterior (văn bản ban hành sau được ưu tiên), lex specialis (quy định chuyên ngành được ưu tiên hơn quy định chung) và nguyên tắc văn bản cấp cao ưu tiên văn bản cấp thấp khi có xung đột pháp lý.

Hình 3. Phân Cấp Văn Bản Pháp Luật Việt Nam 1778819434

Hình 3. Phân cấp văn bản pháp luật Việt Nam, với hiệu lực pháp lý tăng dần từ dưới lên

4.3. Các bài toán AI pháp luật triển khai trên GraphRAG

Tra cứu pháp luật thông minh. Đây là bài toán cơ bản nhất, cho phép tra cứu bằng ngôn ngữ tự nhiên với câu trả lời tổng hợp kèm trích dẫn chính xác. GraphRAG xử lý được các câu hỏi mà tra cứu truyền thống không làm được: multi-hop, câu hỏi theo thời điểm, so sánh giữa quy định cũ và mới, tổng quan xu hướng án lệ và phân tích ảnh hưởng pháp lý đến hoạt động doanh nghiệp.

Phân tích hợp đồng và rà soát điều khoản. GraphRAG hỗ trợ AI đọc hợp đồng, trích xuất các điều khoản quan trọng và đối chiếu với Knowledge Graph pháp luật để phát hiện rủi ro hoặc điều khoản bất lợi, bao gồm phân loại điều khoản và đối chiếu với Bộ luật Dân sự cùng các luật chuyên ngành để tạo báo cáo rủi ro.

Thẩm định pháp lý cho M&A. GraphRAG có thể tự động rà soát khối lượng lớn tài liệu (hợp đồng, điều lệ, giấy phép, hồ sơ thuế và đầu tư), kiểm tra yêu cầu chấp thuận theo Luật Cạnh tranh, điều kiện đầu tư nước ngoài, rủi ro về thuế, lao động, sở hữu trí tuệ và bảo vệ dữ liệu cá nhân, phát hiện các mối liên hệ pháp lý dễ bị bỏ sót khi đọc tài liệu trong thời gian ngắn.

4.4. Hạn chế của Knowledge Graph và GraphRAG

Dù mang lại nhiều lợi ích cho Legal AI, Knowledge Graph và GraphRAG vẫn tồn tại một số hạn chế quan trọng.

Trước hết là chi phí xây dựng cao do yêu cầu hạ tầng dữ liệu và đội ngũ liên ngành gồm kỹ sư AI, kỹ sư dữ liệu và chuyên gia pháp lý. Quá trình triển khai và hiệu chỉnh hệ thống có thể kéo dài từ nhiều tháng đến nhiều năm.

Hệ thống cũng cần được cập nhật liên tục khi pháp luật thay đổi. Nếu dữ liệu không được đồng bộ kịp thời, AI có thể đưa ra kết luận dựa trên quy định đã hết hiệu lực hoặc bị sửa đổi.

Ngoài ra, chất lượng của GraphRAG phụ thuộc lớn vào khả năng trích xuất thực thể và quan hệ pháp lý. Nếu hệ thống nhận diện sai hoặc bỏ sót các quan hệ như “sửa đổi”, “bãi bỏ” hay “hướng dẫn”, kết quả suy luận có thể thiếu chính xác.

Hiện tượng ảo giác (hallucination) cũng chưa được loại bỏ hoàn toàn. Trong Legal AI, lỗi thường gặp không phải “bịa hoàn toàn” mà là trả lời đúng một phần nhưng thiếu điều kiện pháp lý quan trọng.

Đối với tiếng Việt, Legal AI còn gặp thêm nhiều khó khăn do thiếu benchmark chuẩn, văn bản pháp luật có câu dài, tham chiếu lồng nhau và nhiều thuật ngữ Hán – Việt. Các cụm thay thế như “điều này” hoặc “khoản này” cũng khiến việc suy luận ngữ cảnh trở nên phức tạp hơn, làm cho các mô hình tiếng Anh khó áp dụng trực tiếp cho pháp luật Việt Nam.

Đây cũng là hướng tiếp cận mà FPT IS AI R&D Center theo đuổi: kết hợp các mô hình PhoBERT được fine-tune cho NLP và NER pháp lý tiếng Việt với ontology được thiết kế riêng cho cấu trúc văn bản pháp luật Việt Nam, đồng thời bổ sung lớp verification để kiểm tra citation trước khi tạo câu trả lời. Thay vì áp dụng trực tiếp các pipeline tiếng Anh, cách tiếp cận này giúp hệ thống xử lý tốt hơn các đặc thù của văn bản pháp luật Việt Nam như câu dài, tham chiếu lồng nhau, thuật ngữ Hán – Việt và cấu trúc diễn đạt phức tạp, qua đó giảm thiểu các lỗi “đúng một phần” nhưng thiếu điều kiện pháp lý quan trọng, vốn là dạng hallucination nguy hiểm nhất trong môi trường pháp lý.

5. Kinh nghiệm quốc tế và giải pháp của FPT

Trong giai đoạn 2023 – 2026, nhiều quốc gia và tổ chức đã triển khai Knowledge Graph và GraphRAG cho Legal AI ở quy mô lớn. Harvey hợp tác với A&O Shearman tại Hoa Kỳ để phát triển trợ lý AI pháp lý cho luật sư doanh nghiệp. Singapore đầu tư mạnh vào hạ tầng pháp luật số với hệ thống LawNet và ontology pháp lý chuẩn hóa. China triển khai mô hình “Smart Court” kết nối hàng triệu bản án với điều luật. Trong khi đó, Italy và European Union sử dụng chuẩn Akoma Ntoso để chuẩn hóa văn bản pháp luật dưới dạng XML.

Từ các kinh nghiệm quốc tế, có thể rút ra ba bài học quan trọng, đồng thời cũng là những nguyên tắc mà FPT áp dụng trong quá trình phát triển AI ứng dụng trong pháp luật:

  • Legal AI hiệu quả đòi hỏi sự phối hợp chặt chẽ giữa công ty công nghệ và tổ chức pháp lý. FPT thiết kế quy trình phát triển với sự tham gia của chuyên gia pháp lý ngay từ giai đoạn định nghĩa ontology và kiểm chứng kết quả trích xuất.
  • Chất lượng và mức độ chuẩn hóa dữ liệu là nền tảng quan trọng nhất. Tương tự Singapore với LawNet, FPT xây dựng pipeline chuẩn hóa dữ liệu bao phủ toàn bộ hệ thống văn bản pháp luật Việt Nam còn hiệu lực, với cập nhật liên tục khi có thay đổi.
  • Quản trị AI cần được triển khai song song với phát triển công nghệ. Giải pháp của FPT tích hợp audit log, phân quyền hệ thống và tuân theo các nguyên tắc quản trị AI có trách nhiệm ngay từ kiến trúc ban đầu.

Hiện tại, FPT IS AI R&D Center đang phát triển giải pháp ứng dụng Knowledge Graph và GraphRAG cho bài toán tìm kiếm và phân tích văn bản pháp luật với ba định hướng chính:

  • Chính xác: Mỗi câu trả lời đều có citation rõ ràng đến văn bản nguồn.
  • Toàn diện: Bao phủ hệ thống pháp luật Việt Nam còn hiệu lực và được cập nhật liên tục.
  • Đáng tin cậy: Tuân theo các nguyên tắc quản trị AI có trách nhiệm.

Kiến trúc kỹ thuật của hệ thống gồm năm lớp:

  • Thu thập và chuẩn hóa dữ liệu
  • Knowledge Graph pháp luật Việt Nam
  • NLP tiếng Việt pháp lý, sử dụng PhoBERT và các mô hình fine-tune cho NER và relation extraction
  • GraphRAG và truy vấn, kết hợp Local Search, Global Search và verification
  • Giao diện và quản trị, bao gồm audit log và phân quyền hệ thống

Trong mô hình này, AI được định hướng là công cụ hỗ trợ chuyên môn, giúp tăng tốc nghiên cứu và phân tích pháp lý, thay vì thay thế vai trò ra quyết định của luật sư hoặc chuyên gia pháp lý.

6. Kết luận

Knowledge Graph và GraphRAG đang mở ra hướng tiếp cận mới cho Legal AI, đặc biệt trong các lĩnh vực đòi hỏi độ chính xác, khả năng suy luận và truy nguồn cao. Thay vì chỉ tìm kiếm theo từ khóa hoặc mức độ tương đồng ngữ nghĩa, các hệ thống này mô hình hóa pháp luật dưới dạng mạng lưới các thực thể và quan hệ pháp lý, gần hơn với cách luật sư nghiên cứu và phân tích trong thực tế.

Với đặc thù có nhiều tham chiếu chéo, cấu trúc phân cấp phức tạp và hiệu lực thay đổi theo thời gian, pháp luật là lĩnh vực đặc biệt phù hợp với mô hình đồ thị. Đây cũng là lý do Knowledge Graph và GraphRAG đang trở thành nền tảng quan trọng cho thế hệ Legal AI tiếp theo.

Tại Việt Nam, sự phát triển của dữ liệu pháp luật số, NLP tiếng Việt và nhu cầu chuyển đổi số đang tạo điều kiện thuận lợi cho việc xây dựng các hệ thống Legal AI. Tuy nhiên, để phát triển các nền tảng thực sự đáng tin cậy, cần có sự phối hợp giữa doanh nghiệp công nghệ, chuyên gia pháp lý, cơ quan quản lý và cộng đồng nghiên cứu.

AI có thể hỗ trợ mạnh mẽ cho ngành luật trong nghiên cứu, phân tích và truy xuất thông tin, nhưng không thay thế trách nhiệm và phán đoán chuyên môn của con người. Trong một lĩnh vực dựa trên lập luận và khả năng truy nguồn như pháp luật, cách xây dựng và quản trị AI quan trọng không kém bản thân công nghệ.

Tài liệu tham khảo

1. Nghiên cứu nền tảng về GraphRAG

  • Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., Truitt, S., & Larson, J. (2024). “From Local to Global: A Graph RAG Approach to Query-Focused Summarization.” Microsoft Research. arXiv:2404.16130.
  • Berners-Lee, T., Hendler, J., & Lassila, O. (2001). “The Semantic Web.” Scientific American, 284(5), 34-43.
  • Yao, S., Zhao, J., Yu, D., et al. (2022). “ReAct: Synergizing Reasoning and Acting in Language Models.” arXiv:2210.03629.

2. Nghiên cứu về AI pháp lý

  • Magesh, V., Surani, F., Dahl, M., Suzgun, M., Manning, C. D., & Ho, D. E. (2024). “Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools.” Stanford RegLab and HAI.
  • Vuong, T. H. Y., Nguyen, M. T., Phan, V. H., et al. (2023). “Constructing a Knowledge Graph for Vietnamese Legal Cases with Heterogeneous Graphs.” IEEE-KSE 2023.
  • Springer (2025). Nghiên cứu Graph RAG áp dụng cho 6 bộ luật cốt lõi của Việt Nam.
  • Vals AI (2025). “Legal AI Benchmarks: Comparative Performance of Leading Legal AI Tools.”
  • American Bar Association (2024). “Formal Opinion 512: Generative Artificial Intelligence Tools.”

3. Báo cáo ngành

  • Goldman Sachs Global Investment Research (2023). “The Potentially Large Effects of Artificial Intelligence on Economic Growth.”
  • Thomson Reuters (2024). “Future of Professionals Report.”
  • Gartner (2025). “Predictions for Generative AI in 2025.”

4. Pháp luật Việt Nam và nguồn dữ liệu

  • Luật Trí tuệ nhân tạo số 134/2025/QH15. Quốc hội Việt Nam. Hiệu lực từ 1/3/2026.
  • Luật Doanh nghiệp số 59/2020/QH14. Quốc hội Việt Nam.
  • Luật Bảo vệ dữ liệu cá nhân (2023). Quốc hội Việt Nam.
  • Nghị quyết số 27-NQ/TW về xây dựng Nhà nước pháp quyền XHCN Việt Nam (11/2022).
  • vn: Cơ sở dữ liệu Quốc gia về văn bản pháp luật. Bộ Tư pháp.
  • toaan.gov.vn: Cổng công khai bản án của Tòa án Nhân dân Tối cao.

5. Sản phẩm và công nghệ

Bài viết độc quyền bởi Chuyên gia công nghệ FPT IS, Tập đoàn FPT

Nguyễn Trường An

AI Product Manager – Trung tâm nghiên cứu và phát triển trí tuệ nhân tạo (FPT IS AI R&D Center)

 

Chia sẻ:
FPT IS

FPT IS

Img Contact

Đăng ký nhận tin tức mới nhất từ FPT IS

    Tôi đồng ý chia sẻ thông tin và đồng ý với Chính sách bảo mật dữ liệu cá nhân
    Bot Avatar