Từ chatbot đến agent tự vận hành: 6 nấc thang dùng AI mà 95% người Việt chưa biết

Bài 2/5 trong chuỗi Hành trình từ "ra lệnh rồi cầu nguyện" đến sản phẩm thật.

Ở bài trước, tôi nói hầu hết chúng ta đang kẹt ở nấc thấp nhất của việc dùng AI. Giờ hãy xem toàn bộ chiếc thang — bản đồ tiến hoá cách dùng AI mà tôi đúc kết từ chính công việc kỹ sư của mình, và từ việc theo dõi sát từng bước cộng đồng developer thế giới đi qua mấy năm vừa rồi.

Điều quan trọng nhất bạn cần nắm: mỗi nấc thang ra đời để giải đúng một giới hạn của nấc dưới nó. Khi bạn hiểu được chuỗi giới hạn này, bạn sẽ không còn loay hoay với câu hỏi "vì sao AI làm hoài mà chưa đúng ý". Bạn sẽ biết chính xác mình đang vướng ở đâu, và phải bước lên nấc nào.

Nấc 1 — Chatbot (mốc 2022)

Đây là khởi đầu của tất cả. Bạn gõ một câu, LLM (mô hình ngôn ngữ lớn, chạy trên kiến trúc Transformer) trả lời. Hết.

Bản chất của nấc này là hỏi–đáp rời rạc. Mỗi câu hỏi là một vũ trụ riêng, không có quá khứ, không có dự án. Nó hữu ích để tra cứu, viết nháp, brainstorm. Nhưng nó không "làm" gì cho bạn cả — nó chỉ "nói".

Dấu hiệu bạn đang ở đây: bạn mở AI lên, hỏi, copy câu trả lời, rồi tắt.

Giới hạn đẩy bạn lên nấc sau: nó quên sạch mọi thứ sau mỗi lần trò chuyện.

Nấc 2 — Memory / Session

Để giải bài toán "quên", các hệ thống AI thêm memory. Con chat bắt đầu nhớ các đoạn hội thoại trước, tự đúc kết thành một bộ ký ức về bạn, và bộ ký ức ấy dày lên theo thời gian. Bạn không phải giới thiệu lại mình mỗi sáng nữa.

Phép loại suy: nếu nấc 1 là một người lạ trả lời câu hỏi giúp bạn, thì nấc 2 là một trợ lý đã làm việc với bạn vài tháng — biết thói quen, biết sở thích của bạn.

Giới hạn: nó hiểu con người bạn, nhưng vẫn chưa hiểu bối cảnh công việc cụ thể bạn đang cần xử lý. Thế nên nó vẫn trả lời "chưa đúng ý". Bạn cần một cách chủ động hơn để nạp bối cảnh.

Nấc 3 — Context Engineering (2024–2025)

Đây là lúc cộng đồng kỹ sư thực sự sôi sục với một khái niệm: Context Engineering. Thay vì để AI tự đoán mò, ta chủ động thiết kế và cung cấp một bộ ngữ cảnh cho nó: nó đang phải làm việc gì, xung quanh có những dữ liệu/công cụ gì, ràng buộc ra sao, đầu ra mong muốn thế nào.

Và đây là một ý tưởng then chốt: nếu coi AI là một bộ não, thì nó cần tay chân mới làm được việc. Tay chân đó được hiện thực hoá bằng MCP Server — một kiến trúc giao tiếp chuẩn giữa AI và các công cụ bên ngoài, do Anthropic công bố năm 2024 và nay đã được áp dụng rộng rãi trên rất nhiều phần mềm. Nhờ MCP, AI không chỉ "nói" — nó có thể đọc file của bạn, gọi API, gửi tin nhắn, thao tác trực tiếp trên ứng dụng.

Dấu hiệu bạn đang ở đây: bạn không chỉ chat, bạn dựng sẵn bối cảnh và nối AI với công cụ qua MCP để nó thực sự làm việc.

Giới hạn: khi dự án lớn lên, lượng ngữ cảnh phình ra vượt sức chứa của AI.

Nấc 4 — Tổ chức context như một cuốn Wiki

Mọi model đều có cửa sổ ngữ cảnh (context window) hữu hạn — lượng dữ liệu tối đa bạn nạp được trong một lần. Hiện tại nó vào khoảng 256.000 đến 1 triệu token tuỳ model (ví dụ ChatGPT khoảng 256k; Opus 4.8 khoảng 1 triệu; Gemini Pro đã 1 triệu từ vài năm trước). Nghe thì lớn, nhưng với một dự án thật, bạn không thể nhét toàn bộ vào một lần.

Giải pháp là tổ chức ngữ cảnh có cấu trúc — đúng kiểu Wikipedia. Trên Wikipedia, mỗi thông tin được tách thành một thực thể nhỏ nhất (ngọn núi này tên gì, dòng sông kia ở đâu, CPU là gì), và các thực thể liên kết đến nhau. Khi giải thích "máy tính", nó link sang RAM, ổ cứng, CPU; giải thích RAM lại link sang chip nhớ — tạo thành một mạng lưới nodes và edges.

Khi dữ liệu được tổ chức như vậy, lúc cần xử lý một khái niệm, AI chỉ kéo đúng những thứ liên quan đến khái niệm đó — chứ không lôi vào cả đống thông tin vô can. Context được giới hạn lại trong sức chứa của AI, và nhờ vậy AI làm việc hiệu quả hơn hẳn. (Đây cũng chính là nguyên lý "bộ não thứ 2" mà tôi dùng để quản trị tri thức của mình.)

Giới hạn: dù context đã gọn, AI vẫn có xu hướng "làm một phát cho xong", và kết quả thường hời hợt.

Nấc 5 — Harness (2025)

Đây là bước ngoặt, và tôi sẽ dành hẳn bài sau cho nó. Ngắn gọn: Harness là một bộ khung cộng với bộ quy tắc, ép agent đi theo một quy trình sản xuất phần mềm bài bản — thiết kế trước, làm từng phần, viết test, nghiệm thu — thay vì nhảy thẳng từ ý tưởng đến code lung tung.

Phép loại suy: nấc 5 là lúc bạn ngừng giao việc cho một "thợ làm ẩu một phát", và bắt đầu giao cho một "đội kỹ sư có quy trình".

Giới hạn: con người vẫn phải đứng cạnh, can thiệp khá nhiều.

Nấc 6 — Loops (giữa 2026)

Nấc cao nhất hiện nay. Câu hỏi đặt ra: liệu con người có cần can thiệp liên tục không, hay ta chỉ cần đưa tiêu chí thế nào là đạt / chưa đạt, rồi để AI tự học, tự lặp, tự hoàn thiện cho đến khi ra đúng sản phẩm? Đó là Loops. Nó cực mạnh — nhưng tốn token gần như vô hạn, nên hiện chủ yếu là sân chơi của các "tay to" ở những công ty lớn.

Bạn đang ở nấc nào?

Nấc	Bạn nhận ra mình nếu…
1 · Chatbot	Mở ra hỏi rồi tắt, mỗi lần là một câu lẻ
2 · Memory	Bạn để AI nhớ, nhưng vẫn thấy "chưa đúng ý"
3 · Context Engineering	Bạn chủ động dựng ngữ cảnh + nối công cụ qua MCP
4 · Wiki	Bạn tổ chức tri thức có cấu trúc cho AI dùng
5 · Harness	Bạn ép AI theo quy trình để ra sản phẩm thật
6 · Loops	Bạn để AI tự hoàn thiện theo tiêu chí

Vì sao đa số mãi kẹt ở nấc 1–2

Không phải vì họ kém. Mà vì mỗi nấc lên đòi hỏi học một khái niệm mới nghe có vẻ "dành cho dân kỹ thuật" — context, MCP, harness, loop. Người ta nhìn vào, thấy rối, rồi quay về vùng an toàn "mở ra, hỏi, tắt". Họ dừng lại đúng ngay trước cánh cửa nơi giá trị thật bắt đầu.

Tin tốt là: cú nhảy giá trị lớn nhất nằm ở nấc 5 (Harness) — và nó không bắt buộc bạn phải là kỹ sư, nếu có người dựng sẵn bộ khung cho bạn. Đó là điều tôi sẽ làm rõ trong hai bài tới.

Câu hỏi thường gặp

Agentic AI là gì, nói thật đơn giản? Là khi AI không chỉ trả lời, mà còn tự hành động để hoàn thành một mục tiêu: tự lập kế hoạch, tự dùng công cụ, tự kiểm tra kết quả. Nó là AI ở nấc 3 trở lên trong chiếc thang này.

Tôi có cần đi qua tuần tự từng nấc không? Không nhất thiết. Hiểu chiếc thang giúp bạn biết mình thiếu gì, nhưng với một bộ khung đóng gói sẵn (xem bài 4), bạn có thể bắt đầu thẳng từ nấc 5.

👉 Đọc tiếp: Bài 3 — Vì sao AI không thể "one-shot" ra một website hoàn chỉnh, và cái khung bạn đang thiếu.

Về tác giả. Lưu Hải Long — kỹ sư Big Data & AI engineering, từng vận hành dòng dữ liệu petabyte cho hệ thống hàng chục triệu user. Sáu nấc thang trên không phải lý thuyết: đó là con đường tôi đã thật sự leo qua khi xây sản phẩm bằng AI.

Từ chatbot đến agent tự vận hành: 6 nấc thang dùng AI mà 95% người Việt chưa biết

Nấc 1 — Chatbot (mốc 2022)

Nấc 2 — Memory / Session

Nấc 3 — Context Engineering (2024–2025)

Nấc 4 — Tổ chức context như một cuốn Wiki

Nấc 5 — Harness (2025)

Nấc 6 — Loops (giữa 2026)

Bạn đang ở nấc nào?

Vì sao đa số mãi kẹt ở nấc 1–2

Câu hỏi thường gặp

Bài liên quan

Tôi để AI tự xây cả một hệ thống website bán hàng — landing, sales, blog, email, quảng cáo. Đây là cách

claude_support: bộ khung Harness + skills để người vibe code ra sản phẩm thật (không cần là kỹ sư)

Vì sao AI không thể "one-shot" ra một website hoàn chỉnh — và cái khung bạn đang thiếu

Bình luận

Để lại bình luận