Ui.Vision RPA: Tự động hóa Desktop & Browser bằng Computer Vision
Ngày đăng: October 4, 2025
Hầu hết các hệ thống Automation hiện đại được xây dựng xoay quanh API. Đây là phương pháp hiệu quả và ổn định nhất để kết nối các dịch vụ với nhau. Tuy nhiên, thế giới vận hành thực tế không chỉ có API. Vẫn còn đó vô số phần mềm desktop, các website cũ, và những quy trình thủ công đòi hỏi sự tương tác trực tiếp của con người.
Vậy làm thế nào để tự động hóa “phần còn lại” của thế giới đó một cách có hệ thống? Bài viết này sẽ giới thiệu về Ui.Vision RPA – một giải pháp mã nguồn mở tiếp cận bài toán này bằng computer vision, thay vì dựa vào API.
💡 Các điểm chính trong bài
- Ui.Vision RPA lấp đầy khoảng trống, tự động hóa các hệ thống không có API hiệu quả.
- Sử dụng Computer Vision và AI, mô phỏng tương tác người dùng trên mọi ứng dụng.
- Tối ưu hóa quy trình thủ công, giúp tiết kiệm thời gian và giảm thiểu sai sót.
- Lý tưởng cho phần mềm desktop cũ, web phức tạp và bảo mật dữ liệu trên thiết bị.
Khoảng trống của các công cụ Automation API-First
Hầu hết các nền tảng Automation hiện đại như n8n hay Zapier đều hoạt động rất hiệu quả với các ứng dụng có API (Giao diện lập trình ứng dụng). Luồng làm việc rất rõ ràng: Trigger -> Lấy dữ liệu qua API -> Xử lý -> Gửi dữ liệu qua API
.
Tuy nhiên, vấn đề phát sinh khi chúng ta cần tự động hóa các tác vụ trên những hệ thống “kín” không có API, ví dụ:
- Các phần mềm kế toán, ERP, CRM cũ được cài đặt trực tiếp trên desktop.
- Các website có giao diện phức tạp, sử dụng canvas hoặc các element khó xác định bằng selector CSS/XPath thông thường.
- Các quy trình yêu cầu tương tác giống hệt con người: kéo thả file, click chuột phải, sử dụng phím tắt.
Đây chính là “khoảng trống” mà các công cụ automation truyền thống khó có thể giải quyết. Việc cố gắng tự động hóa chúng thường đòi hỏi các giải pháp phức tạp và kém ổn định.

API-First vs. The Real World
Giải pháp hệ thống: Ui.Vision RPA – “Đôi mắt” và “Bàn tay” cho máy tính
Ui.Vision
là một công cụ Robotic Process Automation (RPA) mã nguồn mở, hoạt động theo một triết lý khác biệt: tự động hóa dựa trên hình ảnh (Computer Vision).
Thay vì tương tác qua API, Ui.Vision “nhìn” vào màn hình máy tính của bạn, nhận diện các element (nút bấm, ô nhập liệu, hình ảnh) và “điều khiển” chuột, bàn phím để thực hiện tác vụ, mô phỏng chính xác hành vi của người dùng.
Hệ thống của Ui.Vision bao gồm 2 thành phần chính:
- Browser Extension (Phần lõi): Cài đặt trên Chrome/Firefox/Edge, dùng để xây dựng và quản lý các kịch bản tự động hóa.
- XModules (Phần mở rộng): Một ứng dụng cài đặt trên desktop (Windows, Mac, Linux) giúp extension có thể “vươn ra ngoài” trình duyệt để điều khiển toàn bộ máy tính và đọc/ghi file trực tiếp trên ổ cứng.
Cách tiếp cận này biến Ui.Vision thành một giải pháp hiệu quả cho các bài toán mà automation dựa trên API phải “bó tay”.
Các năng lực cốt lõi của Ui.Vision
Ui.Vision cung cấp một bộ công cụ tập trung vào việc mô phỏng tương tác người dùng một cách trực quan.
- Visual Browser Automation: Mở rộng khả năng của Selenium IDE, cho phép click vào các element dựa trên hình ảnh chụp lại thay vì chỉ dựa vào selector. Điều này cực kỳ hữu ích với các trang web có cấu trúc DOM phức tạp hoặc thay đổi liên tục.
- Visual Desktop Automation: Đây là năng lực mạnh nhất. Sau khi chuyển sang chế độ Desktop, Ui.Vision có thể “nhìn” và tương tác với bất kỳ ứng dụng nào đang chạy trên màn hình của bạn, từ Excel, SAP cho đến các phần mềm chuyên ngành.
- OCR (Optical Character Recognition): Tích hợp khả năng “đọc” văn bản trực tiếp từ hình ảnh hoặc từ một khu vực trên màn hình. Bạn có thể trích xuất dữ liệu từ file ảnh, PDF, hoặc ngay trên giao diện của một phần mềm mà không cần copy-paste.
- Tích hợp AI (Anthropic Claude): Tính năng
aiComputerUse
cho phép bạn ra lệnh bằng ngôn ngữ tự nhiên (ví dụ: “Điền vào form này với dữ liệu ngẫu nhiên”) và AI sẽ tự phân tích màn hình để thực hiện các bước click/nhập liệu cần thiết. Đây là một hướng tiếp cận mới nhưng vẫn đang trong giai đoạn phát triển, phù hợp cho các tác vụ đơn giản.
Case thực chiến: Tự động nhập liệu từ hóa đơn PDF vào phần mềm kế toán desktop
- Vấn đề: Nhân viên kế toán phải mở từng file hóa đơn PDF, đọc các thông tin (Mã số thuế, Tổng tiền, Ngày tháng), sau đó chuyển qua phần mềm kế toán cài trên máy và nhập lại bằng tay. Quy trình lặp đi lặp lại, tốn thời gian và dễ sai sót.
- Giải pháp hệ thống với Ui.Vision:
- Chuẩn bị: Cài đặt Ui.Vision Extension và XModules. Đặt tất cả các file PDF cần xử lý vào một thư mục.
- Xây dựng kịch bản (Macro):
csvRead
: Đọc danh sách tên các file PDF từ một file CSV.XRun
: Dùng lệnh của hệ điều hành để mở file PDF đầu tiên trong danh sách.XClick
+OCR
: Dùng lệnhXClick
với đầu vào là hình ảnh của ô “Mã số thuế” trên giao diện phần mềm kế toán để focus vào đó. Sau đó, dùng lệnhOCRExtractRelative
để đọc vùng dữ liệu tương ứng trên file PDF.XType
: “Gõ” dữ liệu vừa đọc được vào phần mềm kế toán.- Lặp lại các bước trên cho các trường “Tổng tiền”, “Ngày tháng”.
XClick
: Click vào nút “Lưu” trên phần mềm kế toán.- Lặp lại toàn bộ quy trình cho file PDF tiếp theo trong danh sách.
- Kết quả: Quy trình nhập liệu thủ công được tự động hóa hoàn toàn. Hệ thống có thể chạy ngầm, giảm thiểu sai sót và giải phóng thời gian cho nhân viên.

Enable and test the text recognition on the OCR tab, and combine them with XClick. Source
Lưu ý quan trọng & Khi nào nên sử dụng Ui.Vision
- Độ ổn định phụ thuộc vào UI: Vì hoạt động dựa trên giao diện, bất kỳ thay đổi nào về vị trí nút bấm, màu sắc, hay độ phân giải màn hình đều có thể ảnh hưởng đến kịch bản. Cần thiết kế kịch bản có tính chống chịu (resilient).
- Không thay thế API: Nếu một ứng dụng đã cung cấp API, hãy luôn ưu tiên sử dụng các công cụ như n8n. Automation qua API luôn nhanh hơn, ổn định hơn và chạy được trên server mà không cần giao diện đồ họa.
- Bảo mật: Một điểm mạnh của Ui.Vision là mọi xử lý đều diễn ra 100% trên máy tính của bạn (trừ khi bạn chủ động bật các tính năng OCR/AI online). Dữ liệu không bị gửi đi bất cứ đâu, phù hợp cho các doanh nghiệp có yêu cầu bảo mật cao.
- Ui.Vision phù hợp nhất cho:
- Developer hoặc QA muốn tự động hóa các bài test giao diện.
- Người cần tự động hóa các phần mềm desktop cũ không có API.
- Các tác vụ scraping dữ liệu từ những website phức tạp.
Ui.Vision RPA không phải là công cụ để thay thế các nền tảng automation như n8n, mà là một sự bổ sung mạnh mẽ để lấp vào “khoảng trống” của chúng. Bằng cách tư duy như một người dùng – “nhìn” và “tương tác” – nó cung cấp một giải pháp hệ thống để tự động hóa những tác vụ mà trước đây được cho là “không-thể-tự-động-hóa”.