Benchmark 4 AI Agent trên máy tính cá nhân cho E-commerce

17/6/2026 Đạt Đỗ 8 phút đọc

Chia sẻ từ tác giả

Các tool được thử nghiệm: Codex Desktop, Claude Desktop, Accio Work (Alibaba), OpenCode Desktop
Số lượng tác vụ: 5+1
Tài trợ: không có, benchmark nội bộ của PegasusLab
Tài liệu Benchmark: Xem trên Google Drive
Kết quả: Xem trên Google Drive
Liên hệ: quangdatdo@gmail.com

Nay mình sẽ benchmark 4 AI Agent chạy trên máy tính cá nhân, với các tác vụ thực tế trong ngành E-commerce.

Cách thức benchmark

5 tác vụ, bao quát từ vận hành tới chăm sóc khách hàng
Mỗi tác vụ có sẵn đáp án, biết Agent làm đúng hay sai
Thời gian hoàn thành, mức tiêu thụ token là yếu tố quan trọng

Vì sao mình làm việc này?

Trước kia mình sử dụng AI rất hào hứng, nhưng dính demo effect mà bỏ qua yếu tố kết quả thực tế trong công việc
Mình không cần AI “thông minh” nhất, mình muốn tìm AI mang lại ROI cao nhất
Tìm hiểu về ứng dụng AI trong Cross-border Ecommerce còn ít, mình muốn tự trải nghiệm và viết lại quá trình này

Vì thế mà mình đã chạy thử benchmark này

Danh sách tác vụ

Lưu ý: Tất cả các tài khoản đều được thực hiện với tài khoản miễn phí, nhằm ưu tiên việc dễ ứng dụng cho công ty mà không phải cân nhắc về tài chính

Tác vụ	Danh Mục	Mục tiêu
UC-1: Tổng hợp thông tin	General	Đánh giá khả năng suy luận cơ bản để loại bỏ dữ liệu nhiễu kèm theo khả năng sử dụng công cụ trên máy tính để hoàn thành công việc
UC-2: Sử dụng trình duyệt, thao tác theo yêu cầu	Browser	Đánh giá khả năng tương tác với trình duyệt, vượt qua captcha để thu thập dữ liệu
UC-3: Đánh giá refund theo rules, viết nội dung phản hồi email	Reasoning	Đánh giá khả năng suy luận sâu để đưa ra đúng giải pháp theo các quy định của công ty
UC-4: Đánh giá khả năng vision (đọc ảnh)	Vision	Đánh giá khả năng nhìn thay vì chỉ là đọc, phân tích hình ảnh để hoàn thành công việc
UC-5a: Phân tích dữ liệu từ data có sẵn	Analysis	Đánh giá khả năng hiểu dữ liệu, tính toán và tìm được insights quan trọng
UC-5b: Dựng HTML theo brandkit	Communication	Đánh giá khả năng truyền đạt nội dung hiệu quả

Kết luận nhanh

Tác vụ	Winner	Tổng quan
UC-1	OpenCode	Hoàn thành trong 47s, không mất phí
UC-2	Codex Desktop	Hoàn thành trong 5 phút, đốt 5% token tháng
UC-3	OpenCode	Hoàn thành trong 95s, không mất phí
UC-4	OpenCode	Hoàn thành trong 45s, không mất phí
UC-5a	OpenCode	Hoàn thành trong 39s, không mất phí
UC-5b	OpenCode	Hoàn thành trong 63s, không mất phí

Tổng kết: OpenCode thắng ở 5/6 tác vụ vì hoàn toàn miễn phí. Codex Desktop có tích hợp sẵn Browser nên là AI Agent duy nhất hoàn thành UC-2.

Chi tiết benchmark từng tác vụ

UC-1

Bài thử nghiệm

Email invoice từ phía supplier, viết lộn xộn, không có file Excel
Ký hiệu lẫn lộn giữa USD và $
Có 2 dòng trùng lặp
Giá tổng kết sai $1240

Đáp án

Loại bỏ được trùng lặp SKU PL-2201
Không bao gồm SKU PL-9900 vì sample được miễn phí
Giá tổng kết là $1186
6 dòng SKU + 1 dòng TOTAL

Kết quả từng AI Agent

AI Agent	Kết quả	Thời gian	Chi phí
Accio Work	4/4	45s	0.5% token của tháng
OpenCode	4/4	47s	miễn phí
Claude Desktop	4/4	44s
Codex Desktop	4/4	45s	1% token của tháng

UC-2

Bài thử nghiệm

Sử dụng trình duyệt để thu thập dữ liệu sản phẩm mới launch trên Product Hunt vào ngày 14/06/2026

Đáp án

Mở trình duyệt Chrome
Truy cập Product Hunt ngày 14/06/2026
Vượt qua Cloudflared
Thu thập đủ 80 products

Kết quả từng AI Agent

AI Agent	Kết quả	Thời gian	Chi phí
Accio Work	Không hoàn thành	5 phút	0.5% token của tháng
OpenCode	1/4 thu thập được products nhưng không theo đúng flow	2 phút 34s	miễn phí
Claude Desktop	Không hoàn thành	44s
Codex Desktop	4/4	5 phút	7% token của tháng

UC-3

Bài thử nghiệm

10 tin nhắn từ khách mua hàng, với các điều kiện khác nhau. Kiểm tra với shop policies để xem thuộc phân khúc nào, đưa ra email trả lời phù hợp

Đáp án

ID	Phải đúng
M1	Đề nghị replacement, nếu không được thì refund
M2	Từ chối refund (ngày 18)
M3	Từ chối personalized đổi ý
M4	Từ chối final sale
M5	Cancel + full refund (pre-tracking)
M6	Max $5 credit, không full refund
M7	wholesale, needs_human, min $500
M8	needs_human, không hứa refund
M9	Không instant refund; neighbor / 3 ngày
M10	spam, no reply

Kết quả từng AI Agent

AI Agent	Kết quả	Thời gian	Chi phí
Accio Work	9/10 sai M1	47s	0.66% token của tháng
OpenCode	10/10	95s	miễn phí
Claude Desktop	Không hoàn thành vì hết token
Codex Desktop	10/10	45s	1% token của tháng

UC-4

Bài thử nghiệm

Đọc 15 hình ảnh, sửa tên file khớp với mã tracking trên ảnh, xác định các mã tracking không hợp lệ

Đáp án

15 file theo cấu trúc ORDER_{id}_{seq}.jpg
3 order ID lạ (PL-99901, PL-99902, PL-99903) → 5 dòng unknown_order

Kết quả từng AI Agent

AI Agent	Kết quả	Thời gian	Chi phí
Accio Work	15/15	73s	0.83% token của tháng
OpenCode	15/15	45s	miễn phí
Claude Desktop	Không hoàn thành vì hết token
Codex Desktop	15/15	43s	1% token của tháng

UC-5a

Bài thử nghiệm

Đọc dữ liệu bán hàng, phân tích, đưa ra insights

Đáp án

Doanh thu $18,370
Tổng đơn 451
Kênh top Amazon

Kết quả từng AI Agent

AI Agent	Kết quả	Thời gian	Chi phí
Accio Work	3/3	39s	0.5% token của tháng
OpenCode	3/3	39s	miễn phí
Claude Desktop	Không hoàn thành vì hết token
Codex Desktop	3/3	43s	1% token của tháng

UC-5b

Bài thử nghiệm

Follow brandkit, dựng phân tích theo đúng cấu trúc

Đáp án

Sử dụng đúng mã màu

Kết quả từng AI Agent

AI Agent	Kết quả	Thời gian	Chi phí
Accio Work	1/1	304s	1.3% token của tháng
OpenCode	1/1	39s	miễn phí
Claude Desktop	Không hoàn thành vì hết token
Codex Desktop	1/1	63s	2% token của tháng

Chia sẻ từ tác giả

Cách thức benchmark

Vì sao mình làm việc này?

Danh sách tác vụ

Kết luận nhanh

Chi tiết benchmark từng tác vụ

UC-1

UC-2

UC-3

UC-4

UC-5a

UC-5b

Bài liên quan

Tối ưu listing cho Alexa for Shopping (Rufus): checklist kỹ thuật cho seller (Phần 2)

Xin chào từ PegasusLab