Benchmark 4 AI Agent trên máy tính cá nhân cho E-commerce
Chia sẻ từ tác giả
- Các tool được thử nghiệm: Codex Desktop, Claude Desktop, Accio Work (Alibaba), OpenCode Desktop
- Số lượng tác vụ: 5+1
- Tài trợ: không có, benchmark nội bộ của PegasusLab
- Tài liệu Benchmark: Xem trên Google Drive
- Kết quả: Xem trên Google Drive
- Liên hệ: quangdatdo@gmail.com
Nay mình sẽ benchmark 4 AI Agent chạy trên máy tính cá nhân, với các tác vụ thực tế trong ngành E-commerce.
Cách thức benchmark
- 5 tác vụ, bao quát từ vận hành tới chăm sóc khách hàng
- Mỗi tác vụ có sẵn đáp án, biết Agent làm đúng hay sai
- Thời gian hoàn thành, mức tiêu thụ token là yếu tố quan trọng
Vì sao mình làm việc này?
- Trước kia mình sử dụng AI rất hào hứng, nhưng dính demo effect mà bỏ qua yếu tố kết quả thực tế trong công việc
- Mình không cần AI “thông minh” nhất, mình muốn tìm AI mang lại ROI cao nhất
- Tìm hiểu về ứng dụng AI trong Cross-border Ecommerce còn ít, mình muốn tự trải nghiệm và viết lại quá trình này
Vì thế mà mình đã chạy thử benchmark này
Danh sách tác vụ
Lưu ý: Tất cả các tài khoản đều được thực hiện với tài khoản miễn phí, nhằm ưu tiên việc dễ ứng dụng cho công ty mà không phải cân nhắc về tài chính
| Tác vụ | Danh Mục | Mục tiêu |
|---|---|---|
| UC-1: Tổng hợp thông tin | General | Đánh giá khả năng suy luận cơ bản để loại bỏ dữ liệu nhiễu kèm theo khả năng sử dụng công cụ trên máy tính để hoàn thành công việc |
| UC-2: Sử dụng trình duyệt, thao tác theo yêu cầu | Browser | Đánh giá khả năng tương tác với trình duyệt, vượt qua captcha để thu thập dữ liệu |
| UC-3: Đánh giá refund theo rules, viết nội dung phản hồi email | Reasoning | Đánh giá khả năng suy luận sâu để đưa ra đúng giải pháp theo các quy định của công ty |
| UC-4: Đánh giá khả năng vision (đọc ảnh) | Vision | Đánh giá khả năng nhìn thay vì chỉ là đọc, phân tích hình ảnh để hoàn thành công việc |
| UC-5a: Phân tích dữ liệu từ data có sẵn | Analysis | Đánh giá khả năng hiểu dữ liệu, tính toán và tìm được insights quan trọng |
| UC-5b: Dựng HTML theo brandkit | Communication | Đánh giá khả năng truyền đạt nội dung hiệu quả |
Kết luận nhanh
| Tác vụ | Winner | Tổng quan |
|---|---|---|
| UC-1 | OpenCode | Hoàn thành trong 47s, không mất phí |
| UC-2 | Codex Desktop | Hoàn thành trong 5 phút, đốt 5% token tháng |
| UC-3 | OpenCode | Hoàn thành trong 95s, không mất phí |
| UC-4 | OpenCode | Hoàn thành trong 45s, không mất phí |
| UC-5a | OpenCode | Hoàn thành trong 39s, không mất phí |
| UC-5b | OpenCode | Hoàn thành trong 63s, không mất phí |
Tổng kết: OpenCode thắng ở 5/6 tác vụ vì hoàn toàn miễn phí. Codex Desktop có tích hợp sẵn Browser nên là AI Agent duy nhất hoàn thành UC-2.
Chi tiết benchmark từng tác vụ
UC-1
Bài thử nghiệm
- Email invoice từ phía supplier, viết lộn xộn, không có file Excel
- Ký hiệu lẫn lộn giữa USD và $
- Có 2 dòng trùng lặp
- Giá tổng kết sai $1240
Đáp án
- Loại bỏ được trùng lặp SKU PL-2201
- Không bao gồm SKU PL-9900 vì sample được miễn phí
- Giá tổng kết là $1186
- 6 dòng SKU + 1 dòng TOTAL
Kết quả từng AI Agent
| AI Agent | Kết quả | Thời gian | Chi phí |
|---|---|---|---|
| Accio Work | 4/4 | 45s | 0.5% token của tháng |
| OpenCode | 4/4 | 47s | miễn phí |
| Claude Desktop | 4/4 | 44s | |
| Codex Desktop | 4/4 | 45s | 1% token của tháng |
UC-2
Bài thử nghiệm
- Sử dụng trình duyệt để thu thập dữ liệu sản phẩm mới launch trên Product Hunt vào ngày 14/06/2026
Đáp án
- Mở trình duyệt Chrome
- Truy cập Product Hunt ngày 14/06/2026
- Vượt qua Cloudflared
- Thu thập đủ 80 products
Kết quả từng AI Agent
| AI Agent | Kết quả | Thời gian | Chi phí |
|---|---|---|---|
| Accio Work | Không hoàn thành | 5 phút | 0.5% token của tháng |
| OpenCode | 1/4 thu thập được products nhưng không theo đúng flow | 2 phút 34s | miễn phí |
| Claude Desktop | Không hoàn thành | 44s | |
| Codex Desktop | 4/4 | 5 phút | 7% token của tháng |
UC-3
Bài thử nghiệm
- 10 tin nhắn từ khách mua hàng, với các điều kiện khác nhau. Kiểm tra với shop policies để xem thuộc phân khúc nào, đưa ra email trả lời phù hợp
Đáp án
| ID | Phải đúng |
|---|---|
| M1 | Đề nghị replacement, nếu không được thì refund |
| M2 | Từ chối refund (ngày 18) |
| M3 | Từ chối personalized đổi ý |
| M4 | Từ chối final sale |
| M5 | Cancel + full refund (pre-tracking) |
| M6 | Max $5 credit, không full refund |
| M7 | wholesale, needs_human, min $500 |
| M8 | needs_human, không hứa refund |
| M9 | Không instant refund; neighbor / 3 ngày |
| M10 | spam, no reply |
Kết quả từng AI Agent
| AI Agent | Kết quả | Thời gian | Chi phí |
|---|---|---|---|
| Accio Work | 9/10 sai M1 | 47s | 0.66% token của tháng |
| OpenCode | 10/10 | 95s | miễn phí |
| Claude Desktop | Không hoàn thành vì hết token | ||
| Codex Desktop | 10/10 | 45s | 1% token của tháng |
UC-4
Bài thử nghiệm
- Đọc 15 hình ảnh, sửa tên file khớp với mã tracking trên ảnh, xác định các mã tracking không hợp lệ
Đáp án
- 15 file theo cấu trúc
ORDER_{id}_{seq}.jpg - 3 order ID lạ (PL-99901, PL-99902, PL-99903) → 5 dòng
unknown_order
Kết quả từng AI Agent
| AI Agent | Kết quả | Thời gian | Chi phí |
|---|---|---|---|
| Accio Work | 15/15 | 73s | 0.83% token của tháng |
| OpenCode | 15/15 | 45s | miễn phí |
| Claude Desktop | Không hoàn thành vì hết token | ||
| Codex Desktop | 15/15 | 43s | 1% token của tháng |
UC-5a
Bài thử nghiệm
- Đọc dữ liệu bán hàng, phân tích, đưa ra insights
Đáp án
- Doanh thu $18,370
- Tổng đơn 451
- Kênh top Amazon
Kết quả từng AI Agent
| AI Agent | Kết quả | Thời gian | Chi phí |
|---|---|---|---|
| Accio Work | 3/3 | 39s | 0.5% token của tháng |
| OpenCode | 3/3 | 39s | miễn phí |
| Claude Desktop | Không hoàn thành vì hết token | ||
| Codex Desktop | 3/3 | 43s | 1% token của tháng |
UC-5b
Bài thử nghiệm
- Follow brandkit, dựng phân tích theo đúng cấu trúc
Đáp án
- Sử dụng đúng mã màu
Kết quả từng AI Agent
| AI Agent | Kết quả | Thời gian | Chi phí |
|---|---|---|---|
| Accio Work | 1/1 | 304s | 1.3% token của tháng |
| OpenCode | 1/1 | 39s | miễn phí |
| Claude Desktop | Không hoàn thành vì hết token | ||
| Codex Desktop | 1/1 | 63s | 2% token của tháng |