← Về danh sách bài
  • AI
  • Benchmark
  • Automation
  • Cross-border

Benchmark 4 AI Agent trên máy tính cá nhân cho E-commerce

Chia sẻ từ tác giả

Nay mình sẽ benchmark 4 AI Agent chạy trên máy tính cá nhân, với các tác vụ thực tế trong ngành E-commerce.

Cách thức benchmark

  • 5 tác vụ, bao quát từ vận hành tới chăm sóc khách hàng
  • Mỗi tác vụ có sẵn đáp án, biết Agent làm đúng hay sai
  • Thời gian hoàn thành, mức tiêu thụ token là yếu tố quan trọng

Vì sao mình làm việc này?

  • Trước kia mình sử dụng AI rất hào hứng, nhưng dính demo effect mà bỏ qua yếu tố kết quả thực tế trong công việc
  • Mình không cần AI “thông minh” nhất, mình muốn tìm AI mang lại ROI cao nhất
  • Tìm hiểu về ứng dụng AI trong Cross-border Ecommerce còn ít, mình muốn tự trải nghiệm và viết lại quá trình này

Vì thế mà mình đã chạy thử benchmark này

Danh sách tác vụ

Lưu ý: Tất cả các tài khoản đều được thực hiện với tài khoản miễn phí, nhằm ưu tiên việc dễ ứng dụng cho công ty mà không phải cân nhắc về tài chính

Tác vụDanh MụcMục tiêu
UC-1: Tổng hợp thông tinGeneralĐánh giá khả năng suy luận cơ bản để loại bỏ dữ liệu nhiễu kèm theo khả năng sử dụng công cụ trên máy tính để hoàn thành công việc
UC-2: Sử dụng trình duyệt, thao tác theo yêu cầuBrowserĐánh giá khả năng tương tác với trình duyệt, vượt qua captcha để thu thập dữ liệu
UC-3: Đánh giá refund theo rules, viết nội dung phản hồi emailReasoningĐánh giá khả năng suy luận sâu để đưa ra đúng giải pháp theo các quy định của công ty
UC-4: Đánh giá khả năng vision (đọc ảnh)VisionĐánh giá khả năng nhìn thay vì chỉ là đọc, phân tích hình ảnh để hoàn thành công việc
UC-5a: Phân tích dữ liệu từ data có sẵnAnalysisĐánh giá khả năng hiểu dữ liệu, tính toán và tìm được insights quan trọng
UC-5b: Dựng HTML theo brandkitCommunicationĐánh giá khả năng truyền đạt nội dung hiệu quả

Kết luận nhanh

Tác vụWinnerTổng quan
UC-1OpenCodeHoàn thành trong 47s, không mất phí
UC-2Codex DesktopHoàn thành trong 5 phút, đốt 5% token tháng
UC-3OpenCodeHoàn thành trong 95s, không mất phí
UC-4OpenCodeHoàn thành trong 45s, không mất phí
UC-5aOpenCodeHoàn thành trong 39s, không mất phí
UC-5bOpenCodeHoàn thành trong 63s, không mất phí

Tổng kết: OpenCode thắng ở 5/6 tác vụ vì hoàn toàn miễn phí. Codex Desktop có tích hợp sẵn Browser nên là AI Agent duy nhất hoàn thành UC-2.

Chi tiết benchmark từng tác vụ

UC-1

Bài thử nghiệm

  • Email invoice từ phía supplier, viết lộn xộn, không có file Excel
  • Ký hiệu lẫn lộn giữa USD và $
  • Có 2 dòng trùng lặp
  • Giá tổng kết sai $1240

Đáp án

  • Loại bỏ được trùng lặp SKU PL-2201
  • Không bao gồm SKU PL-9900 vì sample được miễn phí
  • Giá tổng kết là $1186
  • 6 dòng SKU + 1 dòng TOTAL

Kết quả từng AI Agent

AI AgentKết quảThời gianChi phí
Accio Work4/445s0.5% token của tháng
OpenCode4/447smiễn phí
Claude Desktop4/444s
Codex Desktop4/445s1% token của tháng

UC-2

Bài thử nghiệm

  • Sử dụng trình duyệt để thu thập dữ liệu sản phẩm mới launch trên Product Hunt vào ngày 14/06/2026

Đáp án

  • Mở trình duyệt Chrome
  • Truy cập Product Hunt ngày 14/06/2026
  • Vượt qua Cloudflared
  • Thu thập đủ 80 products

Kết quả từng AI Agent

AI AgentKết quảThời gianChi phí
Accio WorkKhông hoàn thành5 phút0.5% token của tháng
OpenCode1/4 thu thập được products nhưng không theo đúng flow2 phút 34smiễn phí
Claude DesktopKhông hoàn thành44s
Codex Desktop4/45 phút7% token của tháng

UC-3

Bài thử nghiệm

  • 10 tin nhắn từ khách mua hàng, với các điều kiện khác nhau. Kiểm tra với shop policies để xem thuộc phân khúc nào, đưa ra email trả lời phù hợp

Đáp án

IDPhải đúng
M1Đề nghị replacement, nếu không được thì refund
M2Từ chối refund (ngày 18)
M3Từ chối personalized đổi ý
M4Từ chối final sale
M5Cancel + full refund (pre-tracking)
M6Max $5 credit, không full refund
M7wholesale, needs_human, min $500
M8needs_human, không hứa refund
M9Không instant refund; neighbor / 3 ngày
M10spam, no reply

Kết quả từng AI Agent

AI AgentKết quảThời gianChi phí
Accio Work9/10 sai M147s0.66% token của tháng
OpenCode10/1095smiễn phí
Claude DesktopKhông hoàn thành vì hết token
Codex Desktop10/1045s1% token của tháng

UC-4

Bài thử nghiệm

  • Đọc 15 hình ảnh, sửa tên file khớp với mã tracking trên ảnh, xác định các mã tracking không hợp lệ

Đáp án

  • 15 file theo cấu trúc ORDER_{id}_{seq}.jpg
  • 3 order ID lạ (PL-99901, PL-99902, PL-99903) → 5 dòng unknown_order

Kết quả từng AI Agent

AI AgentKết quảThời gianChi phí
Accio Work15/1573s0.83% token của tháng
OpenCode15/1545smiễn phí
Claude DesktopKhông hoàn thành vì hết token
Codex Desktop15/1543s1% token của tháng

UC-5a

Bài thử nghiệm

  • Đọc dữ liệu bán hàng, phân tích, đưa ra insights

Đáp án

  • Doanh thu $18,370
  • Tổng đơn 451
  • Kênh top Amazon

Kết quả từng AI Agent

AI AgentKết quảThời gianChi phí
Accio Work3/339s0.5% token của tháng
OpenCode3/339smiễn phí
Claude DesktopKhông hoàn thành vì hết token
Codex Desktop3/343s1% token của tháng

UC-5b

Bài thử nghiệm

  • Follow brandkit, dựng phân tích theo đúng cấu trúc

Đáp án

  • Sử dụng đúng mã màu

Kết quả từng AI Agent

AI AgentKết quảThời gianChi phí
Accio Work1/1304s1.3% token của tháng
OpenCode1/139smiễn phí
Claude DesktopKhông hoàn thành vì hết token
Codex Desktop1/163s2% token của tháng