Coinbase đánh giá sự cố ngừng hoạt động tháng 5: Lỗi dây chuyền tại AWS bộc lộ rủi ro kiến trúc
Coinbase đã công bố báo cáo tổng kết về sự kiện gián đoạn dịch vụ quy mô lớn vào ngày 7 tháng 5 năm 2026.
Sự cố kéo dài khoảng 8 giờ và mất khoảng 12 giờ để khôi phục hoàn toàn. Trong thời gian này, các hoạt động giao dịch, nạp, rút tiền và hầu hết các dịch vụ cốt lõi đều không khả dụng hoặc bị suy giảm nghiêm trọng. Coinbase cho biết sự cố bắt nguồn từ việc nhiều thiết bị làm mát trong hệ thống làm mát tại một trung tâm dữ liệu thuộc vùng khả dụng (use1-az4) trong khu vực AWS us-east-1 đồng loạt gặp lỗi, kích hoạt chế độ ngắt bảo vệ nhiệt của tủ rack, khiến các phiên bản EC2 và ổ đĩa EBS ngoại tuyến, ảnh hưởng đến nhiều dịch vụ internet.
Trong quá trình khôi phục, công cụ khớp lệnh của Coinbase đã mất quyền biểu quyết (quorum) do kiến trúc cụm được triển khai tại một trung tâm dữ liệu AWS duy nhất bị mất hầu hết các nút. Hệ thống yêu cầu điều chỉnh mã khẩn cấp và tái cấu trúc một nhóm nút mới để khôi phục hoạt động, đồng thời dần khởi động lại giao dịch thị trường trong quá trình phục hồi.
Ngoài ra, dịch vụ Kafka (MSK) do AWS quản lý đã gặp lỗi ở mặt phẳng điều khiển (control plane), ngăn cản việc tự động bầu chọn lại các phân vùng chính (partition leaders), từ đó tiếp tục chặn các báo giá, phí cùng một số hệ thống thanh toán và luồng dữ liệu, làm trầm trọng thêm tác động tổng thể.
Sau khi phối hợp với đội ngũ kỹ thuật của AWS để di chuyển phân vùng thủ công, hệ thống đã dần trở lại bình thường. Coinbase thừa nhận sự cố này đã bộc lộ những thiếu sót trong khả năng tự động chuyển đổi giữa các vùng khả dụng và phục hồi thảm họa đối với phần mềm trung gian được quản lý. Công ty sẽ nâng cấp kiến trúc sao lưu nóng liên vùng, tăng cường diễn tập sự cố định kỳ và chuyển đổi hệ thống Kafka từ triển khai tại hai vùng khả dụng sang ba vùng khả dụng, đồng thời hợp tác với AWS để thúc đẩy các biện pháp khắc phục nguyên nhân gốc rễ và cải tiến hệ thống.
