Tether mã nguồn mở TurboQuant, với tỷ lệ nén bộ nhớ đệm KV trên thiết bị AI cục bộ lên tới 5 lần
Nhóm nghiên cứu AI của Tether đã công bố phát hành mã nguồn mở phiên bản sản xuất TurboQuant và tích hợp nó vào QVAC SDK 0.12.0.
TurboQuant dựa trên thuật toán nén bộ nhớ từ Google Research, có khả năng nén bộ nhớ đệm KV của thời gian chạy AI lên tới 5 lần trong khi vẫn duy trì chất lượng đầu ra gần bằng các mô hình không nén.
Điều này có nghĩa là máy tính xách tay, điện thoại di động và các thiết bị biên có thể xử lý các cuộc hội thoại dài hơn, tệp lớn hơn và các tác vụ phức tạp hơn mà không cần tải dữ liệu lên đám mây.
Bản phát hành mã nguồn mở này bao gồm quy trình lượng tử hóa hoàn chỉnh, các bộ điều hợp khung suy luận phổ biến và tài liệu dành cho nhà phát triển, hướng tới các nhà phát triển và công ty khởi nghiệp triển khai AI trên phần cứng tiêu dùng, thiết bị biên và mạng ngang hàng.


