Google представила алгоритм TurboQuant для сжатия памяти нейросетей
Компания Google представила новый алгоритм сжатия данных TurboQuant, предназначенный для оптимизации работы больших языковых моделей (LLM). Технология позволяет сократить потребление оперативной памяти (KV cache) нейросетями в 6 раз и ускорить их работу в 8 раз без снижения точности генерации. Это решение может кардинально измен...
Текст новости загружается...