Google представила алгоритм TurboQuant для сжатия памяти нейросетей
Компания Google представила новый алгоритм сжатия данных TurboQuant, предназначенный для оптимизации работы больших языковых моделей (LLM). Технология позволяет сократить потребление оперативной памяти (KV cache) нейросетями в 6 раз и ускорить их работу в 8 раз без снижения точности генерации. Это решение может кардинально изменить рынок оборудования: после анонса акции производителей памяти (Micron, SK Hynix) резко упали, а инвесторы начали рассчитывать на снижение цен на комплектующие, которые за последние месяцы выросли на 500%. Различные источники сходятся в том, что алгоритм решает проблему дефицита ОЗУ, однако канал @concertzaal отмечает, что это может означать «лопание пузыря ИИ» из-за снижения потребности в железе, в то время как другие каналы (@neuraldvig, @techno_media, @rhymestg, @toporlive, @banksta) фокусируются на позитивном решении кризиса и доступности технологий.