Google представила алгоритм TurboQuant для сжатия памяти нейросетей

вчера 09:06
6 Анализ этих новостей
Компания Google представила новый алгоритм сжатия данных TurboQuant, предназначенный для оптимизации работы больших языковых моделей (LLM). Технология позволяет сократить потребление оперативной памяти (KV cache) нейросетями в 6 раз и ускорить их работу в 8 раз без снижения точности генерации. Это решение может кардинально изменить рынок оборудования: после анонса акции производителей памяти (Micron, SK Hynix) резко упали, а инвесторы начали рассчитывать на снижение цен на комплектующие, которые за последние месяцы выросли на 500%. Различные источники сходятся в том, что алгоритм решает проблему дефицита ОЗУ, однако канал @concertzaal отмечает, что это может означать «лопание пузыря ИИ» из-за снижения потребности в железе, в то время как другие каналы (@neuraldvig, @techno_media, @rhymestg, @toporlive, @banksta) фокусируются на позитивном решении кризиса и доступности технологий.
При загрузке возникла ошибка!