구글의 **터보퀀트(TurboQuant)**는 대형 언어 모델(LLM)과 벡터 검색 엔진의 메모리 소비를 줄이기 위해 개발된 압축 기술로, 키-밸류(KV) 캐시를 3비트로 압축하면서 모델 정확도를 유지합니다. 이 알고리즘은 훈련이나 미세 조정 없이 Gemma와 Mistral 같은 오픈소스 모델에서 KV 메모리 크기를 최소 6배 줄이고, H100 GPU에서 최대 8배 성능 향상을 달성합니다.
터보퀀트는 **폴라퀀트(PolarQuant)**와 양자화 존슨-린덴슈트라우스(QJL) 알고리즘으로 구성되어, 데이터 벡터를 회전시켜 고품질 압축을 적용하고 잔여 오류를 제거합니다. 기존 벡터 양자화의 메모리 오버헤드(숫자당 1~2비트 추가)를 해결하며, 롱벤치, 니들 인 어 헤이스택 등 벤치마크에서 우수한 성능을 입증했습니다. 구글은 2026년 3월 24일 이를 발표했으며, ICLR 2026과 AISTATS 2026에서 공식 발표될 예정입니다.
시장 반응으로는 메모리 수요 둔화 우려가 커지며 Micron(MU, -3.4%), Western Digital(WDC), SanDisk(SNDK, -3.5%) 주가가 하락했고, 삼성전자·SK하이닉스 등 국내 반도체주도 프리마켓에서 약세를 보였습니다. 이는 터보퀀트가 문맥 손실 없이 데이터 처리 용량을 6배 이상 늘려 메모리 반도체 수요를 줄일 수 있다는 해석 때문입니다.
뉴스 모음
