구글 ‘터보퀀트’ 충격…메모리 덜 쓰는 기술?
경제타임스 온인주 기자 | 구글이 공개한 AI 추론 효율화 기술 ‘터보퀀트(TurboQuant)’를 두고 메모리 반도체 업계의 시선이 엇갈리고 있다. 겉으로 보면 같은 일을 하는 데 필요한 메모리를 크게 줄여주는 기술이지만, 다른 한편에선 AI 이용 비용을 낮춰 오히려 전체 수요를 키울 수 있다는 해석도 나온다. 메모리 사용량 감소와 추론 수요 폭증 가능성이 동시에 거론되면서, 시장은 이 기술이 단순한 효율화에 그칠지 AI 인프라 판도를 흔들 변수로 번질지 주목하는 모습이다. 터보퀀트는 대규모언어모델(LLM)이 답변을 만드는 과정에서 사용하는 ‘KV 캐시’를 더 작고 효율적으로 저장하는 알고리즘이다. KV 캐시는 AI가 앞선 대화 내용과 문맥을 잠시 붙잡아두는 일종의 작업 메모리다. 대화가 길어지고 이용자가 늘수록 이 공간이 빠르게 커지는데, 그만큼 GPU 메모리 부담도 함께 커진다. 구글이 소개한 터보퀀트의 핵심은 이 KV 캐시를 이론적으로 최적 수준까지 압축해 메모리 병목을 줄이는 데 있다. 증권가에 따르면 터보퀀트는 데이터를 단순히 깎아내는 방식이 아니라, 더 효율적으로 압축할 수 있는 형태로 바꿔 저장함으로써 메모리 사용량을 줄이는 기술이다. 구글은