• 동두천 22.1℃구름많음
  • 강릉 25.6℃맑음
  • 서울 21.8℃맑음
  • 대전 24.3℃맑음
  • 대구 26.7℃구름많음
  • 울산 27.3℃맑음
  • 광주 24.5℃맑음
  • 부산 28.3℃구름많음
  • 고창 21.7℃구름많음
  • 제주 24.0℃구름많음
  • 강화 21.8℃맑음
  • 보은 22.6℃맑음
  • 금산 23.4℃구름많음
  • 강진군 25.0℃구름많음
  • 경주시 27.7℃구름많음
  • 거제 27.1℃맑음
기상청 제공

2026.06.05 (금)

GPU 확보보다 효율…오케스트로 '콘체르토 AI' 출시

생성형 AI 확산에 추론 최적화 시장 선점…분산 서빙 기술로 응답 속도 과부하 해결
자체 벤치마크서 기존 단일 처리 방식 대비 토큰 출력 속도 2.2배 향상 입증

 

경제타임스 전영진 기자 |  생성형 인공지능(AI) 서비스의 폭발적인 확산으로 기업들의 AI 인프라 운영 패러다임이 'GPU(그래픽처리장치) 확보'에서 '추론 효율화'로 급격히 이동하고 있다. AI 챗봇과 업무 자동화 에이전트, 검색증강생성(RAG) 등 상시 가동되는 AI 서비스가 늘어남에 따라 병목 현상을 해결할 솔루션의 중요성이 커진 결과다. 이에 국내 AI·클라우드 소프트웨어 전문기업 오케스트로가 인프라 자원 효율을 극대화할 수 있는 새로운 카드를 꺼내 들었다.

 

오케스트로는 기업의 AI 인프라 운영 효율성을 혁신적으로 높이기 위한 AI 추론 운영 플랫폼 '콘체르토 AI(Concerto AI)'를 출시했다고 5월29일 밝혔다. 이 플랫폼은 대규모 추론 요청을 분산 처리하고 GPU와 NPU(신경망처리장치) 등 가속기 자원을 작업 특성에 맞춰 유연하게 배분하는 기술이 핵심이다.

 

콘체르토 AI의 차별성은 분산 서빙 기반의 추론 최적화 기술에 있다. 기존 방식은 사용자의 질문을 이해하고 분석하는 prefill(프리필) 단계와 실제 답변을 생성하는 decode(디코드) 단계를 동일한 GPU에서 처리했다. 이로 인해 대규모 요청이 일시에 몰리는 고부하 상황이 발생하면 답변 생성 작업까지 지연돼 전체적인 서비스 품질이 저하되는 한계가 존재했다.

 

반면 콘체르토 AI는 질문 분석과 답변 생성 작업을 서로 다른 GPU 자원에 독립적으로 분산 배치한다. 특정 GPU가 질문 분석을 전담하는 동안 다른 GPU는 답변 생성에만 집중하도록 역할을 분리함으로써, 특정 작업의 병목 현상이 전체 시스템으로 전파되는 것을 차단하고 응답 속도를 안정적으로 유지한다.

 

성능 검증 결과도 이를 뒷받침한다. 오케스트로가 자체 온프레미스 AI 인프라 환경에서 진행한 고부하 벤치마크 테스트에 따르면, 콘체르토 AI의 분산 서빙 방식은 기존의 단일 처리 방식과 비교해 토큰 출력 속도가 2.2배 향상된 것으로 나타났다. 동일한 GPU 자원을 보유하고 있더라도 초당 생성할 수 있는 AI의 답변량이 2배 이상 늘어난 셈이다.

 

오케스트로 김범재 대표는 "생성형 AI가 실제 비즈니스 업무 환경으로 깊숙이 확산되면서 기업 AI 인프라의 핵심 과제는 무작정 더 많은 GPU를 확보하는 것이 아니라 보유한 자원을 얼마나 효율적으로 제어하고 운영하느냐로 전환되고 있다"며 "이번에 공개한 콘체르토 AI를 통해 기업들이 인프라 활용 효율을 극대화하고, 보안성이 높은 프라이빗 AI 환경에서도 가용성 높은 서비스를 안정적으로 운영할 수 있도록 강력히 지원하겠다"고 밝혔다.

 

오케스트로는 클라우드 플랫폼과 AI 인프라 운영 솔루션을 자체 개발해 공급하는 기업으로, 이번 콘체르토 AI 출시를 통해 가속기 최적화 서빙 시장에서 기술적 주도권을 한층 강화할 전망이다.




같은 섹션 기사

더보기




공시 By AI

더보기