CNF Taxonomies

CNF Taxonomies는 정보를 체계적으로 분류하고 조직화하기 위해 정의된 계층적 분류 체계입니다.

추론


추론(Inference)이란 학습이 완료된 AI 모델이 실제 환경에서 입력 데이터를 바탕으로 예측값이나 결과를 생성하는 과정을 의미합니다. LLM(대규모 언어 모델)에서는 사용자의 질문이나 명령을 받아 텍스트를 생성하는 모든 과정이 추론에 해당합니다. 추론은 학습(Training)과는 달리, 모델의 가중치가 고정된 상태에서 실행되며, 이 과정의 속도와 효율성은 서비스 성능에 직접적인 영향을 미칩니다.

최근에는 경량화, 온프레미스 LLM, 서버리스 컴퓨팅 등의 흐름과 함께 고속 추론과 저비용 추론 최적화가 산업 전반에서 중요한 과제로 떠오르고 있습니다.

주요 특징

  • 모델 응답 생성 단계: 입력 프롬프트에 대해 모델이 텍스트, 예측값, 분류 결과 등을 생성하는 실행 과정
  • 리소스 집중형 작업: CPU/GPU 메모리, 연산 성능을 집중적으로 사용함
  • 지연(latency) 민감: 사용자 응답 속도에 직접 영향, 실시간 애플리케이션에 중요
  • 비동기/스트리밍 처리 가능: 일부 프레임워크는 텍스트를 순차적으로 반환하는 방식도 지원
  • 서빙 환경 다양화: GPU 서버, 모바일 디바이스, 브라우저 내 WebAssembly 등에서 실행 가능

장점

  • 현실 문제 해결: 모델을 실서비스에 적용해 텍스트 생성, 질의응답 등 다양한 업무 자동화 가능
  • 플러그형 서비스화: API 형태로 다양한 플랫폼과 손쉽게 통합 가능
  • 모델 재활용 가능: 학습한 모델을 반복적으로 활용하여 다양한 유스케이스에 대응
  • 서버 비용 예측 가능: 추론량에 따른 처리 시간 및 인프라 소비량 계산 가능
  • Edge/On-Device 확장 가능: 경량화 추론 기법과 결합해 로컬 디바이스에서도 사용 가능

관련 용어

  • Serving: 학습 완료된 모델을 외부 시스템에서 호출할 수 있도록 API 등으로 배포하는 과정
  • Latency: 추론 요청부터 결과 반환까지 걸리는 시간
  • Throughput: 단위 시간당 처리 가능한 추론 요청 수
  • Batch Inference: 다수의 입력을 묶어 추론하는 방식으로 효율을 높임
  • Token Sampling: LLM 추론 시 다음 단어를 선택하는 확률 기반 기법 (Top-k, Top-p 등 포함)

주요 솔루션 및 사용 사례

  • 주요 솔루션
    • vLLM / TGI (Text Generation Inference): LLM 최적화 추론 엔진, 병렬 처리 및 스트리밍 지원
    • ONNX Runtime / TensorRT: 딥러닝 모델 최적화 및 추론 속도 향상을 위한 경량화 프레임워크
    • AWS SageMaker / Vertex AI / Azure ML: 클라우드 기반 모델 서빙 및 추론 자동화 플랫폼
    • LMDeploy / MLC / DeepSpeed-Inference: LLM 전용 고속 추론을 위한 경량화 툴킷
    • GGUF 포맷 + llama.cpp: 로컬/브라우저 기반 추론을 위한 경량 모델 실행 환경
  • 사용 사례
    • AI 챗봇 실시간 대화 생성: 고객 질문에 LLM이 바로 응답
    • 코드 자동 완성: IDE에 통합된 LLM이 사용자의 코딩을 실시간으로 지원
    • 문서 요약 API: 대용량 리포트를 간단한 요약본으로 변환
    • 음성 명령 처리: 스마트 디바이스에서 텍스트 추론 기반 제어 기능 제공
    • 보안 이상 탐지 시스템: 로그 데이터 기반 실시간 이상 징후 분석 및 경고 메시지 출력

비싼 WAS의 시대는 끝났다! 클라우드 네이티브 최적화 WAS로 전환할 때

By |2025-10-15T10:06:30+09:002025년 9월 16일 |blog|

Your Content Goes Here Your Content Goes Here 클라우드 네이티브 시대에 무거운 전통적 WAS가 MSA와 쿠버네티스 환경에 적합하지 않은 이유와 새로운 WAS의 핵심 역량을 알아봅니다. Your Content Goes Here [...]

Go to Top