메모리
메모리는 컴퓨터 시스템에서 데이터를 저장하고, 처리 중인 정보를 일시적으로 유지하는 핵심 구성 요소입니다. 인공지능(AI) 및 클라우드 환경에서는 모델의 학습, 추론, 캐시, 실행 컨텍스트 저장 등에 사용되며, 속도와 처리량을 결정짓는 중요한 자원 중 하나입니다. 특히 대규모 언어 모델(LLM)의 경우, 수백 GB에서 수 TB에 달하는 메모리가 요구되며, GPU 메모리(HBM, GDDR)와 시스템 DRAM 모두가 성능에 큰 영향을 미칩니다.
모델 최적화, 분산 학습, 서빙 환경 구축 등에서 효율적인 사용은 시스템 전체의 안정성과 속도를 결정짓는 중요한 요소로 작용합니다.
주요 특징
- 휘발성 저장장치: 전원이 꺼지면 데이터가 사라지는 임시 저장 공간 (예: DRAM, HBM).
- 계층적 구조: 캐시 → 메인 메모리(DRAM) → 저장소(SSD/HDD) 순으로 속도와 용량이 조절됨.
- 메모리 병목: 대규모 모델 실행 시, 메모리 부족이 성능 저하의 원인이 되기도 함.
- GPU 중요성: 딥러닝에서는 GPU의 고속 메모리(HBM2, GDDR6 등)가 병렬 연산 성능에 핵심 역할을 함.
- 최적화 대상: LLM 양자화, 매핑, 오프로드 전략 등을 통해 효율을 높임.장점
장점
- 고속 데이터 처리: 저장장치보다 수십~수백 배 빠른 읽기/쓰기 속도로 실시간 작업 가능.
- 병렬 처리 지원: 대용량 연산을 위한 다수 코어/스레드와 연계되어 높은 처리량 제공.
- 낮은 지연 시간: AI 추론 시 빠른 응답성과 사용자 경험 향상에 기여.
- 모델 실행 최적화: 파라미터, 텐서 등 학습 데이터가 적재되어 빠른 접근 가능.
관련 용어
- DRAM (Dynamic Random Access Memory): 대부분의 시스템 메모리로 사용됨.
- HBM (High Bandwidth Memory): 고대역폭 GPU로 LLM 학습·추론에 필수적.
- 맵핑: 대용량 파일을 직접 메모리에 매핑하여 입출력 속도를 높이는 기법.
- 메모리 누수 (Memory Leak): 사용한 메모리를 해제하지 않아 시스템 성능을 저하시키는 오류.
- Swap: 물리 메모리가 부족할 경우 디스크를 임시 메모리로 사용하는 방식.
주요 솔루션 및 사용 사례
- 주요 솔루션
- NVIDIA A100 / H100 GPU: 최대 80GB HBM 탑재로 LLM 추론 시 고속 메모리 처리 가능.
- vLLM / Hugging Face Accelerate: LLM 실행 시 메모리 할당 및 병렬 처리 최적화를 지원.
- Torch.compile / XLA: PyTorch 및 TensorFlow 기반에서 메모리 사용량을 줄이는 컴파일러 최적화 기술.
- Amazon EC2 Trn1 / Inf2: 고성능 탑재 인스턴스로 LLM 모델 훈련 및 추론 지원.
- 사용 사례
- LLM 추론 성능 개선: 모델 파라미터와 토큰 히스토리를 메모리에 유지하여 응답 속도 향상.
- GPU 메모리 부족 대응: 토크나이저 분리 처리, KV 캐시 전략, weight offloading 등으로 절약.
- 분산 학습 구성: 모델 파라미터를 여러 노드로 분산해 대용량 모델 학습 가능.
- 서빙 효율화: preloaded weights, 캐싱 등을 활용해 모델 로딩 지연 최소화.