Meta의 Llama 4: 다중 모달 AI의 새로운 시대를 여는 혁신

Meta가 2025년 4월 5일, 차세대 AI 모델 시리즈인 Llama 4를 공개했습니다. 이번 출시는 AI 기술 발전에 있어 중요한 이정표가 될 것으로 보입니다. Llama 4는 네이티브 다중 모달 기능과 혁신적인 혼합 전문가(Mixture of Experts, MoE) 아키텍처를 갖춘 최초의 오픈 웨이트 모델로, AI 개발 생태계에 새로운 가능성을 제시합니다.

이 글에서는 Llama 4의 주요 특징, 이전 모델과의 차이점, 그리고 AI 커뮤니티에 미치는 영향에 대해 자세히 살펴보겠습니다.

Llama 4 모델 시리즈 소개

Meta의 Llama 4는 Scout, Maverick, Behemoth 세 가지 모델로 구성되어 있으며, 각각 다른 크기와 성능 특성을 가지고 있습니다.

Llama 4 Scout: 효율성과 성능의 균형

Llama 4 Scout는 17B 활성 파라미터와 16개의 전문가를 갖춘 모델로, 총 109B 파라미터를 보유하고 있습니다. 이 모델의 가장 큰 특징은 단일 NVIDIA H100 GPU에서 실행 가능하면서도(Int4 양자화 사용) 업계 최고 수준인 10M 토큰의 컨텍스트 윈도우를 제공한다는 점입니다.

Scout는 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1과 같은 경쟁 모델보다 다양한 벤치마크에서 우수한 성능을 보이며, 특히 문서 요약과 대규모 코드베이스 추론 작업에 강점을 보입니다.

Llama 4 Maverick: 고성능 다목적 모델

Llama 4 Maverick는 17B 활성 파라미터와 128개의 전문가를 갖춘 모델로, 총 400B 파라미터를 보유하고 있습니다. 1M 토큰의 컨텍스트 윈도우를 제공하며, NVIDIA H100 DGX 시스템 또는 동급 하드웨어에서 실행됩니다.

Maverick는 OpenAI의 GPT-4o와 Google의 Gemini 2.0 Flash보다 다양한 벤치마크에서 우수한 성능을 보이며, DeepSeek v3와 비슷한 추론 및 코딩 성능을 절반 이하의 활성 파라미터로 달성합니다. LMArena에서는 ELO 1417 점수를 기록했으며, 일반 어시스턴트, 채팅, 창의적 글쓰기와 같은 다목적 용도에 적합합니다.

Llama 4 Behemoth: 아직 공개되지 않은 최강 모델

Llama 4 Behemoth는 288B 활성 파라미터와 16개의 전문가를 갖춘 모델로, 총 2T(2조) 파라미터를 보유하고 있습니다. Meta에 따르면 이 모델은 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro보다 STEM 벤치마크에서 우수한 성능을 보인다고 합니다.

현재 Behemoth는 아직 훈련 중이며 공개되지 않았습니다. Meta는 이 모델이 다른 Llama 4 모델의 "교사" 역할을 한다고 설명하고 있습니다.

Llama 4의 혁신적 기술

혼합 전문가(MoE) 아키텍처

Llama 4의 가장 큰 기술적 혁신 중 하나는 혼합 전문가(Mixture of Experts, MoE) 아키텍처의 도입입니다. 이 아키텍처에서는 단일 토큰이 전체 파라미터의 일부만 활성화하여 계산 효율성을 크게 향상시킵니다.

예를 들어, Llama 4 Maverick 모델은 교대로 밀집(dense) 및 MoE 레이어를 사용하며, MoE 레이어는 128개의 라우팅된 전문가와 공유 전문가를 사용합니다. 각 토큰은 공유 전문가와 128개의 라우팅된 전문가 중 하나로 전송됩니다. 이로 인해 모든 파라미터가 메모리에 저장되지만, 모델 서빙 중에는 전체 파라미터의 일부만 활성화됩니다.

이러한 접근 방식은 모델 서빙 비용과 지연 시간을 줄여 추론 효율성을 향상시킵니다. Llama 4 Maverick는 쉬운 배포를 위해 단일 NVIDIA H100 DGX 호스트에서 실행하거나, 최대 효율성을 위해 분산 추론을 사용할 수 있습니다.

네이티브 다중 모달 설계

Llama 4 모델은 네이티브 다중 모달 설계를 채택하여 텍스트와 비전 토큰을 통합 모델 백본으로 원활하게 통합합니다. 얼리 퓨전(early fusion) 기술을 사용하는 이 접근 방식은 레이블이 없는 대량의 텍스트, 이미지, 비디오 데이터로 모델을 공동 사전 훈련할 수 있게 합니다.

Meta는 또한 Llama 4의 비전 인코더를 개선했습니다. 이 인코더는 MetaCLIP을 기반으로 하지만, LLM에 더 잘 적응하도록 동결된 Llama 모델과 함께 별도로 훈련되었습니다.

혁신적인 훈련 기법

Meta는 Llama 4를 위해 MetaP라는 새로운 훈련 기법을 개발했습니다. 이 기법은 레이어별 학습률 및 초기화 스케일과 같은 중요한 모델 하이퍼파라미터를 안정적으로 설정할 수 있게 합니다. 선택된 하이퍼파라미터는 배치 크기, 모델 너비, 깊이, 훈련 토큰과 같은 다양한 값에 잘 전이됩니다.

Llama 4는 FP8 정밀도를 사용하여 효율적인 모델 훈련을 실현했으며, 품질을 희생하지 않고 높은 모델 FLOPs 활용률을 보장합니다. Llama 4 Behemoth 모델을 FP8과 32K GPU로 사전 훈련하는 동안, Meta는 GPU당 390 TFLOPs를 달성했습니다.

훈련 데이터 혼합은 30조 이상의 토큰으로 구성되었으며, 이는 Llama 3 사전 훈련 혼합의 2배 이상입니다. 또한 다양한 텍스트, 이미지, 비디오 데이터셋을 포함합니다.

Llama 3와 Llama 4의 비교

Llama 4는 Llama 3에 비해 여러 중요한 발전을 이루었습니다.

아키텍처 변화

Llama 3가 표준 디코더 전용 트랜스포머 아키텍처를 사용한 반면, Llama 4는 혼합 전문가(MoE) 아키텍처를 도입했습니다. 이 변화는 계산 효율성을 크게 향상시키고 리소스 사용을 최적화합니다.

모델 크기 및 파라미터

Llama 3는 8B 및 70B 파라미터 모델을 제공했지만, Llama 4는 더 다양한 크기와 구성을 제공합니다:

  • Scout: 17B 활성 파라미터, 총 109B 파라미터
  • Maverick: 17B 활성 파라미터, 총 400B 파라미터
  • Behemoth: 288B 활성 파라미터, 총 2T 파라미터

컨텍스트 윈도우

Llama 3가 8,192 토큰 시퀀스로 훈련된 반면, Llama 4는 훨씬 더 큰 컨텍스트 윈도우를 제공합니다:

  • Scout: 10M 토큰 컨텍스트 윈도우
  • Maverick: 1M 토큰 컨텍스트 윈도우

다중 모달 기능

Llama 3는 텍스트 전용 모델이었지만, Llama 4는 네이티브 다중 모달 설계를 채택하여 텍스트와 비전 처리를 통합했습니다.

훈련 데이터

Llama 3가 15조 토큰과 30개 이상의 언어로 훈련된 반면, Llama 4는 30조 이상의 토큰과 200개 언어로 사전 훈련되었습니다. Llama 4는 Llama 3보다 10배 더 많은 다국어 토큰을 사용했습니다.

가용성 및 제한사항

가용성

Llama 4 Scout 및 Llama 4 Maverick는 현재 llama.com 및 Hugging Face에서 다운로드할 수 있으며, Meta AI를 통해 WhatsApp, Messenger, Instagram Direct, Meta.AI 웹사이트에서 사용할 수 있습니다. 다중 모달 기능은 현재 미국에서 영어로만 제한적으로 제공됩니다.

라이센스 제한

Llama 4에는 몇 가지 중요한 라이센스 제한이 있습니다:

  1. EU에 "주소지"가 있거나 "주요 사업장"이 있는 사용자 및 기업은 모델 사용 또는 배포가 금지되어 있습니다. 이는 EU의 AI 및 데이터 개인정보 보호법에 의한 거버넌스 요구사항 때문으로 추정됩니다.
  2. 월간 활성 사용자가 7억 명 이상인 기업은 Meta에 특별 라이센스를 요청해야 합니다.

이러한 제한으로 인해 Open Source Initiative는 Meta의 라이센스 요구사항이 완전한 "오픈소스" 카테고리에서 벗어난다고 지적했습니다.

전문가 평가

장점

  1. 성능: Llama 4 모델은 다양한 벤치마크에서 GPT-4o, Gemini 2.0 Flash 등 경쟁 모델보다 우수한 성능을 보입니다.
  2. 효율성: MoE 아키텍처는 계산 효율성을 향상시키고 리소스 사용을 최적화합니다.
  3. 컨텍스트 길이: Scout 모델의 10M 토큰 컨텍스트 윈도우는 업계 최고 수준으로, 대규모 문서 처리와 장문 컨텍스트 이해에 큰 이점을 제공합니다.
  4. 다국어 지원: 200개 언어 지원과 강화된 다국어 기능은 글로벌 사용자에게 더 나은 경험을 제공합니다.
  5. 다중 모달 통합: 텍스트와 이미지 처리의 원활한 통합은 더 풍부한 AI 경험을 가능하게 합니다.

단점

  1. 라이센스 제한: EU 사용자 및 대규모 기업에 대한 제한은 모델의 접근성을 제한합니다.
  2. 완전한 오픈소스 아님: 라이센스 요구사항으로 인해 Llama 4가 진정한 오픈소스인지에 대한 비판이 있습니다.
  3. Behemoth 미출시: 가장 강력한 모델은 아직 훈련 중이며 출시되지 않았습니다.
  4. 다중 모달 제한: 다중 모달 기능은 현재 미국에서 영어로만 제한적으로 제공됩니다.

개발 배경 및 미래 전망

개발 배경

Llama 4의 개발은 중국 AI 연구소 DeepSeek의 오픈 모델이 이전 Llama 모델과 동등하거나 더 나은 성능을 보이면서 가속화되었습니다. Meta는 DeepSeek가 모델 실행 및 배포 비용을 낮춘 방법을 분석하기 위해 노력했으며, 이는 Llama 4의 효율성 향상에 영향을 미쳤습니다.

Meta는 4월 29일 LlamaCon에서 AI 모델 및 제품에 대한 향후 계획을 논의할 예정입니다.

미래 전망

Meta는 Llama 4를 통해 일반화된 행동 수행, 자연스러운 대화, 이전에 보지 못한 문제 해결 능력 향상을 목표로 하고 있습니다. 또한 2025년 2분기에 Meta AI 독립 앱 출시가 예상되며, 다중 모달 기능의 확장 및 더 많은 언어 지원이 계획되어 있습니다.

결론

Meta의 Llama 4는 혼합 전문가 아키텍처와 네이티브 다중 모달 기능을 결합한 혁신적인 AI 모델 시리즈입니다. 이전 모델에 비해 크게 향상된 성능과 효율성을 제공하며, AI 개발 생태계에 새로운 가능성을 열어줍니다.

라이센스 제한과 같은 몇 가지 단점에도 불구하고, Llama 4는 AI 기술의 발전과 접근성 향상에 중요한 기여를 할 것으로 보입니다. 특히 Scout 모델의 10M 토큰 컨텍스트 윈도우와 Maverick 모델의 강력한 성능은 다양한 AI 애플리케이션에 새로운 가능성을 제시합니다.

앞으로 Meta가 Behemoth 모델을 공개하고 다중 모달 기능을 확장함에 따라, Llama 4는 AI 기술 발전의 중요한 이정표로 자리매김할 것입니다.

참고 자료

  1. Meta AI 공식 블로그 - The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
  2. TechCrunch - Meta releases Llama 4, a new crop of flagship AI models
  3. The Verge - Meta AI gets two new models as Meta releases Llama 4
  4. CNBC - Meta debuts new Llama 4 models, but most powerful AI model is still to come
  5. Medium - Transparency as the New Frontier: A System's Review in GPT-4.5, GPT-4, Llama 3, and DeepSeek-R1 Technical Reports
  6. TopDevelopers - Llama AI Models: Everything You Need to Know