본문 바로가기
🟣 AI & ML

Meta, Llama 3 발표: 현존하는 가장 뛰어난 성능의 퍼블릭 LLM

by 제리강 2024. 4. 21.

 

TL;DR

한국 기준 4월 19일, Meta 사가 Llama 3 를 발표했다.
대중적인 LLM으로는 ChatGPT의 인지도가 높지만, ChatGPT는 웹 서비스 또는 API를 통해서만 이용 가능하며 모델의 구조나 원본은 공개하지 않고 있다.
Llama는 1 버전 출시부터 모델 원본을 오픈소스로 공개하여 큰 파장을 일으켰고, 개발자들은 Llama를 바탕으로 하여 많은 파생 모델을 만들어 이용할 수 있었다.
이번 포스트에서는 이제 막 발표된 Llama 3에 대한 Meta 사의 블로그 포스트를 번역 및 요약하며 어떤 점이 변화되었는지 간단히 알아보도록 하자.

 
 
* 이해를 돕기 위한 의역이 포함될 수 있습니다.
원문 링크: https://ai.meta.com/blog/meta-llama-3

 
 
 

Takeaways(핵심 요약):

  • 오늘, 최고 수준 오픈 소스 대규모 언어 모델의 차세대 모델인 Meta Llama 3를 소개합니다.
  • Llama 3 모델 곧 AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM 및 Snowflake에서 제공될 예정이며 AMD, AWS, Dell, Intel, NVIDIA 및 Qualcomm에서 제공하는 하드웨어 플랫폼의 지원을 받을 수 있습니다.
  • 우리는 책임감 있는(responsible)* 방식으로 Llama 3를 개발하기 위해 최선을 다하고 있으며, 다른 사람들도 책임감 있게 사용할 수 있도록 다양한 리소스를 제공하고 있습니다. 이를 위해, 신뢰성과 안전을 위한 새로운 도구인 Llama Guard 2, Code Shield, CyberSec Eval 2를 도입합니다.
  • 앞으로 몇 달 안에 새로운 기능, 더 긴 컨텍스트 창(context window), 새로운 크기의 모델 추가 및 향상된 성능을 도입하고 실현할 예정이며, Llama 3 연구 논문도 공유할 예정입니다.
  • Llama 3 기술로 구축된 Meta AI는 이제 학습, 업무 처리, 콘텐츠 제작 그리고 우리의 모든 순간을 연결하는 데에 최대한 활용할 수 있도록 지능을 높이고 업무 부담을 덜어주는 세계 최고의 AI 비서 중 하나입니다. 여기**에서 Meta AI를 사용해 보세요.

 

* 책임감 있는(responsible)이란 표현은, AI 모델 관련 윤리를 준수한다는 것을 의미한다.
** 아직 한국에서는 서비스되지 않는 것으로 보인다.
 
 

오늘, 폭넓게 사용할 수 있는 차세대 Llama의 첫 두 모델인 Meta Llama 3 (8B, 70B)을 공개합니다. 이번 출시에서는 사전학습(pre-training) 및 지시 기반으로 미세 조정(instruction-fine-tuning)된 언어 모델을, 다양한 맥락에서 사용할 수 있도록 8B 및 70B 파라미터 크기로 제공합니다. 이 차세대 Llama는 다양한 업계의 벤치마크에서 최고 수준 성능을 입증했으며 향상된 추론(reasoning) 능력을 비롯한 새로운 기능을 제공합니다. 우리는 이것이 동급 최고의 오픈 소스 모델이라고 생각합니다. 우리가 오랜 기간 개방적인 방식을 보여온 것처럼, Llama 3를 커뮤니티에 공개합니다. 애플리케이션부터 개발자 도구, 평가(evals), 추론 최적화(inference optimization) 등에 이르기까지 스택(stack) 전반에 걸쳐 AI의 차세대 혁신의 물결을 일으키고자 합니다. 여러분의 멋진 결과물을 기대하며 피드백을 기다리고 있습니다.
 
 
 

Llama 3의 목표

우리는 Llama 3를 통해 현재 사용 가능한 최고의 독점(proprietary) 모델*과 동등한 수준의 최고의 오픈 모델을 구축하고자 했습니다. 개발자의 피드백을 반영하여 Llama 3의 전반적인 유용성을 높이고자 했으며, 이를 통해 책임감 있는 LLM 사용 및 배포에 대한 선도적인 역할을 계속 수행해 나가고 있습니다. 우리는 개발 중인 모델을 이른 시기에 미리 공개하여 커뮤니티가 해당 모델에 액세스할 수 있도록 하는 오픈 소스 정신을 수용하고 있습니다. 오늘 공개하는 텍스트 기반 모델은 Llama 3 모델 컬렉션의 첫 번째 모델입니다. 가까운 시일 내에 Llama 3를 다국어 및 멀티모달(multi-modal)**로 만들고, 더 긴 컨텍스트를 제공하며, 추론 및 코딩과 같은 핵심 LLM 기능 전반의 성능을 지속적으로 개선하는 것이 우리의 목표입니다.
 

* 예를 들어, ChatGPT나 Claude같은 비공개 모델
** 텍스트 외에도 사진, 영상 등을 함께 입, 출력으로 이용할 수 있는 모델
 
 
 

최고 수준(State-of-the-art) 성능

새로운 8B 및 70B 파라미터 Llama 3 모델은 Llama 2에서 크게 향상되어 해당 규모의 LLM 모델에 대한 새로운 최고 수준(State-of-the-art, SOTA) 기술을 확립했습니다. 사전학습(pre-training) 및 사후학습(post-training) 과정의 개선 덕분에 사전학습 및 지시 기반 미세조정(instruction-fine-tuned) 모델은 8B 및 70B 파라미터 규모에서 현존하는 최고의 모델입니다. 사후학습 절차의 개선으로 잘못된 거부의 비율(false refusal rates)*이 크게 감소하고, 정확도(alignment)가 향상되었으며, 모델 답변의 다양성이 증가했습니다. 또한 Llama 3의 조정성(steerable)**을 높인 후 추론, 코드 생성, 명령어와 같은 기능도 크게 향상되었습니다.
 

* LLM은 질문이 적절하지 않을 경우 답변을 거부하거나 추가 정보를 요청하도록 학습되는데, 적절한 질문임에도 답변을 거부하는 비율을 줄였다는 것으로 해석된다.
** 사용자 목적에 맞게 생성하는 능력을 높이도록, 지시 기반 미세조정(instruction-fine-tuned) 과정을 향상시켰다는 의미로 해석된다.
 

* 점수를 계산하는 설정 및 매개 변수는 평가 세부 정보(https://github.com/meta-llama/llama3/blob/main/eval_details.md) 참조.

 
 

Llama 3 개발 과정에서는, 표준 벤치마크에서 모델 성능을 살펴보고 실제 시나리오에 맞게 성능을 최적화하고자 했습니다. 이를 위해 새로운 고품질의 인간 평가(human evaluation) 세트를 개발했습니다. 이 평가 세트에는 조언 구하기, 브레인스토밍, 분류, 닫힌(closed) 질문 과 답변, 코딩, 창의적 글쓰기, 추출, 인격/페르소나(character/persona)에 이입하기, 열린(open) 질문과 답변, 추론, 재작성, 요약 등 12가지 주요 사용 사례에 대한 1,800개의 프롬프트가 포함되어 있습니다. 이 평가 세트에 대한 모델의 우발적인 과적합(overfitting)을 방지하기 위해 자체 모델링 팀조차도 이 평가 세트에 접근할 수 없도록 했습니다. 아래 차트는 상기한 카테고리 및 프롬프트에 대한 인간 평가 비교 결과를 Claude Sonnet, Mistral Medium 및 GPT-3.5 모델과 비교한 것입니다.
 

 
 
이 평가 세트를 기반으로 한 인간 평가자(annotators)들의 선호도 순위는 실제 시나리오에서 비슷한 규모의 경쟁 모델과 비교했을 때 70B 명령어 추종 모델의 강력한 성능을 강조합니다.

또한 사전 학습된 모델은 해당 규모의 LLM 모델에 대한 새로운 최고 수준 성능을 확립했습니다.
 

 
우리는 훌륭한 언어 모델을 개발하기 위해 혁신, 확장(scale) 및 최적화를 통한 단순성(simplicity) 향상이 중요하다고 생각합니다. 모델 아키텍처, 사전학습 데이터, 사전학습 확장, 지시 기반 미세 조정이라는 네 가지 핵심 요소에 중점을 두고 Llama 3 프로젝트 전반에 걸쳐 이러한 설계 철학을 적용했습니다.
 
 
 

모델 아키텍처

디자인 철학에 따라 Llama 3에서는 비교적 표준적인 디코더(decoder) 전용 트랜스포머 아키텍처를 선택했습니다. Llama 2와 비교했을 때에, 아키텍처에는 몇 가지 주요 개선 사항이 있습니다. Llama 3는 언어를 훨씬 더 효율적으로 인코딩할 수 있는 128K개 토큰 어휘(vocabulary) 크기를 가지는 토크나이저(tokenizer)를 사용하여 모델 성능을 크게 향상시켰습니다. Llama 3 모델의 추론 효율성을 개선하기 위해 8B 및 70B 크기 모두에 그룹화 쿼리 어텐션(Grouped Query Attention, GQA)를 채택했습니다. 셀프 어텐션(self-attention)이 문서 경계를 넘지 않도록 마스크(mask)을 적용해 8,192개의 토큰 시퀀스로 모델을 훈련시켰습니다.
 
최고의 언어 모델을 학습시키기 위해서는 고품질의 대규모 학습 데이터 세트 선별(curation)이 무엇보다 중요합니다. 설계 원칙에 따라, 우리는 사전학습 데이터에 많은 투자를 했습니다. Llama 3는 공개적으로 사용 가능한 소스에서 수집된 15T(15조)개 이상의 토큰으로 사전학습되었습니다. 학습 데이터 세트는 Llama 2에 사용된 것보다 7배 더 크고 4배 더 많은 코드가 포함되어 있습니다. 향후 다국어 사용 사례에 대비하기 위해, Llama 3 사전 학습 데이터 세트의 5% 이상이 30개 이상의 언어를 포함하는 고품질 비영어 데이터로 구성되어 있습니다. 그러나 이러한 언어에서 영어와 동일한 수준의 성능을 기대할 수는 없습니다.
 
또한, Llama 3가 최고 품질의 데이터로 학습되도록 하기 위해 일련의 데이터 필터링 파이프라인을 개발했습니다. 이러한 파이프라인에는 경험 기반(heuristic) 필터*, NSFW 필터**, 의미 중복 제거(semantic deduplication) 접근법, 텍스트 분류기를 사용해 데이터 품질을 예측하는 것이 포함됩니다. 이전 세대의 Llama가 고품질 데이터를 식별하는 데 놀라울 정도로 능숙하다는 사실을 발견했기 때문에, Llama 2를 사용해 Llama 3의 기반이 되는 텍스트 품질 분류기의 학습 데이터를 생성했습니다.
 

* Heuristic 필터라는 표현을 일반적인 용례로 해석하면, 사람이 직접 데이터를 보고 규칙이나 패턴을 파악하여 필터를 구축했다고 이해할 수 있다. 
** not safe for work

 
최종 사전학습 데이터 세트 구축에는 다양한 소스의 데이터를 조합하는 가장 좋은 방법을 평가하기 위해 광범위한 실험을 수행했습니다. 이러한 실험을 통해 퀴즈 문제, STEM(Science, Technology, Engineering and Mathematics), 코딩, 역사 지식 등 다양한 사용 사례에서 Llama 3의 성능을 보장하는 데이터 조합을 선택할 수 있었습니다.
 
 
 

확장된 사전학습

Llama 3 모델에서 사전학습 데이터를 효과적으로 활용하기 위해 사전학습을 확장하는 데에 상당한 노력을 기울였습니다. 특히, 하위 작업(downstream)* 벤치마크 평가를 위한 일련의 세부적인 확장 법칙(scaling laws)**을 개발했습니다. 이러한 확장 법칙을 통해 최적의 데이터 조합 선택 및 학습에 필요한 컴퓨팅 자원을 가장 잘 활용하는 방법에 대해, 데이터에 기반한 결정을 내릴 수 있었습니다. 중요한 것은 확장 법칙을 통해 실제로 모델을 훈련하기 전에 주요 작업(예: HumanEval 벤치마크에서 평가한 코드 생성, 위 그림 참조)에서 가장 큰 모델의 성능을 예측할 수 있다는 점입니다. 이를 통해, 다양한 사용 사례와 기능에 걸쳐 최종 모델의 강력한 성능을 보장할 수 있습니다. 
 

* LLM에서 downstream은 사전학습된 모델을 특정 목적을 가지는 다른 작업에 활용하는 것을 말한다.
** 모델 규모에 따라 결과가 어떻게 변화되는지 관찰하고, 패턴을 파악하여 자체적으로 정립한 법칙을 의미. 일반적으로, 이러한 확장 법칙에 따라 최대 효과를 낼 수 있는 정도로만 규모를 확장하는 것이 효율적이다.
 

우리는 Llama 3를 개발하는 동안 확장의 양상(behavior)에 대한 몇 가지 새로운 관찰을 했습니다. 예를 들어, 8B 매개변수 모델에 대한 Chinchilla* 최적(Chinchilla-optimal) 훈련 연산량은 약 200억 개의 토큰에 해당하지만, 두 배 이상의 데이터로 모델을 훈련한 후에도 모델 성능이 계속 향상되었습니다. Llama 3에서도, 8B 및 70B 매개변수 모델 모두 최대 15T 토큰으로 학습시킨 후에도 로그 선형적(log-linearly)으로 계속 개선되었습니다. 더 큰 모델은 더 적은 학습 컴퓨팅으로 이러한 작은 모델의 성능에 맞출 수 있지만, 작은 모델이 일반적으로 추론 과정에서 훨씬 더 효율적이기 때문에 작은 모델이 선호됩니다.
 

* Google DeepMind가 개발한 LLM으로, 특히 확장 법칙을 실험하기 위해 개발되었다. 이 맥락에서는, Chinchilla 연구에서 제시한 확장 법칙을 Llama 3의 8B 모델에 적용했을 때의 결과를 설명하는 것으로 보인다.
 

가장 큰 규모의 Llama 3 모델을 훈련하기 위해 데이터 병렬화, 모델 병렬화, 파이프라인 병렬화 등 세 가지 유형의 병렬화를 결합했습니다. 가장 효율적으로 구현된 시스템은, 16K GPU에서 동시에 훈련할 때 GPU당 400 TFLOPS 이상의 컴퓨팅 활용도를 달성했습니다. 두 개의 맞춤형 24K GPU 클러스터에서 훈련을 수행했습니다. GPU 가동 시간을 극대화하기 위해 오류 감지, 처리 및 유지 관리를 자동화하는 진보된 훈련 스택을 개발했습니다. 또한 하드웨어 안정성과 잠재적(silent) 데이터 손상에 대한 탐지 메커니즘을 크게 개선했으며, 체크포인트 작업(checkpointing)*와 롤백(rollback)의 오버헤드를 줄여주는 새로운 확장형 스토리지 시스템을 개발했습니다. 이러한 개선으로 인해 전체적으로 효과적인 교육 시간이 95% 이상 향상되었습니다. 이러한 개선 사항을 모두 적용하여, Llama 3 훈련의 효율성은 Llama 2에 비해 약 3배 향상되었습니다.
 

* 훈련의 중간 과정에서 모델을 저장하는 작업을 말한다.

 
 
 

지시 기반 미세 조정(instruction fine-tunining)

대화형 시스템에서 사전 학습된 모델의 잠재력을 최대한 활용하기 위해, 지시문 튜닝(instruction-tuning)에 대한 접근 방식도 혁신적으로 개선했습니다. 사후학습 과정은 지도 방식 미세 조정(Supervised Fine-Tuning, SFT), 거부 샘플링
(rejection sampling)*, Proximal Policy Optimization(PPO), Direct Policy Optimization(DPO)의 조합으로 이루어집니다. SFT에 사용되는 프롬프트의 품질과 PPO 및 DPO에 사용되는 선호도 순위(preference ranking)*는 정렬된 모델의 성능에 막대한 영향을 미칩니다. 모델 품질에서 가장 큰 개선은 이 데이터를 신중하게 선별하고 인간 평가자(annotators)가 제공한 주석에 대해 여러 차례의 품질 보증(quality assurance) 관리를 수행한 데서 비롯되었습니다.
 

* RFT는 SFT 모델을 사용하여 여러 후보 추론 경로와 답을 생성한 후, 잘못된 추론 경로를 걸러내거나 '거부'함. 그런 다음, 나머지 올바른 추론 경로를 학습 데이터를 보강하는 데 사용함(Link)
** PPO 및 DPO는 강화학습에 사용되는 알고리즘으로, 인간이 LLM이 생성한 답변에 대해 선호도 순위를 매기면 이를 바탕으로 LLM에 추가적인 튜닝 작업을 수행한다.

 
PPO와 DPO를 통한 선호도 순위 학습은 추론 및 코딩 작업에서 Llama 3의 성능을 크게 향상시켰습니다. 우리는 모델에 대답하기 어려운 추론 질문을 하면, 모델은 정확한 답변을 하기는 어려워했지만 종종 올바른 추론 경로는 생성할 수 있다는 사실을 발견했습니다: 즉, 모델은 올바른 답을 생성하는 방법을 알고 있지만, 이러한 올바른 답을 최종적으로 선택하는 방법을 잘 모릅니다. 모델은 선호도 순위에 대한 훈련을 통해, 올바른 답변을 선택하는 방법을 학습할 수 있습니다.
 
 
 

Llama 3로 개발하기

우리의 비전,  개발자가 각자에게 필요한 사용 사례(use cases)를 만들고, LLM을 이용한 서비스의 모범 사례(best practices)에 더 잘 채택되어 개방형 생태계를 개선할 수 있도록 Llama 3를 사용자화(customized)할 수 있게 하는 하는 것입니다. 이번 출시에서는 Llama Guard 2와 Cybersec Eval 2의 구성 요소 업데이트와, LLM에서 생성된 안전하지 않은 코드를 필터링하기 위한 추론 단계에서의 보호 장치인 Code Shield의 도입 등 새로운 신뢰성 및 안전 도구를 제공합니다.
 
또한, LLM을 쉽게 작성하고 미세 조정하며 실험할 수 있는 새로운 PyTorch 네이티브 라이브러리인 torchtune과 함께 Llama 3를 공동 개발했습니다. torchtune은 메모리 효율적이고 유연하게 수정 가능한 훈련 방법을 제공하며 모두 PyTorch로 작성되었습니다. 이 라이브러리는 Huggingface, Weights & Biases, EleutherAI와 같은 인기 플랫폼과 통합되어 있으며, 다양한 모바일 및 엣지 기기에서 효율적인 추론을 실행할 수 있도록 Executorch도 지원합니다. 신속한 엔지니어링부터 LangChain과 함께 Llama 3 사용하는 방법까지 모든 것을 위한 포괄적인 시작 가이드가 마련되어 있으며, Llama 3 다운로드부터 생성 AI 애플리케이션 내 대규모 배포까지도 안내해드립니다.
 
 
 

책임에 대한 시스템 차원의 접근

우리는 Llama 3 모델을 최대한 유용하게 사용하면서도 책임감 있게 배포하는 업계 최고의 접근 방식을 보장하도록 설계했습니다. 이를 위해, Llama의 책임감 있는 개발과 배포를 위한 새로운 시스템 차원의 접근 방식을 채택했습니다. 우린 개발자가 운전석에 앉아 LLM을 간편히 활용할 수 있게 하는 광범위한 시스템의 일부로서 Llama 모델을 구상하고 있습니다. Llama 모델은 개발자가 고유한 최종 목표를 염두에 두고 설계하는 시스템의 기본 요소(foundational piece of a system) 역할을 하게 될 것입니다.
 

 
지시 기반 미세 조정은 모델의 안전성을 보장하는 데도 중요한 역할을 합니다. 지시 기반 미세 조정 모델은 안전성을 위해 내부 및 외부의 레드팀(red-team) 테스트를 거쳤습니다. 레드팀 접근 방식은 인적 전문가와 자동화 방법을 활용하여 문제가 있는 반응을 유도하는 적대적인 프롬프트를 생성합니다. 예를 들어 화학, 생물학, 사이버 보안 및 기타 위험 영역과 관련된 오용 위험을 평가하기 위해 포괄적인 테스트를 적용합니다. 이러한 모든 노력은 반복적으로 이루어지며 출시되는 모델의 안전성을 미세 조정하는 데 사용됩니다. 이러한 노력에 대한 자세한 내용은 모델 카드에서 확인할 수 있습니다.
 
Llama Guard 모델은 신속하고 안전한 대응을 위한 기반 시스템이며, 애플리케이션의 필요에 따라 쉽게 미세 조정하여 새로운 분류 체계를 만들 수 있습니다. 새로운 Llama Guard 2는 이 중요한 영역에서 최근 발표되어 업계 표준이 된, MLCommons를 지원하기 위해 MLCommons의 분류법을 우선적으로 사용합니다. 또한 CyberSecEval 2는 코드 인터프리터의 남용*, 공격적인 사이버 보안 기능, 프롬프트 주입(injection)** 공격에 대한 취약성을 허용하는 LLM의 성향에 대한 측정 기능을 추가하였습니다(기술 문서에서 자세히 알아보기). 마지막으로, LLM에서 생성된 안전하지 않은 코드의 추론 단계에서의 필터링을 지원하는 Code Shield를 도입합니다. 이를 통해 안전하지 않은 코드 제안, 코드 인터프리터 남용 방지 및 안전한 명령 실행과 관련된 위험을 완화할 수 있습니다.
 

* 코드 작성 및 실행 기능을 남용하면, 악성 코드로 인한 위협이나 리소스 낭비와 같은 문제가 생길 수 있다.
** 예를 들어, 시스템 관리나 학습에 사용되는 프롬프트를 사용자가 알아내어 입력하면 LLM에 대한 비공개 시스템 정보가 유출될 수 있다. 
 

생성형 AI 분야의 발전 속도가 빨라지고 있는 만큼, 개방적인 접근 방식이 생태계를 하나로 모으고 이러한 잠재적 피해를 완화하는 데 중요하다고 생각합니다. 우리는 그 일환으로, 책임감 있는 개발을 위한 포괄적인 가이드를 제공하는 책임감 있는 사용 가이드(Responsible Use Guide, RUG)를 업데이트하고 있습니다. RUG의 설명대로 모든 LLM에 대한 입력과 출력은 애플리케이션에 적합한 콘텐츠 가이드라인에 따라 점검하고 필터링할 것을 권장합니다. 또한 많은 클라우드 서비스 제공업체에서, 책임 있는 배포를 위한 콘텐츠 중재 API 및 기타 도구를 제공하고 있으므로 개발자는 이러한 옵션의 사용도 고려해 볼 것을 권장합니다.
 
 
 

규모별 Llama 3 배포하기

Llama 3는 곧 클라우드 제공업체, 모델 API 제공업체 등을 포함한 모든 주요 플랫폼에서 사용할 수 있게 됩니다. 어디서나 Llama 3를 사용할 수 있게 될 것입니다.
 
벤치마크에 따르면, 우리의 토크나이저는 향상된 토큰 효율성을 제공하며, Llama 2에 비해 최대 15% 더 적은 토큰을 생성합니다. 또한, 그룹 쿼리 어텐션(GQA)도 Llama 3 8B에 추가되었습니다. 그 결과, 이러한 요소들이 Llama 3 8B가 Llama 2 7B에 비해 파라미터가 10억 개 더 많은 모델임에도 불구하고 향상된 토큰화 효율성과 GQA가 추론 효율을 Llama 2 7B와 동등하게 유지하는 데 기여하는 것을 관찰할 수 있었습니다.

이러한 모든 기능을 활용하는 방법에 대한 예시는 미세 조정부터 배포, 모델 평가에 이르기까지 모든 작업에 활용할 수 있는 모든 오픈 소스 코드가 포함된 Llama 레시피를 참고하세요.
 
 

Llama 3의 다음 단계

Llama 3 8B와 70B 모델은 앞으로 출시될 Llama 3의 시작입니다. 앞으로 더 많은 모델이 출시될 예정입니다.

가장 큰 모델은 400B 이상의 매개변수이며, 이 모델들은 아직 훈련 중이지만, 우리 팀은 이 모델들의 개발 추세를 보며 매우 기대하고 있습니다. 앞으로 몇 달 동안 멀티모달리티(multimodality), 다국어 대화 기능, 훨씬 더 긴 컨텍스트 창(context window), 전반적으로 향상된 성능 등 새로운 기능을 갖춘 여러 모델을 출시할 예정입니다. 또한 Llama 3의 학습이 완료되면 상세한 연구 논문도 발표할 예정입니다.

현재 학습을 계속하고 있는 이 모델들의 현재 상황을 미리 살펴보기 위해, 가장 규모가 큰 LLM 모델의 추세를 몇 가지 스냅샷(snapshot)으로 공유할 수 있다고 생각했습니다. 이 데이터는 아직 학습 중인 Llama 3의 초기 체크포인트를 기반으로 하며, 현재 출시된 모델에서는 이러한 기능이 지원되지 않는다는 점에 유의하시기 바랍니다.
 

 
우리는 책임감 있는 모델 출시를 위한 개방형 AI 생태계의 지속적인 성장과 발전을 위해 최선을 다하고 있습니다. 그리고 이것이 개방성이 더 우수하고 안전한 제품, 더 빠른 혁신, 더 건강한 시장 전반으로 이어진다고 오랫동안 믿어 왔습니다. 이는 우리 Meta뿐 아니라 사회에도 좋은 일입니다. 우리는 Llama 3를 통해 커뮤니티 우선(community-first) 접근 방식을 취하고 있습니다. 오늘부터 주요 클라우드, 호스팅, 하드웨어 플랫폼에서 이러한 모델을 사용할 수 있으며, 앞으로 더 많은 플랫폼에서 사용할 수 있게 될 것입니다.
 
 

Meta Llama 3 체험하기

우리는 세계 최고의 AI 어시스턴트라고 자부하는 Meta AI에 최신 모델을 통합했습니다. 이제 더 많은 국가와 더 많은 앱에서 Meta Llama 3 기술을 사용할 수 있습니다.
 
Meta, Instagram, WhatsApp, Messenger, 등에서 Meta AI를 사용하여 업무를 처리하고, 학습하고, 만들고, 중요한 사람들과 연결할 수 있습니다. Meta AI 환경에 대한 자세한 내용은 여기에서 확인할 수 있습니다. Llama 3 웹사이트를 방문하여 모델을 다운로드하고 시작 가이드를 참조하여 사용 가능한 모든 플랫폼의 최신 목록을 확인하세요.

또한, 곧 Ray-Ban Meta 스마트 글래스에서 멀티모달 Meta AI를 테스트할 수 있게 될 것입니다. 언제나 그렇듯이, Meta Llama 3를 통해 여러분이 만들어낼 놀라운 제품과 경험을 기대합니다.
 
 

마치며

Llama 2의 발표 이후 여러 LLM 연구들은, 결국 데이터셋 품질이 중요함을 시사하는 경우가 많았다. 
그 영향인지 Llama 3에서도 데이터셋의 품질을 높이고, 다양화하며, 더 정밀한 평가 방법을 채택한 것을 알 수 있다. 
그룹 쿼리 어텐션(GQA)의 사용과 토크나이저의 향상 등의 개선 양상도 주목할만한 점이다.
하지만, GPT-4와 같은 비공개 모델 중 최고 성능 수준의 모델과는 비교가 어려운 수준인지 별도의 언급이 없는 것은 아쉽다.
만약 예고한 400B+ 모델이 출시된다면, 이러한 모델들과도 비교가 이루어질 것으로 보인다.
앞으로는 Llama 3를 기반으로 어떤 파생 모델들이 출시될 지, 기대가 되는 발표였다.

 
 

댓글