TL;DR
Llama 3 초기 버전 출시 후 예고되었던 405B 모델이 출시되었다. 이런 저런 업데이트를 포함하여, Llama 3.1로 발표가 되었다. 405B 모델의 성능은 공개 모델만큼 강력해보이지만, 높은 인프라 수준을 요구할 것으로 보인다.
이 외에도 각종 개발 편의성이나 안정성이 개선된 것으로 보인다. 모델을 사용해보기 전에, 먼저 공식 홈페이지의 릴리즈 노트를 살펴보자.
* 가독성을 위해 그림 크기를 최소화했습니다. 클릭 시 확대됩니다.
출처: https://ai.meta.com/blog/meta-llama-3-1/
Introducing Llama 3.1: Our most capable models to date
Llama 3.1 소개: Meta의 가장 유능한 모델
주요 내용:
- Meta는 오픈 소스 AI에 대한 헌신을 표명함. Mark Zuckerberg의 편지에서 오픈 소스가 개발자, Meta, 그리고 세계에 왜 좋은지 설명함(참고: Zuckerberg의 인스타그램 영상).
https://www.instagram.com/zuck/reel/C9xOz1gPKcy
- Llama의 최신 모델은 컨텍스트 길이를 128K로 확장하고, 8개 언어를 지원하며, 첫 번째 최전선 오픈 소스 AI 모델인 Llama 3.1 405B를 포함함.
- Llama 3.1 405B는 유연성, 제어력, 최첨단 기능에서 독보적이며, 최고의 폐쇄 소스 모델과 견줄만한 성능을 보임. 커뮤니티는 이를 통해 합성 데이터 생성, 모델 증류 등의 새로운 워크플로우를 열 수 있음.
- Llama를 시스템으로 구축하기 위해 모델과 함께 작동하는 더 많은 구성 요소, 참조 시스템(reference system) 제공. 개발자가 맞춤형 에이전트와 새로운 유형의 에이전트 행동을 만들 수 있도록 도구를 제공.
- 새로운 보안 및 안전 도구 Llama Guard 3와 Prompt Guard를 통해 개발자가 책임감 있게 빌드할 수 있도록 지원.
- 또한 Llama Stack API에 대한 요청 의견을 공개하여 서드파티 프로젝트가 Llama 모델을 쉽게 활용할 수 있도록 표준 인터페이스를 제공하고자 함.
- 25개 이상의 파트너사(AWS, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake 포함)가 첫날부터 서비스를 제공할 준비가 되어 있음.
- Llama 3.1 405B를 미국 내 WhatsApp 및 meta.ai에서 사용해보고 어려운 수학 또는 코딩 질문을 물어볼 수 있음.
Llama 3.1 소개
- Llama 3.1 405B는 일반 지식, 유도 가능성, 수학, 도구 사용, 다국어 번역에서 최첨단 기능을 갖춘 최초의 공개 가능 모델임.
- 405B 모델의 출시로 혁신을 가속화할 수 있는 전례 없는 기회 제공. 최신 Llama 세대는 합성 데이터 생성 및 모델 증류와 같은 새로운 애플리케이션과 모델링 패러다임을 촉발할 것으로 기대됨. 이는 소규모 모델의 개선 및 훈련을 가능하게 함.
- 업그레이드된 8B 및 70B 모델도 함께 출시됨. 이 모델들은 다국어 지원, 128K의 긴 컨텍스트 길이, 최첨단 도구 사용, 강력한 추론 능력을 갖춤. 이를 통해 장문 텍스트 요약, 다국어 대화 에이전트, 코딩 어시스턴트와 같은 고급 사용 사례를 지원할 수 있음.
- 라이선스를 변경하여 개발자가 Llama 모델의 출력물을 사용해 다른 모델을 개선할 수 있도록 함.
- 오늘부터 Llama 모델을 llama.meta.com 및 HuggingFace 커뮤니티에 공개하여 다운로드 가능. 파트너 플랫폼의 광범위한 생태계에서 즉시 개발 가능.
모델 평가
- 이번 출시를 위해 150개 이상의 벤치마크 데이터셋을 사용해 다양한 언어에 대한 성능 평가를 수행함.
- Llama 3.1을 경쟁 모델과 비교한 광범위한 인간 평가도 실시함.
- 실험 평가 결과, 주요 모델이 GPT-4, GPT-4o, Claude 3.5 Sonnet과 같은 다양한 작업에서 선도적인 기초 모델과 경쟁할 수 있음을 확인함.
- 또한, 소형 모델도 유사한 파라미터 수를 가진 폐쇄 및 오픈 모델과 경쟁할 수 있음.
[그림은 클릭하면 확대됩니다]
모델 구조
- Llama 3.1 405B는 15조 개 이상의 토큰을 학습시킨 가장 큰 모델로, 이를 가능하게 하기 위해 16,000개 이상의 H100 GPU를 활용하여 모델을 훈련함. 이는 Llama 모델 중 처음으로 이러한 규모에서 훈련된 모델임.
- 모델 설계 선택:
- 안정적인 훈련을 위해 혼합 전문가(Mixture-of-Experts, MoE) 모델 대신 표준 디코더 전용 트랜스포머 모델 아키텍처를 약간 수정하여 사용함.
- 각 라운드마다 감독된 미세 조정 및 직접 선호 최적화를 사용하는 반복 후 훈련 절차를 채택함. 이를 통해 각 라운드에서 최고 품질의 합성 데이터를 생성하고 각 기능의 성능을 향상시킴.
- 데이터 개선:
- 이전 Llama 버전과 비교해 사전 및 후 훈련에 사용된 데이터의 양과 질을 개선함.
- 사전 훈련 데이터의 전처리 및 큐레이션 파이프라인을 더 신중하게 개발하고, 후 훈련 데이터에 대한 엄격한 품질 보증 및 필터링 접근 방식을 도입함.
- 스케일링 법칙에 따라, 새로운 주요 모델은 동일한 절차를 사용하여 훈련된 소형 모델보다 더 우수한 성능을 보임.
- 양자화:
- 405B 모델의 대규모 생산 추론을 지원하기 위해 16비트(BF16)에서 8비트(FP8) 숫자로 모델을 양자화하여 필요한 연산 요구 사항을 효과적으로 줄이고, 단일 서버 노드 내에서 모델을 실행할 수 있게 함.
지시 및 대화에 대한 미세 조정(Fine-tuning)
- Llama 3.1 405B는 사용자 지시에 대한 도움의 질과 세부 지시를 따르는 능력을 향상시키고, 높은 수준의 안전성을 유지하도록 설계됨.
- 주요 도전 과제는 더 많은 기능 지원, 128K 컨텍스트 윈도우, 증가된 모델 크기였음.
- Post-training 과정:
- 사전 훈련된 모델 위에 여러 라운드의 정렬 과정을 통해 최종 채팅 모델을 생성함.
- 각 라운드는 Fine-Tuning (SFT), Rejection Sampling (RS), Direct Preference Optimization
(DPO)를 포함함. - 대부분의 SFT 예제는 합성 데이터 생성을 통해 생산하며, 여러 번 반복하여 모든 기능에서 더 높은 품질의 합성 데이터를 생산함.
- 여러 데이터 처리 기법을 사용해 이 합성 데이터를 필터링하여 최고 품질을 유지함으로써 기능 전반에 걸쳐 미세 조정 데이터의 양을 확장할 수 있게 함.
- 데이터 균형:
- 모든 기능에서 높은 품질의 모델을 생산하기 위해 신중하게 데이터의 균형을 맞춤.
- 예를 들어, 128K 컨텍스트로 확장하면서도 짧은 컨텍스트 벤치마크에서 모델의 품질을 유지함.
- 안전 조치를 추가하면서도 최대한 도움이 되는 답변을 계속 제공할 수 있도록 함.
Llama 시스템
- Llama 모델은 외부 도구 호출을 포함한 여러 구성 요소를 조율하는 전체 시스템의 일부로 작동하도록 설계됨.
- 개발자가 자신의 비전에 맞는 맞춤형 제품을 설계하고 제작할 수 있는 유연성을 제공하기 위해 기본 모델을 넘어서는 시스템 접근을 목표로 함. 이러한 접근 방식은 작년 처음으로 LLM 외부 구성 요소의 통합을 도입하면서 시작됨.
- 책임감 있는 AI 개발 노력:
- 모델 레이어를 넘어 AI를 책임감 있게 개발하고 다른 사람들이 동일한 일을 할 수 있도록 돕기 위해 여러 샘플 애플리케이션과 새로운 구성 요소를 포함한 참조 시스템을 공개함.
- Llama Guard 3(다국어 안전 모델)와 Prompt Guard(프롬프트 주입 필터)와 같은 구성 요소를 포함하며, 이러한 샘플 애플리케이션은 오픈 소스로 커뮤니티에서 확장 가능함.
- 구성 요소 구현:
- Llama 시스템 비전의 구성 요소 구현은 아직 분산되어 있음.
- 이를 해결하기 위해 산업, 스타트업, 커뮤니티와 협력하여 구성 요소 인터페이스를 더 잘 정의하기 위해 노력 중임.
- 이를 지원하기 위해 GitHub에 "Llama Stack"이라는 표준화된 인터페이스 세트에 대한 의견 요청을 발표함. Llama Stack은 정형화된 도구 체인 구성 요소(미세 조정, 합성 데이터 생성) 및 에이전트 애플리케이션을 구축하는 방법에 대한 표준화된 인터페이스를 제공함. 이 표준화가 채택되어 더 쉬운 상호 운용성을 제공하기를 기대함.
- 커뮤니티 피드백:
- 제안서에 대한 피드백과 개선 방법을 환영함.
- Llama 주변 생태계를 성장시키고 개발자와 플랫폼 제공자의 장벽을 낮추는 데 흥미를 느끼고 있음.
개방성이 주도하는 혁신
- Llama 모델 가중치는 다운로드 가능하며, 개발자는 이를 완전히 맞춤화하여 새로운 데이터셋에 대해 훈련하고 추가 미세 조정을 수행할 수 있음.
- 이를 통해 더 넓은 개발자 커뮤니티와 세계가 생성 AI의 힘을 완전히 실현할 수 있음. 개발자는 Meta와 데이터를 공유하지 않고도 자체 애플리케이션에 맞춰 모델을 완전히 맞춤화하고 모든 환경에서 실행할 수 있음.
- 비용 효율성:
- 많은 사람들이 폐쇄 모델이 더 비용 효율적이라고 주장할 수 있지만, Artificial Analysis의 테스트에 따르면 Llama 모델은 산업에서 가장 낮은 토큰당 비용을 제공함.
- Mark Zuckerberg는 오픈 소스가 전 세계 더 많은 사람들이 AI의 혜택과 기회를 누릴 수 있도록 하고, 권력이 소수의 손에 집중되지 않으며, 기술이 사회 전반에 걸쳐 더 균등하고 안전하게 배포될 수 있도록 보장한다고 언급함. 이는 오픈 액세스 AI가 산업 표준이 되도록 하는 이유임.
- Llama 모델을 사용하여 놀라운 것들을 만든 커뮤니티 사례:
- AI 스터디 버디: WhatsApp과 Messenger에 배포된 AI 학습 도우미
- 의료 분야에 특화된 LLM: 임상 의사 결정을 돕도록 설계됨
- 브라질의 비영리 헬스케어 스타트업: 환자의 입원 정보를 조직하고 소통하는 데 도움을 주며, 데이터 보안을 유지함
- 오픈 소스의 힘으로 최신 모델로 무엇을 만들지 기대하고 있음.
Llama 3.1 405B로 개발하기
- 405B 모델 사용:
- 일반 개발자에게는 405B 모델을 사용하는 것이 도전적임. 매우 강력한 모델이지만, 상당한 연산 자원과 전문 지식이 필요함.
- 커뮤니티와 대화한 결과, 생성 AI 개발에는 단순히 모델에 프롬프트를 입력하는 것 이상이 필요함을 인식함. 모든 사람이 405B의 잠재력을 최대한 활용할 수 있도록 지원하고자 함.
- 지원되는 기능:
- 실시간 및 배치 추론
- 감독된 미세 조정
- 특정 애플리케이션에 대한 모델 평가
- 지속적인 사전 훈련
- Retrieval-Augmented Generation (RAG)
- 함수 호출
- 합성 데이터 생성
- Llama 생태계:
- 공개 첫날부터 개발자는 405B 모델의 모든 고급 기능을 활용하고 즉시 구축을 시작할 수 있음.
- 쉬운 합성 데이터 생성, 모델 증류를 위한 턴키 지침, 파트너(AWS, NVIDIA, Databricks)의 솔루션을 통한 원활한 RAG 등의 고급 워크플로우를 탐색 가능.
- Groq는 클라우드 배포를 위한 저지연 추론을 최적화했으며, Dell은 온프레미스 시스템에 대한 유사한 최적화를 달성함.
- vLLM, TensorRT, PyTorch와 같은 주요 커뮤니티 프로젝트와 협력하여 첫날부터 지원을 구축, 커뮤니티가 생산 배포에 준비되도록 함.
- 목표: 405B 모델의 출시가 더 넓은 커뮤니티에서 추론과 미세 조정을 쉽게 만들고, 모델 증류 연구의 다음 물결을 가능하게 하기를 희망함.
오늘, Llama 3.1 모델 컬렉션을 사용해 보세요
- 커뮤니티가 이 모델로 무엇을 만들지 기대하고 있음. 다국어 지원과 확장된 컨텍스트 길이를 활용하여 유용한 새로운 경험을 구축할 잠재력이 큼.
- Llama Stack과 새로운 안전 도구를 통해 오픈 소스 커뮤니티와 함께 책임감 있게 계속 구축해 나갈 것임.
- 안전성 조치:
- 모델을 출시하기 전에 여러 조치를 통해 잠재적 위험을 식별, 평가, 완화함.
- 배포 전 위험 발견 연습(레드 팀 활동) 및 안전 미세 조정을 포함함.
- 외부 및 내부 전문가와 광범위한 레드 팀 활동을 수행하여 모델을 스트레스 테스트하고 예상치 못한 사용 방법을 찾음.
- 미래 가능성:
- 가장 큰 모델이지만, 앞으로도 더 많은 기회를 탐구할 예정임.
- 이는 더 친환경적인 디바이스 사이즈, 추가적인 모달리티, 에이전트 플랫폼 층에 대한 더 많은 투자를 포함함.
- 커뮤니티가 이 모델들로 놀라운 제품과 경험을 만들어 나가기를 기대하고 있음.
'🟣 AI & ML' 카테고리의 다른 글
Google DeepMind, AI로 국제 수학 올림피아드(IMO) 은메달 수준 달성 (0) | 2024.07.26 |
---|---|
Mistral, 새로운 플래그십 모델 Mistral Large 2 출시 (0) | 2024.07.25 |
마구잡이 질문에도 강건한 RAG 시스템 만들기: Query Transformation (0) | 2024.07.20 |
문서 내 이미지를 함께 활용할 수 있는 멀티모달(Multi-modal) RAG 시스템 만들어보기 (0) | 2024.06.20 |
검색증강생성(RAG) - LangChain과 PGVector를 이용한 간단한 RAG 시스템 구축해보기 (0) | 2024.05.13 |
댓글