본문 바로가기
🟣 AI & ML

애플, 거대 멀티모달 모델(Large Multi-modal Model, LMM) 'Ferret' 공개

by 제리강 2023. 12. 27.

 

Apple's 'Ferret' is a new open-source machine learning model

 

by Malcolm Owen, Product Comparison Expert

Source: Apple Insider(Link)

 

 

TL;DR

뜬금없이 크리스마스 이브날에 애플이 새로운 LMM(Large Multi-modal Model)을 공개했다고 기사가 떴다.
사실 공개는 진작에 했는데 기사화를 크리스마스 기념으로 이번에 한 듯 함.

생각해보니 의외로 애플 정도의 회사가 아직 ChatGPT나 LLaMA와 경쟁할 모델을 내놓지 않았었다.
그나저나 요즘 모델에 동물 이름 붙이는 게 유행인듯 한데(라마, 알파카, 오르카..), 이번엔 페럿이다. 귀엽네..

 

 

Researchers working for Apple and from Cornell University quietly pushed an open-source multimodal LLM in October, a research release called "Ferret" that can use regions of images for queries.
The introduction in October to Github largely flew under the radar, with no announcement or fanfare for its introduction. The code for Ferret was released alongside Ferret-Bench on October 30, with checkpoint releases introduced on December 14.

 

  • Apple과 코넬 대학교에서 일하는 연구원들은 10월에 이미지의 영역을 쿼리에 사용할 수 있는 'Ferret' 이라는 오픈 소스 멀티모달 LLM을 조용히 발표.
  • 10월에 Github에 소개된 이 기능은 별도의 발표나 이벤트 없이 거의 눈에 띄지 않게 진행됨.
  • Ferret의 코드는 10월 30일에 Ferret-Bench와 함께 공개되었고, 12월 14일에 체크포인트(checkpoint) 릴리즈가 소개됨.
    • Ferret-Bench라는 멀티모달 모델을 평가하는 벤치마크를 자체적으로 구축해 사용하고, 모델과 함께 배포한 것으로 보임.
    • 모델의 학습하면서 중간 저장할 때의 상태를 checkpoint라 하고, 특정 시점에서 저장된 모델을 배포할 때 해당 시점의checkpoint를 릴리즈했다고 표현함. Checkpoint는 모델 배포 후에도 계속해서 업데이트 될 수 있음.

 

While it didn't receive much attention at first, the release became more of a big deal to AI researchers on Saturday, reports VentureBeat. 

Bart De Witte, operator of an AI-in-medicine non-profit, posted to X about the "missed" release, calling it a "testament to Apple's commitment to impactful AI research."

 

  • 처음에는 큰 주목을 받지 못했지만, 토요일에 모델이 출시되면서 AI 연구자들에게 큰 이슈가 됨.
  • 의료용 AI 비영리 단체 운영자인 Bart De Witte는 사람들이 "놓친" 이 모델의 출시에 대해 "영향력 있는 AI 연구에 대한 Apple의 노력을 보여주는 증거"라고 X(전 Twitter)에 글을 올림.



Ferret's release to open-source is being performed under a non-commercial license, so it cannot be commercialized in its current state. However, there's always a possibility for it to become used in a future Apple product or service in some way.

 

  • Ferret의 오픈소스 모델 공개는 비상업적 라이선스에 따라 이루어지고 있으므로 현재 상태로는 상용화할 수 없음.
  • 향후 어떤 방식으로든 Apple 제품이나 서비스에 사용될 가능성은 존재함.

 

A tweet from October by Apple AI/ML research scientist Zhe Gan explains Ferret's use as being a system that can "refer and ground anything anywhere at any granularity" in an image. It can also do so by using any shape of region within an image.

 

  • Apple AI/ML 연구 과학자 Zhe Gan은 Ferret이 이미지에서 "어떠한 작은 단위의 데이터에서든, 어느 위치건 참조하여 근거를 찾아 추론하는" 시스템이라고 10월에 올린 트윗에서 설명함.
  • 또한, 이미지 내에서 다양한 형태의 영역을 사용하여 작업을 수행할 수 있음.
    • 보통 이미지 모델은 사각형의 bounding box로 물체를 인식하는데, Ferret은 사각형만이 아닌 다양한 형태의 box로 물체를 인식할 수 있다는 것을 강조하는 듯.


In simpler terms, the model can examine a region drawn on an image, determine the elements within it that are of use to a user in a query, identify it, and draw a bounding box around the detected element. It can then use that identified element as part of a query, which it can then respond to in a typical fashion.

 

  • 모델은 이미지에 그려진 영역을 검사하고, 그 안에서 사용자가 쿼리에서 사용할 수 있는 요소를 파악하여 식별하고, 감지된 요소 주위에 경계 상자(bounding box)를 그릴 수 있음.
  • 그런 다음 식별된 요소를 쿼리의 일부로 사용하여 일반적인 방식으로 응답할 수 있음.

 

For example, highlighting an image of an animal in an image and asking the LLM what the animal is, it could determine the creature's species and that the user is referring to an individual animal from a group. It could then use the context of other items detected in the image to offer up further responses.

 

  • 예를 들어, 이미지에서 동물의 이미지를 강조 표시하고 그 동물이 무엇인지 LLM에 질문하면, LLM은 해당 동물의 종과 사용자가 그룹에서 개별 동물을 언급하고 있음을 파악할 수 있음. 
  • 그 다음, 이미지에서 감지된 다른 항목의 컨텍스트를 사용하여 추가 응답을 제공할 수 있음.


The release is important to researchers, as it shows Apple is keen to be more open with its AI work, rather than its usual secretive stance.
There's also the problem of infrastructure for Apple, as while it is working to increase the number of AI servers it owns, it may not have the scale available at the moment to work toe-to-toe with ChatGPT, for example. Though Apple could work with other firms to scale its capabilities, the other route is to do what it has just done, namely release an open-source model.

 

  • 이번 공개는 연구자들에게 중요한 의미를 가지는데, Apple이 평소 비밀스러운 태도를 보였던 것과 달리 AI 연구에는 개방적인 태도를 취하고 있음을 보여주기 때문.
  • Apple은 보유한 AI 서버의 수를 늘리기 위해 노력하고 있지만, 현재로서는 ChatGPT와 경쟁할 수 있는 규모를 갖추지 못할 수도 있기 때문에 인프라 문제도 존재. 
  • 앞으로 Apple이 다른 회사와 협력하여 기능을 확장할 수도 있지만, 계속 Ferret에서와 같이 직접 오픈 소스 모델을 출시할 수 있음.

 

In one interesting element from the Github release, Reddit's r/Apple spotted that Ferret is "trained on 8 A100 GPUs with 80GB memory." Given Apple's history with Nvidia GPU support, this was seen to be a rare acknowledgment of the GPU producer.

 

  • Reddit의 Apple 커뮤니티는 Github 릴리스에서 흥미로운 요소 중 하나로 Ferret이 "80GB 메모리가 장착된 8개의 A100 GPU로 훈련"되었다는 점을 발견.
  • Apple의 예전부터 NVIDIA GPU 지원에 부정적이었던 고려하면, 이는 Apple이 타사 GPU 생산업체를 인정한 드문 사례로 볼 수 있음.

 

참고

댓글