![translation](https://cdn.durumis.com/common/trans.png)
AI가 번역한 다른 언어 보기
언어 선택
durumis AI가 요약한 글
- 최근 애플, 마이크로소프트, 메타 등 주요 빅테크 기업들이 새로운 대형 언어모델을 공개하며 AI 업계에 큰 변화를 일으키고 있습니다.
- 각 기업은 모델 사이즈 축소와 경량화, 데이터/알고리즘 최적화, 문맥 이해력 강화 등 다양한 측면에서 새로운 시도를 선보이고 있습니다.
- 특히 애플의 OpenELM은 소형 디바이스에 최적화된 모델이고, MS의 Phi-3 시리즈는 오픈 모델로 상업적 활용이 가능하며, 메타의 Llama 3는 효율적인 모델 구조를 통해 우수한 성능을 보여주고 있습니다.
최근 주목할 만한 대형 언어모델 출시 소식들
최근 1주일 동안 애플, 마이크로소프트, 메타 등 주요 빅테크 기업들이 연이어 새로운 대형 언어모델을 공개하면서 AI 업계에 상당한 반향을 일으키고 있습니다. 이번에 출시된 모델들의 주요 특징과 의의를 좀 더 자세히 알아보겠습니다.
애플의 OpenELM
4월 25일, 애플은 자체 개발한 OpenELM 언어모델 제품군을 공개했습니다. 0.27B, 0.45B, 1.08B, 3.04B 등 4가지 다양한 사이즈의 모델로 구성되어 있는데, 가장 큰 모델도 겨우 30억 개의 파라미터로 상대적으로 작은 편입니다. 현재 대부분의 대형 언어모델들이 최소 3B 이상의 파라미터를 갖고 있다는 점을 고려하면 OpenELM은 매우 작은 사이즈라고 할 수 있습니다.
이는 애플이 OpenELM을 주로 소형 디바이스에 탑재하여 활용할 것을 염두에 두고 개발했기 때문입니다. 과거에는 파라미터 수를 늘리는 것이 고성능 달성의 주요 방식이었지만, 최근에는 소형화와 경량화에 초점을 맞추는 추세입니다. 애플은 이번에 모델 가중치와 추론 코드뿐만 아니라 데이터셋과 프레임워크까지 전체를 공개함으로써 개방성도 높였습니다.
MS의 Phi-3 시리즈
마이크로소프트 역시 4월 23일 Phi-3 Mini 모델(3.8B 파라미터)을 먼저 공개했고, 향후 7B 사이즈의 Phi-3 Small과 14B 사이즈의 Phi-3 Medium도 출시할 예정입니다. Phi-3 Mini는 오픈 모델로 누구나 무료로 상업적 활용이 가능합니다. 새로운 Phi-3 시리즈 모델들은 모두 MS의 클라우드 서비스 Azure에서 제공될 예정입니다.
메타의 Llama 3
메타(구 페이스북)는 지난 4월 18일 Llama 3 모델의 8B와 70B 버전을 먼저 공개했고, 대형 사이즈인 400B 모델은 여름에 공개할 계획입니다. 특히 8B 모델이 작은 사이즈에 비해 우수한 성능을 보이면서 개발자 커뮤니티로부터 호평을 받고 있습니다.
이는 메타가 방대한 양의 학습데이터를 투입하여 효율적인 모델 구조를 구축했기 때문으로 분석됩니다. 파라미터 수를 늘리는 대신 데이터와 알고리즘 최적화에 주력한 결과라고 볼 수 있습니다.
xAI의 Grok 1.5
3월 38일 발표된 xAI의 Grok 1.5 모델은 최대 128K의 긴 컨텍스트 토큰을 처리할 수 있어 복잡하고 긴 프롬프팅이 가능합니다. 지금까지의 언어모델 개발 트렌드가 단순히 파라미터 사이즈를 키우는 데 초점이 맞춰졌다면, Grok 1.5는 긴 문맥 이해력 향상이라는 새로운 지향점을 제시했습니다.
이처럼 최근 1주일간 애플, MS, 메타 등 선두 기업들의 신규 대형 언어모델 출시가 이어지면서 AI 기술의 진화 방향성이 더욱 다양해지고 있습니다. 모델 사이즈 축소와 경량화, 데이터/알고리즘 최적화, 문맥 이해력 강화 등 여러 측면에서 새로운 시도가 잇따르고 있는 상황입니다. 향후 AI 생태계가 어떻게 진화할지 주목됩니다.