AI 스케일링 법칙의 진화: DeepSeek가 가져온 새로운 패러다임

반응형

1. 서론

오늘 유튜브를 보다가 재미있는 유튜브를 보게 되었다.

https://www.youtube.com/watch?v=tnWs9Z6d9rc

 

월텍남님께서 딥시크의 출현이 미국 AI 기업들에게 어떠한 영향을 줄지 새로운 관점에서 설명해 주는 유튜브이다.

지금 시장에서는 딥시크가 미국 AI 기업들의 1/10 가격으로 우수한 성능을 가진 인공지는 챗봇을 만들었다고 말하고 있으며, 그로 인해 각종 AI 기업들과 인프라 기업들의 주가가 많이 떨어지게 되었다.

하지만 이 영상에서는 딥시크가 실제로는 개발에 들어간 비용이 비현실적이라고 말을 하고 있다.

또한 이번 영상에서 AI의 스케일링 법칙에 새로운 패러다임을 제공했다고 하였는데 그래서 오늘은 AI 스케일링 법칙에 대해 설명해보려고 한다.

2. AI 스케일링 법칙이란?

인공지능 모델의 성능이 데이터 크기, 모델의 파라미터 수, 학습되는 컴퓨팅 자원 증가에 따라 어떻게 개선되는지를 설명하는 원칙

일반적으로 모델 규모와 학습 데이터가 커질수록 성능이 향상되지만, 이러한 향상이 선형적으로 이루어지지 않으며, 특정 조건에서는 성능 개선이 점차 둔화되는 "수확 체감" 현상이 나타날 수 있다.

AI 스케일링 법칙은 모델 크기와 데이터 크기 간의 비율을 적절히 조정해야 최상의 성능을 낼 수 있음을 시사하며, 과소 또는 과대 모델링을 방지하고, AI 연구와 개발에서 자원 배분, 모델 설계, 데이터 준비, 학습 전략 등을 체계적으로 계획하는데 핵심적인 역할을 하며, 더 큰 규모의 AI 시스템을 효율적으로 구축할 수 있도록 돕는 중요한 지침으로 작용한다.

3. 스케일링 법칙의 역사적 발전

1. 모델 크기와 데이터 크기의 중요성 인식(1980 ~ 2000년대 초반)

  • 인공지능 연구 초기에는 모델의 크기와 데이터 크기의 성능에 미치는 영향을 정량적으로 이해하려는 시도가 없었다.
  • 대신 모델의 크기를 키우거나, 더 많은 데이터를 사용하는 것이 직관적으로 성능 향상에 기여한다고 여겨졌다.
  • 주요 연구
    • 1980 ~90년대 : 신경망이 부활하면서, 모델 크기와 데이터 크기가 성능에 미치는 영향이 실험적으로 탐구되기 시작함
    • 2000년대 초반 : 대규모 데이터 세트와 더 깊은 신경망이 등장하며, 데이터 크기와 모델 크기가 성능 향상에 중요한 요소로 자리 잡음
  • 한계 : 스케일링 법칙에 대한 체계적인 이론 부재, 데이터와 모델 크기를 늘리는 방식은 주로 경험적 접근에 의존함

2. 딥러닝의 부상과 초기 스케일링 연구(2010 ~ 2015년)

  • 2010년대 초반 딥러닝의 부상으로 인해 더 깊고 큰 신경망이 개발되었고, 대규모 데이터와 강력한 컴퓨팅 자원을 활요하는 방법이 본격적으로 연구되었음
  • 주요 연구
    • 2012년 : AlexNet의 성공으로 인해 모델 크기와 데이터 크기의 중요성이 재조명되었음
    • 2014년 : VGG와 ResNet 같은 더 깊고 복잡한 신경망의 등장, 모델 크기를 늘리는 것이 성능 향상에 미치는 영향을 실험적으로 보여줌
  • 한계 : 스케일링 법칙은 주로 실험적 관찰에 기반, 정량적이고 체계적인 이론이 부족했음

3. 스케일링 법칙의 정량적 정립 : Kaplan 스케일링 법칙(2018 ~ 2020년)

  • Open AI와 같은 연구 기관들은 대규모 언어 모델(GPT 계열)을 개발, 모델 크기와, 데이터 크기, 컴퓨팅 자원이 성능에 미치는 영향을 체계적으로 분석하기 시작함
  • 주요 연구
    • 2018 ~ 2019년 : OpenAI의 GPT, GPT-2가 발표되며, 모델 크기를 늘리는 것이 성능 향상에 미치는 영향을 실험적으로 입증
    • 2020년 : Tom Kaplan과 OpenAI 연구진이 발표한 논문 "Scaling Laws for Neural Language Models"에서 모델 크기, 데이터 크기, 컴퓨팅 자원이 성능에 미치는 영향을 정량적으로 설명하는 Kaplan 스케일링 법칙이 제안
      • 모델 크기와 컴퓨팅 예산을 늘리면 성능이 멱법칙을 따라 향상
  • 의의 
    • Kaplan 스케일링 법칙은 AI 모델 학습에서 자원 배분을 최적화하는데 중요한 지침을 제공함
    • 대규모 언어 모델(GPT-3 등)의 설계에 직접적인 영향을 미침

4. 데이터 중심 접근으로 전환 : Chinchilla 스케일링의 법칙(2022년)

  • Kaplan 스케일링 법칙이 모델 크기를 늘리는 것이 성능 향상에 중요하다고 강조하였지만, 이로 인해 큰 모델이 만들어질 가능성이 있었음
  • 이를 보완하기 위해 데이터 크기의 중요성을 재조명한 연구가 진행이 되었음
  • 주요 연구
    • 2022년 : DeepMind가 발표한 논문 "Training Compute-Optimal Large Language Models"에서 ChinChilla 스케일링 법칙을 제안함
      • 컴퓨팅 자원이 제한된 상황에서는 모델 크기를 늘리기보다는 데이터 크기를 늘리는 것이 더 효율적임을 강조
      • 동일한 컴퓨팅 자원에서 더 작은 모델로 더 많은 데이터를 학습시키는 것이 성능 향상에 더 효과적이라는 결론을 제시함
  • 의의 
    • Chinchilla 법칙은 데이터 품질과 크기의 중요성을 재확인하며, 비용 효율적인 AI 모델 설계에 중요한 방향성을 제시함

5. 다차원적 스케일링 법칙(2023년 이후)

  • Kaplan 스케일링 법칙, Chinchilla 스케일링 법칙 이후, 데이터 품질, 전이학습, 에너지 효율성 등 다양한 요소를 고려한 다차원적인 스케일링 법칙을 탐구하기 시작함
  • 주요 연구
    • 데이터 품질 스케일링 : 데이터의 양뿐만 아니라 품질이 모델 성능에 미치는 영향을 강조함
    • 전이 학습 스케일링 : 대규모 사전 학습 모델이 다운스트림 작업에서 효율성을 발휘하는 이유를 정량적으로 분석함
    • 에너지 효율성 스케일링 : AI 모델 학습의 에너지 소비를 줄이기 위한 최적화 전략을 탐구함
    • LLaMA 연구(Meta) : 데이터 품질과 모델 크기간의 균형을 강조하며, 대규모 언어 모델 설계 전략을 제안함
  • 의의 
    • 스케일링 법칙이 단순히 모델 크기와 데이터 크기만을 다루는 것을 넘어, 품질, 에너지, 비용 효율성 등 다양한 요소를 포괄하는 방향으로 발전

4. DeepSeek의 출현이 AI 스케일링 법칙에 어떠한 영향을 주었을까?

위 영상에서 설명하였지만, DeepSeek는 GPU 투자에 5억 달러정도 사용했다고 하였고, AI 발전에 있어 스케일링 법칙이 여전히 유효하다는 것을 보여주었으며, 대규모 컴퓨팅 인프라 구축은 고성능 AI 모델 개발에 여전히 막대한 컴퓨팅 파워가 필요하다는 점을 분명히 보여주었다.

하지만 동시에 DeepSeek는 기존 스케일링 법칙에 새로운 관점을 제시하였다.

첫 번째로는 단순히 컴퓨팅 파워를 늘리는 것 외에도 효율적인 학습방법이 중요하다는 점을 다시 한번 재확인시켜주었다는 점이다.

이로 인해 AI H/W 기업들(NVDA, AVGO, AMD 등)의 주가가 많이 흔들렸던 것 같다.

두 번째로는 DeepSeek는 오픈소스 전략을 통해 빠른 성장을 이뤄냈다는 점이다. 이로 인해 비공개 전략을 세우고 있는 AI 기업들의 전략 변화가 있을 수도 있을 것 같다.

이러한 점으로 미루어 보아, 미래의 AI 발전 방향은 단순하게 H/W 스케일링을 넘어, 알고리즘 효율성, 학습 방법의 최적화 등 S/W 스케일링이 함께 고려되는 스마트 스케일링 방식으로 진화할 것으로 예상이 된다.

5. 결론

AI 스케일링 법칙은 1980년대부터 현재까지 지속적으로 발전해왔으며, DeepSeek의 출현으로 새로운 전환점을 맞이하고 있다.

특히 H/W 성능에 의존하던 과거 모델들에게 단순하게 H/W 성능에 증가가 아닌 효율적 자원 활용의 중요성을 부각시켜준 사건이라고 생각하며, 향후 AI 산업의 발전에는 S/W 기업들의 중요성이 더욱 부각이 될 것으로 예상이 된다.

반응형