본문 바로가기
지식 확장/테크

LLM이 생성한 데이터를 LLM 학습에 이용하면?

by Augmentia 2025. 1. 1.

영국 옥스포드 대학, 임피리얼 컬리지 런던, 캠브릿지 대학의 과학자들이 공동으로 수행한 연구 결과가 "AI models collapse when trained on recursively generated data"라는 제목의 논문으로 국제 저명 학술지 네이처에 2024년 7월 25일자로 게재 되었어요. 📘 이와 비슷한 연구로 미국 Rice 대학 및 Stanford 대학에서는 "Self-Consuming Generative Models Go MAD" 라는 논문을 arXiv에 게재했어요. 🖋️ 두 논문의 핵심 주장은 실제 Real-world의 데이터 주입 없이 AI가 생성한 데이터만으로 모델을 계속 학습시키면, 몇 세대 만에 모델의 품질이 현저히 떨어진다는 내용이예요. 📉

Sutskever가 최근에 언급했던 "The End of Pre-training: AI Reaches 'Peak Data'"와도 연관된 내용이라고 생각해요. 🧠 Peak Data 를 극복하기 위한 방법으로 LLM이 생성한 데이터를 학습에 이용하는 것은 모델의 성능 개선에 큰 도움이 안될꺼 같아요. 🚧

오픈AI, 구글, 아마존, 메타, xAI 등에서 LLM 모델을 개발하는 연구자가 아닌 이상, Pre-training 모델의 데이터를 어떻게 쓸지 고민할 필요는 없을꺼 같아요. 🤔 하지만, 앞으로 이러한 글로벌 AI 리더 기업들이 데이터 한계를 어떻게 극복해 나가는지 방향성을 제시할때 옳은 방향으로 나아가는지 판단하기 위한 지식 쌓기로 알아두면 좋을 법한 내용이라고 생각해요. 🌍


왜 언어 모델에서 모델 붕괴(Model Collapse)가 발생하나요? 🤖

언어 모델에서 모델 붕괴가 발생하는 이유는 학습 데이터의 특성과 학습 방식에서 비롯돼요. 🛠️ 언어 데이터에서 특정한 단어나 표현의 경우 매우 낮은 빈도로 문장에 등장하는 특성이 있어요. 📉 특히, 전문 용어나 지역에서만 사용하는 방언 등 낮은 빈도의 단어(“tails of the distribution”)의 경우, 모델의 언어적 이해력을 확장하고 다양성을 학습하기 위해 꼭 필요한 데이터예요. 🌐 하지만, 언어 모델은 높은 빈도로 등장하는 데이터를 우선적으로 학습하기 때문에 낮은 빈도의 데이터를 무시하게 되거나 과소 평가하는 경향이 있어요. ⚖️

언어 모델 학습 과정에서 이전 세대 모델이 생성한 데이터를 반복적으로 사용한다면, 데이터 분포에 왜곡이 발생하게 되요. 이렇게 되면 모델이 낮은 확률의 데이터("tails of the distribution")를 점차 잃게 되고, 그 결과 모델은 데이터 분포의 평균적 특성만을 반영하게 되요. 이는 모델이 데이터 분포를 제대로 유지하지 못하고, 특정 데이터 패턴에 지나치게 의존하게 만드는 결과를 초래하게되요.


모델 붕괴로 인해 어떤 문제가 발생하나요? 🛑

모델 붕괴는 언어 모델이 생성하는 텍스트의 다양성이 제한되는 현상을 의미해요. 🔄 동일한 단어나 문장 구조가 반복적으로 생성되는 현상이 나타나며, 이로 인해 결과물의 품질을 떨어져요. 📉 모델 붕괴 현상이 나타나게되면 새로운 표현은 점차 줄어들게 되고, 생성된 텍스트가 기존 데이터와 너무 유사해지는 문제가 발생해요. 🧩 이는 창의적이고 예상치 못한 표현을 요구하는 작업에서 심각한 한계로 작용할 수 있어요. 🚫

모델 붕괴 현상은 "모델이 학습하는 데이터 분포에서 낮은 확률로 등장하는 단어, 문장, 또는 개념이 점점 사라지게 됨"을 의미해요. 이는 특정 지역의 방언이나 소수 문화와 관련된 표현이 모델에서 제외될 가능성이 높아짐을 의미하며, 문화적 다양성과 공정성을 저해하는 주요 원인이되요. 소수 집단의 표현이나 관점이 포함된 데이터가 사라지면, 모델은 특정 다수 집단의 특성만 반영하는 편향된 결과를 생성할 수 있어요.

연국 대학의 공동 연구팀은 모벨 붕괴 현상을 Perplexity 지표로 측정했어요. Perplexity로 성능을 평가했을 때, 초기 세대 모델은 34였던 값이 다섯 세대 후에는 50 이상으로 증함을 밝혀냈어요. 이는 모델이 데이터를 효과적으로 학습하지 못하고 있음을 의미해요. 결과적으로 생성된 텍스트는 어색하거나 문법적으로 부적절한 경우가 많아지고, 모델이 왜곡된 데이터를 학습하면서 점점 더 부정확한 정보를 생성할 가능성이 높아지게되요.

참고) Perplexity는 모델이 다음 단어를 예측하는 능력을 평가하는 지표로, 이 값이 높아질수록 모델의 성능이 낮음을 의미해요.


모델 붕괴를 방지하려면 어떻게 해야 하나요? 🔧

  1. 원본 데이터 보존: 학습 데이터를 추가하며 모델 성능을 개선할 때, 일정 비율의 원본 데이터를 포함시켜야 해요. 📚
  2. 저빈도 데이터 강화: 낮은 빈도의 데이터를 의도적으로 강화하여 학습 과정에서 반영해야 해요. 🌟
  3. 데이터 출처 관리: AI가 생성한 데이터와 인간이 생성한 데이터를 명확히 구분하고 차이를 고려해야 합니다. 🗂️
  4. 학습 알고리즘 개선: 희귀 데이터를 반영할 수 있는 가중치 기반 학습 알고리즘을 도입해야 해요. 🧮
  5. 협력과 투명성: 연구 기관 간 협력을 통해 데이터 출처와 학습 과정을 투명하게 관리하는 것이 중요합니다. 🤝

Concluding Remarks 🌱

더 좋은 성능의 모델을 학습하기 위해서는 더욱 많은 양질의 데이터가 필요한 것은 사실이예요. 📈 하지만 데이터 부족 현상을 극복하기 위해 LLM이 생성한 데이터를 Pre-training 모델 학습에 활용하려는 시도에는 주의가 필요해요. ⚠️ 연구자들은 언어 모델에서 발생하는 모델 붕괴 현상을 해결하기 위해 두 가지 방법을 제시했어요:

  1. 저빈도 데이터 확보 노력
  2. 학습 방법 개선

이러한 노력을 통해 AI 모델이 데이터 다양성과 정확성을 유지하며, 더 공정하고 신뢰할 수 있는 결과를 제공하기를 기대해 봅니다. 🌟