DeepSeek 모델 메커니즘 및 학습 방법

DeepSeek는 범용인공지능(AGI)을 탐구하는 데 전념하는 연구팀으로, 기초 모델 기술 연구에 중점을 두고 오픈 소스 방식을 지향합니다. 당사는 개방성, 투명성, 보안을 통해 기술적 포용성을 증진하는 것을 목표로 합니다. 이 문서에서는 DeepSeek 모델의 기본 원리와 학습 방법을 소개 및 설명하여DeepSeek의 작동 방식에 대해 보다 자세히 알려드리고자 합니다. 이를 바탕으로 귀하가 DeepSeek을 보다 효과적으로 이용할 수 있도록 하고, 귀하의 알 권리와 이용 중 통제할 권리를 보장하여, 이 모델의 부적절한 이용과 관련된 위험을 방지하고자 합니다.

당사가 개인정보를 수집, 보호, 이용하는 방법에 대한 구체적인 내용은 DeepSeek 개인정보 처리방침 을 확인하시기 바랍니다.

I. DeepSeek 모델의 기본 원리

현재 DeepSeek가 제공하는 기본 모델은 모두 심층 신경망을 기반으로 하는 대규모 언어 모델입니다. 이러한 모델은 학습 단계와 추론 단계의 두 가지 주요 단계로 작동합니다. 또한, DeepSeek 모델은 오픈 소스이므로 본 항에서는 당사의 오픈 소스 관련 노력에 대해서도 소개합니다.

1. 모델 학습

모델 학습 단계는 개발 단계로, 개발자들이 설계된 학습 방법을 사용하여 배포 가능한 모델을 만드는 단계입니다. 이 모델은 수십억 개에서 수조 개에 이르는 매개변수를 가진 다층 신경망으로 구성되어 있습니다. 이러한 매개변수는 경사하강 알고리즘을 통해 학습 중에 지속적으로 최적화되며, 그 결과 어휘, 문법, 의미 관계에 대한 분산된 수학적 표현을 형성하게 됩니다. 모델 학습은 일반적으로 사전 학습과 최적화 학습의 두 단계로 나눌 수 있습니다.

2. 모델 추론

추론 단계는 모델이 실제 배포되어 서비스를 제공하는 단계입니다. 학습과 배포가 완료된 모델은 입력 정보(텍스트, 파일 등)를 인코딩 및 계산하여 다음 토큰을 예측함으로써 텍스트 생성, 대화 등의 기능을 수행할 수 있습니다. 이 단계에서 모델은 다양한 텍스트 기반 작업을 능숙하게 수행할 수 있으며 다양한 다운스트림 시스템이나 앱에 통합될 수 있습니다. 특히 DeepSeek 서비스의 경우 모델은 이용자 입력 정보를 계산하고 유추하여 텍스트, 표, 코드 등 그에 부응하는 응답을 생성할 수 있습니다.

모델은 자동회귀 생성 방법을 사용하여 입력 정보의 문맥을 기반으로 확률적 계산을 통해 다음에 올 가능성이 가장 높은 토큰 시퀀스를 예측합니다. 이 과정은 단순히 원래의 학습 데이터에서 텍스트를 불러오거나 "복사-붙여넣기"하는 것이 아닙니다. 모델은 원래의 학습 데이터의 사본을 저장하지 않으며, 언어 구조 및 의미 관계에 대한 깊은 이해를 바탕으로 문맥에 부합하는 응답을 동적으로 생성하는 것입니다.

3. 모델 오픈 소스

DeepSeek는 모델을 오픈소스로 공개하는 데 전념하고 있습니다. 이를 위해 당사는 허용된 MIT 라이선스에 따라 오픈 소스 플랫폼에 모든 모델의 가중치, 매개변수, 추론 도구 코드를 공개하여 이용자가 자유롭게 다운로드 및 배포할 수 있도록 합니다. 또한, DeepSeek은 각 모델에 대한 포괄적인 기술 보고서를 발행하여 커뮤니티와 연구자들이 참고 자료로 활용할 수 있도록 하며 일반 대중이 각 모델의 기술적 원리와 세부 사항을 보다 깊이 이해할 수 있도록 돕고 있습니다.

II. DeepSeek 모델 학습에 사용되는 데이터

DeepSeek 모델의 기능은 다양한 고품질 대규모 데이터 소스를 기반으로 구축되었습니다. 당사는 지식재산, 영업비밀, 개인정보보호와 관련된 법령을 매우 중요하게 생각하며 이를 철저하게 준수합니다. 당사는 모든 데이터 수집 및 이용이 합법적인 절차에 따라 이루어지도록 보장합니다.

1. 사전 학습 단계

사전 학습 단계에서는 학습을 위해 막대한 양의 말뭉치 데이터(corpus data)가 필요합니다. 이 단계에서는 주로 다음과 같은 두 가지 데이터 범주를 사용합니다.

사전 학습 단계에서는 학습을 위해 개인 정보를 필요로 하지 않습니다. 따라서, 당사는 특정 계정 또는 개인과 연계되는 개인정보를 의도적으로 수집하지 않으며, 또는 모델 학습에 이를 적극적으로 이용하지 않습니다. 당사는 개인 정보 수집의 위험을 최소화하기 위해 민감정보, 신용카드번호, 고유식별정보 등은 학습 데이터 소스에서 제외합니다. 그러나, 사전 학습 데이터의 방대한 규모 특성상 공개적으로 이용 가능한 일부 온라인 콘텐츠 또는 다른 제공업체의 라이선스 데이터에 부수적으로 개인정보가 포함될 가능성이 존재합니다. 당사는 기술적 조치를 취하여 학습 데이터에서 해당 정보를 최대한 선별하여 제거하고, 데이터를 학습에 사용하기 전에 검증 테스트를 실시합니다.

또한, 데이터 품질, 안전성, 다양성을 보장하기 위해 엄격한 데이터 거버넌스 프로세스를 구축했습니다. 첫째, 당사는 필터를 사용하여 혐오 표현, 포르노, 폭력, 스팸, 잠재적 침해 요소가 포함된 원 데이터를 자동으로 선별하고 제거합니다. 둘째, 대규모 데이터셋에는 본질적으로 통계적 편향이 있을 수 있다는 점을 인식하고, 알고리즘 기반 분석과 수작업 검토를 병행하여 이러한 편향이 모델의 가치 판단에 미치는 영향을 식별하고 완화함으로써 공정성을 향상시킵니다.

2. 최적화 학습 단계

최적화 학습 단계에서는 모델을 학습시키기 위해 수동 또는 자동으로 질문-응답 쌍 데이터 세트를 구성하거나 주석 처리하는 작업이 필요합니다. 이러한 질문-응답 쌍은 주로 당사의 연구팀이 생성합니다만, 일부 소량이 이용자 입력 정보에 기초하여 만들어질 수 있습니다. 이용자 입력 정보가 학습 데이터 구축에 이용되는 경우, 당사는 개인정보일 수 있는 정보를 식별하여 필터링하고 안전한 암호화, 엄격한 비식별화, 익명화를 적용하여 특정 개인과 연계될 수 없도록 조치합니다. 또한, 당사는 개인정보가 다른 이용자를 위한 출력 정보에 표시되지 않도록 하며, 개인정보를 이용자 프로파일링 또는 맞춤형 추천을 위해 이용하지 않습니다. 명확히 하기 위해 말씀드리자면, 당사는 사용자 프로파일링 또는 맞춤형 추천과 관련된 서비스를 제공하지 않습니다. 또한 이용자는 옵트아웃할 수 있는 권리를 가집니다. AI 학습 옵트아웃 방법에 대한 자세한 내용은 [DeepSeek 개인정보 처리방침]을 참고하시기 바랍니다.

당사는 모델의 안전성을 보장하기 위해 최적화 학습 단계에서 특수한 안전 데이터를 구축합니다. 이를 통해 모델을 인간의 가치에 부합하도록 조정하여 모델에 내제된 안전 기능을 강화합니다.

III. 모델의 한계와 위험

AI 모델과 관련된 위험은 두 가지 원인으로 인해 발생할 수 있습니다:

1. AI 기술의 미성숙으로 인한 한계.

2. AI 기술의 오용으로 인한 위험.

구체적으로 살펴보면 다음과 같습니다:

1. 한계

현재 AI는 아직 초기 단계에 있으며 기술적으로 성숙하지 않았습니다. 현재 모델 원리의 한계로 인해 AI는 "환각"이라고 하는 부정확하거나 누락되거나 사실과 다른 내용을 생성할 수 있습니다. 환각은 AI 산업 전반이 공통적으로 직면하고 있는 도전입니다. DeepSeek은 고품질의 학습 데이터 소스 선정, 정렬 전략의 최적화, 검색 증강 생성 기법(RAG) 활용 등 연구를 통해 환각율을 줄이기 위해 노력하고 있습니다. 그러나 현 단계에서는 모델이 환각을 일으키지 않을 것이라고 보장하기 어렵습니다. 당사는 환각으로 인한 잠재적인 부작용을 보다 방지하기 위해 DeepSeek의 홈 화면, 생성된 텍스트의 하단, UI 하단에 눈에 띄는 경고 문구를 추가하여, 이용자에게 해당 콘텐츠가 AI에 의해 생성된 것이며 부정확할 수 있음을 명확히 알리고 있습니다.

따라서 모델에서 생성된 콘텐츠는 참고로만 사용되어야 하며 전문적인 조언으로 간주해서는 안 됩니다. 특히 본 서비스를 이용하여 의료, 법률, 금융 기타 전문 분야에 대해 상담할 경우, 본 서비스는 어떤 조언이나 약속도 제공하지 않으며 어떤 전문 분야의 의견을 대변하지도 않는다는 점을 유념하시기 바랍니다. 관련 전문 서비스가 필요한 경우 반드시 전문가와 상담하고 전문가의 지도 하에 결정을 내리시기 바랍니다. 이 소프트웨어의 출력 정보는 귀하의 작위 내지 부작위의 근거가 될 수 없습니다.

2. 오용 위험

AI 기술 오용의 위험은 개인정보보호, 저작권, 데이터 보안, 콘텐츠 안전성, 편향성, 차별을 포함하여 전세계적으로 널리 인식되고 있습니다. 기술 자체는 중립적이지만, 실제 사용하는 과정에서 위험이 발생합니다. 따라서 이러한 위험은 사용 시나리오와 의도된 목적의 맥락에서 고려되어야 합니다.

DeepSeek은 AI 기술 응용에 따른 잠재적 위험을 매우 심각하게 받아들이고 있습니다. 당사는 관련 법률 및 규제 요건을 엄격히 준수하며 모델의 개발, 학습, 배포의 전 생애 주기에 걸쳐 모델의 안전성을 지속적으로 향상시키기 위한 합리적인 조치를 취하고 있습니다. 이러한 조치에는 내부 위험 관리 시스템 구축, 모델 안전성 평가 실시, 모의 공격 테스트(레드팀 테스트) 실시, 모델 및 서비스의 투명성 개선 등이 포함되며 이에 국한되지 않습니다.

동시에, 당사는 모델 기술 및 서비스에 대해 알 권리, 선택할 권리, 통제할 권리를 포함하여 법령에 의해 이용자에게 부여된 권리를 존중하고 보호합니다. 이용자는 기본적인 서비스 정보를 조회하고, 모델 학습을 위한 데이터 사용을 옵트아웃하고, 과거 이용기록을 삭제하는 등의 권리를 행사할 수 있습니다. 이러한 권리의 행사와 관련하여 요구사항이나 문의사항이 있는 경우 당사의 [개인정보 처리방침]을 참고하거나 [privacy@deepseek.com]으로 연락하시기 바랍니다.