杭州深度求索人工智能基础技术研究有限公司及其关联公司(以下简称“我们”或“DeepSeek”)是以探索AGI为目标的研究团队,专注于模型基础技术研究,并坚持开源路线,预期通过开放、透明、安全的理念促进技术普惠。我们通过本文来介绍和解释DeepSeek模型的基本原理和训练方法,让您详细了解DeepSeek的工作方式,帮助您更好地使用DeepSeek,并保障您在使用DeepSeek过程中的知情权和控制权,防范因不当使用模型而导致的风险。
关于我们如何收集、保护和使用个人信息的具体规则,请您仔细阅读《DeepSeek 隐私政策》。
目前,DeepSeek 线上提供服务的基础模型均为基于深度神经网络的大语言模型。该类模型提供服务主要分为两个阶段:训练阶段和推理阶段。同时,DeepSeek 的模型均为开源模型,因此该部分还会介绍我们的模型开源工作。
模型训练阶段即模型的开发阶段,在这阶段,开发人员通过设计好的训练方法开发出可被部署使用的模型。模型由多层神经网络组成,包含数十亿至数万亿参数,这些参数在训练过程中通过梯度下降算法持续优化。模型训练一般可以分为预训练和优化训练两个环节。
预训练:预训练目标是通过数据训练模型,使模型掌握通用的语言理解与生成能力。模型在预训练阶段通过大规模自监督学习,从文本数据中学习语言模式与知识关联。预训练完成后,模型能理解并生成连贯的文本,但还不会精准地回答问题或执行任务,因此需要进一步的训练调整。
优化训练:优化训练也称为微调,是在预训练模型的基础上通过特定任务的数据进一步调整模型参数,使模型适应实际应用场景。模型在优化训练阶段一般通过有监督的微调(SFT)或强化学习(RL)等方法,学会根据指令回答问题,符合人类的偏好和需求,并激发在特定领域的专业能力。经过优化训练的模型能更好地满足实际需求,可被部署使用。
模型的推理阶段即模型被部署提供服务。模型训练完成并被部署后,可以通过对输入信息进行编码和计算来预测下一个词元,从而具备文本生成和对话等能力,其能够熟练执行基于文本生成的广泛的不同任务,并可以集成到各种下游系统或应用中。具体到DeepSeek的产品服务,模型基于用户输入信息,通过计算推理输出相应的内容作为响应,包括文字、表格和代码等。
需注意的是,模型采用自回归生成方式,基于输入的上下文内容,通过概率计算预测最可能接续的词汇序列。此过程并非简单检索或“复制粘贴”模型训练数据中的原始文本,模型也并未存储用于训练的原始文本数据副本,而是模型基于对语言结构和语义关系的深度理解,动态生成符合语境的回答。
DeepSeek始终坚持模型开源。为此,我们通过开源平台对外公开发布了所有模型的权重、参数以及推理工具代码等,并适用宽松的MIT协议,供使用者自由、免费下载部署使用。同时,DeepSeek 发布各模型的完整技术报告,供社区和研究人员参考,并帮助公众更深入地了解每个模型的技术原理和细节。
DeepSeek模型的能力建立在高质量、大规模且来源多样化的数据基础之上。我们高度重视并严格遵守知识产权、商业秘密和个人隐私相关的法律法规,确保所有数据的获取和使用均在合法合规的框架内进行。
在模型预训练阶段,需要获取语料数据用于训练,此阶段主要使用以下两个类别的数据用于训练:(1) 互联网上公开可用的信息,(2) 我们与第三方合作获取的信息,
模型预训练阶段无需获取个人信息用于训练,因此我们不会有意收集个人信息以关联至任何特定的账户或个人,也不会主动将其用于训练我们的模型。但由于预训练所需数据规模庞大,部分在线公开内容或来自其他提供方的许可数据可能会偶然包含个人信息,我们会通过技术手段尽力筛查并移除训练数据中包含的个人信息,并在用于训练前进行测试验证。
此外,为了确保数据的质量、安全与多样性,我们建立了一套严格的数据治理流程。首先,我们会通过过滤器自动筛查并移除包含仇恨言论、色情低俗、暴力、垃圾信息以及可能侵权的原始数据。其次,我们认识到大规模数据集中可能存在固有的统计性偏见,因此我们通过算法与人工审核相结合的方式,尽力识别和减少这些偏见对模型价值观的影响,以提升模型的公正性。
在模型优化训练阶段,我们一般需要通过人工或自动化的方式构造、标注一批问答对数据来对模型进行训练,这些问答对数据是由我们的研究团队生产提供的,其中少部分数据的构造可能会基于用户的输入。如涉及利用用户的输入构造训练数据,我们会对数据进行安全加密技术处理、严格的去标识化和匿名化处理,尽可能使其无法关联到任何特定个人,且不会在模型给其他用户的输出中带有个人信息,更不会将其用于用户画像或个性化推荐。同时,我们为用户提供了选择退出的权利。
为了确保模型的安全性,在模型优化训练阶段,我们会构造专门的安全数据对模型进行安全对齐,教会模型的回复符合人类的价值观,增强模型内生的安全能力。
人工智能模型可能由于两方面原因导致风险:1.因人工智能技术发展不够成熟而无法避免的局限性;2.因人工智能技术滥用而导致的风险。具体来说:
当前,人工智能仍处于早期阶段,技术发展尚不成熟。受限于当前模型的技术原理,人工智能可能生成错误、遗漏或不符合事实的内容,这一现象被称为“幻觉”。幻觉是当前人工智能产业所共同面临的挑战。DeepSeek致力于通过研究降低模型的幻觉率,包括但不限于选取高质量的训练数据源、优化对齐的策略、通过检索增强生成(RAG)技术等,但现阶段我们无法保证模型不产生幻觉。为了进一步降低幻觉可能导致的不利后果,我们在DeepSeek的欢迎页、生成文本的末尾以及交互界面的底部添加显著的提示标识,特别提醒用户内容由人工智能生成,可能不准确。
因此,模型生成的内容仅供您参考,您不应将输出的内容作为专业建议。特别的,当您在使用本服务咨询医疗、法律、金融及其他专业问题时,请注意本服务不构成任何建议或承诺,不代表任何专业领域的意见。若您需要相关专业服务,应咨询专业人士,并在专业人士的指导下作出决策。本软件的输出不应成为您进一步作为或不作为的依据。
人工智能技术被滥用的风险在全球范围内被广泛关注,包括隐私保护、版权、数据安全、内容安全、偏见歧视等。模型技术本身是中立的,其风险产生于技术的实际应用中,需要与应用场景和预期目的相结合。
DeepSeek非常重视人工智能技术在应用中可能产生的风险。我们严格遵循法律法规的合规要求,采取了合理的措施不断加强模型的安全性,贯穿模型研发、训练、部署的全生命周期,包括但不限于制定内部风险管理制度、开展模型安全性评估、进行红队测试、增强模型和服务透明度等。
同时,为了缓解人工智能可能导致的风险,我们赋予用户广泛的权利,包括但不限于用户对模型技术和服务的知情权、选择权和控制权,用户可以查询服务的基本信息、拒绝其数据用于模型训练、删除其历史数据等。如果您对相关法律赋予的权利的行使,有任何主张、要求或者疑问,可以通过查看我们的隐私政策或通过【privacy@deepseek.com】与我们联系。
DeepSeek的模型与算法备案公示情况如下:
备案类型 | 备案名称 | 备案号 | 公示链接 |
生成式人工智能服务备案 | Deepseek Chat
| Beijing-DeepseekChat-202404280016 | |
深度合成服务算法备案(服务技术支持者) | DeepSeek大语言模型算法 | 网信算备110108970550101240011号 | |
深度合成服务算法备案(服务提供者) | DeepSeekChat 求索对话生成算法 | 网信算备330105747635301240017号 |