江苏百瑞赢：探秘DeepSeek

发电 2025-02-17 16:16:08

来源：爱提网

百瑞赢表示在当今人工智能蓬勃发展的时代，DeepSeek 作为一家备受瞩目的中国人工智能公司，正以独特的姿态在大语言模型领域崭露头角。
百瑞赢表示DeepSeek 全名为杭州深度求索人工智能基础技术研究有限公司，成立于 2023 年 7 月，由中国对冲基金 High-Flyer 的联合创始人梁文峰创立，梁文峰也担任着公司的 CEO。公司创立之初，便致力于开发开源大语言模型（LLMs），并在短时间内取得了令人瞩目的成绩。
百瑞赢表示DeepSeek 在技术研发上成果斐然。以 DeepSeek V3 模型为例，这是其于 2024 年 12 月 26 日发布的一款 AI 模型，具有诸多亮眼特性。它是自研的 MoE 模型，生成速度相比 V2.5 模型实现了 3 倍的提升，达到每秒吞吐量 60 token。总参数量为 6710 亿参数 MoE 架构模型，激活 37B，在 14.8T token 上进行了预训练。在数学和代码领域测试表现突出，MATH 500 正确率 90.2%，SWE-bench 正确率 42.0%，Codeforces 得分 51.6，超越所有非 o 系列模型。百瑞赢表示在中文能力上，与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近，但在事实知识 C-SimpleQA 上更为领先。
值得一提的是，DeepSeek 模型的训练成本相对较低。例如，DeepSeek V3 的训练仅使用了 2048 个 H800 GPU，总训练 GPU 卡时为 2788 千小时，平均到每个 GPU 上，仅为 1361 小时，约合 56.7 天。而 GPT-4 MoE 使用 8000 个 H100 训练了 90 天，合计约为 17280 千卡时，是 DeepSeek V3 的 6.2 倍。百瑞赢表示这使得 DeepSeek 在成本控制上具有明显优势，也为其技术的广泛应用提供了有力支撑。
百瑞赢表示DeepSeek 的模型应用场景广泛，涵盖聊天和编码场景、多语言自动翻译、图像生成和 AI 绘画等。在聊天和编码场景中，能帮助开发者提高编程效率；多语言自动翻译支持多达 20 种语言的实时翻译和语音识别，满足企业多语言处理需求；图像生成和 AI 绘画则通过整合视觉理解技术，让用户通过文本描述生成高质量图像。
然而，DeepSeek 的发展并非一帆风顺。百瑞赢表示一方面，其在数据收集和内容审查方面存在争议。由于其需遵循中国政府的审查政策，在一些敏感话题上会进行内容限制，这引发了部分国家对隐私和信息控制的担忧，如 2024 年 2 月澳大利亚就禁止在政府设备上使用该公司的技术。另一方面，尽管 DeepSeek 的模型宣称是 “开放权重”，但相比真正的开源软件，其修改自由度较低，这也受到了一些开源爱好者的质疑。
风险提示:以上内容,都是个人分享,仅供参考,还是多听多看,自己做决定。

标签：新闻

* 文章为作者独立观点，不代表爱提网立场

* 本文不构成投资建议

转载此文请于文首标明作者姓名，保持文章完整性，并请附上出处（爱提网）及本页链接。原文链接：

https://www.itgoodboy.com/p/23a945b2b919

产品建议及投诉请联系：service@itgoodboy.com

江苏百瑞赢：探秘DeepSeek

热门文章

相关分类

热门搜索