百瑞赢表示在当今人工智能蓬勃发展的时代,DeepSeek 作为一家备受瞩目的中国人工智能公司,正以独特的姿态在大语言模型领域崭露头角。
百瑞赢表示DeepSeek 全名为杭州深度求索人工智能基础技术研究有限公司,成立于 2023 年 7 月 ,由中国对冲基金 High-Flyer 的联合创始人梁文峰创立,梁文峰也担任着公司的 CEO。公司创立之初,便致力于开发开源大语言模型(LLMs),并在短时间内取得了令人瞩目的成绩。
百瑞赢表示DeepSeek 在技术研发上成果斐然。以 DeepSeek V3 模型为例,这是其于 2024 年 12 月 26 日发布的一款 AI 模型,具有诸多亮眼特性。它是自研的 MoE 模型,生成速度相比 V2.5 模型实现了 3 倍的提升,达到每秒吞吐量 60 token。总参数量为 6710 亿参数 MoE 架构模型,激活 37B,在 14.8T token 上进行了预训练。在数学和代码领域测试表现突出,MATH 500 正确率 90.2%,SWE-bench 正确率 42.0%,Codeforces 得分 51.6,超越所有非 o 系列模型 。百瑞赢表示在中文能力上,与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。
值得一提的是,DeepSeek 模型的训练成本相对较低。例如,DeepSeek V3 的训练仅使用了 2048 个 H800 GPU,总训练 GPU 卡时为 2788 千小时 ,平均到每个 GPU 上,仅为 1361 小时,约合 56.7 天。而 GPT-4 MoE 使用 8000 个 H100 训练了 90 天,合计约为 17280 千卡时,是 DeepSeek V3 的 6.2 倍。百瑞赢表示这使得 DeepSeek 在成本控制上具有明显优势,也为其技术的广泛应用提供了有力支撑。
百瑞赢表示DeepSeek 的模型应用场景广泛,涵盖聊天和编码场景、多语言自动翻译、图像生成和 AI 绘画等。在聊天和编码场景中,能帮助开发者提高编程效率;多语言自动翻译支持多达 20 种语言的实时翻译和语音识别,满足企业多语言处理需求;图像生成和 AI 绘画则通过整合视觉理解技术,让用户通过文本描述生成高质量图像。
然而,DeepSeek 的发展并非一帆风顺。百瑞赢表示一方面,其在数据收集和内容审查方面存在争议。由于其需遵循中国政府的审查政策,在一些敏感话题上会进行内容限制,这引发了部分国家对隐私和信息控制的担忧,如 2024 年 2 月澳大利亚就禁止在政府设备上使用该公司的技术。另一方面,尽管 DeepSeek 的模型宣称是 “开放权重”,但相比真正的开源软件,其修改自由度较低,这也受到了一些开源爱好者的质疑。
风险提示:以上内容,都是个人分享,仅供参考,还是多听多看,自己做决定。
* 文章为作者独立观点,不代表爱提网立场
* 本文不构成投资建议
转载此文请于文首标明作者姓名,保持文章完整性,并请附上出处(爱提网)及本页链接。原文链接:
https://www.itgoodboy.com/p/23a945b2b919
产品建议及投诉请联系:service@itgoodboy.com