文 | 半导体产业纵横
近日,念念必诸多用户王人怀揣着这么的猜疑:我的手机为何频频推送对于 DeepSeek 的资讯?这 DeepSeek 究竟是什么?它又为何能在问世之际,就激发如斯热烈的柔顺与颤动?
DeepSeek,全称杭州深度求索东说念主工智能基础时刻商议有限公司,其发祥于一家中国的对冲基金公司 High-Flyer。2023 年 5 月 High-Flyer 剥离出一个独处实体,也即是 DeepSeek。这是一家致力于打造高性能、低本钱的 AI 模子。它的想象是让 AI 时刻愈加普惠,让更多东说念主能够用上强劲的 AI 用具。
DeepSeek-V3 与 DeepSeek-R1 的中枢各异
旧年 12 月 26 日,DeepSeek AI 考究发布了其最新的大型言语模子 DeepSeek-V3。这款开源模子接收了高达 6710 亿参数的 MoE 架构,每秒能够处理 60 个 token,比 V2 快了 3 倍。已经发布,就在 AI 鸿沟引起了山地风云。
时隔不及一个月,在本年 1 月 20 日,深度求索又考究发布推理大模子 DeepSeek-R1。DeepSeek-R1 的发布,再次震撼业界!
1 月 27 日,DeepSeek 应用登顶苹果中国区和好意思国区应用商店免费 App 下载排名榜。1 月 31 日,英伟达、亚马逊和微软这三家好意思国科技巨头,在归拢天晓喻接入 DeepSeek-R1。
对于 DeepSeek-V3 与 DeepSeek-R1-Distill 蒸馏模子的区别:
DeepSeek-V3
符合复杂任务处理和高精度场景,如长文档分析、多模态推理、科研揣摸等。
支抓千卡级老师,悠闲超大范围集群分散式老师需求。
DeepSeek-R1-Distill 蒸馏模子
符合轻量级部署和资源受限场景,如边际拓荒推理、中小企业快速考据 AI 应用。
在显存和算力条款上更为天真,适配初学级硬件。
开端:Gitee AI
近日,硅谷顶尖风险投资家、a16Z 相干独创东说念主 Marc Andreessen 发文援用 SensorTower 数据:现在 DeepSeek 日活用户数已经达到了 ChatGPT 的 23%,况兼应用逐日下载量接近 500 万。
2 月 5 日,京东云晓喻考究上线 DeepSeek-R1 和 DeepSeek-V3 模子,支抓公有云在线部署、专混独有化实例部署两种时势。前几日,阿里云、百度智能云、华为云、腾讯云、火山引擎、天翼云已接入了 DeepSeek 模子。国外的亚马逊 AWS、微软 Azure 等云巨头相似官宣支抓。
那么,DeepSeek 究竟所以何种特殊魔力,赢得了宏大用户的深爱与喜爱呢?
DeepSeek 的两大上风
市集热捧的居品,通常有个显耀共性:能帮用户降本增效。这,相似是 DeepSeek 的上风方位。
最初在低本钱与高效劳方面,DeepSeek-V3 的老师本钱仅为 557.6 万好意思元(约为 GPT-4 的二异常之一),却能在逻辑推理、代码生成等任务中达到与 GPT-4o、Claude-3.5-Sonnet 邻近的性能,致使超过部分开源模子(如 Llama-3.1-405B)。当时刻中枢在于算法优化(如 MoE 架构、动态学习率调度器)和数据效率升迁,而非依赖算力堆叠。
行为对比,GPT-5 一次为期 6 个月的老师仅揣摸本钱就高达约 5 亿好意思元。
其次,开源与天真部署亦然 DeepSeek 的杰出上风之一。DeepSeek 聘任将模子权重开源,并公开老师细节,这为全球的 AI 商议者灵通了一扇通往模子里面的大门,让他们能够深远了解模子的老师历程、所接收的算法以及遭遇的问题和科罚决议。
360 集团独创东说念主周鸿祎指出,DeepSeek 简直践行了开放的精神。与 OpenAI 等关闭时势平台比拟,DeepSeek 允许开发者应用其开源模子进行时刻挖掘和翻新,这是对时刻分享理念的有劲支抓。OpenAI 天然以"开源"自居,但跟着交易化的鼓舞,越来越多地聘任阻滞式策略,这与其创立初志以火去蛾中。
此外,周鸿祎异常提到 DeepSeek 的模子蒸馏时刻,他合计这是一种极具前瞻性的推行。在他看来,DeepSeek 对模子蒸馏的开放魄力,展示了其自信与忘我。相较之下,OpenAI 对用户蒸馏其模子的甩掉,清晰出其对竞争敌手的扼杀和对本人上风的辗转。
DeepSeek 所需的 GPU,主要开端于英伟达
早期对 AI 时刻和硬件基础设施的策略投资,为 DeepSeek 的告捷奠定了基础。
据 SemiAnalysis 评估,DeepSeek 领有浅近 50,000 个 Hopper 架构的 GPU,其中包括 10,000 个 H800 和 10,000 个 H100 型号。此外,他们还订购了无数的 H20 型号 GPU,这些 GPU 专为中国市集想象。尽管 H800 与 H100 具有疏通的揣摸材干,但其网络带宽较低。H20 是面前唯独对中国模子提供商可用的型号。这些 GPU 不仅用于 DeepSeek,也劳动于 High-Flyer,地舆上分散部署,支抓来往、推理、老师和商议等多种任务。
至于 DeepSeek 如何得回如斯多数目的 Hopper GPU。
早在 2021 年 High-Flyer 就看好 AI 的发展后劲并摇荡投资购买了 10,000 个 A100 GPU,用于大范围模子老师实验。这项策略决策其后被阐发诟谇常告捷的,为公司带来了显耀的竞争上风。
在 1 月 25 日新年前,AMD 就官宣将 DeepSeek-V3 模子集成到了 Instinct MI300X GPU 上。
随后在 1 月 31 日,AI 芯片龙头英伟达也官宣其 NVIDIA NIM 微劳动预览版对于 DeepSeek-R1 模子的支抓。NIM 微劳动基于 HGX H200 系统,每秒能够处理 3872 个 tokens。开发者们不错调用 API 进行测试和考试,该 API 后续会行为英伟达 AI 企业软件平台的一部分提供。
同日,英特尔晓喻 DeepSeek 能够在搭载酷睿处理器的 AI PC 上离线使用。在酷睿 Ultra 200H(Arrow Lake H)平台上,DeepSeek-R1-1.5B 模子能够土产货离线驱动,作念翻译、作念会议纪要、进行文档撰写等任务。
要知说念 DeepSeek 在算力芯片受限的不利身分下,达到 OpenAI 等顶级模子的水平,是国内 AI 生态级的突破。如今,跟着 DeepSeek 这类模子的发展,对 GPU 需求抓续攀升。国产 GPU 厂商也强横捕捉到这一机遇,正在积极进行适配责任。他们深知,适配告捷不仅能助力 DeepSeek 等模子更好地发展,也能为本人灵通更广博的市集空间,升迁国产 GPU 在 AI 鸿沟的影响力。
11 大国产 AI 芯片公司,晓喻适配 DeepSeek
仅在 2 月 1 日至 2 月 7 日这短短 7 天内,就有 11 家国产 AI 芯片公司晓喻完成对 DeepSeek 的适配 。
DeepSeek 系列新模子考究上线昇腾社区
2 月 1 日,华为云晓喻与硅基流动相干首发并上线基于华为云昇腾云劳动的 DeepSeek R1/V3 推理劳动。收成于自研推理加速引擎加抓,该劳动支抓部署的 DeepSeek 模子可得回抓平全球高端 GPU 部署模子的扫尾。
2 月 5 日,华为晓喻,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro 于 2 月 4 日考究上线昇腾社区,支抓一键获取 DeepSeek 系列模子,支抓昇腾硬件平台上开箱即用,推理快速部署,带来更快、更高效、更浅陋的 AI 开发和应用体验。
摩尔线程已毕对 DeepSeek 蒸馏模子推理劳动的高效部署
2 月 4 日,摩尔线程发文称已快速已毕对 DeepSeek 蒸馏模子推理劳动的高效部署,旨在赋能更多开发者基于摩尔线程全功能 GPU 进行 AI 应用翻新。
此外,用户也不错基于 MTT S80 和 MTT S4000 进行 DeepSeek-R1 蒸馏模子的推理部署。
通过 DeepSeek 提供的蒸馏模子,能够将大范围模子的材干搬动至更小、更高效的版块,在国产 GPU 上已毕高性能推理。摩尔线程基于自研全功能 GPU,通过开源与自研双引擎决议,快速已毕了对 DeepSeek 蒸馏模子的推理劳动部署,为用户和社区提供高质料劳动。
DeepSeek V3 和 R1 模子完成海光 DCU 适配并考究上线
2 月 4 日晚间,海光信息晓喻公司时刻团队告捷完成 DeepSeek V3 和 R1 模子与海光 DCU(深度揣摸单位)的适配,并考究上线。
DeepSeek V3 和 R1 模子接收了 Multi-Head Latent Attention(MLA)、DeepSeekMoE、多令牌策动、FP8 夹杂精度老师等翻新时刻,显耀升迁了模子的老师效率和推感性能。
DCU 是海光信息推出的高性能 GPGPU 架构 AI 加速卡,致力于为行业客户提供自主可控的全精度通用 AI 加速揣摸科罚决议。凭借超卓的算力性能和完备的软件生态,DCU 已在科教、金融、医疗、政务、智算中心等多个鸿沟已毕范围化应用。
跟着海光等专注于 GPU 研发的公司纷纷暗意已完成对 DeepSeek V3 的适配。从这一风光来看,DeepSeek 模子在业界简略正逐步得回较高的招供度与通用性。
那么,海光 DCU 的哪些硬件特点和架构想象使得它能够很好地支抓 DeepSeek V3 和 R1 模子的高效驱动?
有业内东说念主士暗意,海光 DCU 接收了 GPGPU 架构,从而保证在面对新式应用的时辰具备极好的兼容性与适配性;同期 DCU 配套的软件栈也经过了多年的积聚,相应软件生态老到丰富,在与新模子、应用适配的时辰具备完备的软件撑抓材干。以上共同保险了对于 DeepSeek V3/R1 为代表的新模子能够提供高效的兼容与撑抓材干。
值得正经的是,海光本次适配并莫得效到额外的中间层用具,依托现存 DCU 软件栈就不错已毕快速的撑抓。这主要收成于 DCU 的 GPGPU 架构通用性和本人对主流生态的精良兼容,从而大幅升迁了大模子等东说念主工智能应用的部署效率。
天数智芯相干 Gitee AI 考究上线 DeepSeek R1 模子劳动
2 月 4 日,天数智芯与 Gitee AI 相干发布讯息,在两边的高效伙同下,仅用时一天,便告捷完成了与 DeepSeek R1 的适配责任,况兼已考究上线多款大模子劳动,其中包括 DeepSeek R1-Distill-Qwen-1.5B、DeepSeek R1-Distill-Qwen-7B、DeepSeek R1-Distill-Qwen-14B 等。
Gitee AI 与沐曦联袂首发 DeepSeek R1 系列千问蒸馏模子
2 月 2 日,Gitee AI 考究推出了四个轻量级版块的 DeepSeek 模子,永别为
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B 和 DeepSeek-R1-Distill-Qwen-32B。尤为引东说念主注目的是,这些模子均部署在国产沐曦曦云 GPU 上。
上文曾提到,与全尺寸 DeepSeek 模子比拟,较小尺寸的 DeepSeek 蒸馏版块模子更符合企业里面实施部署,不错镌汰落地本钱。
同期,此次 Deepseek R1 模子 + 沐曦曦云 GPU + Gitee AI 平台,更是已毕了从芯片到平台,从算力到模子宇宙产研发。
随后在 2 月 5 日 Gitee AI 晓喻再次将 DeepSeek-V3 满血版(671B)上线到平台上(满血版现在仅供群众体验用途)。这亦然 Gitee AI 继全套千问蒸馏模子上线沐曦 GPU 卡之后的又一大的更新。
壁仞 AI 算力平台上线 DeepSeek R1 蒸馏模子推理劳动,支抓云霄体验
2 月 5 日,壁仞科技晓喻,凭借自主研发的壁砺系列 GPU 居品出色的兼容性能,只用数个小时,就完成对 DeepSeek R1 全系列蒸馏模子的支抓,涵盖从 1.5B 到 70B 各等第参数版块,包括 LLaMA 蒸馏模子和千问蒸馏模子。
现在,壁仞科技已构建起从底层硬件到模子劳动的好意思满 AI 时刻栈,可为中小企业和商议机构提供"芯片 + 模子"的端到端科罚决议。
云天励飞 DeepEdge10 已完成 DeepSeek R1 系列模子适配
2 月 5 日,云天励飞晓喻,其芯片团队完成 DeepEdge10 "算力积木"芯片平台与
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B 大模子的适配,不错寄托客户使用。DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B 大模子、DeepSeek V3/R1 671B MoE 大模子也在有序适配中。适配完成后,DeepEdge10 芯片平台将在端、边、云全面支抓 DeepSeek 全系列模子。
DeepEdge10 系列芯片是特意针对大模子期间打造的芯片,支抓包括 Transformer 模子、BEV 模子、CV 大模子、LLM 大模子等万般不同架构的主流模子;基于自主可控的先进国产工艺打造,接收特殊的"算力积木"架构,可天真悠闲不同场景对算力的需求,为大模子推理提供强劲能源。
基于太始 T100 加速卡 2 小时适配 DeepSeek-R1 系列模子
2 月 5 日,太始元碁 Tecorigin 暗意,基于通用的异构众核芯片架构和深厚的软件生态积聚,在太始 T100 加速卡上仅用 2 小时便完成 DeepSeek-R1 系列模子的适配责任,快速上线包括
DeepSeek-R1-Distill-Qwen-7B 在内的多款大模子劳动,为东说念主工智能应用的翻新发展提供了强有劲的时刻撑抓和自动可控的算力设施保险。
现在,太始元碁正积极联袂京算、是石科技、神威数智、龙芯中科等合作伙伴,全力打造 DeepSeek 系列模子的云霄推理平台。企业用户只需通过疏忽的操作,即可在云霄快速获取太始 T100 加速卡的强劲推理材干,纵欲已毕智能化转型,升迁坐蓐效率和翻新材干,以在浓烈的市集竞争中脱颖而出。同期,太始元碁也相干龙芯中科提供面向政务信创的国密云霄推理平台,以悠闲信创刚需。
燧原科技已毕宇宙各地智算中心 DeepSeek 的全量推理劳动部署
2 月 6 日,燧原科技晓喻完成对 DeepSeek 全量模子的高效适配,包括 DeepSeek-R1/V3 671B 原生模子、
DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B 等蒸馏模子。扫数适配进度中,燧原 AI 加速卡的揣摸材干得到充分应用,能够快速处理海量数据,同期其自由性为模子的抓续优化和大范围部署提供了坚实的基础。
现在,DeepSeek 的全量模子已在庆阳、无锡、成王人等智算中心完成了数万卡的快速部署,将为客户及合作伙伴提供高性能揣摸资源,升迁模子推理效率,同期镌汰使用门槛,大幅节俭硬件本钱。
昆仑芯全面适配 DeepSeek
2 月 6 日,昆仑芯科技晓喻,在 DeepSeek-V3/R1 上线不久,昆仑芯便率先完玉成版块模子适配,这其中包括 DeepSeek MoE 模子过甚蒸馏的 Llama/Qwen 等小范围 dense 模子。
昆仑芯 P800 不错较好的撑抓 DeepSeek 系列 MoE 模子大范围老师任务,全面支抓 MLA、多行家并行等特点,仅需 32 台即可支抓模子全参老师,高效完成模子抓续老师和微调。
P800 显存规格优于同类主流 GPU20%-50%,对 MoE 架构愈加友好,且率先支抓 8bit 推理,单机 8 卡即可驱动 671B 模子。正因如斯,昆仑芯相较同类居品愈加易于部署,同期可显耀镌汰驱动本钱,纵欲完成 DeepSeek-V3/R1 全版块推理任务。
龙芯处理器告捷驱动 DeepSeek 大模子
2 月 7 日,龙芯中科晓喻,日前,龙芯相干太始元碁等产业伙伴,仅用 2 小时即在太始 T100 加速卡上完成 DeepSeek-R1 系列模子的适配责任,快速上线包含
DeepSeek-R1-Distill-Qwen-7B 在内的多款大模子劳动。
此外,接收龙芯 3A6000 处理器的诚迈信创电脑和望龙电脑已已毕土产货部署 DeepSeek,部署后无需依赖云霄劳动器,幸免了因网络波动或劳动器过载导致的劳动中断,可高效完成文档处理、数据分析、实质创作等多项责任,显耀升迁责任效率。
DeepSeek 给国产芯片公司,带来新机会
DeepSeek 的横空出世宛如一颗进入安靖湖面的石子,在行业中激起层层涟漪,为国产芯片公司带来新的发展机会。
最初,跟着大模子应用的随地吐花,对芯片的需求也水长船高。岂论是模子老师时所需的强劲算力,如故推理历程中对低蔓延、高效率的追求,王人为国产芯片公司灵通了新的市集空间。以往,由于腾贵的大模子使用本钱,好多潜在的应用场景被羁系,如今 DeepSeek 冲突了这一僵局,国产芯片公司得以凭借本人居品在新兴的细分市集结崭露头角,悠闲不同业业对于大模子运算的芯片需求。
其次,DeepSeek 大模子与国产 AI 芯片适配的渐渐老到,是另一个重要机会。此前,国产 AI 芯片在发展历程中,常靠近与主流大模子适配度欠安的问题,这甩掉了其市集执行与应用拓展。而 DeepSeek 的出现转换了这一场面,它为国产 AI 芯片提供了一个更为契合的适配平台。
当国产 AI 芯片能够与 DeepSeek 大模子精良适配后,不错加速国产 AI 芯片在国内大模子老师端和推理端的应用,使得国产芯片在原土市集结得回更多推行机会,通过不断优化和纠正,升迁居品质能。
临了,跟着 DeepSeek 与国产芯片的适配开云kaiyun中国官方网站,将与其他国产软硬件厂商酿成协同效应,构建起好意思满的生态闭环,这将推动国产芯片在东说念主工智能鸿沟的应用,加速国产芯片生态体系的培育。