据公开信息显示,在中国ai公司DeepSeek团队中,有三位工程师曾经在美国的英伟达、微软等巨头企业工作过。但是由于自身的原因,都在后来的发展中选择回国任职,加入了DeepSeek团队,并且成功开发出了V3、R1两款关键的大模型技术。
推动中国技术发展这三位工程师分别是潘梓正、邵智宏、赵成钢,其中潘梓正和赵成钢分别在英伟达总部以及中国分公司工作过,邵智宏则是有过在微软研究院任职的经历。
潘梓正的学术和职业生涯始于中国,他本科毕业于哈尔滨工业大学(威海)软件工程专业,后赴澳大利亚阿德莱德大学攻读计算机科学硕士学位,2021年在蒙纳士大学攻读博士。
2023年,他加入了英伟达工作,在ai算法组担任实习生。在实习期间,他主要研究深度神经网络的效率优化,包括模型部署、Transformer架构优化、注意力机制、推理加速和内存高效的训练。他的工作得到了英伟达的认可,最终获得了全职工作邀请。
![](http://image.uc.cn/s/wemedia/s/upload/2024/5c6bf848b96328e6cd4ea0df8c908351.png)
英伟达的工作虽然据相关人员透露压力很大,一星期工作7天以及晚上加班都是家常便饭,但是整体的收入很高。
据Payscale的数据显示,英伟达员工的平均年薪为142087美元。而英伟达员工的中位数总薪酬为231197美元。在公司的整体薪酬范围当中,英伟达员工的薪酬大多在227000美元到730000美元之间,平均薪酬为298000美元。
这个收入水平,不要说放在国内了,哪怕是放在美国的其他500强公司当中,都是属于相当高的资产收入了。
甚至英伟达公司创始人兼CEO的黄仁勋,他的个人资产已经超过了英特尔公司的市值,这一切都是建立在人工智能大爆发的背景下。
![](http://image.uc.cn/s/wemedia/s/upload/2024/9ab2b18452fce85ce03664055d6e3290.png)
虽然英伟达的高薪工作让很多技术人员眼馋,但是潘梓正在权衡利弊之后,他选择放弃英伟达公司提供的正式工作,回国加入了当时还未发展起来的DeepSeek公司,成为了该公司多模态团队的第四位工程师。
潘梓正的导师,同时也是英伟达高级研究员的禹之鼎对此进行了评价,他觉得潘梓正的做法让人震惊,并且给他留下了深刻印象,也让他对中国ai领域的发展产生了极大的关注度。
![](http://image.uc.cn/s/wemedia/s/upload/2024/d396788d572170169da1cb822a7a80e9.jpg)
能成为英伟达公司的正式员工,这本身就是对潘梓正个人实力的认可。
在加入了DeepSeek之后,潘梓正与团队的人员陆续开发了DeepSeek-VL2、DeepSeek-V3和DeepSeek-R1等多个关键的技术项目。
在DeepSeek-VL2项目中,他主导了多模态融合技术的研发,可以有效的提升视觉和语言任务的性能效果。
这是一种动态分块视觉编码策略,能够高效处理不同长宽比的高分辨率图像。这种策略通过将图像分割成多个小块,分别提取特征后再进行整合,从而在保持高分辨率图像细节的同时,显著降低了计算成本。
并且DeepSeek-VL2采用了基于MoE的语言模型架构,结合多头潜在注意力机制(MLA),将键值缓存压缩为潜在向量,从而实现高效推理和高吞吐量。MoE架构允许模型在推理时只激活部分参数,从而在保持高性能的同时,显著降低了计算资源的消耗。
![](http://image.uc.cn/s/wemedia/s/upload/2024/d59cc8a5a82327760862e1ab5930a14c.png)
DeepSeek-VL2使用了800B+规模的视觉-语言数据进行预训练,增强了模型的泛化能力。这种大规模数据训练策略使得模型在多种多模态任务中表现出色,尤其是在视觉问答(VQA)、光学字符识别(OCR)、文档理解等任务中
潘梓正的技术开发工作,不仅推动了DeepSeek的技术进步,还帮助中国公司在全球AI领域取得了显著成就。
美国哈佛大学教授艾利森认为,美国未能为潘梓正提供公平的发展机会,这是导致人才流失的重要因素。
![](http://image.uc.cn/s/wemedia/s/upload/2024/cfde90bc70772f5f586cf27f051b5c6b.png)
赵成钢曾经在英伟达的北京分公司有过8个月的实习期,主要负责高性能计算和深度学习框架的优化工作。在加入了DeepSeek之后,他利用曾经从英伟达公司学习来的经验,担任训练/推理基础架构工程师,负责对ai大模型进行优化工作。
赵成钢优化了DeepSeek的训练框架,通过引入pipeline parallelism、tensor parallelism和expert parallelism等技术,显著提高了模型训练的效率。这些技术的产出,使得DeepSeek能够在大规模数据集上高效地训练复杂的多模态模型。
![](http://image.uc.cn/s/wemedia/s/upload/2024/7993594c63dd20383f109dc8dbd84236.png)
他还开发了高效的推理引擎,使得DeepSeek的模型能够在单机单卡(如10GB、40GB、80GB GPU)上快速运行,这种优化对于实际应用中的低延迟需求至关重要。
而邵智宏在微软研究院主要负责自然语言处理(NLP)和深度学习领域,他参与了多个与对话系统、文本生成和强化学习相关的项目。
![](http://image.uc.cn/s/wemedia/s/upload/2024/3ef44a4d646a4851bceb4e2bcefc636e.jpg)
在加入了DeepSeek团队后,他成为了DeepSeek-Math项目的核心作者之一。
该项目提出了GRPO(Group Relative Policy Optimization)算法,这是一种强化学习算法的变体,通过放弃传统的critic模型,从群体得分中估算baseline,显著减少了训练资源的需求。GRPO算法不仅在DeepSeek-Math中取得了成功,还被其他顶尖模型(如阿里Qwen 2.5)采纳。
邵智宏也是DeepSeek-R1的核心工程师之一,DeepSeek-R1项目通过强化学习激励大模型的推理能力,进一步提升了模型在复杂任务中的表现。他在该项目中继续深化对强化学习算法的研究,探索如何通过优化算法提升模型的推理和决策能力。
美国的人才流失由于美国近年来移民政策的改变,这使得许多外国AI人才在获得博士学位后选择离开美国。
2022年,有大约77%的非美国AI技术工程师,在获得美国博士学位后选择留在美国,这一比例较2020年的86%有所下降。此外,最高法院还推翻了《切弗伦诉NRDC》案的裁决,这可能会在未来几年内对移民案件产生重大影响,进一步复杂化法律环境,导致处理延迟和积压。
再加上现在国际ai行业的大爆发,更加导致了相关产业对于高技术人才的渴望。
2023年,美国本土有600多万个与ai相关的工作岗位。预计到2034年,这个数据将会增加到710万。这种需求的快速增长使得AI人才在全球范围内更具吸引力,而不仅仅是美国。同时,美国大公司(如谷歌、微软等)对AI人才的激烈竞争也导致了人才的分散。
为了储备AI领域的技术人才,中国在多年前就已经针对于AI技术教育进行了大力度的支持。
在2017年,我们宣布预计到2030年阶段,让中国的AI技术成为世界前列水平。这一目标推动了中国在AI教育和人才培养方面的大量投资。2022年,中国教育部已批准440所大学开设AI本科专业。此外,中国还通过国家工程实验室等项目培养了数千名AI专家。
![](http://image.uc.cn/s/wemedia/s/upload/2024/3f1999ba2745f4e089e86a4cd8b04213.jpg)
尽管目前的美国企业依然是全球AI技术的领导者,但其市场份额正在下降。2022年,中国几乎占据了全球顶尖AI研究人员的近一半(47%),其中有28%的科研人员选择在中国工作。相比之下,美国仅占全球顶尖AI研究人员的18%。
除此之外,中国的科技企业,例如阿里巴巴、腾讯、字节跳动、华为以及新入局的DeepSeek等企业,都在大力度推动AI技术的发展。通过提供高于行业平均水平的薪资待遇、灵活的工作安排等方法,来吸纳更多的年轻人加入到AI技术的开发当中。
不是说团队无一人出过国吗?
一个AI的脸像!
小心谍中谍