2月26日上午9点,DeepSeek履行了“开源周”的承诺,正式宣布了开源项目DeepGEMM,该消息顷刻间在技术领域引发了广泛关注。
DeepGEMM是一个专为简洁高效的FP8通用矩阵乘法(GEMM)设计的库,具备细粒度缩放功能,该功能在 DeepSeek-V3 模型中被首次提出。
通用矩阵乘法作为众多高性能计算任务的核心环节,其性能优化一直是大模型训练和推理过程中实现降本增效的关键。该库支持普通和混合专家分组的 GEMM,能够满足不同场景下的矩阵计算需求。
在技术实现上,DeepGEMM 采用 CUDA 编写,这使得它在安装过程中无需编译,通过使用轻量级的即时编译模块,即可在运行时编译所有内核。这种设计不仅简化了安装流程,还提高了库的灵活性和可扩展性。
DeepGEMM 在性能表现上十分出色,同时核心逻辑也很简洁,开发者使用简洁的代码即可实现更高效的矩阵计算。如此一来,大大降低了开发成本和计算资源的消耗。