玩酷网

首页

deephub

VisionTransformer中的图像块嵌入详解：线性投影和二维卷积的数学原理与代码实现

Transformer 架构因其强大的通用性而备受瞩目，它能够处理文本、图像或任何类型的数据及其组合。其核心的“Atte

2025-02-20 10:52
STAR:利用时空注意力机制和动态频率损失的视频超分辨率增强框架

STAR (Spatial-Temporal Augmentation with Text-to-Video Model

2025-02-19 10:13
DeepMind发布Matryoshka（套娃）量化：利用嵌套表示实现多精度LLM的低比特深度学习

本文将介绍 Google DeepMind 提出的 Matryoshka 量化技术，该技术通过从单个大型语言模型 (LL

2025-02-18 10:29
MOIRAI-MOE:基于混合专家系统的大规模时间序列预测模型

作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练

2025-02-17 10:37
知识蒸馏方法探究：GoogleDistillingStep-by-Step论文深度分析

大型语言模型 (Large Language Models, LLMs) 的发展日新月异。从最初的简单对话系统，到如今能

2025-02-16 12:12
大语言模型的解码策略与关键优化总结

本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用

2025-02-15 10:45
DeepSeek背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language M

2025-02-14 10:11
基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现

当前的大型语言模型在处理长序列文本时面临挑战。主要的瓶颈在于注意力机制，它将文本处理为单词（或 tokens）序列。注意

2025-02-13 11:54
近端策略优化(PPO)算法的理论基础与PyTorch代码详解

近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法，在深度

2025-02-12 15:11
CoAT:基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架

研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法，该方法通过整

2025-02-11 12:19
用傅里叶变换解码时间序列：从频域视角解析季节性模式

在众多时间序列模型中，SARIMA（seasonal autoregressive integrated moving

2025-02-10 09:53
DeepSeek×时间序列：DeepSeek-TS，基于状态空间增强MLA与GRPO的时序预测新框架

本文介绍 DeepSeek-TS，该框架受到 DeepSeek 中高效的多头潜在注意力（MLA）和群组相对策略优化（GR

2025-02-08 10:35
SRMT：一种融合共享记忆与稀疏注意力的多智能体强化学习框架

在人工智能(AI)和强化学习(RL)领域的发展进程中，长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回

2025-02-07 09:51
EvalPlanner：基于“计划-执行”双阶段的大语言模型评估框架

大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时，需要系统地捕捉评估过程中的

2025-02-06 10:38
DeepSeek技术报告解析：为什么DeepSeek-R1可以用低成本训练出高效的模型

DeepSeek-R1 通过创新的训练策略实现了显著的成本降低，同时保持了卓越的模型性能。本文将详细分析其核心训练方法。

2025-02-05 09:52
数据降维技术研究：Karhunen-Loève展开与快速傅里叶变换的理论基础及应用

在现代科学计算和数据分析领域，数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具：Ka

2025-02-04 20:41
PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络

神经常微分方程（Neural ODEs）是深度学习领域的创新性模型架构，它将神经网络的离散变换扩展为连续时间动力系统。与

2025-02-03 09:48
DeepSeek背后的技术基石：DeepSeekMoE基于专家混合系统的大规模语言模型架构

DeepSeekMoE是一种创新的大规模语言模型架构，通过整合专家混合系统(Mixture of Experts, Mo

2025-02-02 10:24
哪些特征导致过拟合？ParShap定位导致模型泛化能力下降的关键特征

机器学习的核心目标是在未见过的新数据上实现准确预测。当模型在训练数据上表现良好，但在测试数据上表现不佳时，即出现“过拟合

2025-02-01 10:29
PythonGIL（全局解释器锁）机制对多线程性能影响的深度分析

在Python开发领域，GIL（Global Interpreter Lock）一直是一个广受关注的技术话题。在3.13

2025-01-31 10:41

deephub

签名：提供专业的人工智能知识，包括CV NLP 数据挖掘等