About 50 results
Open links in new tab
  1. 神经正切核 (ntk)的进展如何,好像热度不高了? - 知乎

    我对神经正切核的理论进展了解不多,只是看过维基的程度,理论上的进展确实可能热度没那么高了,毕竟像NTK这样的大突破不是天天有。 但是在应用方面,我认为它的热度依然很高。目前很 …

  2. RoPE外推优化——支持192K上下文长度

    Sep 26, 2025 · Baichuan2-Turbo-192k 今天,我们要介绍的就是其背后的技术, 通过 dynamic ntk 等方法提升大模型的长文本理解、外推能力。 在上一篇文章中,我们详细介绍了旋转位置编码 RoPE, …

  3. 再论大模型位置编码及其外推性(万字长文)

    图4-6 不同插值方法的效果(这里的scale是指位置插值中扩大的倍数k,alpha是指NTK中的lambda参数或者是公式(15)中的alpha参数) 从图中可以看出在 时,NTK可以在比较小的PPL情况下,外推8k …

  4. 神经正切核 (ntk)的进展如何,好像热度不高了? - 知乎

    我对神经正切核的理论进展了解不多,只是看过维基的程度,理论上的进展确实可能热度没那么高了,毕竟像NTK这样的大突破不是天天有。 但是在应用方面,我认为它的热度依然很高。目前很 …

  5. 深度学习理论之Neural Tangent Kernel第一讲:介绍和文献总结

    基本介绍在神经网络中,neural tangent kernel (NTK) 是描述无限宽深度神经网络在梯度下降训练过程中演化的核。它最开始由Arthur Jacot, Franck Gabriel, 和Clément Hongler在2018年发表的一篇论文中 …

  6. 深度学习中有哪些从数学模型或相关理论出发, 且真正行之有效的文章?

    从表达式子看,有一点和Neural Tangent Kernel (NTK)不同的是,有一个 1/N 的系数。 而在NTK理论中,系数是 (1/N)^½ 。 假设我们使用,squared loss,那么考虑stochastic gradient descent,参数更 …

  7. 截止 2022 年,联邦学习有哪些成熟的框架或惊艳的应用? - 知乎

    FL-NTK: A Neural Tangent Kernel-based Framework for Federated Learning Convergence Analysis (ICML 2021) Federated Multi-armed Bandits with Personalization (AISTATS 2021) Federated …

  8. 300NTK-213女主是谁啊? - 知乎

    Aug 5, 2022 · 300NTK-213女主是谁啊 京ICP证110745号 · 京ICP备13052560号-1 · 京公网安备 11010802020088 号 · 互联网新闻信息服务许可证:11220250001 · 京网文 [2025]0422-132 号 · 药品 …

  9. language model的上下文长度外推为什么是很困难的? - 知乎

    具体来说,YaRN 是基于 NTK-aware 方法的进一步拓展,通过结合温度缩放和 NTK-by-parts 插值,来提升长文本外推能力。 即 YaRN = NTK-aware + NTK-by-parts + Dynamic NTK。 然后我们看一下, …

  10. 深度学习理论方向的综述性论文有哪些? - 知乎

    深度学习理论方向的综述性论文有哪些? 指以数理方法来研究深度学习原理,或者对相关现象进行动力学解释,子研究方向暂时只能想到NTK、Mean Field、Feature Learning相关… 显示全部 关注者 27 被 …