
神经正切核 (ntk)的进展如何,好像热度不高了? - 知乎
我对神经正切核的理论进展了解不多,只是看过维基的程度,理论上的进展确实可能热度没那么高了,毕竟像NTK这样的大突破不是天天有。 但是在应用方面,我认为它的热度依然很高。目前很 …
RoPE外推优化——支持192K上下文长度
Sep 26, 2025 · Baichuan2-Turbo-192k 今天,我们要介绍的就是其背后的技术, 通过 dynamic ntk 等方法提升大模型的长文本理解、外推能力。 在上一篇文章中,我们详细介绍了旋转位置编码 RoPE, …
再论大模型位置编码及其外推性(万字长文)
Sep 23, 2025 · 图4-6 不同插值方法的效果(这里的scale是指位置插值中扩大的倍数k,alpha是指NTK中的lambda参数或者是公式(15)中的alpha参数) 从图中可以看出在 时,NTK可以在比较小的PPL …
目前世界上的传统汽车传感器巨头有哪些? - 知乎
目前汽车传感器主要可以分为两大类:1、传统MEMS传感器,按检测内容可以分为压力传感器、位置传感器、温度传感器、加速度传感器、角速度传感器、流量传感器、气体浓度传感器、液位传感器 …
基于Transformer的LLM的context length是由什么决定的? - 知乎
Jul 7, 2025 · Dynamic NTK Scaling: 一种更复杂但效果显著的 RoPE 缩放变体。 不仅仅是线性缩放频率,而是对 RoPE 中的旋转角频率 θ 作分层或非线性放大/压缩。 源于神经正切核 (Neural Tangent …
位置编码positional-encoding有哪些? - 知乎
这个进制转换的思想,实际上就对应着文章开头提到的NTK-aware scaled RoPE! (5)总结 直接外推的效果不大行; 内插如果不微调,效果也很差; NTK-RoPE不微调就取得了非平凡(但有所下降)的 …
深度学习理论之Neural Tangent Kernel第一讲:介绍和文献总结
Sep 13, 2023 · 基本介绍在神经网络中,neural tangent kernel (NTK) 是描述无限宽深度神经网络在梯度下降训练过程中演化的核。它最开始由Arthur Jacot, Franck Gabriel, 和Clément Hongler在2018年发 …
知乎
知乎
40系对比30系显卡,除了性能上的差异还有什么区别或新功能?
最近新进展是:NVIDIA和厂商们随卡附送的四8针转16针电源线,其实有两种版本,来自两家代工厂,分别叫Astron、NTK NTK的使用了一个弹簧触点,固定更加牢靠,也需要更大力气才能插紧。 Astron …
深度学习中有哪些从数学模型或相关理论出发, 且真正行之有效的文章?
从表达式子看,有一点和Neural Tangent Kernel (NTK)不同的是,有一个 1/N 的系数。 而在NTK理论中,系数是 (1/N)^½ 。 假设我们使用,squared loss,那么考虑stochastic gradient descent,参数更 …