Sparse Distributed Memory

About 50 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › question
稀疏（sparse）在机器学习中很重要吗？为什么？ - 知乎
Dec 7, 2015 · 深度学习论文中经常看到"sparse"，所以应该是重要的概念，但一直不理解很困惑；刚才在quora上的回答感觉很有帮助，尝试总结以下： sparse 代表数据为0，sparse数据的存在让不为0 …
zhihu.com
https://www.zhihu.com › question
通俗理解，Sparse Attention是什么原理？ - 知乎
通俗解释 Sparse Attention 的原理：想象你在读一本长篇小说，如果每一页都要仔细读完全文才能理解剧情，效率会非常低。实际上，你会快速跳过无关段落，只聚焦关键章节和人物对话，这就是 Sparse …
zhihu.com
https://www.zhihu.com › tardis › zm › art
Sparse Transformer
Sparse Transformer 减轻计算量的方式通过让连接模式作用到上，从而减轻的复杂度。如式 (3)。对于第个时间片的输入，首先使用 Key 和 Value 的权值矩阵乘以输入特征，得到和。然后再将连接模 …
zhihu.com
https://www.zhihu.com › question
知乎 - 有问题，就会有答案
知乎 - 有问题，就会有答案
zhihu.com
https://www.zhihu.com › question
keras中的三种分类交叉熵分别是什么意思？ - 知乎
Dec 24, 2019 · categorical_crossentropy:计算预测值与真值的多类交叉熵 (输入值为二值矩阵,而不是向量)，注意使用该目标函数时，需要将标签转化为形如 (nb_samples, nb_classes) 的二值序列 …
zhihu.com
https://www.zhihu.com › question
什么是稀疏特征 (Sparse Features)? - 知乎
要回答什么是sparse feature，可能首先要理解什么是feature。一般在machine learning意义上，我们常说的feature，是一种对数据的表达。当然，要衡量一种feature是否是合适的表达，要根据数据，应 …
zhihu.com
https://www.zhihu.com › question
DeepSeek-V3.2-Exp 和 Qwen3-Next 哪个才是未来？ - 知乎
对于（1）来说，dynamic sparse attention就是一个比较promising来解的方向，代表工作包括不限于Native Sparse Attention（NSA），MOBA，以及DeepSeek-V3.2-Exp里面的Deepseek Sparse …
zhihu.com
https://www.zhihu.com › question
ACL 2025 有哪些论文值得关注？ - 知乎
Jul 31, 2025 · ACL 2025 值得盯紧的是长上下文高效化＋对齐可靠性，四篇最佳论文把这两条主线从理论到工程都打穿，GitHub 上已经能跑起来的代码比往年多出不少，趁热上手收益最大。一、大会主 …
zhihu.com
https://www.zhihu.com › question
Sparse matrix 作为深度学习输入在模型表现上会有影响吗不考虑模型 …
在深度学习中，使用稀疏矩阵（sparse matrix）作为输入确实会对模型的表现产生影响，即使不考虑模型的运行效率。这种影响可以从以下几个方面来理解： 1. 数据表示的丰富性：稀疏矩阵通常包含大量 …
zhihu.com
https://www.zhihu.com › question
如何看待Native Sparse Attention？ - 知乎
准确率上，sparse 的模型比 full 还要搞一些。这个我猜一点原因：（1）模型还不算大，NSA 和 full 还没遇到“瓶颈”，所以 full attention 还没摸到其上限，不能和 NSA 拉开差距；（2）sparse attention 本 …

Pagination
- 1
- 2
- 3
- Next