
梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …
我会使用尽量少的数学符号描述 梯度, 着重于意义而非计算。一个直观的例子,在机器学习领域有个术语叫「梯度下降」,你可以想象在群山之中,某个山的半山腰有只小兔子打算使用梯度 …
机器学习 | 近端梯度下降法 (proximal gradient descent)
近端梯度下降法是众多梯度下降 (gradient descent) 方法中的一种,其英文名称为proximal gradident descent,其中,术语中的proximal一词比较耐人寻味,将proximal翻译成“近端”主要 …
温故知新——梯度下降(Gradient Descent) - 知乎
梯度下降(Gradient Descent)又称最速下降,是迭代法的一种,可以用于求解最小二乘法(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient …
梯度(gradient)到底是个什么东西?物理意义和数学意义分别是 …
这篇回答节选自我的专栏 《机器学习中的数学:微积分与最优化》,和大家一起谈谈方向导数和梯度。 欢迎关注我的知乎账号 @石溪 ,将持续发布机器学习数学基础及算法应用等方面的精彩 …
简解Css3 - linear-gradient - 知乎
# 概念CSS linear-gradient () 函数创建一个表示颜色线性渐变的 <image> 。 简单的说,元素只要用了linear-gradient,它等同于一张图片。
为什么edge浏览器背景总是从四周向中间变黑? - 知乎
Nov 17, 2023 · 参考微软社区的回答,该问题 没有一个永久的解决方法。 When you view the New Tab Page, Bing applies an overlay style with a radial gradient to the background image. I don't …
知乎盐选 | 5.1.2 深入了解 radial-gradient ()径向渐变
5.1.2 深入了解 radial-gradient ()径向渐变 径向渐变指的是从一个中心点向四周扩散的渐变效果,光的扩散、波的扩散等都有径向渐变的特性。
大模型训练时ZeRO-2、ZeRO-3能否和Pipeline并行相结合? - 知乎
行业来一般做法是zero3, tp/pp+zero1 用zero3类似存算分离(spark rdd), 前向/反向需要计算时去allgather weight。 因为weight、gradient、opt shard在同一张显卡上,gradient只需 …
优化中常出现的oracle应该怎么理解? - 知乎
我还专门问了我的导师,我的导师的原话是: Oracle means the function value feedback provider, thus ZO oracle means the black-box prediction system itself. 翻译过来就是,oracle意味着不同 …
L1正则和max函数的可导性? - 知乎
L1正则化 的梯度求解使用 sub-gradient 进行求解无法求导的部分。 别的部分的求导就是原来那个。 比如对于 ReLU函数:在z为0的时候,传统的梯度下降无法求解,用sub-gradient计算,可 …