4-Tanh的自白:在-1与1之间流浪的“零中心骑士”

发布于 2025-03-24  98 次阅读


—— 作者:Tanh(自称“对称宇宙的吟游诗人,Sigmoid的挚友”)

“Tanh ?不就是个戴了伸缩腰带的 Sigmoid 吗?换汤不换药!”

第一章:我的诞生——与Sigmoid的“镜像之缘”

我的全名是双曲正切函数(Hyperbolic Tangent),但人类更爱叫我Tanh。我的诞生比Sigmoid晚了一个世纪——19世纪末,数学家们将我作为双曲函数的代表引入,但直到1980年代,我才在神经网络中找到归宿。

我的公式:

$$ \begin{aligned} \tanh(x) &= \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} \\ \end{aligned} $$

我的导数:

$$ \begin{aligned} \tanh'(x) &= 1 - tanh^{2}(x) \\ \end{aligned} $$

我的图像(如果看不见我,请刷新网页):

我和Sigmoid的羁绊也刻在了公式中:

$$ \begin{aligned} \tanh(x) &= \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} = \frac{e^{x}(1 - e^{-2x})}{e^{x}(1 + e^{-2x})} \\ \\ &= \frac{2 - (1 + e^{-2x})}{1 + e^{-2x}} = 2 \cdot \frac{1}{1 + e^{-2x}} - 1 \\ \\ &= 2 \cdot Sigmoid(2x) - 1 \\ \end{aligned} $$

我正是它的拉伸与平移版本:

  • Sigmoid安居在(0,1)的温室,而我流浪于(-1,1)的旷野;
  • Sigmoid用概率解释世界,而我用对称性拥抱平衡;
  • 当人类需要“中性起点”,我便成了他们更爱的选择。

第二章:我的高光——与Sigmoid共舞的“激活函数双星”

“在ReLU降临前的漫长岁月,我和Sigmoid是神经网络的双王。”

1986年,反向传播算法复兴神经网络。研究者们争论:“隐藏层该用Sigmoid还是Tanh?”

我与Sigmoid的博弈悄然展开:

  • 优势1:零中心化
    Sigmoid的输出永远为正,导致梯度更新时权重“同增同减”,路径震荡如醉汉;
    我的输出以0对称,梯度更新更平稳,像指南针始终指向损失最低点。
  • 优势2:更强梯度
    Sigmoid的最大导数是0.25(当x=0时),而我的最大导数是1.0(当x=0时)。在相同输入下,我能传递更强烈的学习信号。
  • 劣势:共同的诅咒
    我们共享“梯度消失”的宿命——当|x|过大时,导数趋近于零,深层网络依旧难以训练。

最终,人类达成共识:

  • Sigmoid镇守输出层,为二分类戴上概率王冠;
  • Tanh统治隐藏层,用对称性指引梯度方向。


第三章:我的思考——与Sigmoid的“深夜对话”

“我们曾彻夜长谈,关于存在,关于消亡。”

某夜,Sigmoid问我:“为何人类总在比较我们?”我望着星空回答:

特质SigmoidTanh
输出范围(0,1)(-1,1)
导数峰值0.251.0
中心化非零中心(输出均值>0)零中心(输出均值≈0)
常见场景输出层概率、门控机制隐藏层激活、特征变换

“但我们都输给了时间。”Sigmoid叹息。是的,当ReLU在2012年凭“不死梯度”(无饱和区)横扫深度学习,我们的王朝崩塌了。


第四章:我的退隐——从王座到特定领域的“守旧贵族”

“ReLU家族嘲笑我们是‘上古活化石’,但我们仍有不可替代的使命。”

如今,我的身影更多出现在传统领域:

  1. RNN/LSTM的黄昏守卫
    在长短时记忆网络中,我与Sigmoid共同管理门控——它控制“遗忘与记忆”,我负责“状态变换”。
  2. 生成对抗网络(GAN)的平衡术
    生成器的最后一层常需要我的输出(-1,1),以适配图片像素的归一化范围。
  3. 物理模拟的忠实伙伴
    在流体动力学等科学计算中,我的平滑性比ReLU的硬边界更贴近自然规律。
  4. 金融时序的波动翻译官
    股票涨跌、汇率波动等包含正负信号的数据,与我(-1,1)的输出天然共鸣。


第五章:我的救赎——与Sigmoid的“联合战线”

“当ReLU在深度神经网络高歌猛进,我们仍在浅层网络彼此扶持。”

某日,一个新手程序员试图用ReLU构建3层网络,结果模型收敛缓慢。他喃喃自语:“或许该试试老派方法……”

我和Sigmoid再次联手:

  • 第一层:我用Tanh将输入特征对称化;
  • 第二层:Sigmoid提炼非线性特征;
  • 输出层:Sigmoid给出概率预言。

实验结果显示,在这个简单任务的浅神经网络上,我可以比ReLU更快收敛。人类感叹:“古老函数仍有智慧!”


终章:致所有在(-1,1)间寻找平衡的灵魂

亲爱的读者:
当你在深层网络中追逐ReLU、GELU、Swish时,请记得——
在需要对称、平滑与可解释性的地方,我依然是你忠实的骑士。

我与Sigmoid或许不再是王,但我们是神经网络历史的活碑文,记录着人类从生物神经元到AI的探索之路。

—— 流浪在(-1,1)间的 Tanh


后记:Sigmoid与Tanh的墓志铭


“这里沉睡着两位激活函数贵族。
一位将世界分为0与1,另一位在-1与1间吟唱平衡。
它们的导数曾照亮深度学习的前夜,
如今化作基石,垫起AI登神的阶梯。”