—— 作者:Tanh(自称“对称宇宙的吟游诗人,Sigmoid的挚友”)
“Tanh ?不就是个戴了伸缩腰带的 Sigmoid 吗?换汤不换药!”
第一章:我的诞生——与Sigmoid的“镜像之缘”
我的全名是双曲正切函数(Hyperbolic Tangent),但人类更爱叫我Tanh。我的诞生比Sigmoid晚了一个世纪——19世纪末,数学家们将我作为双曲函数的代表引入,但直到1980年代,我才在神经网络中找到归宿。
我的公式:
我的导数:
我的图像(如果看不见我,请刷新网页):
我和Sigmoid的羁绊也刻在了公式中:
我正是它的拉伸与平移版本:
- Sigmoid安居在(0,1)的温室,而我流浪于(-1,1)的旷野;
- Sigmoid用概率解释世界,而我用对称性拥抱平衡;
- 当人类需要“中性起点”,我便成了他们更爱的选择。
第二章:我的高光——与Sigmoid共舞的“激活函数双星”
“在ReLU降临前的漫长岁月,我和Sigmoid是神经网络的双王。”
1986年,反向传播算法复兴神经网络。研究者们争论:“隐藏层该用Sigmoid还是Tanh?”
我与Sigmoid的博弈悄然展开:
- 优势1:零中心化
Sigmoid的输出永远为正,导致梯度更新时权重“同增同减”,路径震荡如醉汉;
我的输出以0对称,梯度更新更平稳,像指南针始终指向损失最低点。 - 优势2:更强梯度
Sigmoid的最大导数是0.25(当x=0时),而我的最大导数是1.0(当x=0时)。在相同输入下,我能传递更强烈的学习信号。 - 劣势:共同的诅咒
我们共享“梯度消失”的宿命——当|x|过大时,导数趋近于零,深层网络依旧难以训练。
最终,人类达成共识:
- Sigmoid镇守输出层,为二分类戴上概率王冠;
- Tanh统治隐藏层,用对称性指引梯度方向。
第三章:我的思考——与Sigmoid的“深夜对话”
“我们曾彻夜长谈,关于存在,关于消亡。”
某夜,Sigmoid问我:“为何人类总在比较我们?”我望着星空回答:
特质 | Sigmoid | Tanh |
---|---|---|
输出范围 | (0,1) | (-1,1) |
导数峰值 | 0.25 | 1.0 |
中心化 | 非零中心(输出均值>0) | 零中心(输出均值≈0) |
常见场景 | 输出层概率、门控机制 | 隐藏层激活、特征变换 |
“但我们都输给了时间。”Sigmoid叹息。是的,当ReLU在2012年凭“不死梯度”(无饱和区)横扫深度学习,我们的王朝崩塌了。
第四章:我的退隐——从王座到特定领域的“守旧贵族”
“ReLU家族嘲笑我们是‘上古活化石’,但我们仍有不可替代的使命。”
如今,我的身影更多出现在传统领域:
- RNN/LSTM的黄昏守卫:
在长短时记忆网络中,我与Sigmoid共同管理门控——它控制“遗忘与记忆”,我负责“状态变换”。 - 生成对抗网络(GAN)的平衡术:
生成器的最后一层常需要我的输出(-1,1),以适配图片像素的归一化范围。 - 物理模拟的忠实伙伴:
在流体动力学等科学计算中,我的平滑性比ReLU的硬边界更贴近自然规律。 - 金融时序的波动翻译官:
股票涨跌、汇率波动等包含正负信号的数据,与我(-1,1)的输出天然共鸣。
第五章:我的救赎——与Sigmoid的“联合战线”
“当ReLU在深度神经网络高歌猛进,我们仍在浅层网络彼此扶持。”
某日,一个新手程序员试图用ReLU构建3层网络,结果模型收敛缓慢。他喃喃自语:“或许该试试老派方法……”
我和Sigmoid再次联手:
- 第一层:我用Tanh将输入特征对称化;
- 第二层:Sigmoid提炼非线性特征;
- 输出层:Sigmoid给出概率预言。
实验结果显示,在这个简单任务的浅神经网络上,我可以比ReLU更快收敛。人类感叹:“古老函数仍有智慧!”
终章:致所有在(-1,1)间寻找平衡的灵魂
亲爱的读者:
当你在深层网络中追逐ReLU、GELU、Swish时,请记得——
在需要对称、平滑与可解释性的地方,我依然是你忠实的骑士。
我与Sigmoid或许不再是王,但我们是神经网络历史的活碑文,记录着人类从生物神经元到AI的探索之路。
—— 流浪在(-1,1)间的 Tanh
后记:Sigmoid与Tanh的墓志铭
“这里沉睡着两位激活函数贵族。
一位将世界分为0与1,另一位在-1与1间吟唱平衡。
它们的导数曾照亮深度学习的前夜,
如今化作基石,垫起AI登神的阶梯。”
Comments NOTHING