我发现我的想法的性能很差,嵌入维度很高。我认为这个问题与激活函数有关。你能帮我么? 我尝试用 arctan() 替换 tanh() 但效果仍然很差,有什么好的策略吗?
您可以使用多种类型的激活函数,激活函数的选择取决于您的目标任务。
在很多情况下,常用ReLU或Leaky ReLU函数。有关激活函数的更多详细信息和基准,您可以参考论文:深度学习中的激活函数:综合调查和基准。
要实现这些激活函数,您可以导航至 PyTorch nn 模块中的“非线性激活”部分。