相关文章
计算机网络note——P1~P11
现代人类交换数据的网络中枢 1、几种网络分层结构
应用层应用层应用层表示层会话层运输层运输层TCP/UDP运输层网络层网际层IP网络层数据链路层网络接口层数据链路层物理层物理层OSI七层协议体系结构TCP/IP四层协议体系结构五层协议体系结构
2、分层的理解
某一层,…
建站知识
2025/1/4 22:39:57
P11 PyTorch Momentum
参考:
关于梯度下降与Momentum通俗易懂的解释_ssswill的博客-CSDN博客_梯度 momentum 前言: P9讲梯度的时候,讲到过这种算法的梯度更新方法
这边重点讲解一下原理 Momentum算法又叫做冲量算法,其迭代更新公式如下: 实…
建站知识
2024/12/25 21:57:37
P11机器学习--李宏毅笔记(Transformer Encoder)
目录
Encoder
residual connection
Layer normolization
Fully Connect network
Encoder架构
改进 Transformer也是seq2seq模型的一种,seq2seq模型有着广泛的运用,例如机器翻译,语音辨识,其实大多数问题都能转换成QA&am…
建站知识
2024/11/28 3:22:25
P11-Image 图像
P11-Image 图像
import matplotlib.pyplot as plt
import numpy as np# image data
a np.array([0.313660827978, 0.365348418405, 0.423733120134,0.365348418405, 0.439599930621, 0.525083754405,0.423733120134, 0.525083754405, 0.651536351379]).reshape(3,3)# imshow …
建站知识
2025/1/8 7:13:07
C语言程序设计学习笔记:P11-结构类型
本系列文章为浙江大学翁恺C语言程序设计学习笔记,前面的系列文章链接如下: C语言程序设计学习笔记:P1-程序设计与C语言 C语言程序设计学习笔记:P2-计算 C语言程序设计学习笔记:P3-判断 C语言程序设计学习笔记ÿ…
建站知识
2024/11/30 0:51:53
P11机器学习--李宏毅笔记(Transformer Decoder)Testing部分
目录 大概运作模式 Encoder与Decoder对比
那为什么要用masked Self-attention呢
怎么让输出停下来
AT vs NAT
cross-attention
Decoder接受的输入 大概运作模式
将Encoder的输出丢入到Deconder中,每一个输出会有一个distribution对应概率表,其中得…
建站知识
2024/11/30 23:32:04