L1 DNN Computations

1.Mental Model of a DNN Computer

1.1内存瓶颈

运算1完成的时候，运算2所需要的数据并没有全部从memory中搬运过来，因此运算2需要stall。
Pasted image 20240827191817.png

1.2计算瓶颈

运算1还没有完成的时候，运算2需要的数据已经全部搬运完了。这种情况我们称之为运算瓶颈。
Pasted image 20240827194317.png

1.3小问题

Pasted image 20240827194731.png
这个问题选4D
实际上是因为DNN的参数和激活值，数据量通常非常庞大，片外存储器实际上需要存储它们的大部分。这一部分就非常多了，片上存储器实际上是用来存储一些适合较小规模的数据。用来提高计算效率的，这都是一些中间结果。如果你片上很少的话，只要你片外够，实际上都是可以通过多搬运几次来解决的。但是你片外都存储不了，那就没办法了。不知道大家有没有用过CUDA编程，当放不下网络模型的时候，会提示cuda out of memory。这一部分指的是显存，通常显存指的是片外的DDR。

1.4不同的硬件

Pasted image 20240827195441.png

2.DNN Computations: The forward and backward pass

2.1反向传播

还真别说，这个ppt做得很形象，很适合拿出来给别人讲解
Pasted image 20240827195700.png
传播之后的更新参数
Pasted image 20240827195840.png

2.2DNN Model Checkpointing

这是一个有意思的问题
Pasted image 20240827200505.png
actications就是中间数，正常来说我们应该保留，因为我们得到的那个导函数链，需要每个位置的数值带入才能计算，但是保留就会占用空间。

当我们反向传播到hidden layer1的时候，此时没有结果，怎么办？重新运算即可。采用该方法显然需要更多的运算，但我们少保存了一些中间结果。因为这一部分数据，实际上最终是不用的，只是用来做中间运算的。我们需要的时候运算出来，然后直接再传播到input layer。通过该方法，减少了1/3的前向传播需要的存储容量。

3.Common DNN Layers

Pasted image 20240827200847.png

42页的这个有点看不明白，为什么第二种卷积少了c倍计算量？？
Pasted image 20240827213153.png
Full connect 批处理的方式
彻底蒙了，这是干啥呢？？？？？是把中间数值分批次方便并行么？？
Pasted image 20240827213419.png
Pasted image 20240827213431.png