Skip to content

Commit

Permalink
[Doc]: optimize cnn architecture's summary
Browse files Browse the repository at this point in the history
  • Loading branch information
HarleysZhang committed Nov 28, 2022
1 parent b78022d commit 55b70f7
Showing 1 changed file with 1 addition and 1 deletion.
Original file line number Diff line number Diff line change
Expand Up @@ -108,7 +108,7 @@
2. 建议对于轻量级网络设计应该考虑直接 `metric`(例如速度 `speed`),而不是间接 `metric`(例如 `FLOPs`)。
3. **`FLOPs` 低不等于 `latency` 低,尤其是在有加速功能的硬体 (`GPU``DSP``TPU`)上不成立,得结合具硬件架构具体分析**
4. 不同网络架构的 `CNN` 模型,即使是 `FLOPs` 相同,但其 `MAC` 也可能差异巨大。
5. 大部分时候,对于 `GPU` 芯片,`Depthwise` 卷积算子实际上是使用了大量的低 `FLOPs`、高数据读写量的操作。因为这些具有高数据读写量的操作,再加上**多数时候 `GPU` 芯片算力的瓶颈在于访存带宽**,使得模型把大量的时间浪费在了从显存中读写数据上,导致 `GPU` 的算力没有得到“充分利用”。结论来源知乎文章-[FLOPs与模型推理速度](https://zhuanlan.zhihu.com/p/122943688)
5. **`Depthwise` 卷积操作对于流水线型 `CPU``ARM` 等移动设备更友好,对于并行计算能力强的 `GPU` 和具有加速功能的硬件(专用硬件设计-NPU 芯片)上比较没有效率**`Depthwise` 卷积算子实际上是使用了大量的低 `FLOPs`、高数据读写量的操作。因为这些具有高数据读写量的操作,再加上**多数时候 `GPU` 芯片算力的瓶颈在于访存带宽**,使得模型把大量的时间浪费在了从显存中读写数据上,从而导致 `GPU` 的算力没有得到“充分利用”。结论来源知乎文章-[FLOPs与模型推理速度](https://zhuanlan.zhihu.com/p/122943688)和论文 [G-GhostNet](https://arxiv.org/pdf/2201.03297.pdf)

### 一些建议

Expand Down

0 comments on commit 55b70f7

Please sign in to comment.