网站地图官方微信:
网站首页 石西乡 李口镇 赵官镇 热加乡 孔隆乡 寨科乡

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | docker有哪些有趣的用途? |

    引言平时工作或生活中,我们偶尔会用到一些小工具,比如文本格式...

    查看详情>>
  • | 为什么面对 Adobe 的版权要求下,vposy 大神还能从容不迫? |

  • | 为什么有的女生喜欢穿紧身牛仔裤? |

  • | 有一个***约你出去,你会去吗? |

  • | 如何看待 Mac mini M4 支持可更换 SSD? |

  • | 如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑? |

  • | 多个充电宝或电芯品牌的 3C 认证证书被暂停,涉及罗马仕、安克、绿联、倍思、安普瑞斯等,发生了什么? |

  • | 微软暂停专用 Xbox 掌机开发,转而优化 Windows 11 的掌机游戏体验,这背后原因有哪些? |

  • | 同时使用多个显示器能提高工作效率吗? |

  • | 程序员如何用好 Cursor 工具? |

  • | 不用CDN就没事,用阿里云CDN就被攻击刷流量,阿里云表示证明不了就要用户买单,如何看到这种行为? |

  • 这不是在吹牛!中国科学家攻克了用“空气做馒头”的技术!202...

    2025-06-22
  • 本文参考LLaDA:Large Language Diffu...

    2025-06-22
  • 最近在想,女生所谓的“完美身材”到底是什么。 我以前以...

    2025-06-22
  • [***: DeepSeek: 我有必要放R2吗?] 来个速...

    2025-06-22

关注我们

添加微信好友,关注最新动态