1.5 KiB
1.5 KiB
Backlog
GPU stress test (H100)
Статус: отложено. В текущем ISO gpu_burn не включается и не запускается.
Почему задача всё ещё в backlog:
gpu_burnостаётся тяжёлым и неудобным с точки зрения зависимостей- хочется штатный lightweight stress tool без
libcublas.soи без заметного раздувания ISO - для H100 нужен предсказуемый offline-инструмент, который можно стабильно возить внутри ISO
Желаемый следующий шаг: написать минимальный stress tool на CUDA Driver API
- использует только
libcuda.so, уже присутствующий в ISO - выполняет простой compute / memory workload через
cuLaunchKernel - собирается отдельно на builder VM и кладётся в
iso/vendor/ - в будущем может вызываться из
bee tuiкак предпочтительный встроенный GPU SAT/stress path
Отклонённые / проблемные варианты:
gpu_burn— нужен libcublas (~500MB)nvbandwidth— только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB)- DCGM diag — правильный инструмент для H100 но ~100MB установка
- Download on demand — нужен libcublas, проблема та же