23 lines
1.5 KiB
Markdown
23 lines
1.5 KiB
Markdown
# Backlog
|
||
|
||
## GPU stress test (H100)
|
||
|
||
**Статус:** отложено. В текущем ISO `gpu_burn` не включается и не запускается.
|
||
|
||
**Почему задача всё ещё в backlog:**
|
||
- `gpu_burn` остаётся тяжёлым и неудобным с точки зрения зависимостей
|
||
- хочется штатный lightweight stress tool без `libcublas.so` и без заметного раздувания ISO
|
||
- для H100 нужен предсказуемый offline-инструмент, который можно стабильно возить внутри ISO
|
||
|
||
**Желаемый следующий шаг:** написать минимальный stress tool на CUDA Driver API
|
||
- использует только `libcuda.so`, уже присутствующий в ISO
|
||
- выполняет простой compute / memory workload через `cuLaunchKernel`
|
||
- собирается отдельно на builder VM и кладётся в `iso/vendor/`
|
||
- в будущем может вызываться из `bee tui` как предпочтительный встроенный GPU SAT/stress path
|
||
|
||
**Отклонённые / проблемные варианты:**
|
||
- `gpu_burn` — нужен libcublas (~500MB)
|
||
- `nvbandwidth` — только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB)
|
||
- DCGM diag — правильный инструмент для H100 но ~100MB установка
|
||
- Download on demand — нужен libcublas, проблема та же
|