1.3 KiB
1.3 KiB
Backlog
GPU stress test (H100)
Задача: добавить GPU burn/stress тест в bee-tui без существенного увеличения ISO.
Контекст:
gpu_burn(wilicc/gpu-burn) не подходит — требуетlibcublas.so(~500MB), что раздует ISO кратноlibcuda.soуже есть в ISO (из NVIDIA .run installer)
Выбранный подход: написать минимальный стресс-тул на CUDA Driver API
- Использует только
libcuda.so(уже в ISO) — никаких новых зависимостей - Реализует матричное умножение или memory bandwidth через
cuLaunchKernel - Бинарь ~100KB, компилируется через
nvccна builder VM, кладётся вiso/vendor/ - bee-tui вызывает его вместо
gpu_burn
Отклонённые варианты:
gpu_burn— нужен libcublas (~500MB)nvbandwidth— только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB)- DCGM diag — правильный инструмент для H100 но ~100MB установка
- Download on demand — нужен libcublas, проблема та же