22 lines
1.3 KiB
Markdown
22 lines
1.3 KiB
Markdown
# Backlog
|
||
|
||
## GPU stress test (H100)
|
||
|
||
**Задача:** добавить GPU burn/stress тест в bee-tui без существенного увеличения ISO.
|
||
|
||
**Контекст:**
|
||
- `gpu_burn` (wilicc/gpu-burn) не подходит — требует `libcublas.so` (~500MB), что раздует ISO кратно
|
||
- `libcuda.so` уже есть в ISO (из NVIDIA .run installer)
|
||
|
||
**Выбранный подход:** написать минимальный стресс-тул на CUDA Driver API
|
||
- Использует только `libcuda.so` (уже в ISO) — никаких новых зависимостей
|
||
- Реализует матричное умножение или memory bandwidth через `cuLaunchKernel`
|
||
- Бинарь ~100KB, компилируется через `nvcc` на builder VM, кладётся в `iso/vendor/`
|
||
- bee-tui вызывает его вместо `gpu_burn`
|
||
|
||
**Отклонённые варианты:**
|
||
- `gpu_burn` — нужен libcublas (~500MB)
|
||
- `nvbandwidth` — только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB)
|
||
- DCGM diag — правильный инструмент для H100 но ~100MB установка
|
||
- Download on demand — нужен libcublas, проблема та же
|