diff --git a/bible-local/backlog.md b/bible-local/backlog.md new file mode 100644 index 0000000..99e6ea5 --- /dev/null +++ b/bible-local/backlog.md @@ -0,0 +1,21 @@ +# Backlog + +## GPU stress test (H100) + +**Задача:** добавить GPU burn/stress тест в bee-tui без существенного увеличения ISO. + +**Контекст:** +- `gpu_burn` (wilicc/gpu-burn) не подходит — требует `libcublas.so` (~500MB), что раздует ISO кратно +- `libcuda.so` уже есть в ISO (из NVIDIA .run installer) + +**Выбранный подход:** написать минимальный стресс-тул на CUDA Driver API +- Использует только `libcuda.so` (уже в ISO) — никаких новых зависимостей +- Реализует матричное умножение или memory bandwidth через `cuLaunchKernel` +- Бинарь ~100KB, компилируется через `nvcc` на builder VM, кладётся в `iso/vendor/` +- bee-tui вызывает его вместо `gpu_burn` + +**Отклонённые варианты:** +- `gpu_burn` — нужен libcublas (~500MB) +- `nvbandwidth` — только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB) +- DCGM diag — правильный инструмент для H100 но ~100MB установка +- Download on demand — нужен libcublas, проблема та же