From 240c33f6a1d63a59afde78c335d87002e33461b3 Mon Sep 17 00:00:00 2001 From: Mikhail Chusavitin Date: Sat, 7 Mar 2026 09:45:51 +0300 Subject: [PATCH] Add backlog with GPU stress test task Co-Authored-By: Claude Sonnet 4.6 --- bible-local/backlog.md | 21 +++++++++++++++++++++ 1 file changed, 21 insertions(+) create mode 100644 bible-local/backlog.md diff --git a/bible-local/backlog.md b/bible-local/backlog.md new file mode 100644 index 0000000..99e6ea5 --- /dev/null +++ b/bible-local/backlog.md @@ -0,0 +1,21 @@ +# Backlog + +## GPU stress test (H100) + +**Задача:** добавить GPU burn/stress тест в bee-tui без существенного увеличения ISO. + +**Контекст:** +- `gpu_burn` (wilicc/gpu-burn) не подходит — требует `libcublas.so` (~500MB), что раздует ISO кратно +- `libcuda.so` уже есть в ISO (из NVIDIA .run installer) + +**Выбранный подход:** написать минимальный стресс-тул на CUDA Driver API +- Использует только `libcuda.so` (уже в ISO) — никаких новых зависимостей +- Реализует матричное умножение или memory bandwidth через `cuLaunchKernel` +- Бинарь ~100KB, компилируется через `nvcc` на builder VM, кладётся в `iso/vendor/` +- bee-tui вызывает его вместо `gpu_burn` + +**Отклонённые варианты:** +- `gpu_burn` — нужен libcublas (~500MB) +- `nvbandwidth` — только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB) +- DCGM diag — правильный инструмент для H100 но ~100MB установка +- Download on demand — нужен libcublas, проблема та же