Add backlog with GPU stress test task
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
This commit is contained in:
21
bible-local/backlog.md
Normal file
21
bible-local/backlog.md
Normal file
@@ -0,0 +1,21 @@
|
|||||||
|
# Backlog
|
||||||
|
|
||||||
|
## GPU stress test (H100)
|
||||||
|
|
||||||
|
**Задача:** добавить GPU burn/stress тест в bee-tui без существенного увеличения ISO.
|
||||||
|
|
||||||
|
**Контекст:**
|
||||||
|
- `gpu_burn` (wilicc/gpu-burn) не подходит — требует `libcublas.so` (~500MB), что раздует ISO кратно
|
||||||
|
- `libcuda.so` уже есть в ISO (из NVIDIA .run installer)
|
||||||
|
|
||||||
|
**Выбранный подход:** написать минимальный стресс-тул на CUDA Driver API
|
||||||
|
- Использует только `libcuda.so` (уже в ISO) — никаких новых зависимостей
|
||||||
|
- Реализует матричное умножение или memory bandwidth через `cuLaunchKernel`
|
||||||
|
- Бинарь ~100KB, компилируется через `nvcc` на builder VM, кладётся в `iso/vendor/`
|
||||||
|
- bee-tui вызывает его вместо `gpu_burn`
|
||||||
|
|
||||||
|
**Отклонённые варианты:**
|
||||||
|
- `gpu_burn` — нужен libcublas (~500MB)
|
||||||
|
- `nvbandwidth` — только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB)
|
||||||
|
- DCGM diag — правильный инструмент для H100 но ~100MB установка
|
||||||
|
- Download on demand — нужен libcublas, проблема та же
|
||||||
Reference in New Issue
Block a user