Files
bee/bible-local/backlog.md
Mikhail Chusavitin 240c33f6a1 Add backlog with GPU stress test task
Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-03-07 09:45:51 +03:00

1.3 KiB
Raw Blame History

Backlog

GPU stress test (H100)

Задача: добавить GPU burn/stress тест в bee-tui без существенного увеличения ISO.

Контекст:

  • gpu_burn (wilicc/gpu-burn) не подходит — требует libcublas.so (~500MB), что раздует ISO кратно
  • libcuda.so уже есть в ISO (из NVIDIA .run installer)

Выбранный подход: написать минимальный стресс-тул на CUDA Driver API

  • Использует только libcuda.so (уже в ISO) — никаких новых зависимостей
  • Реализует матричное умножение или memory bandwidth через cuLaunchKernel
  • Бинарь ~100KB, компилируется через nvcc на builder VM, кладётся в iso/vendor/
  • bee-tui вызывает его вместо gpu_burn

Отклонённые варианты:

  • gpu_burn — нужен libcublas (~500MB)
  • nvbandwidth — только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB)
  • DCGM diag — правильный инструмент для H100 но ~100MB установка
  • Download on demand — нужен libcublas, проблема та же