Files
bee/bible-local/backlog.md
2026-03-13 16:52:16 +03:00

1.5 KiB
Raw Blame History

Backlog

GPU stress test (H100)

Статус: отложено. В текущем ISO gpu_burn не включается и не запускается.

Почему задача всё ещё в backlog:

  • gpu_burn остаётся тяжёлым и неудобным с точки зрения зависимостей
  • хочется штатный lightweight stress tool без libcublas.so и без заметного раздувания ISO
  • для H100 нужен предсказуемый offline-инструмент, который можно стабильно возить внутри ISO

Желаемый следующий шаг: написать минимальный stress tool на CUDA Driver API

  • использует только libcuda.so, уже присутствующий в ISO
  • выполняет простой compute / memory workload через cuLaunchKernel
  • собирается отдельно на builder VM и кладётся в iso/vendor/
  • в будущем может вызываться из bee tui как предпочтительный встроенный GPU SAT/stress path

Отклонённые / проблемные варианты:

  • gpu_burn — нужен libcublas (~500MB)
  • nvbandwidth — только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB)
  • DCGM diag — правильный инструмент для H100 но ~100MB установка
  • Download on demand — нужен libcublas, проблема та же