Refactor bee CLI and LiveCD integration
This commit is contained in:
@@ -2,19 +2,20 @@
|
||||
|
||||
## GPU stress test (H100)
|
||||
|
||||
**Задача:** добавить GPU burn/stress тест в bee-tui без существенного увеличения ISO.
|
||||
**Статус:** отложено. В текущем ISO `gpu_burn` не включается и не запускается.
|
||||
|
||||
**Контекст:**
|
||||
- `gpu_burn` (wilicc/gpu-burn) не подходит — требует `libcublas.so` (~500MB), что раздует ISO кратно
|
||||
- `libcuda.so` уже есть в ISO (из NVIDIA .run installer)
|
||||
**Почему задача всё ещё в backlog:**
|
||||
- `gpu_burn` остаётся тяжёлым и неудобным с точки зрения зависимостей
|
||||
- хочется штатный lightweight stress tool без `libcublas.so` и без заметного раздувания ISO
|
||||
- для H100 нужен предсказуемый offline-инструмент, который можно стабильно возить внутри ISO
|
||||
|
||||
**Выбранный подход:** написать минимальный стресс-тул на CUDA Driver API
|
||||
- Использует только `libcuda.so` (уже в ISO) — никаких новых зависимостей
|
||||
- Реализует матричное умножение или memory bandwidth через `cuLaunchKernel`
|
||||
- Бинарь ~100KB, компилируется через `nvcc` на builder VM, кладётся в `iso/vendor/`
|
||||
- bee-tui вызывает его вместо `gpu_burn`
|
||||
**Желаемый следующий шаг:** написать минимальный stress tool на CUDA Driver API
|
||||
- использует только `libcuda.so`, уже присутствующий в ISO
|
||||
- выполняет простой compute / memory workload через `cuLaunchKernel`
|
||||
- собирается отдельно на builder VM и кладётся в `iso/vendor/`
|
||||
- в будущем может вызываться из `bee tui` как предпочтительный встроенный GPU SAT/stress path
|
||||
|
||||
**Отклонённые варианты:**
|
||||
**Отклонённые / проблемные варианты:**
|
||||
- `gpu_burn` — нужен libcublas (~500MB)
|
||||
- `nvbandwidth` — только bandwidth, не жжёт FLOPs; нужен libcudart (~8MB)
|
||||
- DCGM diag — правильный инструмент для H100 но ~100MB установка
|
||||
|
||||
Reference in New Issue
Block a user