2026-05-20 版本 · 不含 LTX 2.3

拿掉 LTX 2.3 後,GB10 的位置往前移。

這份只評估 50B 以下 MoE LLM、圖片生成、STT 與 TTS。少了影片生成的重壓後,RTX 5090 仍是最快的 CUDA 工作站,但 GB10 的 128GB 記憶體、低發熱、長時間低負載穩定運轉,對醫院辦公室更有採購說服力。

結論

若要單機同時顧 LLM 容量與辦公室長時間服務,GB10 是合理主案;若圖片生成吞吐與成熟 Ubuntu 生態優先,選 RTX 5090 整機;Mac mini 48GB 是低噪音輕量節點,但要把到貨時間與 Metal 生態限制寫進採購風險。

Mac mini 48GB最安靜、最省電
到貨慢,Metal 生態
GB10128GB 容量、低發熱
長時間服務友善
RTX 5090 PCUbuntu + CUDA
吞吐最高,維護較重
Decision

不含 LTX 2.3 時,不必硬把 5090 當唯一答案。

GB10 / DGX Spark 類

推薦作主服務節點

128GB coherent unified memory 讓 50B 以下 MoE、較長 context、多模型常駐都比較從容。少了 LTX 2.3 後,它的 273GB/s 頻寬不再是致命問題;長時間低負載、低噪音、低發熱,反而適合辦公室 24/7 服務。

LLM 容量最佳長時間低負載佳Arm64 套件需驗證

RTX 5090 Ubuntu PC

推薦作生成/高吞吐節點

圖片生成、批次 STT/TTS 與 CUDA 生態最成熟。缺點是整機價格常不是 FE MSRP,而是 NT$20-45 萬級;耗電、散熱、噪音、驅動與使用者排程都要有人管。

CUDA 生態最完整圖片生成最快整機維護較重

Mac mini M4 Pro 48GB

推薦作輕量辦公節點

安靜、省電、容易放在行政空間;適合摘要、院內文件問答、少量 STT/TTS。限制是 48GB 是統一記憶體不是專用 VRAM,且 48GB BTO 到貨時間可能長,Metal/MLX 生態也不是所有模型第一支援。

最安靜低維護到貨與相容性風險
Real machine pricing

價格請看整機,不要只看 RTX 5090 FE MSRP。

類別 公開整機/配置價格快照 採購解讀 到貨/供貨註記
Mac mini M4 Pro 48GB Apple 48GB/1TB refurb 公開價 NT$58,490;新機 BTO 需 Apple 商店即時計價,常見估算約 NT$6-7 萬級。 單機最便宜,但它是 48GB 統一記憶體,不是 48GB VRAM。若圖片生成只是偶爾用,可以作低噪音行政節點。 48GB/1TB 配置公開通路顯示約 10-12 週到貨;實際採購須以下單當日 Apple/供應商交期為準。
GB10 類小型 AI workstation ASUS Ascent GX10:1TB NT$125,900、4TB NT$159,900;Acer Veriton GN100 AI Mini Workstation:NT$159,000;Lenovo ThinkStation PGX 4TB:NT$168,000。 價格介於 Mac mini 與高階 5090 整機之間,買到的是 128GB 容量、NVIDIA AI appliance 形態、低發熱與長時間服務友善。 多家 OEM 版本價格差在 SSD、保固、供貨與預購條件;採購時要要求供應商用指定模型實測。
RTX 5090 Ubuntu 整機 HP Z2 Tower G1i RTX 5090 整機約 NT$218,900;MSI Infinite X3 AI 255K/128GB/8TB/RTX5090 約 NT$343,900;Dell/商用工作站 RTX 5090 高配可到 NT$459,900。 這才是現實採購價格。若自行組裝可能較低,但醫院通常需要保固、發票、維修 SLA 與資產管理,不能只用顯卡 MSRP 估。 RTX 5090 顯卡本身常見 NT$130,000-160,000,整機要再加 CPU、RAM、NVMe、PSU、機殼散熱、系統整合與保固。

價格為 2026-05-20 可查公開頁面快照;醫院正式採購需以供應商正式報價單、保固條款、交期與院內資安審查為準。

Ubuntu build spec

RTX 5090 Ubuntu PC 應該當整套伺服節點來規格化。

建議基準規格

CPUIntel Core Ultra 9 / AMD Ryzen 9 9950X 等級起跳;若多工作流與長時間批次,可考慮 Threadripper / Xeon W。
GPURTX 5090 32GB GDDR7;若院方預算允許,應保留第二張 GPU 或未來升級空間。
RAM128GB DDR5 起跳;若要多模型、RAG 索引、CPU offload 或批次轉錄,建議 192-256GB。
Storage4TB NVMe Gen4/Gen5 起跳;模型、暫存圖片、語音資料與容器 image 很快會吃滿 2TB。
PSU1000-1200W 80+ Platinum/Titanium;5090 單卡 TGP 575W,整機穩定性比省電源更重要。

Ubuntu 軟體基線

OSUbuntu 24.04 LTS;鎖定 kernel/driver 版本,避免自動更新破壞 CUDA。
DriverNVIDIA production branch driver + CUDA toolkit;用 `nvidia-smi`、PyTorch CUDA smoke test 驗收。
RuntimeDocker + NVIDIA Container Toolkit;LLM、圖片、STT、TTS 分容器,便於 rollback。
ServingNginx/Caddy 反向代理、院內 SSO 或 VPN、systemd restart、Prometheus/Grafana 或 Netdata 監控。
Data本地 encrypted volume、定期清除暫存、病患資料不可混入公開模型訓練或雲端 telemetry。

工作流拆分

RTX 5090 PC 不應讓所有人直接 SSH 上去跑 notebook。建議服務化:LLM endpoint、ComfyUI/圖片生成 queue、STT batch worker、TTS service 分開,前端只看到院內 Web UI。

這樣做的好處是單一圖片任務不會卡住 LLM 問答,GPU 記憶體也比較容易釋放與排程。

Runtime choice

llama.cpp、Ollama、vLLM 不是互斥,而是不同服務層。

Runtime 適合機器 優點 限制 本案建議
llama.cpp Mac mini、GB10、RTX PC 都可用;特別適合 GGUF 與低維護。 跨平台、Metal/CUDA/CPU 都能跑,量化模型支援廣,適合單機工具與保守部署。 高併發、continuous batching、production telemetry 不如 vLLM;OpenAI API 相容層可用但不是大規模 serving 主力。 Mac mini 首選;GB10/RTX 可作 fallback 或跑 GGUF 模型。
Ollama Mac mini 與小團隊內部工具最友善;RTX PC 也可用。 安裝、拉模型、切換模型最簡單;提供 OpenAI-compatible API,適合辦公室快速交付。 對模型 serving 的細節控制較少;多使用者、批次吞吐、複雜 GPU 排程不是它的強項。 行政工具、低併發 demo、內部 PoC 用 Ollama;正式服務再升級。
vLLM RTX 5090 Ubuntu PC;GB10 需確認 Arm64/container 支援與模型 kernel。 OpenAI-compatible server、PagedAttention、continuous batching,適合多使用者 API 與 throughput。 設定、driver、CUDA、模型格式與 VRAM 管理較嚴格;Mac mini 不適合。 RTX 5090 正式 LLM API 首選;GB10 只有在供應商證明支援後採用。
實用組合

Mac mini:Ollama/llama.cpp。GB10:先 llama.cpp 或 NVIDIA 提供的容器,再驗證 vLLM。RTX 5090 Ubuntu PC:vLLM 跑 LLM API,ComfyUI/Diffusers 跑圖片,WhisperX 或 faster-whisper 跑 STT,TTS 獨立服務化。

Workload fit without LTX

拿掉影片生成後,LLM 容量與低維護變重要。

三機相對評分

50B 以下 MoE LLM 容量GB10
圖片生成吞吐RTX 5090
辦公室低噪音低熱Mac / GB10
多使用者正式 APIRTX / GB10

任務結論

LLM:GB10 最寬裕,RTX 最快但 32GB VRAM 較緊,Mac 適合 7B-32B 與輕量 50B MoE 量化測試。

圖片生成:RTX 5090 仍勝,尤其 ComfyUI、ControlNet、LoRA、批次工作流。GB10 可用但吞吐與 Arm 相容性要驗證。Mac 可跑但不是高產能。

STT/TTS:三台都能做;少量辦公室轉錄 Mac 最省事,大量批次 RTX 最快,GB10 適合長時間常駐服務。

Operations

GB10 的低發熱、長時間低負載,是辦公室真正優點。

Mac mini

最低噪音、最低維護,適合放行政區。但到貨慢與 Metal 生態限制要先講清楚,不應承諾所有 CUDA workflow。

GB10

小型、低發熱、128GB 容量,適合長時間低負載 LLM/STT/TTS 服務。對醫院而言,這比極限 benchmark 更實際。

RTX 5090 PC

吞吐最高,但散熱、噪音、耗電與清灰維護要納入機房或獨立空間規劃。不要放在無通風的小辦公桌下長期滿載。

採購驗收

要求供應商用院方指定模型做 2 小時以上連續測試:LLM API、圖片生成、STT、TTS 各跑一輪並記錄溫度、噪音、功耗與錯誤。

新版建議

不含 LTX 2.3 時,我會把選擇改成:GB10 作最均衡辦公室 AI 服務節點;RTX 5090 PC 作高吞吐生成節點;Mac mini 作低噪音輔助/前端/輕量推論節點。若只能買一台,請先決定「LLM 容量與低維護」還是「圖片生成速度」比較重要。

Sources

來源與假設

所有價格與交期是 2026-05-20 公開頁面快照。正式採購請要求供應商提供報價單、到貨承諾、保固條款、Ubuntu driver/CUDA 驗收與院方指定模型 smoke test。