2026-05-20 版本 · 不含 LTX 2.3

拿掉 LTX 2.3 後，GB10 的位置往前移。

這份只評估 50B 以下 MoE LLM、圖片生成、STT 與 TTS。少了影片生成的重壓後，RTX 5090 仍是最快的 CUDA 工作站，但 GB10 的 128GB 記憶體、低發熱、長時間低負載穩定運轉，對醫院辦公室更有採購說服力。

結論

若要單機同時顧 LLM 容量與辦公室長時間服務，GB10 是合理主案；若圖片生成吞吐與成熟 Ubuntu 生態優先，選 RTX 5090 整機；Mac mini 48GB 是低噪音輕量節點，但要把到貨時間與 Metal 生態限制寫進採購風險。

Mac mini 48GB最安靜、最省電
到貨慢，Metal 生態

GB10128GB 容量、低發熱
長時間服務友善

RTX 5090 PCUbuntu + CUDA
吞吐最高，維護較重

Decision

不含 LTX 2.3 時，不必硬把 5090 當唯一答案。

GB10 / DGX Spark 類

推薦作主服務節點

128GB coherent unified memory 讓 50B 以下 MoE、較長 context、多模型常駐都比較從容。少了 LTX 2.3 後，它的 273GB/s 頻寬不再是致命問題；長時間低負載、低噪音、低發熱，反而適合辦公室 24/7 服務。

LLM 容量最佳長時間低負載佳Arm64 套件需驗證

RTX 5090 Ubuntu PC

推薦作生成/高吞吐節點

圖片生成、批次 STT/TTS 與 CUDA 生態最成熟。缺點是整機價格常不是 FE MSRP，而是 NT$20-45 萬級；耗電、散熱、噪音、驅動與使用者排程都要有人管。

CUDA 生態最完整圖片生成最快整機維護較重

Mac mini M4 Pro 48GB

推薦作輕量辦公節點

安靜、省電、容易放在行政空間；適合摘要、院內文件問答、少量 STT/TTS。限制是 48GB 是統一記憶體不是專用 VRAM，且 48GB BTO 到貨時間可能長，Metal/MLX 生態也不是所有模型第一支援。

最安靜低維護到貨與相容性風險

Real machine pricing

價格請看整機，不要只看 RTX 5090 FE MSRP。

類別	公開整機/配置價格快照	採購解讀	到貨/供貨註記
Mac mini M4 Pro 48GB	Apple 48GB/1TB refurb 公開價 NT$58,490；新機 BTO 需 Apple 商店即時計價，常見估算約 NT$6-7 萬級。	單機最便宜，但它是 48GB 統一記憶體，不是 48GB VRAM。若圖片生成只是偶爾用，可以作低噪音行政節點。	48GB/1TB 配置公開通路顯示約 10-12 週到貨；實際採購須以下單當日 Apple/供應商交期為準。
GB10 類小型 AI workstation	ASUS Ascent GX10：1TB NT$125,900、4TB NT$159,900；Acer Veriton GN100 AI Mini Workstation：NT$159,000；Lenovo ThinkStation PGX 4TB：NT$168,000。	價格介於 Mac mini 與高階 5090 整機之間，買到的是 128GB 容量、NVIDIA AI appliance 形態、低發熱與長時間服務友善。	多家 OEM 版本價格差在 SSD、保固、供貨與預購條件；採購時要要求供應商用指定模型實測。
RTX 5090 Ubuntu 整機	HP Z2 Tower G1i RTX 5090 整機約 NT$218,900；MSI Infinite X3 AI 255K/128GB/8TB/RTX5090 約 NT$343,900；Dell/商用工作站 RTX 5090 高配可到 NT$459,900。	這才是現實採購價格。若自行組裝可能較低，但醫院通常需要保固、發票、維修 SLA 與資產管理，不能只用顯卡 MSRP 估。	RTX 5090 顯卡本身常見 NT$130,000-160,000，整機要再加 CPU、RAM、NVMe、PSU、機殼散熱、系統整合與保固。

價格為 2026-05-20 可查公開頁面快照；醫院正式採購需以供應商正式報價單、保固條款、交期與院內資安審查為準。

Ubuntu build spec

RTX 5090 Ubuntu PC 應該當整套伺服節點來規格化。

建議基準規格

CPUIntel Core Ultra 9 / AMD Ryzen 9 9950X 等級起跳；若多工作流與長時間批次，可考慮 Threadripper / Xeon W。

GPURTX 5090 32GB GDDR7；若院方預算允許，應保留第二張 GPU 或未來升級空間。

RAM128GB DDR5 起跳；若要多模型、RAG 索引、CPU offload 或批次轉錄，建議 192-256GB。

Storage4TB NVMe Gen4/Gen5 起跳；模型、暫存圖片、語音資料與容器 image 很快會吃滿 2TB。

PSU1000-1200W 80+ Platinum/Titanium；5090 單卡 TGP 575W，整機穩定性比省電源更重要。

Ubuntu 軟體基線

OSUbuntu 24.04 LTS；鎖定 kernel/driver 版本，避免自動更新破壞 CUDA。

DriverNVIDIA production branch driver + CUDA toolkit；用 `nvidia-smi`、PyTorch CUDA smoke test 驗收。

RuntimeDocker + NVIDIA Container Toolkit；LLM、圖片、STT、TTS 分容器，便於 rollback。

ServingNginx/Caddy 反向代理、院內 SSO 或 VPN、systemd restart、Prometheus/Grafana 或 Netdata 監控。

Data本地 encrypted volume、定期清除暫存、病患資料不可混入公開模型訓練或雲端 telemetry。

工作流拆分

RTX 5090 PC 不應讓所有人直接 SSH 上去跑 notebook。建議服務化：LLM endpoint、ComfyUI/圖片生成 queue、STT batch worker、TTS service 分開，前端只看到院內 Web UI。

這樣做的好處是單一圖片任務不會卡住 LLM 問答，GPU 記憶體也比較容易釋放與排程。

Runtime choice

llama.cpp、Ollama、vLLM 不是互斥，而是不同服務層。

Runtime	適合機器	優點	限制	本案建議
llama.cpp	Mac mini、GB10、RTX PC 都可用；特別適合 GGUF 與低維護。	跨平台、Metal/CUDA/CPU 都能跑，量化模型支援廣，適合單機工具與保守部署。	高併發、continuous batching、production telemetry 不如 vLLM；OpenAI API 相容層可用但不是大規模 serving 主力。	Mac mini 首選；GB10/RTX 可作 fallback 或跑 GGUF 模型。
Ollama	Mac mini 與小團隊內部工具最友善；RTX PC 也可用。	安裝、拉模型、切換模型最簡單；提供 OpenAI-compatible API，適合辦公室快速交付。	對模型 serving 的細節控制較少；多使用者、批次吞吐、複雜 GPU 排程不是它的強項。	行政工具、低併發 demo、內部 PoC 用 Ollama；正式服務再升級。
vLLM	RTX 5090 Ubuntu PC；GB10 需確認 Arm64/container 支援與模型 kernel。	OpenAI-compatible server、PagedAttention、continuous batching，適合多使用者 API 與 throughput。	設定、driver、CUDA、模型格式與 VRAM 管理較嚴格；Mac mini 不適合。	RTX 5090 正式 LLM API 首選；GB10 只有在供應商證明支援後採用。

實用組合

Mac mini：Ollama/llama.cpp。GB10：先 llama.cpp 或 NVIDIA 提供的容器，再驗證 vLLM。RTX 5090 Ubuntu PC：vLLM 跑 LLM API，ComfyUI/Diffusers 跑圖片，WhisperX 或 faster-whisper 跑 STT，TTS 獨立服務化。

Workload fit without LTX

拿掉影片生成後，LLM 容量與低維護變重要。

三機相對評分

50B 以下 MoE LLM 容量GB10

圖片生成吞吐RTX 5090

辦公室低噪音低熱Mac / GB10

多使用者正式 APIRTX / GB10

任務結論

LLM：GB10 最寬裕，RTX 最快但 32GB VRAM 較緊，Mac 適合 7B-32B 與輕量 50B MoE 量化測試。

圖片生成：RTX 5090 仍勝，尤其 ComfyUI、ControlNet、LoRA、批次工作流。GB10 可用但吞吐與 Arm 相容性要驗證。Mac 可跑但不是高產能。

STT/TTS：三台都能做；少量辦公室轉錄 Mac 最省事，大量批次 RTX 最快，GB10 適合長時間常駐服務。

Operations

GB10 的低發熱、長時間低負載，是辦公室真正優點。

Mac mini

最低噪音、最低維護，適合放行政區。但到貨慢與 Metal 生態限制要先講清楚，不應承諾所有 CUDA workflow。

GB10

小型、低發熱、128GB 容量，適合長時間低負載 LLM/STT/TTS 服務。對醫院而言，這比極限 benchmark 更實際。

RTX 5090 PC

吞吐最高，但散熱、噪音、耗電與清灰維護要納入機房或獨立空間規劃。不要放在無通風的小辦公桌下長期滿載。

採購驗收

要求供應商用院方指定模型做 2 小時以上連續測試：LLM API、圖片生成、STT、TTS 各跑一輪並記錄溫度、噪音、功耗與錯誤。

新版建議

不含 LTX 2.3 時，我會把選擇改成：GB10 作最均衡辦公室 AI 服務節點；RTX 5090 PC 作高吞吐生成節點；Mac mini 作低噪音輔助/前端/輕量推論節點。若只能買一台，請先決定「LLM 容量與低維護」還是「圖片生成速度」比較重要。

Sources

來源與假設

Apple 台灣 Mac mini 技術規格：M4 Pro、48GB 統一記憶體、273GB/s、155W。
Apple 台灣整修品 Mac mini 48GB：48GB/1TB NT$58,490 快照。
光華商場 ASUS Ascent GX10：1TB NT$125,900、4TB NT$159,900。
Acer Veriton GN100 AI Mini Workstation：GB10、128GB、4TB、NT$159,000。
Lenovo ThinkStation PGX 通路頁：GB10、128GB、4TB、NT$168,000 快照。
HP Z2 Tower G1i RTX 5090 整機：RTX5090、64GB、1TB、1200W、NT$218,900 快照。
PChome RTX 5090 整機列表：MSI/ACER/DELL 等 RTX 5090 整機約 NT$343,900-459,900 快照。
NVIDIA DGX Spark User Guide：128GB LPDDR5x、273GB/s、240W PSU、GB10 TDP 140W。
llama.cpp GitHub：跨平台 GGUF/Metal/CUDA 推論基礎。
Ollama OpenAI compatibility docs：本地模型與 OpenAI-compatible API。
vLLM OpenAI-compatible server docs：production LLM serving、OpenAI API 相容。

所有價格與交期是 2026-05-20 公開頁面快照。正式採購請要求供應商提供報價單、到貨承諾、保固條款、Ubuntu driver/CUDA 驗收與院方指定模型 smoke test。