GB10 / DGX Spark 類
128GB coherent unified memory 讓 50B 以下 MoE、較長 context、多模型常駐都比較從容。少了 LTX 2.3 後,它的 273GB/s 頻寬不再是致命問題;長時間低負載、低噪音、低發熱,反而適合辦公室 24/7 服務。
LLM 容量最佳長時間低負載佳Arm64 套件需驗證這份只評估 50B 以下 MoE LLM、圖片生成、STT 與 TTS。少了影片生成的重壓後,RTX 5090 仍是最快的 CUDA 工作站,但 GB10 的 128GB 記憶體、低發熱、長時間低負載穩定運轉,對醫院辦公室更有採購說服力。
若要單機同時顧 LLM 容量與辦公室長時間服務,GB10 是合理主案;若圖片生成吞吐與成熟 Ubuntu 生態優先,選 RTX 5090 整機;Mac mini 48GB 是低噪音輕量節點,但要把到貨時間與 Metal 生態限制寫進採購風險。
128GB coherent unified memory 讓 50B 以下 MoE、較長 context、多模型常駐都比較從容。少了 LTX 2.3 後,它的 273GB/s 頻寬不再是致命問題;長時間低負載、低噪音、低發熱,反而適合辦公室 24/7 服務。
LLM 容量最佳長時間低負載佳Arm64 套件需驗證圖片生成、批次 STT/TTS 與 CUDA 生態最成熟。缺點是整機價格常不是 FE MSRP,而是 NT$20-45 萬級;耗電、散熱、噪音、驅動與使用者排程都要有人管。
CUDA 生態最完整圖片生成最快整機維護較重安靜、省電、容易放在行政空間;適合摘要、院內文件問答、少量 STT/TTS。限制是 48GB 是統一記憶體不是專用 VRAM,且 48GB BTO 到貨時間可能長,Metal/MLX 生態也不是所有模型第一支援。
最安靜低維護到貨與相容性風險| 類別 | 公開整機/配置價格快照 | 採購解讀 | 到貨/供貨註記 |
|---|---|---|---|
| Mac mini M4 Pro 48GB | Apple 48GB/1TB refurb 公開價 NT$58,490;新機 BTO 需 Apple 商店即時計價,常見估算約 NT$6-7 萬級。 | 單機最便宜,但它是 48GB 統一記憶體,不是 48GB VRAM。若圖片生成只是偶爾用,可以作低噪音行政節點。 | 48GB/1TB 配置公開通路顯示約 10-12 週到貨;實際採購須以下單當日 Apple/供應商交期為準。 |
| GB10 類小型 AI workstation | ASUS Ascent GX10:1TB NT$125,900、4TB NT$159,900;Acer Veriton GN100 AI Mini Workstation:NT$159,000;Lenovo ThinkStation PGX 4TB:NT$168,000。 | 價格介於 Mac mini 與高階 5090 整機之間,買到的是 128GB 容量、NVIDIA AI appliance 形態、低發熱與長時間服務友善。 | 多家 OEM 版本價格差在 SSD、保固、供貨與預購條件;採購時要要求供應商用指定模型實測。 |
| RTX 5090 Ubuntu 整機 | HP Z2 Tower G1i RTX 5090 整機約 NT$218,900;MSI Infinite X3 AI 255K/128GB/8TB/RTX5090 約 NT$343,900;Dell/商用工作站 RTX 5090 高配可到 NT$459,900。 | 這才是現實採購價格。若自行組裝可能較低,但醫院通常需要保固、發票、維修 SLA 與資產管理,不能只用顯卡 MSRP 估。 | RTX 5090 顯卡本身常見 NT$130,000-160,000,整機要再加 CPU、RAM、NVMe、PSU、機殼散熱、系統整合與保固。 |
價格為 2026-05-20 可查公開頁面快照;醫院正式採購需以供應商正式報價單、保固條款、交期與院內資安審查為準。
RTX 5090 PC 不應讓所有人直接 SSH 上去跑 notebook。建議服務化:LLM endpoint、ComfyUI/圖片生成 queue、STT batch worker、TTS service 分開,前端只看到院內 Web UI。
這樣做的好處是單一圖片任務不會卡住 LLM 問答,GPU 記憶體也比較容易釋放與排程。
| Runtime | 適合機器 | 優點 | 限制 | 本案建議 |
|---|---|---|---|---|
| llama.cpp | Mac mini、GB10、RTX PC 都可用;特別適合 GGUF 與低維護。 | 跨平台、Metal/CUDA/CPU 都能跑,量化模型支援廣,適合單機工具與保守部署。 | 高併發、continuous batching、production telemetry 不如 vLLM;OpenAI API 相容層可用但不是大規模 serving 主力。 | Mac mini 首選;GB10/RTX 可作 fallback 或跑 GGUF 模型。 |
| Ollama | Mac mini 與小團隊內部工具最友善;RTX PC 也可用。 | 安裝、拉模型、切換模型最簡單;提供 OpenAI-compatible API,適合辦公室快速交付。 | 對模型 serving 的細節控制較少;多使用者、批次吞吐、複雜 GPU 排程不是它的強項。 | 行政工具、低併發 demo、內部 PoC 用 Ollama;正式服務再升級。 |
| vLLM | RTX 5090 Ubuntu PC;GB10 需確認 Arm64/container 支援與模型 kernel。 | OpenAI-compatible server、PagedAttention、continuous batching,適合多使用者 API 與 throughput。 | 設定、driver、CUDA、模型格式與 VRAM 管理較嚴格;Mac mini 不適合。 | RTX 5090 正式 LLM API 首選;GB10 只有在供應商證明支援後採用。 |
Mac mini:Ollama/llama.cpp。GB10:先 llama.cpp 或 NVIDIA 提供的容器,再驗證 vLLM。RTX 5090 Ubuntu PC:vLLM 跑 LLM API,ComfyUI/Diffusers 跑圖片,WhisperX 或 faster-whisper 跑 STT,TTS 獨立服務化。
最低噪音、最低維護,適合放行政區。但到貨慢與 Metal 生態限制要先講清楚,不應承諾所有 CUDA workflow。
小型、低發熱、128GB 容量,適合長時間低負載 LLM/STT/TTS 服務。對醫院而言,這比極限 benchmark 更實際。
吞吐最高,但散熱、噪音、耗電與清灰維護要納入機房或獨立空間規劃。不要放在無通風的小辦公桌下長期滿載。
要求供應商用院方指定模型做 2 小時以上連續測試:LLM API、圖片生成、STT、TTS 各跑一輪並記錄溫度、噪音、功耗與錯誤。
不含 LTX 2.3 時,我會把選擇改成:GB10 作最均衡辦公室 AI 服務節點;RTX 5090 PC 作高吞吐生成節點;Mac mini 作低噪音輔助/前端/輕量推論節點。若只能買一台,請先決定「LLM 容量與低維護」還是「圖片生成速度」比較重要。
所有價格與交期是 2026-05-20 公開頁面快照。正式採購請要求供應商提供報價單、到貨承諾、保固條款、Ubuntu driver/CUDA 驗收與院方指定模型 smoke test。