挑戰
Babylon 的眾多產品都運用了機器學習與人工智慧,但在 2019 年時,公司內部缺乏足夠的運算效能來執行特定的實驗。此外,公司正處於快速成長期(三年內從 100 人增加至 1,600 人),並計畫向其他國家擴張。
解決方案
Babylon 於 2018 年將使用者導向的應用程式遷移至 Kubernetes 平台,因此基礎設施團隊轉向使用 Kubeflow,這是一款可在 Kubernetes 上執行機器學習的工具組。AI 基礎設施負責人 Jérémie Vallée 表示:「我們嘗試建立一個 Kubernetes 核心伺服器,部署了 Kubeflow 並編排了整個實驗,結果非常成功。」隨後,團隊開始在 Kubernetes 之上打造自助式 AI 訓練平台。
成果
現在團隊無需再等待數小時甚至數天才能獲得運算資源,而是可以即時存取。過去臨床驗證需要 10 小時,現在不到 20 分鐘即可完成。雲端原生平台的可攜性也使 Babylon 能夠順利擴展至其他國家。
自 2013 年在英國成立以來,這家新創公司已在全球推動了數百萬次數位諮詢。在英國,患者通常需要等待一到兩週才能預約看診。透過 Babylon 的國民保健署(NHS)服務「GP at Hand」(擁有超過 75,000 名註冊患者),39% 的患者能在 30 分鐘內透過手機預約到醫生,89% 的患者則能在 6 小時內預約成功。
這僅僅是個開始。Babylon AI 基礎設施負責人 Jérémie Vallée 表示:「我們嘗試將各類技術與公司內部的醫療專業相結合,開發出能協助患者管理及了解自身健康,同時也能幫助醫生提高工作效率的產品。」
這些產品中有很大一部分利用了機器學習和人工智慧。2019 年時,研究人員遇到了瓶頸。Vallée 說:「我們內部有一些伺服器,研究人員在那裡進行大量的 AI 實驗和模型訓練,但後來我們發現內部的運算資源不足以執行特定的實驗。」
Babylon 曾在 2018 年將使用者導向應用程式遷移至 Kubernetes 平台,他補充道:「多虧了那次遷移,我們累積了豐富的 Kubernetes 知識。」為了優化已建立的模型,團隊採用了 Kubeflow。他說:「我們建立了一個 Kubernetes 核心伺服器,部署了 Kubeflow,並編排了整個實驗,最後取得了巨大的成功。」
基於該經驗,Vallée 的團隊接獲任務,目標是建構一個自助式平台,以提升 Babylon AI 團隊的效率,進而協助產品更快上市。主要需求包括:(1) 賦予研究人員與工程師獲取所需運算資源的能力,無論實驗規模大小;(2) 以集中化的方式,按需為團隊提供執行工作所需的最佳工具;(3) 考量到公司向不同國家擴張的業務,訓練平台必須能貼近所管理的資料。
Kubernetes 在各方面都起到了關鍵作用。Vallée 表示:「Kubernetes 是機器學習的絕佳平台,因為它具備你所需要的所有排程與擴展能力。」由於 Babylon 在每個營運國家都必須遵守資料在地化規範,這需要多區域、多雲的策略,而某些國家甚至可能沒有公共雲供應商。他說:「我們希望這個平台具有可攜性,以便在任何地方執行訓練作業。Kubernetes 提供了一個基礎層,讓你能在雲端供應商之外部署平台,再部署任何你需要的工具。這對我們來說是一個非常有說服力的賣點。」
一旦決定在 Kubernetes 上建構 Babylon AI 研究平台,團隊便參考了雲端原生版圖(Cloud Native Landscape)來建構技術堆疊:使用 Prometheus 與 Grafana 進行監控;使用 Istio 服務網格(Service Mesh)來控制訓練平台上的網路,並管理所有工作流程的存取權限;使用 Helm 部署堆疊;並使用 Flux 管理 GitOps 流程。
這款雲端原生 AI 平台對 Babylon 產生了巨大的影響。首批在平台上運行的研究專案主要涉及機器學習與自然語言處理。這些實驗需要極大的運算量(1600 CPU、3.2 TB RAM),遠超 Babylon 原有的內部能力。此外,過去取得運算資源需要花費數小時甚至數天,取決於平台團隊的忙碌程度。Vallée 說:「現在,有了 Kubernetes 與我們提供的自助式平台,幾乎可以即時獲得資源。」
在該平台上進行的另一項重要工作是新應用程式的臨床驗證,例如 Babylon 的症狀檢查器(Symptom Checker),它能根據使用者輸入的資訊計算疾病機率。Vallée 表示:「身為醫療保健產業的一員,我們希望所有模型在進入生產環境前都是安全的。」利用 Argo 進行 GitOps,「讓我們得以大規模擴展該流程。」
研究人員過去需要等待長達 10 小時才能獲得模型版本的新結果。在 Kubernetes 的協助下,時間已縮短至 20 分鐘以內。此外,他們過去一次只能進行一項臨床驗證,現在則能同時執行多項並行驗證——考量到 Babylon 在過去三年內員工人數從 100 人激增至 1,600 人,這是一項巨大的優勢。
首席技術長 Caroline Hargrove 表示:「提供一個讓使用者能夠自助執行工作負載的平台,使我們的資料科學家社群能在沒有雲端專業技能、且無需平台工程師協助的情況下,進行超參數調整與通用演算法開發,從而加速了我們的創新。」
平台營運總監 Jean Marie Ferdegue 補充道:「為資料科學家提供一個基於 Kubernetes 的平台,意味著更高的安全性、透過賦權帶來的更多創新,以及更實惠的醫療服務,因為我們的雲端工程師現在是在建構一套能供數百人日常使用的體驗,而非僅是支援特定且客製化的使用案例。」
此外,隨著 Babylon 繼續擴張,「引進新國家將變得非常容易,」Vallée 說。「15 個月前我們部署這個平台時,在英國只有一個大型環境,但現在我們在加拿大、亞洲各有一個,且美國的環境也即將上線。這就是 Kubernetes 與其他雲端原生專案為我們帶來的成果之一。」
Babylon 的雲端原生發展藍圖涉及將公司所有的 AI 業務都遷移至該平台。這其中越來越多地包含了 AI 護理服務。Vallée 說:「我認為這將是一個 AI 與醫療保健交會的有趣領域。這是一個複雜的課題,且周邊存在許多問題。因此,透過我們的平台,我們希望思考:『我們能做些什麼,讓開發人員與機器學習工程師的工作變得不再那麼痛苦?』」