挑戰
Babylon 的許多產品都利用了機器學習和人工智慧,在 2019 年,公司內部沒有足夠的計算能力來執行一項特定的實驗。該公司當時也在不斷發展(三年內從 100 人增長到 1,600 人),並計劃向其他國家擴張。
解決方案
Babylon 在 2018 年將其面向使用者的應用程式遷移到了 Kubernetes 平臺,因此基礎設施團隊轉向了 Kubeflow,這是一個在 Kubernetes 上進行機器學習的工具包。人工智慧基礎設施主管 Jérémie Vallée 說:“我們嘗試建立一個 Kubernetes 核心伺服器,部署了 Kubeflow,並協調了整個實驗,結果非常成功。” 團隊開始在 Kubernetes 之上構建一個自助式人工智慧訓練平臺。
影響
團隊不再需要等待數小時或數天才能進行計算,而是可以即時訪問。臨床驗證過去需要 10 個小時,現在不到 20 分鐘就能完成。雲原生平臺的可移植性也使 Babylon 能夠擴充套件到其他國家。
自 2013 年在英國推出以來,這家初創公司已在全球範圍內促成了數百萬次數字會診。在英國,患者通常需要等待一到兩週才能預約到醫生。透過 Babylon 的 NHS 服務 GP at Hand——該服務擁有超過 75,000 名註冊患者——39% 的患者在 30 分鐘內透過手機獲得預約,89% 的患者在 6 小時內獲得預約。
這僅僅是個開始。Babylon 人工智慧基礎設施主管 Jérémie Vallée 表示:“我們嘗試將不同型別的技術與我們內部的醫療專業知識相結合,以打造能夠幫助患者管理和了解自身健康狀況的產品,並幫助醫生更高效地工作。”
這些產品中有大量利用了機器學習和人工智慧,而在 2019 年,研究人員遇到了一個痛點。“我們在內部有一些伺服器,研究人員在上面進行大量的人工智慧實驗和模型訓練,但我們遇到了一個問題,即內部的計算能力不足以執行一個特定的實驗,”Vallée 說。
Babylon 在 2018 年將其面向使用者的應用程式遷移到了 Kubernetes 平臺,“多虧了這次遷移,我們積累了大量 Kubernetes 知識,”他補充道。為了最佳化一些已經建立的模型,團隊轉向了 Kubeflow,這是一個用於在 Kubernetes 上進行機器學習的工具包。“我們嘗試建立一個 Kubernetes 核心伺服器,部署了 Kubeflow,並協調了整個實驗,結果非常成功,”他說。
基於這次經驗,Vallée 的團隊受命構建一個自助服務平臺,以幫助 Babylon 的人工智慧團隊提高效率,進而幫助產品更快地推向市場。主要需求包括:(1) 能夠為研究人員和工程師提供他們所需的計算資源,無論他們需要執行多大規模的實驗;(2) 一種方式,可以按需、集中地為團隊提供他們工作所需的最佳工具;以及 (3) 訓練平臺必須靠近被管理的資料,因為公司正在向不同國家擴張。
Kubernetes 在各個方面都起到了推動作用。“Kubernetes 是一個很棒的機器學習平臺,因為它具備了你需要的所有排程和可伸縮性功能,”Vallée 說。由於 Babylon 運營的每個國家都要求將資料保留在本地,因此需要一個多區域、多雲的策略,而一些國家甚至可能根本沒有公共雲提供商。“我們希望這個平臺是可移植的,這樣我們就可以在任何地方執行訓練任務,”他說。“Kubernetes 提供了一個基礎層,允許你在雲提供商之外部署平臺,然後再部署你需要的任何工具。這對我們來說是一個非常好的賣點。”
團隊決定在 Kubernetes 之上構建 Babylon AI 研究平臺後,他們參考了雲原生全景圖來構建技術棧:使用 Prometheus 和 Grafana 進行監控;使用 Istio 服務網格來控制訓練平臺上的網路並控制所有工作流的訪問許可權;使用 Helm 來部署技術棧;以及使用 Flux 來管理管道的 GitOps 部分。
雲原生人工智慧平臺對 Babylon 產生了巨大影響。在該平臺上執行的第一個研究專案主要涉及機器學習和自然語言處理。這些實驗需要大量的計算資源——1600 個 CPU、3.2 TB 記憶體——這遠遠超過了 Babylon 內部所擁有的。此外,過去獲取計算資源需要數小時,有時甚至數天,具體取決於平臺團隊的繁忙程度。“現在,有了 Kubernetes 和我們提供的自助服務平臺,這幾乎是即時的,”Vallée 說。
在該平臺上完成的另一項重要工作是針對新應用的臨床驗證,例如 Babylon 的症狀檢查器,它可以根據使用者輸入的證據計算疾病的機率。“身處醫療保健行業,我們希望我們所有的模型在投入生產之前都是安全的,”Vallée 說。使用 Argo 進行 GitOps “使我們能夠大規模地擴充套件這個過程”。
研究人員過去需要等待長達 10 個小時才能得到他們新版本模型的結果。有了 Kubernetes,現在這個時間縮短到了 20 分鐘以內。此外,以前他們一次只能進行一次臨床驗證,現在如果需要,他們可以並行進行多次驗證——考慮到在過去三年裡,Babylon 的員工從 100 人增長到 1600 人,這是一個巨大的優勢。
“提供一個自助服務平臺,讓使用者能夠自主執行自己的工作負載,這使得我們的資料科學家社群能夠在沒有任何雲技能和平臺工程師幫助的情況下進行超引數調優和通用演算法開發,從而加速了我們的創新,”首席技術官 Caroline Hargrove 說。
平臺運營總監 Jean Marie Ferdegue 補充說:“為我們的資料科學家提供一個基於 Kubernetes 的平臺,意味著安全性的提高、透過賦權帶來的創新增加,以及更實惠的醫療服務,因為我們的雲工程師正在構建一個每天被數百人使用的體驗,而不是支援特定的定製用例。”
此外,隨著 Babylon 的持續擴張,“接納新國家將變得非常容易,”Vallée 說。“十五個月前我們部署這個平臺時,我們在英國有一個大的環境,但現在我們在加拿大有一個,在亞洲有一個,還有一個即將在美國上線。這是 Kubernetes 和其他雲原生專案為我們帶來的好處之一。”
Babylon 的雲原生路線圖涉及將公司所有的人工智慧工作都遷移到該平臺上。這越來越多地包括了人工智慧護理服務。“我認為這將是人工智慧與醫療保健相遇的一個有趣領域,”Vallée 說。“這是一個相當複雜的問題,並且圍繞它有很多問題。因此,透過我們的平臺,我們想說,‘我們能做些什麼來為我們的開發人員和機器學習工程師減輕痛苦呢?’”