職位描述
職責描述:1. 設計并開發分布式機器學習訓練平臺和訓練引擎;構建萬卡集群架構及混合云架構;2. 優化訓練引擎的計算、通信與存儲性能,包括GPU資源利用率、數據流水線、存儲和網絡架構等關鍵環節;3. 實現訓練任務的自動容錯、動態擴縮容與資源調度策略,提升集群資源利用率;4. 與算法團隊緊密合作,抽象通用訓練模式,提供靈活易用的API接口。任職要求:1.計算機、電子信息、機器人等專業碩士及以上學歷;2. 具有5年及以上訓練系統開發或機器學習平臺架構經驗;3. 熟練使用至少一種深度學習訓練框架并理解其設計架構(Pytorch/Tensorflow/MindSpore/Paddle等);4. 熟悉機器學習開發流程,熟練使用Docker/K8S/KuberFlow等基礎設施,具備較好的問題解決能力;5. 具備良好的系統設計和問題解決能力,能夠獨立設計和優化復雜的架構,愿意探索和追蹤前沿技術。優先條件:1. 有成功的大規模機器學習平臺建設經驗者優先;2. 有大數據計算/存儲/通信等系統級優化經驗;3. 熟悉MegatronDeepSpeedColossalAIOneFlow等開源框架以及分布式訓練集群架構者優先。
企業介紹
卓馭提供量產輔助駕駛和高級別自動駕駛系統(涵蓋L2~L4)及自研核心零部件,為多種價位多種動力類型的乘用車提供靈活多樣的量產輔助駕駛解決方案。卓馭幫助合作伙伴解決難題,服務消費者提升體驗,推動汽車智能化能力的全面普及。卓馭起步于2016年,從車載項目小組逐步發展為組織建制完整的獨立公司。憑借多年積累的感知、機器學習、定位、決策、規劃、控制技術與智能硬件的量產經驗,以及高規格的流程體系、產品安全、網絡安全等車規全棧認證,持續為車企客戶帶來先進好用可落地的輔助駕駛解決方案。目前卓馭已獲得大量主流汽車品牌合作項目,量產項目不斷上市。卓馭擁有涵蓋銷售、研發、制造、供應鏈、質量及各職能部門的完整建制組織,截止2024年底,核心研發人員超2000人,覆蓋感知、決策規劃、高性能計算、功能安全、系統工程等專業領域。在智能制造與質量體系建設方面,卓馭亦建立起一支超過400人的工程團隊,其中90%的工程師來自知名OEM與Tier1廠商,可為智能技術量產提供強力支持。