(資料圖片)
速途網(wǎng)5月22日訊(報(bào)道:?jiǎn)讨颈螅┙袢?,潞晨科技宣布成功完成了一輪?shù)億元的A輪融資。據(jù)該公司透露,這是潞晨科技成立18個(gè)月以來(lái)的第三輪融資,募集到的資金將主要用于團(tuán)隊(duì)擴(kuò)充和業(yè)務(wù)拓展。
潞晨科技成立于2021年,主要致力于建立分布式人工智能(AI)開(kāi)發(fā)和部署平臺(tái),旨在幫助企業(yè)降低大規(guī)模模型的實(shí)施成本,并提高訓(xùn)練和推理效率。該公司的創(chuàng)始人尤洋表示,他之前在伯克利和新加坡國(guó)立大學(xué)從事分布式計(jì)算、機(jī)器學(xué)習(xí)和高性能計(jì)算等相關(guān)研究,并曾創(chuàng)造過(guò)ImageNet和BERT訓(xùn)練速度的世界紀(jì)錄。在2021年左右,他更加堅(jiān)信大模型的發(fā)展趨勢(shì),因此創(chuàng)立了潞晨科技,旨在降低大模型的實(shí)施門(mén)檻。
潞晨科技目前的產(chǎn)品包括開(kāi)源高效深度學(xué)習(xí)系統(tǒng)Colossal-AI和企業(yè)版PaaS平臺(tái)。該平臺(tái)主要由異構(gòu)內(nèi)存管理系統(tǒng)、高效N維并行系統(tǒng)和低延遲推理系統(tǒng)組成,旨在實(shí)現(xiàn)最小化模型部署成本和最大化計(jì)算效率的目標(biāo)。
在異構(gòu)內(nèi)存管理方面,尤洋指出,隨著模型參數(shù)和層數(shù)的增加,計(jì)算量也相應(yīng)增加。例如,GPT3的1750億參數(shù)可能需要占用800G的內(nèi)存。此外,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),還需要存儲(chǔ)梯度和優(yōu)化器狀態(tài)等數(shù)據(jù)。尤洋舉例說(shuō):“即使在GPT3什么都沒(méi)做的情況下,它的內(nèi)存消耗也會(huì)達(dá)到3200G。”因此,在訓(xùn)練大模型的場(chǎng)景中,合理管理內(nèi)存資源變得非常重要。當(dāng)GPU內(nèi)存無(wú)法容納這些數(shù)據(jù)時(shí),還需要將部分?jǐn)?shù)據(jù)遷移到CPU或NVMe硬盤(pán)上。
尤洋表示,管理GPU、CPU和NVMe硬盤(pán)被稱為異構(gòu)管理。過(guò)去,異構(gòu)管理主要采用靜態(tài)方法,一開(kāi)始就預(yù)估所需的參數(shù)、梯度、優(yōu)化器等資源。然而,尤洋認(rèn)為這種方法過(guò)于固定,無(wú)法根據(jù)實(shí)際訓(xùn)練過(guò)程進(jìn)行調(diào)配,可能導(dǎo)致資源浪費(fèi)。而潞晨采用的動(dòng)態(tài)管理方式可以更加靈活地平衡資源。尤洋解釋道:“我們希望數(shù)據(jù)都能放到GPU中。
標(biāo)簽: