不懂AI的我,是如何搞開(kāi)發(fā)的?
金磊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
高達(dá)86%,這就是目前市場(chǎng)對(duì)「定制開(kāi)發(fā)AI模型」需求的占比。
但在這個(gè)過(guò)程中,企業(yè)用戶(hù)和開(kāi)發(fā)者往往存在著以下諸多問(wèn)題:
- 缺少模型訓(xùn)練經(jīng)驗(yàn)
- 數(shù)據(jù)采集和標(biāo)注成本較高
- 模型適配與部署流程非常繁瑣
- 模型優(yōu)化迭代周期長(zhǎng)
那么,是否存在一種工具,能夠「一站式解決」上述問(wèn)題呢?
百度EasyDL了解一下。
簡(jiǎn)單來(lái)說(shuō),EasyDL極大降低了深度學(xué)習(xí)的應(yīng)用門(mén)檻:
把AI開(kāi)發(fā)這件事情,搞得像使用「家用電器」一樣簡(jiǎn)單。 而且訓(xùn)練產(chǎn)出的AI模型質(zhì)量,如同高級(jí)工程師產(chǎn)出的一樣專(zhuān)業(yè)。
但其實(shí),百度早在2017年底便推出了EasyDL,2018年初正式開(kāi)放,與此同時(shí)提出了一個(gè)愿景——Everyone can AI。
那么時(shí)隔近三年,這一愿景走到了哪一步呢?
像用家電一樣的AI,能有多靠譜?
先來(lái)整體看下EasyDL所具有的三大特點(diǎn):
- 極簡(jiǎn)的交互和使用流程,最快15分鐘即可完成模型訓(xùn)練;
- 高精度的訓(xùn)練效果,比如圖像分類(lèi)模型的線上平均準(zhǔn)確率在99%以上;
- 部署方式豐富,全面支持云、端、邊部署。
首先是EasyDL的易用性、低門(mén)檻。
使用流程只有簡(jiǎn)單的四步,分別是「創(chuàng)建模型」、「準(zhǔn)備數(shù)據(jù)」、「訓(xùn)練模型」和「部署應(yīng)用」。
并且,在整個(gè)過(guò)程當(dāng)中,都是可視化圖形操作,這就大大降低了企業(yè)、開(kāi)發(fā)人員的使用門(mén)檻。
用百度AI平臺(tái)研發(fā)部技術(shù)總監(jiān)忻舟的話來(lái)說(shuō)就是:
不用一行代碼也可以基于需求和數(shù)據(jù),定制自己的AI解決方案。
在工業(yè)制造的生產(chǎn)質(zhì)檢領(lǐng)域,以「愛(ài)包花飾」為例,在監(jiān)測(cè)箱包生產(chǎn)過(guò)程中的殘留異物(針、金屬零部件等)時(shí),使用EasyDL訓(xùn)練箱包質(zhì)檢模型,在完全無(wú)需了解AI算法細(xì)節(jié)前提下,也訓(xùn)練出了準(zhǔn)確率90%的模型。
再以「瀚才獵頭」為例,幾名人力資源專(zhuān)家在不了解AI算法的情況下,使用EasyDL,完成了簡(jiǎn)歷數(shù)據(jù)的結(jié)構(gòu)化處理和自動(dòng)分類(lèi)模型,大大提升了工作人員在簡(jiǎn)歷檢索方面的效率。
但簡(jiǎn)單,并不意味著會(huì)忽略掉專(zhuān)業(yè)性。相反,二者是「兼容且并行」。
依舊是「瀚才獵頭」的案例,作為一家高級(jí)管理人員代理招募機(jī)構(gòu),其儲(chǔ)備了200萬(wàn)條不同行業(yè)的企業(yè)和人才信息。
但一個(gè)非?!钢旅沟膯?wèn)題就是:200萬(wàn)條數(shù)據(jù)因簡(jiǎn)歷檢索的低下,使人才庫(kù)的利用率不足10%。
而在使用EasyDL之后訓(xùn)練多個(gè)模型推進(jìn)簡(jiǎn)歷數(shù)據(jù)的結(jié)構(gòu)化處理,僅在「候選人職能」和「候選人職級(jí)」兩個(gè)模型上的識(shí)別率便達(dá)到了95%以上。
而以關(guān)鍵詞搜索的任務(wù)中,瀚才獵頭以往每天只能找到60-70份合適的簡(jiǎn)歷。但現(xiàn)如今,20分鐘就可能達(dá)到600-1000份,而且精準(zhǔn)度達(dá)到了95%。
一言蔽之,百度EasyDL不僅讓企業(yè)在「定制AI模型」上,使用起來(lái)像家用電器一般簡(jiǎn)單,并且還能像高級(jí)AI工程師一樣專(zhuān)業(yè)。
除此之外,EasyDL還支持公有云API、私有服務(wù)器部署、設(shè)備端SDK、軟硬一體方案等豐富的模型部署方式。
例如在軟硬一體方案部署上,EasyDL提供了6款軟硬一體方案,支持專(zhuān)項(xiàng)適配與加速,覆蓋高中低全矩陣,模型識(shí)別速度可提升10倍。
不僅豐富,還非??臁?strong>最快僅5分鐘即可集成。
而EasyDL這一切的優(yōu)異特性,離不開(kāi)其背后的技術(shù)硬實(shí)力。
EasyDL的能力是如何實(shí)現(xiàn)的?
表面上看起來(lái)、用起來(lái)越是簡(jiǎn)單的工具、平臺(tái),那它背后的設(shè)計(jì)可能越是復(fù)雜。
百度EasyDL也是如此。
平臺(tái)內(nèi)部采用了諸多復(fù)雜的深度學(xué)習(xí)算法和工程技術(shù),而這一切,都是為了保證其簡(jiǎn)單、易用、低門(mén)檻的使用效果。
EasyDL之所以能夠在模型方面達(dá)到高精度,一個(gè)重要原因是其基于百度自主研發(fā)的深度學(xué)習(xí)平臺(tái)飛槳。一站式模型訓(xùn)練和服務(wù)體驗(yàn),則融入了更多百度長(zhǎng)期積累的獨(dú)有技術(shù)和工程化能力。
首先,EasyDL預(yù)置了百度超大規(guī)模數(shù)據(jù)訓(xùn)練的預(yù)訓(xùn)練模型。
在視覺(jué)任務(wù)中,圖像分類(lèi)訓(xùn)練任務(wù)內(nèi)置百度基于海量互聯(lián)網(wǎng)數(shù)據(jù),包括10萬(wàn) 分類(lèi)、6500萬(wàn)圖片等訓(xùn)練的超大規(guī)模視覺(jué)預(yù)訓(xùn)練模型,平均精度可提升3.24%-7.73%。
在物體檢測(cè)訓(xùn)練任務(wù)方面,內(nèi)置百度基于800 標(biāo)簽、170萬(wàn)圖片,1000萬(wàn) 檢測(cè)框訓(xùn)練的超大規(guī)模物體檢測(cè)預(yù)訓(xùn)練模型,平均精度可提升1.78%-4.53%。
在自然語(yǔ)言處理方面,EasyDL預(yù)置了由百度自研、業(yè)界效果最好的預(yù)訓(xùn)練模型文心(ERNIE),將機(jī)器語(yǔ)義理解水平提升到一個(gè)新的高度。
EasyDL還提供了自動(dòng)數(shù)據(jù)增強(qiáng)、自動(dòng)超參搜索等AutoML/DL自動(dòng)化建模機(jī)制,對(duì)零算法基礎(chǔ)的用戶(hù)降低AI使用門(mén)檻。
而且基于飛槳DGC加速機(jī)制,通過(guò)只傳送重要梯度(稀疏更新)的方式來(lái)減少通信帶寬使用,從而讓EasyDL提升了分布式訓(xùn)練效率,相比傳統(tǒng)分布式訓(xùn)練方式,有70%以上的訓(xùn)練速度增益。
其次,在數(shù)據(jù)處理方面,EasyDL建設(shè)了EasyData智能數(shù)據(jù)服務(wù)平臺(tái)。
在數(shù)據(jù)標(biāo)注和數(shù)據(jù)清洗,EasyData提供了11種數(shù)據(jù)標(biāo)注模板,5種標(biāo)準(zhǔn)、高級(jí)的清洗方案。
EasyData還提供了軟硬一體、端云協(xié)同的自動(dòng)數(shù)據(jù)采集方案,可以在數(shù)據(jù)采集時(shí),免除繁瑣耗時(shí)的設(shè)備選型、調(diào)試和集成開(kāi)發(fā)工作。
最后,在部署部署方面,EasyDL提供了公有云API、設(shè)備端SDK、本地服務(wù)器部署、軟硬一體部署四種方案。
其中,公有云API可以支持彈性擴(kuò)縮容;設(shè)備端SDK目前EasyDL提供了端模型適配服務(wù),支持了15 芯片類(lèi)型,4大常用操作系統(tǒng)。
而這些,正是EasyDL強(qiáng)大能力的背后硬實(shí)力。
Why EasyDL?
因?yàn)?strong>有需求,這就是問(wèn)題的答案。
人工智能引領(lǐng)的第四次工業(yè)革命正不斷地滲透到各行各業(yè),大企業(yè)往往具備了一定的人才儲(chǔ)備、技術(shù)積累。
但相比之下,中小企業(yè)在智能轉(zhuǎn)型的過(guò)程中,往往處于碰壁的狀態(tài),智能化門(mén)檻過(guò)高,包括高級(jí)開(kāi)發(fā)人員成本、技術(shù)能力等等。
而中小企業(yè)在整個(gè)國(guó)民經(jīng)濟(jì)的發(fā)展過(guò)程中,卻起著舉足輕重的作用。
因此,解決這樣的問(wèn)題,便成為了一種「剛需」。
也正是因?yàn)檫@樣,EasyDL一經(jīng)開(kāi)放,便得到了中小企業(yè)的廣泛認(rèn)可和支持。
而在2年多的時(shí)間里,EasyDL也一直在持續(xù)升級(jí)和打磨,使整體的產(chǎn)品體驗(yàn)和功能更加完善。
這也是讓EasyDL與其它AutoDL平臺(tái)相比,具有較為突出的優(yōu)勢(shì),能夠獲得更好的效果。
不僅如此,EasyDL的更新迭代還在繼續(xù)。
例如,今年升級(jí)的最大亮點(diǎn),就是五月份全新發(fā)布了EasyData智能數(shù)據(jù)服務(wù)平臺(tái)。
專(zhuān)注在AI開(kāi)發(fā)場(chǎng)景在業(yè)內(nèi)開(kāi)放了提供一站式的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)回流的完整解決方案。
內(nèi)置的超大規(guī)模預(yù)訓(xùn)練模型也是今年核心的技術(shù)亮點(diǎn)升級(jí)之一,為提供更高精度的訓(xùn)練效果。
而就在剛剛過(guò)去的9月,我們看到EasyDL又進(jìn)行了一輪大幅升級(jí)。
在EasyDL經(jīng)典版NLP方向新增了定制情感傾向分析、文本分類(lèi)多標(biāo)簽、文本實(shí)體抽??;全新推出表格數(shù)據(jù)預(yù)測(cè)分析的ML方向,進(jìn)一步豐富了模型類(lèi)型。
數(shù)據(jù)服務(wù)上在已有的智能標(biāo)注基礎(chǔ)上重磅推出多人標(biāo)注,讓數(shù)據(jù)標(biāo)注的效率進(jìn)一步大幅提升。
全新上線模型市場(chǎng),支持個(gè)人或企業(yè)將EasyDL經(jīng)典版訓(xùn)練好的模型發(fā)布至市場(chǎng)進(jìn)行售賣(mài),并在業(yè)內(nèi)首個(gè)創(chuàng)新性支持從市場(chǎng)已購(gòu)買(mǎi)的模型結(jié)合數(shù)據(jù)進(jìn)行再訓(xùn)練,實(shí)現(xiàn)更佳的模型效果。
未來(lái),EasyDL還將繼續(xù)發(fā)力:
- 除了擴(kuò)展已有的 CV、NLP、ML、語(yǔ)音識(shí)別方向算法類(lèi)型,還將推出OCR、視頻追蹤等定制化能力。
- 持續(xù)提升模型效果,提高訓(xùn)練速度,加速模型推理。
- 在數(shù)據(jù)、模型、服務(wù)等各個(gè)方面,持續(xù)降低使用門(mén)檻。
至此,可以說(shuō)百度EasyDL離最初的「Everyone can AI」的愿景更加近了一步。
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)