最近大熱的“夸克搜索”什么來(lái)頭?要招攬最頂級(jí)AI技術(shù)人才(夸克搜索百度百科)
曉查 發(fā)自 凹非寺
量子位 編輯 | 公眾號(hào) QbitAI
最近中文搜索引擎市場(chǎng)又突然熱了起來(lái),一家巨頭的入場(chǎng)讓外界充滿(mǎn)期待。
6月9日,阿里向外界確認(rèn)成立智能搜索業(yè)務(wù)部,隸屬阿里創(chuàng)新業(yè)務(wù)事業(yè)群,由UC事業(yè)部總經(jīng)理、書(shū)旗事業(yè)部總經(jīng)理吳嘉擔(dān)任負(fù)責(zé)人。
阿里人事變動(dòng),莫非要進(jìn)軍搜索引擎市場(chǎng)?其實(shí)阿里的產(chǎn)品早已先行。
今年4月,一款名為“夸克”的智能搜索App首次在蘋(píng)果應(yīng)用商店排名超越百度,并首次躋身前20。
其實(shí)早在2018年,夸克就開(kāi)始發(fā)力智能搜索,2019年1月,夸克發(fā)布3.0版,在自主訂制的AI搜索引擎、搜索直達(dá)、指令控制等方面實(shí)現(xiàn)了重要升級(jí)。
搜索引擎誕生已有20余年,無(wú)論國(guó)內(nèi)外,市場(chǎng)似乎早已塵埃落定,阿里為何如此“頭鐵”,夸克為何近兩年來(lái)越來(lái)越進(jìn)擊智能搜索?
這恐怕與近年來(lái)AI成熟落地密不可分,也不得不從搜索行業(yè)的變化開(kāi)始說(shuō)起。
多模態(tài)搜索的變革
PC時(shí)代,我們以文字作為主要的搜索形式。移動(dòng)互聯(lián)網(wǎng)興起后,手機(jī)端的搜索引擎App依然如此。
后來(lái),智能手機(jī)開(kāi)始普及,說(shuō)一段話(huà)、拍一張圖變得容易起來(lái),各大搜索引擎公司又加入了語(yǔ)音、圖片搜索。
如果我們仔細(xì)思考就會(huì)發(fā)現(xiàn),現(xiàn)階段大多數(shù)語(yǔ)音、圖片搜索,其實(shí)本質(zhì)上還是把多媒體信息轉(zhuǎn)變成文字,然后再進(jìn)行搜索。
這類(lèi)搜索只是理解用戶(hù)輸入的信息,實(shí)際上對(duì)另一端抓取的信息是沒(méi)有理解的??淇艘龅木褪翘鲞@種機(jī)械文本檢索的圍墻,改變搜索引擎。
在吳嘉看來(lái),這次的轉(zhuǎn)變是一場(chǎng)搜索引擎的真正變革。
吳嘉認(rèn)為,今天的內(nèi)容生態(tài)有很大的變化,搜索技術(shù)也應(yīng)該擁抱相應(yīng)的變化。
至少在語(yǔ)音、圖像理解的搜索上,夸克背后的阿里已經(jīng)擁抱變化。淘寶的圖片搜索技術(shù)早已在移動(dòng)端得到應(yīng)用,天貓精靈也是國(guó)內(nèi)智能音箱領(lǐng)域的頭部玩家。
在夸克的產(chǎn)品中,也有這兩類(lèi)智能搜索技術(shù)的體現(xiàn)。
那么未來(lái)的多模態(tài)搜索又會(huì)怎樣?
夸克的判斷是,未來(lái)搜索很大程度上會(huì)是視頻內(nèi)容檢索。注意不是對(duì)標(biāo)題的搜索標(biāo)題,而是對(duì)視頻內(nèi)容本身。
隨著短視頻這種娛樂(lè)、學(xué)習(xí)方式的興起,傳統(tǒng)的搜索方式變得無(wú)效,因?yàn)樗荒軐?duì)視頻內(nèi)容做出理解。
而這正是夸克在今天做的工作。
據(jù)夸克搜索技術(shù)負(fù)責(zé)人介紹,他們正在做視頻理解——深入到視頻每一幀畫(huà)面、每一句語(yǔ)音里,去分析這個(gè)視頻的主題和質(zhì)量,然后在分析的結(jié)果上建設(shè)一個(gè)視頻庫(kù)。
將來(lái)用戶(hù)只要一搜,就能把現(xiàn)在最好最熱門(mén)的視頻內(nèi)容返回給用戶(hù),提升用戶(hù)在視頻搜索上的體驗(yàn)。
這項(xiàng)技術(shù)離我們不會(huì)太遙遠(yuǎn)??淇水a(chǎn)品負(fù)責(zé)人鄭嗣壽透露,夸克將在不久后就會(huì)這樣的視頻搜索產(chǎn)品。
夸克為何要做搜索
通過(guò)搜索框和AI,我們初步了解了夸克產(chǎn)品??墒窃谛畔⒐聧u化的今天,有人認(rèn)為通用搜索已死,夸克為何還要做搜索?
因?yàn)樵诳淇藞F(tuán)隊(duì)看來(lái),通用搜索不但不會(huì)死,未來(lái)的價(jià)值還會(huì)越來(lái)越重要。
而且,直到今天,搜索引擎一直是互聯(lián)網(wǎng)的基礎(chǔ)服務(wù)之一,每天國(guó)內(nèi)就有數(shù)億用戶(hù)在用。
只要用戶(hù)有需求,通用搜索就會(huì)一直存在。
吳嘉在接受采訪(fǎng)時(shí)說(shuō),過(guò)去我們的搜索內(nèi)容在鏈接里、在H5里,但是今天想做好一個(gè)內(nèi)容,已經(jīng)沒(méi)有現(xiàn)成的鏈接和H5可供抓取了。
只有把要把內(nèi)容生態(tài)做起來(lái),同時(shí)提高技術(shù),搜索引擎才有出路。
生態(tài)方面,夸克不必?fù)?dān)心,有阿里的電商和大文娛內(nèi)容有阿里的生態(tài)內(nèi)容作為支持。
而更重要的是有AI搜索還有對(duì)內(nèi)容的理解,從海量化信息中把有價(jià)值的信息呈現(xiàn)給用戶(hù)。在這方面,夸克有自然語(yǔ)言理解AI技術(shù)幫助提取有效信息。
夸克為何有底氣做好搜索
無(wú)疑,阿里的中臺(tái)架構(gòu)幫助夸克在一年內(nèi)快速實(shí)現(xiàn)智能搜索的愿景。
產(chǎn)品負(fù)責(zé)人嗣壽自豪地說(shuō):“阿里的基礎(chǔ)設(shè)施建設(shè)是非常完善的,算力也有很大的優(yōu)勢(shì),在這里可以實(shí)現(xiàn)更先進(jìn)的算法?!?/p>
在技術(shù)方面,夸克搜索技術(shù)負(fù)責(zé)人向我們介紹,夸克在自然語(yǔ)言理解、知識(shí)圖譜、多模內(nèi)容理解方面都有大量投入:
- 在過(guò)去一年多的時(shí)間里,夸克構(gòu)建了超大規(guī)模的基礎(chǔ)的閱讀理解的數(shù)據(jù)集,為網(wǎng)頁(yè)搜索提供了段落級(jí)、句子級(jí)、單詞級(jí)別不同粒度的閱讀理解技術(shù)。
- 抽取網(wǎng)頁(yè)文本的知識(shí),將其與結(jié)構(gòu)化的知識(shí)做融合,構(gòu)建知識(shí)體系。目前已經(jīng)在醫(yī)療類(lèi)搜索中得到應(yīng)用。
- 最后就是之前提到的對(duì)視頻內(nèi)容的理解。
除了搜索的基礎(chǔ)技術(shù)外,夸克還在AR、VR圍繞這些交互方式上有非常多的探索。
作為阿里前沿技術(shù)的大腦,達(dá)摩院也為夸克輸送了大量的技術(shù)。
前不久達(dá)摩院提出的StructBERT,在通用語(yǔ)言理解評(píng)估基準(zhǔn)GLUE上超過(guò)了谷歌、微軟,排名第一。
這篇研究成果也被國(guó)際頂級(jí)AI學(xué)術(shù)會(huì)議ICLR 2020收錄,夸克團(tuán)隊(duì)也很快將這項(xiàng)技術(shù)用到自己的搜索產(chǎn)品當(dāng)中來(lái)。
去年谷歌將BERT用于文字搜索,大大提高搜索結(jié)果的準(zhǔn)確性,夸克在方面緊跟國(guó)外前沿公司的潮流。
技術(shù)以人為本,以上的技術(shù)離不開(kāi)夸克團(tuán)隊(duì)內(nèi)部人才的吸引和培養(yǎng)機(jī)制。
現(xiàn)在的團(tuán)隊(duì)中也有很多搜索行業(yè)的老兵,他們分別來(lái)自各大互聯(lián)網(wǎng)頂級(jí)公司。
據(jù)夸克搜索技術(shù)負(fù)責(zé)人介紹,現(xiàn)在的搜索技術(shù)團(tuán)隊(duì),最初來(lái)自于阿里的多個(gè)業(yè)務(wù)領(lǐng)域的技術(shù)團(tuán)隊(duì),之前研究過(guò)聊天機(jī)器人、智能問(wèn)答等技術(shù)場(chǎng)景,后來(lái)還參加過(guò)智能音箱相關(guān)技術(shù)的研發(fā)。
技術(shù)團(tuán)隊(duì)不是天生為搜索,但是卻與現(xiàn)在的智能搜索技術(shù)緊密關(guān)聯(lián)。
面對(duì)瞬息萬(wàn)變的搜索市場(chǎng),夸克也在及時(shí)獲取新鮮血液,有很多入職不到兩三年的新阿里人漸漸加入到當(dāng)中來(lái),不斷壯大團(tuán)隊(duì)。
雖然夸克的完成度已經(jīng)很高,但是未來(lái)還有很大的提升空間,尤其是視頻搜索、交互模式等方面。這離不開(kāi)更多新人的加入。
嗣壽希望,能夠更多年輕人加入夸克,夸克的AI研發(fā)崗位會(huì)一直向頂尖技術(shù)人才敞開(kāi),為做出更好中文搜索引擎的愿景一起努力。
— 完 —
量子位 QbitAI · 頭條號(hào)簽約
關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)