0
雷鋒網(wǎng) AI 科技評(píng)論按:搜索技術(shù)從一開(kāi)始的桌面文件搜索、互聯(lián)網(wǎng)搜索,發(fā)展至今日流行的程序內(nèi)部搜索(In-app search),先后攻克了不同的技術(shù)難點(diǎn),面對(duì)如今來(lái)勢(shì)洶洶的 AI 時(shí)代,搜索技術(shù)又該何去何從呢?
作為 2018TOP100Summit 案例分享嘉賓之一,Dropbox 技術(shù)主管葉旭剛將在本文中分享搜索技術(shù)的發(fā)展的來(lái)龍去脈,以及當(dāng)下該領(lǐng)域所面臨的機(jī)會(huì)與挑戰(zhàn)。

葉旭剛,機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域資深專業(yè)人士?,F(xiàn)任美國(guó)云服務(wù)科技公司 Dropbox 的搜索團(tuán)隊(duì)的技術(shù)主管, 負(fù)責(zé)開(kāi)發(fā)新一代的云工作空間的智能搜索推薦引擎。曾在美國(guó)最大房地產(chǎn)搜索引擎 Zillow 任主任應(yīng)用科學(xué)家, 從事房地產(chǎn)垂直領(lǐng)域的搜索以及自然語(yǔ)言理解的研發(fā)。曾在美國(guó)蘋果公司任主任數(shù)據(jù)科學(xué)家, 從事客服搜索的研發(fā)。并曾在美國(guó)微軟公司任高級(jí)應(yīng)用科學(xué)家, 從事網(wǎng)頁(yè)搜索、地區(qū)搜索、企業(yè)搜索的研發(fā)。擁有約翰霍普金斯大學(xué)應(yīng)用數(shù)學(xué)及統(tǒng)計(jì)博士, 并曾在美國(guó)國(guó)立健康研究所從事生物信息統(tǒng)計(jì)博士后研究。曾獲約翰霍普金斯大學(xué)博士全額研究獎(jiǎng), 美國(guó)國(guó)立健康研究所優(yōu)秀人才獎(jiǎng), 海軍研究部研究??畹?。曾在運(yùn)籌統(tǒng)計(jì)、生物信息、大數(shù)據(jù)及機(jī)器學(xué)習(xí)方面的期刊及會(huì)議發(fā)表多篇第一作者文章。在頂級(jí)會(huì)議 (NIPS, INFORMS, SIAM, ICML, ISMB, CIKM) 做過(guò)報(bào)告。
搜索技術(shù)的「前生今世」
搜索領(lǐng)域的發(fā)展最早可追溯至微軟操作系統(tǒng)的基礎(chǔ)檢索功能——桌面文件搜索系統(tǒng)(index),后來(lái)隨著互聯(lián)網(wǎng)的普及,用戶搜索范圍不再局限于單機(jī)系統(tǒng),才誕生了互聯(lián)網(wǎng)搜索系統(tǒng)。
雅虎是最早投入互聯(lián)網(wǎng)搜索系統(tǒng)開(kāi)發(fā)的公司,然而一直未能從門戶網(wǎng)站的商業(yè)邏輯中跳脫出來(lái),導(dǎo)致錯(cuò)過(guò)了搜索引擎作為新型商業(yè)模式的風(fēng)口,因而被同期的小公司趕超。這種新型商業(yè)模式后來(lái)被谷歌發(fā)揚(yáng)光大,逐漸發(fā)展成今日的體量。
谷歌時(shí)代最重要的技術(shù)里程碑,是強(qiáng)調(diào)了網(wǎng)頁(yè)的重要性。谷歌為此進(jìn)行了大量的互聯(lián)網(wǎng)資源整合工作,只要出現(xiàn)一個(gè)站點(diǎn)/網(wǎng)頁(yè),谷歌都會(huì)統(tǒng)一進(jìn)行 Index 標(biāo)注,日積月累下成就了龐大的 Index 系統(tǒng)。Index 系統(tǒng)有效解決了雅虎時(shí)代遺留下的問(wèn)題,使用戶的查詢輸入同時(shí)映射至多個(gè)結(jié)果,并根據(jù)重要性對(duì)搜索結(jié)果進(jìn)行排序,從而保證呈現(xiàn)在用戶面前的都是最優(yōu)的搜索結(jié)果。
為此,谷歌需要付出高昂的基礎(chǔ)設(shè)施維護(hù)代價(jià)。據(jù)了解,單 2016 年,谷歌系統(tǒng)便已累積多達(dá) 10 萬(wàn)億個(gè)網(wǎng)頁(yè) index 標(biāo)注,耗費(fèi)存儲(chǔ)空間高達(dá) 100 PB(1 PB = 1024 TB)。
最近這幾年,谷歌的搜索模型逐漸從靜態(tài)封閉向開(kāi)放動(dòng)態(tài)發(fā)展,從單純的「搜索-返回」變?yōu)?strong>通過(guò)各種途徑揣測(cè)用戶意圖的智能化搜索服務(wù)。換句話說(shuō),谷歌系統(tǒng)時(shí)刻關(guān)注著用戶的搜索反饋,這些信息將被完整記錄下來(lái),然后經(jīng)過(guò)整理后更新至模型里頭,最后通過(guò)對(duì)比檢驗(yàn)?zāi)P偷乃阉餍Ч?/p>
「小而精」的 In-app search 時(shí)代
這一階段搜索技術(shù)在的特點(diǎn)是: Index 體量變得越來(lái)越大,Index 種類變得越來(lái)越豐富,同一時(shí)間模型理解用戶意圖(語(yǔ)境)的能力也在不斷地提高。
與此同時(shí),搜索技術(shù)也迎來(lái)了新挑戰(zhàn):
互聯(lián)網(wǎng)資源底層結(jié)構(gòu)變得多元化,用戶的搜索輸入不再局限于文字,當(dāng)中還包括圖像、語(yǔ)音、視頻等。
一旦資源庫(kù)的體量超出系統(tǒng)可負(fù)荷的臨界點(diǎn),后期可能導(dǎo)致資源管理上的問(wèn)題。
對(duì)應(yīng)的解決方案,是如雨后春筍般冒出的垂直領(lǐng)域搜索引擎。
跟過(guò)去不同的是,這些平臺(tái)未必在一開(kāi)始就提供檢索服務(wù),而是在商業(yè)模式取得巨大成功后,沉淀的用戶反哺為平臺(tái)帶來(lái)了大量?jī)?nèi)容,當(dāng)內(nèi)容豐富到一定程度時(shí),自然而然形成了特定領(lǐng)域的搜索引擎,業(yè)界將之稱作 In-app search——用戶先登陸某個(gè)具體 app 再進(jìn)行特定領(lǐng)域搜索的行為。
當(dāng)中最具有代表性的 In-app search 平臺(tái)是 Facebook,F(xiàn)acebook 在社交領(lǐng)域的積淀,使其在做社交搜索方面有著得天獨(dú)厚的優(yōu)勢(shì)。有人曾經(jīng)斷言,In-app search 極有可能在未來(lái)取代谷歌、Bing 等一般性搜索成為主流搜索工具。
此外,隨著「機(jī)器人時(shí)代」的來(lái)臨,搜索趨勢(shì)也將從單一輸入理解變成互動(dòng)式交流,由文字過(guò)渡至語(yǔ)音、圖像乃至視頻。為了更好地理解用戶的搜索意圖,這些機(jī)器人將擁有強(qiáng)大的自然語(yǔ)言理解能力,可以根據(jù)用戶的搜索需求將之導(dǎo)引至某個(gè)專屬領(lǐng)域 app。
目前看來(lái),擁有龐大的開(kāi)發(fā)者生態(tài)以及企業(yè)基礎(chǔ)數(shù)據(jù)的蘋果 app store 和 AWS 云平臺(tái),極有可能超越谷歌,成為 In-app search 時(shí)代的弄潮兒。
搜索領(lǐng)域現(xiàn)階段面臨的難點(diǎn)——「內(nèi)容理解」
無(wú)論是一般性檢索還是垂直領(lǐng)域檢索,在「機(jī)器人時(shí)代」都不可避免地要面臨「內(nèi)容理解」的難題。
為了讓搜索引擎很好地理解人類意圖,我們必須保證引擎底層的知識(shí)結(jié)構(gòu)和人類的知識(shí)結(jié)構(gòu)保持一致,自然語(yǔ)言理解在這過(guò)程中便扮演了重要的角色。換句話說(shuō),自然語(yǔ)言理解是搜索引擎的索引和用戶輸入之間的橋梁,一旦缺少這個(gè)橋梁,我們的檢索技術(shù)相當(dāng)于倒退至幾十年前,基本沒(méi)有進(jìn)步。
然而「內(nèi)容理解」面對(duì)的內(nèi)容不僅僅是常見(jiàn)的網(wǎng)頁(yè),還包括了其他的文本結(jié)構(gòu)如工作文檔(可進(jìn)一步細(xì)分為 word 文檔、pdf 文檔等)、圖像、視頻等,這就超出了自然語(yǔ)言理解的范疇,必須依賴諸如卷積神經(jīng)網(wǎng)絡(luò)、運(yùn)動(dòng)監(jiān)測(cè)、物體檢測(cè)等一系列特定技術(shù)才能解決信息提取問(wèn)題。這也推動(dòng)了目前深度學(xué)習(xí)領(lǐng)域較熱門的 embedding 工作,試圖將字面上的 token 映射至數(shù)字空間上。只有將不同文本結(jié)構(gòu)的信息提取出來(lái),我們才能將對(duì)象映射至文本空間上,接著通過(guò)文本技術(shù)來(lái)解決搜索的問(wèn)題。
總的來(lái)說(shuō),「內(nèi)容理解」的目的是要讓搜索引擎找到一種近似人腦對(duì)自然觀察理解的方式,然而這塊目前還處于比較初級(jí)的階段,目前引擎的信息提取效果大約等同于幾歲小孩,有的時(shí)候甚至還不如一只動(dòng)物。
這是搜索技術(shù)的發(fā)展當(dāng)下所面臨的瓶頸,需要更多的業(yè)界人士參與進(jìn)來(lái)一起努力攻克。
附:葉旭剛老師的 TOP100Summit 案例分享詳情
由 msup 主辦的技術(shù)界一年一度的 TOP100Summit 上,葉旭剛老師將與大家分享他在房地產(chǎn)搜索領(lǐng)域關(guān)于自動(dòng)補(bǔ)全與自動(dòng)建議技術(shù)的建模實(shí)現(xiàn)(內(nèi)容鏈接頁(yè):http://www.top100summit.com/think/13504)。作為搜索的輔助手段,智能的自動(dòng)補(bǔ)全和自動(dòng)建議可以幫助用戶快速表達(dá)搜索意圖,同時(shí)避免查詢?cè)~重復(fù)進(jìn)入深層 index 造成系統(tǒng)延遲。
為了實(shí)現(xiàn)這一目的,需要構(gòu)建一套該垂直領(lǐng)域的知識(shí)圖譜、詞匯表、字典樹(shù)數(shù)據(jù)結(jié)構(gòu),以及相關(guān)性概率的數(shù)學(xué)模型。葉旭剛老師將在報(bào)告中采用基于貝葉斯原則和條件獨(dú)立及非條件獨(dú)立的簡(jiǎn)化假設(shè)把相關(guān)性概率分解成區(qū)域化和個(gè)性化兩個(gè)部分。在具體實(shí)現(xiàn)時(shí)采用兩階段貪婪排序。也就是先用區(qū)域化的相關(guān)性概率來(lái)找到一個(gè)搜索結(jié)果列,再對(duì)這個(gè)列計(jì)算個(gè)性化打分從新排序。此外,葉旭剛老師還會(huì)在報(bào)告中介紹評(píng)價(jià)系統(tǒng)表現(xiàn)的模型,以及對(duì)應(yīng)的評(píng)價(jià)指標(biāo)。
通過(guò)本次分享,學(xué)員可以了解自動(dòng)補(bǔ)全和自動(dòng)建議的一個(gè)全貌和具體在一個(gè)垂直領(lǐng)域是如何建模、設(shè)計(jì)和實(shí)現(xiàn)的。學(xué)員可以把該模型和技術(shù)移植到他們自己的搜索領(lǐng)域。比如說(shuō)常見(jiàn)的場(chǎng)景是開(kāi)發(fā)商品搜索或?qū)I(yè)知識(shí)搜索的移動(dòng)應(yīng)用。
如果你對(duì)葉旭剛老師的主題分享感興趣,也想通過(guò)活動(dòng)了解更多其他領(lǐng)域的技術(shù)創(chuàng)新/研發(fā)管理實(shí)踐,歡迎大家通過(guò)活動(dòng)頁(yè)面購(gòu)買會(huì)議門票:http://www.top100summit.com/apply,會(huì)議提供各種購(gòu)票組合,大家可以實(shí)際需進(jìn)行購(gòu)買。
雷鋒網(wǎng) AI 科技評(píng)論雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。