搜尋引擎

April 11, 2018

這篇來講一下關於搜尋引擎最基本的知識看完這篇文章後你就可以針對你手上有的許多文本直接寫一個簡單的搜尋引擎

要建置一個搜尋引擎包括三個階段(前置作業不算): Index, Query, Ranking

文本前置作業

以下的前置作業都是選擇性的不過如果是在系統設計的面試中你能夠提出越多pre-processing的考量就越加分

1.把所有文件大小寫先統一先固定成小寫(APPLE = apple)

2.把所有文件的文法統一 (research = researching = researches)

3.把stop words拿掉(the, a, an等等)

以上的這些前置作業又稱為正規化(normalization)

倒排索引(Inverted Index)

本文介紹的是最常見的倒排索引又稱為反向索引

直上例子假如我有兩個文件

Doc1: “Implement Simple Search Engine Easy Simple”

Doc2: “Search Simple Article”

我們就把每個字出現在哪個文件的哪個位置記成一個Array

implement: [[1,[0]]]

simple: [[1,[1, 5]], [2,[1]]

engine: [[1,[3]]

search: [[1,[2]], [2,[0]]

article: [[1,[2]]]

search: [[1,[1]]

第一個值是文件id 第二個值是這個詞在文件中的位置比如說[[1,[0]] 代表在第一個文件的第零個位置依此類推

怎麼使用這些Array待會就會說明

Map/Reduce

看完倒排索引的介紹後你會發現這個索引方式非常的適合用Map/Reduce

事實上Map跟Reduce之間還有一個Shuffle的步驟讓同樣的key交給同一個Reducer處理

所以假設N個文件 M個Mapper R個Reducer 總共有X個單字

1.每個Mapper處理N/M個文件

2.每個Mapper處理完後會產生X個數列

3.Suffler再把每一個Mapper的產出(X個數列)分成R等份交給不同的Reducer

4.每個Reducer負責X/R個單字把同樣單字的Array合併

5.最後所有Reducer再把結果合併

就是這麼簡單感覺MapReduce完全就是為Index而生再搭配GFS跟BigTable 三駕馬車帶領Google直衝向前

Query

故事回到第二步驟我們支援三種方式的Query

1.One Word Query: computer, university

2.Free Text Queries: stanford university, computer science

3.Phrase Queries: “stanford university”, “computer science”

第二個跟第三個的差別是第三個的順序是固定的第二個只要是出現過standford跟university就可以

先看一下我們手上有什麼

implement: [[1,[0]]]

simple: [[1,[1, 5]], [2,[1]]

engine: [[1,[3]]

search: [[1,[2]], [2,[0]]

article: [[1,[2]]]

search: [[1,[1]]

對於第一種情況就只要把那個字的Array的所有東西拿出來印出所有文件id就可以

比如simple, 那就是回傳1跟2 如果是engine就是回傳1

對於第二種情況就把每個字的Array的所有東西拿出來然後對文件id取聯集

比如simple search 就是回傳1跟2

對於第三種狀況比較有意思就把每個字的Array的所有東西拿出來然後對文件id取交集你得到的會是一些文件候選人對於每一個候選人看他們出現的位置是不是嚴格的加一遞增

直上例子今天假設搜尋的是”simple search engine”

我們先對文件id取交集發現只有文件1是我們的候選人

再來把每一個出現在文件1的照順序列出來

simple search engine

[1, 5] [2] [3]

然後看他是不是有嚴格遞增加一就可以但是情況可能會變得如以下複雜

[20,25,45] [33,52,13,44,46] [86,47,57,32,39]

這樣要怎麼快速的判斷呢來給你三秒鐘

只要稍微轉個彎照順序第一組的全部減一第二組的全部減二依此類推之後再取交集就可以

只要交集的結果不是空集合就代表這個文件是我們要找的人

Ranking

最後一步拿到你所有的文件之後誰要排在第一個誰排在最後一個有很多的算法這裡提幾個最常被提到的

1.TF-IDF:

TF是Term Frequency 就是這個term在這個文件裡面出現的次數

IDF是Inverse Document Frequency 就是在多少文件裡面出現過這個詞的倒數

把這兩個值乘起來值越高的文件排名越前面

不論是tf還是idf都有非常多的變形比如取對數等等在每個不同的情況下可能用不同的函數去計算TF跟IDF 但大方向都一樣這個詞在這個文件中出現越頻繁這份文件的分數就要提高這個詞若是出現在很多個文件裡面的話分數就要降低

Note: 在這個例子來說 idf事實上不需要列入考慮因為對於每個候選文件 idf值都會是一樣

2.Cosine:

定義一個N維的向量 N就是字典裡面的所有字的數目並把你的文件轉成一個向量每個值分別代表那個單字出現多少次

最後再把你的Query也轉成向量去比較向量的相似程度

Alt text

Note: 注意這個算法忽略了term的順序

3.如果這裡的文件是網頁的話可以再去爬這個網頁看有多少incoming/outgoing links 越多的代表這個網頁內容越多人喜歡或是越多人引用則可以排序越前面

4.你的關鍵字在網頁的什麼tag裡面 <h1>的分數高於<h4>

排序這檔事就可以依照你的商業邏輯去自己加以選擇排列

jyt0532's Blog