CASES 案例
我們的作品,他們的故事
Our work, their stories
Our work, their stories
網(wǎng)站優(yōu)化:百度檢測網(wǎng)站網(wǎng)頁質(zhì)量總結(jié)
網(wǎng)頁權(quán)威性是搜索引擎對結(jié)果進(jìn)行排序的一個重要參考因素。
計算網(wǎng)頁權(quán)威性時,將參與計算的所有網(wǎng)頁作為一個集合,并通過集合內(nèi)網(wǎng)頁之間的鏈接關(guān)系迭代計算網(wǎng)頁的權(quán)威性。
但是隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上的網(wǎng)頁越來越多,如果將互聯(lián)網(wǎng)上所有網(wǎng)頁都作為參與權(quán)威性計算的網(wǎng)頁,則對計算系統(tǒng)的架構(gòu)要求非常高,因此通常僅挑選各網(wǎng)站與外部網(wǎng)站存在鏈接關(guān)系的網(wǎng)頁作為參與權(quán)威性計算的網(wǎng)頁,但是現(xiàn)有技術(shù)的這種方式,會導(dǎo)致各網(wǎng)站內(nèi)部的一些優(yōu)秀網(wǎng)頁無法得到權(quán)威性值,此外,也會影響參與計算的網(wǎng)頁得到的權(quán)威性值的準(zhǔn)確性。
為了改善上述問題,現(xiàn)有技術(shù)有一種做法,是將網(wǎng)站內(nèi)與外部網(wǎng)站存在鏈接關(guān)系的網(wǎng)頁,以及網(wǎng)站內(nèi)的一些重要網(wǎng)頁一起提取出來,作為參與網(wǎng)頁權(quán)威性計算的網(wǎng)頁。
在現(xiàn)有技術(shù)中,是通過網(wǎng)站中網(wǎng)頁的站內(nèi)反鏈數(shù)量來確定網(wǎng)頁的重要性的,例如將網(wǎng)站中站內(nèi)反鏈數(shù)量大于設(shè)定閾值的網(wǎng)頁提取出來,如果這些網(wǎng)頁所指向網(wǎng)頁的站內(nèi)反鏈數(shù)量也大于設(shè)定閾值,則將這些網(wǎng)頁及所指網(wǎng)頁作為重點(diǎn)網(wǎng)頁。但是這種現(xiàn)有技術(shù)的方法,召回率較低,準(zhǔn)確性也較差。
。▉碓从诎俣人惴▽@麅(nèi)容)
新算法權(quán)威度調(diào)整
1.網(wǎng)頁中的所有鏈接提取出來
2.對網(wǎng)站所有鏈接進(jìn)行拆分重組排列(源代碼里最近的鏈接組成)3.從各個鏈接(內(nèi)鏈)中進(jìn)行匹配出現(xiàn)值最高的鏈接 例:多次A鏈接B,或不同ABC鏈接D4.有一個預(yù)定的閥值,如果不超過閥值那么將歸類于普通頁面,如沒有任何重點(diǎn)頁面(入口頁)則僅留下首頁為重點(diǎn)頁面.
5.重點(diǎn)鏈接是有數(shù)量上限,取決于鏈接對最多的頁面權(quán)威性,頁面權(quán)威性越高,重點(diǎn)頁面的數(shù)量就越高,比例通常在10-30%浮動,也就是一萬個頁面,可以出現(xiàn)1000-3000的參與排名的頁面。
6.百度訓(xùn)練模型將對鏈接對進(jìn)行一次匹配分類,區(qū)分重要程度。
7.百度訓(xùn)練模型的對鏈接進(jìn)行重要鏈接比對和非重要鏈接比對8.對重要鏈接進(jìn)行分類特征對比,以確定重要鏈接的參數(shù)范圍和特征范圍。
9.百度會對鏈接先進(jìn)行參數(shù)范圍和特征范圍匹配,然后在進(jìn)行重要程序分級。
10.內(nèi)鏈和反鏈的出面度是根據(jù)數(shù)量來決定,如果一個頁面有3個內(nèi)鏈,那么他的出面度就是311.對重要頁面的深度進(jìn)行說明,從首頁跳轉(zhuǎn)到對應(yīng)頁面的最短次數(shù),這個次數(shù)被定義為深度,重要頁面的深度會一定程度的影響頁面屬性。
12.內(nèi)鏈指向重要頁面的錨文本總數(shù),是根據(jù)切詞組成,也就是例如抽動癥治療頁面指向給了抽動癥,那么抽動癥這個頁面的錨文本總數(shù)就是3個,抽動癥治療,抽動癥,治療。3個錨文本。
13.根據(jù)重點(diǎn)頁面相互連接生成網(wǎng)站骨架,以定義網(wǎng)站的類型總結(jié):頁面的權(quán)威度由頁面的深度,被指向內(nèi)鏈的深度對比,錨文本詞頻、頁面出度、兩個頁面深度之間的差值來綜合評比頁面權(quán)威度。
總結(jié):頁面的權(quán)威度由頁面的深度,被指向內(nèi)鏈的深度對比,錨文本詞頻、頁面出度、兩個頁面深度之間的差值來綜合評比頁面權(quán)威度。
最新資訊