【番禺網(wǎng)站優(yōu)化】網(wǎng)站中的文字相似度也是極其重要的。
在今日頭條,用戶反饋了很多問題。其中提到的問題比較多:為什么網(wǎng)站總是推薦一些重要的問題?在這種情況下,不同人重復(fù)的內(nèi)容有不同的含義。比如有人在看一些會娛樂八卦的文章。但是這些文章確實和我們昨天看到的差不多,所以今天再看一遍,還是會重復(fù)。如何解決這個內(nèi)容,我們需要能夠判斷類似的文章,看它們的話題、主題等內(nèi)容,然后根據(jù)這些內(nèi)容制定一些上網(wǎng)策略。
同一篇文章中還有一些時空特征,可以幫助我們分析內(nèi)容的位置及其時效性。比如把現(xiàn)在的東西推送給廣州的用戶就沒有意義。在正文的最后,我們不得不考慮與質(zhì)量相關(guān)的特性。來判斷文章內(nèi)容是低俗還是軟文還是雞湯。
此外,我們還需要了解語義標(biāo)簽的特點,以及可以使用語義標(biāo)簽的場景。要知道兩者之間有不同的層次,不同的要求。
作為分類的目標(biāo),他是能夠涵蓋方方面面的。他希望網(wǎng)站里的每一篇文章、每一個視頻都可以分類,它的實體系統(tǒng)要求更加精準(zhǔn)。要知道同一個名稱或內(nèi)容指定的人或事是不一樣的,覆蓋面也不全面。但在概念體系中,主要解決一些比較精確但抽象的語義。以上是網(wǎng)站早期的分類。
目前隱含的語義特征已經(jīng)可以幫助推薦,而語義標(biāo)簽需要不斷標(biāo)注,新的術(shù)語和概念不斷出現(xiàn),標(biāo)注需要不斷迭代。它的難度和資源投入遠(yuǎn)大于隱含語義特征,那為什么還要語義標(biāo)簽?zāi)??有一些產(chǎn)品需求,比如明確定義的分類內(nèi)容,頻道的通俗易懂的文字標(biāo)簽系統(tǒng)。語義標(biāo)簽的效果是檢驗一個公司NLP技術(shù)水平的試金石。
在網(wǎng)站中
今日頭條推薦系統(tǒng)的在線分類采用典型的層次文本分類算法。在根的上面,下面的第一級被分類成像科技、體育、金融、娛樂、體育這樣的類別,然后再下面,足球、籃球、乒乓球、網(wǎng)球、田徑、游泳& #;,足球細(xì)分為國際足球和中國足球,中國足球細(xì)分為中甲、中超和國家隊& #;與單一分類器相比,層次文本分類算法能更好地解決數(shù)據(jù)傾斜問題。也有一些例外。如果想提高召回,可以看看我們接了一些飛線。這套架構(gòu)是通用的,但是根據(jù)不同問題的難度,每個元分類器可以是異構(gòu)的。例如,一些分類支持向量機(jī)是有效的,一些應(yīng)該結(jié)合CNN,一些應(yīng)該結(jié)合RNN進(jìn)行進(jìn)一步處理。
上圖是一個實體詞識別算法的案例。根據(jù)分詞結(jié)果和詞性標(biāo)注選擇候選詞可能需要根據(jù)知識庫進(jìn)行一些拼接。有些實體是幾個詞的組合,需要確定哪些詞可以將實體的描述映射在一起。如果結(jié)果映射了多個實體,就需要通過詞向量、話題分布甚至詞頻本身進(jìn)行消歧,然后計算出一個關(guān)聯(lián)模型。
作者:徐州百都網(wǎng)絡(luò) | 來源: | 發(fā)布于:2022-04-15 00:36:09