欧美成人高清在线网址_国产全肉乱妇杂乱视频_18禁无遮挡无码网站免费_免费97视频在线精品国自产拍_人人妻人人妻人人人

【滁州seo】今日頭條seo算法原理原來是這樣的。

當前位置: 首頁 > 常見問題

【滁州seo】今日頭條seo算法原理原來是這樣的。

如今,算法分發(fā)已經(jīng)成為幾乎所有軟件的標準,比如信息平臺、搜索引擎、瀏覽器、社交軟件等。,但與此同時,算法也開始面臨質(zhì)疑、挑戰(zhàn)和誤解。今日頭條的推薦算法自第一版開發(fā)并于年運行以來,經(jīng)歷了四次大的調(diào)整和修改。

今日頭條委托資深算法架構(gòu)師曹歡歡博士公開今日頭條的算法原理,以期在全行業(yè)推廣咨詢算法和建議算法;通過讓算法透明化,可以消除社會各界對算法的誤解,逐步推動整個行業(yè)讓算法更好的造福社會。

以下是今日頭條算法原理全文。

今日頭條資深算法架構(gòu)師曹歡歡:

本次分享將主要介紹今日頭條推薦系統(tǒng)的概況以及內(nèi)容分析、用戶標注、評價分析、內(nèi)容安全的原理。

一.系統(tǒng)概述

推薦系統(tǒng),如果用一種形式化的方式來描述,實際上是一種符合用戶對內(nèi)容滿意度的功能。這個函數(shù)需要輸入三維變量。第一個維度是內(nèi)容。頭條現(xiàn)在是一個綜合性的內(nèi)容平臺,包括圖文、視頻、UGC視頻、問答、微頭條。每個內(nèi)容都有自己的特點,需要考慮如何提取不同內(nèi)容類型的特點并進行推薦。第二個維度是用戶特征。包括各種興趣標簽,職業(yè),年齡,性別等。,以及許多模型得出的隱含用戶興趣。第三個維度是環(huán)境特征。這是移動互聯(lián)網(wǎng)時代值得推薦的功能。用戶隨時隨地移動,在職場、通勤、出行等不同場景下,其信息偏好也隨之轉(zhuǎn)移。結(jié)合三個維度,模型會給出一個估計,即推測推薦內(nèi)容是否適合這個場景下的這個用戶。

還有一個問題。如何引入無法直接衡量的目標?

在推薦模型中,點擊率、閱讀時間、喜歡、評論、轉(zhuǎn)發(fā),包括喜歡,都是可以量化的指標,可以通過模型的直接擬合來估算??淳W(wǎng)上的推廣就知道自己做的好不好了。而一個海量的推薦系統(tǒng),服務(wù)的用戶量很大,不能完全用指標來評價,引入數(shù)據(jù)指標以外的因素也很重要。

例如廣告和特殊內(nèi)容頻率控制。例如,問答卡就是一種特殊形式的內(nèi)容。推薦的目標不僅僅是讓用戶瀏覽,還要吸引用戶回答,為社區(qū)做貢獻。如何將這些內(nèi)容與普通內(nèi)容混合,如何控制頻率控制都需要考慮。

此外,出于內(nèi)容生態(tài)和社會責任的考慮,如低俗內(nèi)容的抑制、標題黨和低質(zhì)內(nèi)容的抑制、重要新聞的置頂、加權(quán)和強制、低級賬號內(nèi)容的降級等,都不是算法本身能夠完成的,需要進一步介入內(nèi)容。

下面,我就簡單介紹一下基于以上目標的算法如何實現(xiàn)。

前面提到的公式y(tǒng)=F(,Xu,Xc)是一個經(jīng)典的監(jiān)督學習問題??梢詫崿F(xiàn)的方法有很多,如傳統(tǒng)的協(xié)同過濾模型、監(jiān)督學習算法LogisticRegression模型、基于深度學習的模型、因子分解機和GBDT等。

一個優(yōu)秀的工業(yè)推薦系統(tǒng)需要一個非常靈活的算法實驗平臺,可以支持多種算法組合,包括模型結(jié)構(gòu)調(diào)整。因為很難為所有推薦的場景建立一個通用的模型架構(gòu)?,F(xiàn)在很流行把LR和DNN結(jié)合起來。幾年前,臉書還結(jié)合了LR和GBDT算法。今天頭條的幾款產(chǎn)品都在使用同樣強大的算法推薦系統(tǒng),只是模型架構(gòu)會根據(jù)不同的業(yè)務(wù)場景進行調(diào)整。

之后再看典型的推薦特征。有四種主要類型的特征將在推薦中發(fā)揮重要作用。

第一類是相關(guān)性特征,就是評價內(nèi)容的屬性,是否與用戶匹配。顯式匹配包括關(guān)鍵詞匹配、分類匹配、來源匹配、主題匹配等。FM模型中也有一些隱式匹配,可以從用戶向量和內(nèi)容向量之間的距離得到。

第二類是環(huán)境特征,包括地理位置和時間。這些特征都是偏置特征,可以用來構(gòu)造一些匹配特征。

第三類是熱特性。包括全球熱度、分類熱度、話題熱度、關(guān)鍵詞熱度等。內(nèi)容信息在大型推薦系統(tǒng)中非常有效,尤其是在用戶冷啟動的時候。

第四類是協(xié)同特征,可以在一定程度上幫助解決算法縮小的問題。協(xié)作功能不考慮用戶的現(xiàn)有歷史。而是通過用戶行為來分析不同用戶之間的相似度,比如點擊相似度、興趣分類相似度、話題相似度、興趣詞相似度,甚至向量相似度,從而擴展模型的探索能力。

在模型的訓練上,頭條的推薦產(chǎn)品大多采用實時訓練。實時培訓節(jié)省資源,快速反饋,這對于信息流產(chǎn)品來說非常重要。所需的用戶行為信息可以被模型快速捕捉并反饋到下一次刷的推薦效果中。目前我們基于暴風集群在線實時處理樣本數(shù)據(jù),包括點擊、展示、收藏、分享等動作類型。參數(shù)服務(wù)器是內(nèi)部開發(fā)的一套高性能系統(tǒng),因為頭條數(shù)據(jù)規(guī)模增長太快,同類開源系統(tǒng)的穩(wěn)定性和性能無法滿足。但是我們自研系統(tǒng)的底層做了很多有針對性的優(yōu)化,提供了完善的運維工具,更好的適應(yīng)現(xiàn)有的業(yè)務(wù)場景。

目前頭條推薦算法模型在國際上也是比較大的,包括幾百億的原創(chuàng)特征和幾十億的向量特征。整個訓練過程是在線服務(wù)器記錄實時特征,導入到Kafka文件隊列中,再進一步導入暴風集群消耗的Kafka數(shù)據(jù)。客戶端發(fā)回推薦標簽構(gòu)造訓練樣本,然后進行在線訓練,根據(jù)更新的樣本更新模型參數(shù),從而更新最終的在線模型。這個過程中最主要的延遲是用戶的動作反饋延遲,因為用戶可能不會在文章被推薦后立即閱讀,整個系統(tǒng)不管這個時間都幾乎是實時的。

但由于目前頭條的內(nèi)容量非常大,小視頻內(nèi)容有幾千萬條,推薦系統(tǒng)不可能通過模型預(yù)測所有內(nèi)容。所以需要設(shè)計一些召回策略,每次推薦都要從海量內(nèi)容中篩選出上千個內(nèi)容庫。召回策略更重要的要求是表現(xiàn)要極致。通常,超時不應(yīng)超過毫秒。

回憶策略有很多種,我們主要用逆向的思路。離線維護反向隊列。這個倒排隊列的關(guān)鍵字可以是分類、主題、實體、來源等。排名考慮了熱度、新鮮度、動作等。在線召回可以根據(jù)用戶的興趣標簽從倒排列表中快速截出內(nèi)容,從龐大的內(nèi)容庫中高效篩選出少量可靠的內(nèi)容。

第二,內(nèi)容分析

分析包括文本分析、圖片分析和視頻分析。起初,標題主要是提供信息。今天主要講一下文本分析。文本分析在推薦系統(tǒng)中的一個非常重要的作用是用戶興趣建模。沒有內(nèi)容和文本標簽,就無法獲取用戶的興趣標簽。比如你只有知道文章標簽是互聯(lián)網(wǎng),用戶閱讀了有互聯(lián)網(wǎng)標簽的文章,你才能知道用戶有互聯(lián)網(wǎng)標簽,其他關(guān)鍵詞也一樣。

另一方面,文本內(nèi)容的標簽可以直接幫助推薦功能。比如魅族內(nèi)容可以推薦給關(guān)注魅族的用戶,這就是用戶標簽的匹配。如果某段時間推薦主頻道的效果不盡如人意,縮小推薦范圍,用戶在具體頻道推薦(如科技、體育、娛樂、軍事等)閱讀后會發(fā)現(xiàn),),他們會回到主feed,推薦效果會更好。因為整個模式是開放的,子渠道探索空間小,更容易滿足用戶需求。僅僅通過單一渠道反饋會很難提高推薦準確率,做好分渠道非常重要。而這也需要很好的內(nèi)容分析。

上圖是今日頭條的一個實際文本案例??梢钥吹?,這篇文章有分類、關(guān)鍵詞、主題、實體詞等文本特征。當然,沒有文本特征,推薦系統(tǒng)是不行的。推薦系統(tǒng)在亞馬遜用的比較早,甚至在沃爾瑪時代就有了,包括Netfilx做視頻推薦,沒有文字功能直接協(xié)同過濾推薦。而對于資訊產(chǎn)品來說,大部分都是消耗當天的內(nèi)容,沒有文字特征的新內(nèi)容冷啟動是非常困難的。協(xié)作功能解決不了文章冷啟動的問題。

今日頭條推薦系統(tǒng)提取的主要文本特征包括以下幾類。首先是語義標簽功能,對文章進行明確的標簽。這部分標簽是人定義的,每個標簽都有明確的含義,標簽系統(tǒng)是預(yù)定義的。另外還有隱含語義特征,主要是話題特征和關(guān)鍵詞特征,其中話題特征描述的是詞的概率分布,沒有明確的含義;但是關(guān)鍵字特征會基于一些統(tǒng)一的特征描述,沒有明確的設(shè)定。

此外,文本相似度特征也很重要。在頭條里,用戶曾經(jīng)反饋很大的一個問題就是為什么總是推薦重復的內(nèi)容。這個問題的難點在于每個人對重復的定義不同。比如有人覺得這篇關(guān)于皇馬和巴薩的文章昨天看過類似的內(nèi)容,今天又說這兩支球隊是復制體。但是對于一個重度球迷,尤其是巴薩球迷來說,我迫不及待的想看到所有的報道。要解決這個問題,需要判斷同類文章的主題、風格、主體,并根據(jù)這些特點制定上網(wǎng)策略。

同樣,還有時空特征,分析內(nèi)容的位置和時間性。比如把武漢的限行推給北京用戶,可能就沒什么意義了。之后要考慮質(zhì)量相關(guān)的特征來判斷內(nèi)容是否低俗、色情、軟文、雞湯。

上圖是頭條語義標簽的特點和使用場景。他們的層次不同,要求也不同。

分類的目標是全面覆蓋,希望每一個內(nèi)容、每一個視頻都分類;實體系統(tǒng)要求精確,相同的名稱或內(nèi)容要能清楚地區(qū)分所指的是哪個人或事,但不一定要完全覆蓋。概念系統(tǒng)負責解決更精確和抽象概念的語義。這是我們之前的分類。在實踐中,我們發(fā)現(xiàn)分類和概念在技術(shù)上可以互操作。后來我們統(tǒng)一了一套技術(shù)框架。

目前隱含的語義特征已經(jīng)可以幫助推薦,而語義標簽需要不斷標注,新的術(shù)語和概念不斷出現(xiàn),標注需要不斷迭代。它的難度和資源投入遠大于隱含語義特征,那為什么還要語義標簽?zāi)??有一些產(chǎn)品需求,比如明確定義的分類內(nèi)容,頻道的通俗易懂的文字標簽系統(tǒng)。語義標簽的效果是檢驗一個公司NLP技術(shù)水平的試金石。

今日頭條推薦系統(tǒng)的在線分類采用典型的層次文本分類算法。在根的上面,下面的第一級被分類成像科技、體育、金融、娛樂、體育這樣的類別,然后再下面,足球、籃球、乒乓球、網(wǎng)球、田徑、游泳& #;,足球細分為國際足球和中國足球,中國足球細分為中甲、中超和國家隊& #;與單一分類器相比,層次文本分類算法能更好地解決數(shù)據(jù)傾斜問題。也有一些例外。如果想提高召回,可以看看我們接了一些飛線。這套架構(gòu)是通用的,但是根據(jù)不同問題的難度,每個元分類器可以是異構(gòu)的。例如,一些分類支持向量機是有效的,一些應(yīng)該結(jié)合CNN,一些應(yīng)該結(jié)合RNN進行進一步處理。

上圖是一個實體詞識別算法的案例。根據(jù)分詞結(jié)果和詞性標注選擇候選詞可能需要根據(jù)知識庫進行一些拼接。有些實體是幾個詞的組合,需要確定哪些詞可以將實體的描述映射在一起。如果結(jié)果映射了多個實體,就需要通過詞向量、話題分布甚至詞頻本身進行消歧,然后計算出一個關(guān)聯(lián)模型。

第三,用戶標簽

內(nèi)容分析和用戶標簽是推薦系統(tǒng)的兩大基石。內(nèi)容分析涉及機器學習的內(nèi)容更多,相比用戶標簽工程,更具挑戰(zhàn)性。

今日頭條常用的用戶標簽包括用戶感興趣的類別和話題、關(guān)鍵詞、來源、基于興趣的用戶聚類、各種垂直興趣特征(車型、運動隊、股票等。).還有性別、年齡、地點等信息。性別信息通過登錄用戶的第三方社交賬號獲取。年齡信息通常由模型預(yù)測,通過模型、閱讀時間分布等進行估計。駐留位置來自用戶授權(quán)的位置信息,駐留位置是在位置信息的基礎(chǔ)上通過傳統(tǒng)的聚類方法得到的。常駐點可以結(jié)合其他信息猜測用戶的工作地點、出差地點、旅游地點。這些用戶標簽對推薦很有幫助。

當然,更簡單的用戶標簽是瀏覽的內(nèi)容標簽。但是這里涉及到一些數(shù)據(jù)處理策略。主要包括:1。過濾噪音。點擊停留時間短的過濾標題黨。第二,熱點懲罰。用戶在一些熱門文章上的動作(比如前段時間PGOne的新聞)被降級。理論上,傳播范圍廣的內(nèi)容,可信度會低一些。第三,時間衰減。用戶的興趣會發(fā)生轉(zhuǎn)移,所以策略更傾向于新的用戶行為。所以隨著用戶動作的增加,舊的特征權(quán)重會隨著時間衰減,新動作貢獻的特征權(quán)重會更大。第四,懲罰顯示。如果一篇推薦給用戶的文章沒有被點擊,相關(guān)特征(類別、關(guān)鍵詞、來源)的權(quán)重會受到懲罰。同時當然也要考慮全球背景,是否有更多的相關(guān)內(nèi)容推送,以及相關(guān)的關(guān)閉和不喜歡信號等。

用戶標簽挖掘通常很簡單,主要是由于剛才提到的工程挑戰(zhàn)。頭條標簽第一版是批量計算框架,流程比較簡單。每天提取昨天的日常用戶近兩個月的動作數(shù)據(jù),在Hadoop集群上批量計算結(jié)果。

但問題是,隨著用戶的快速增長,興趣模型等批量處理任務(wù)的類型越來越多,涉及的計算量太大。2000年,批量處理幾百萬用戶標簽更新的Hadoop task,當天勉強完成。集群計算資源的短缺很容易影響其他工作,集中寫入分布式存儲系統(tǒng)的壓力也越來越大,用戶興趣標簽的更新延遲也越來越高。

面對這些挑戰(zhàn)。年底,今日頭條上線了用戶標簽暴風集群流計算系統(tǒng)。改成流后,只要用戶的動作更新,標簽就會更新。CPU成本相對較小,可以節(jié)省%的CPU時間,大大降低計算資源開銷。同時只需要幾十臺機器就可以支持每天幾千萬用戶的興趣模型更新,特征更新速度非???,基本可以做到準實時。該系統(tǒng)自推出以來一直在使用。

當然,我們也發(fā)現(xiàn),并不是所有的用戶標簽都需要流系統(tǒng)。用戶的性別、年齡、居住地點等信息,無需實時重復計算,仍會保持每日更新。

四。評估和分析

上面介紹了推薦系統(tǒng)的整體架構(gòu),那么如何評價推薦效果呢?

有一句話我覺得很明智,“一個東西如果無法評估,就無法優(yōu)化”。推薦系統(tǒng)也是如此。

其實很多因素都會影響推薦效果。比如候選集的變化、召回模塊的改進或增加、推薦特征的增加、模型架構(gòu)的改進、算法參數(shù)的優(yōu)化等。不是例子。評測的意義在于,很多優(yōu)化最后可能會有負面效果,但并不是說優(yōu)化上線后效果就會有所提升。

一個全面的評價和推薦系統(tǒng)需要完整的評價體系、強大的實驗平臺和易用的實證分析工具。所謂完整的體系,并不是用單一的指標來衡量的。它不能只看點擊率或者停留時間長短等。需要綜合評價。在過去的幾年里,我們一直試圖將盡可能多的指標合成一個唯一的評價指標,但我們?nèi)栽谔剿髦小D壳斑€是要經(jīng)過各業(yè)務(wù)高年級學生組成的評審委員會深入討論后再做決定。

很多公司算法做的不好,不是工程師能力不夠,而是需要強大的實驗平臺和便捷的實驗分析工具,能夠智能分析數(shù)據(jù)指標的置信度。

一個好的評價體系的建立需要遵循幾個原則,首先是兼顧短期指標和長期指標。之前負責公司電商方向的時候,我觀察到很多戰(zhàn)略調(diào)整短期內(nèi)對用戶來說感覺很新鮮,但長期來看并無幫助。

其次,用戶指標和生態(tài)指標都要考慮。今日頭條作為內(nèi)容創(chuàng)作的平臺,既要為內(nèi)容創(chuàng)作者提供價值,讓他有尊嚴地創(chuàng)作,又有義務(wù)讓用戶滿意,兩者要平衡。還有廣告主的利益要考慮,這是一個多方博弈和平衡的過程。

另外,要注意協(xié)同效應(yīng)的影響。嚴格的流量隔離在實驗中很難做到,要注意外部效應(yīng)。

強大的實驗平臺非常直接的好處是,當同時有很多在線實驗時,平臺可以自動分配流量,無需人工溝通,實驗結(jié)束后可以立即恢復流量,提高管理效率。這樣可以幫助公司降低分析成本,加快算法的迭代效果,讓整個系統(tǒng)的算法優(yōu)化快速向前推進。

這就是頭條A/BTest實驗系統(tǒng)的基本原理。首先做好線下用戶分桶,然后線上分發(fā)實驗流量,給桶里的用戶貼上標簽,分發(fā)到實驗組。比如開一個%流量的實驗,兩個實驗組各%一個,一個%為基線,策略與線上市場相同,另一個為新策略。

實驗過程中會收集用戶動作,幾乎是實時的,每小時都能看到。但是,因為每小時的數(shù)據(jù)是波動的,所以通常以天為時間節(jié)點。采集后會有日志處理,分布式統(tǒng)計,寫入數(shù)據(jù)庫,非常方便。

在該系統(tǒng)下,工程師只需設(shè)置流量需求、實驗時間、定義特殊過濾條件和自定義實驗組ID。系統(tǒng)可以自動生成:實驗數(shù)據(jù)對比、實驗數(shù)據(jù)置信度、實驗結(jié)論總結(jié)和實驗優(yōu)化建議。

當然,只有實驗平臺是不夠的。線上實驗平臺只能通過數(shù)據(jù)指標的變化來猜測用戶體驗的變化,但數(shù)據(jù)指標和用戶體驗是有區(qū)別的,很多指標無法完全量化。許多改進仍然需要人工分析,重大改進需要人工評估和重新確認。

動詞 (verb的縮寫)內(nèi)容安全

后面會介紹今日頭條在內(nèi)容安全上的一些措施。目前,頭條是中國內(nèi)容創(chuàng)作和分發(fā)的大憑證,所以我們必須越來越重視社會責任和行業(yè)領(lǐng)導者的責任。如果%的推薦內(nèi)容出了問題,影響就大了。

因此,從一開始,頭條就將內(nèi)容安全放在公司更高優(yōu)先級的隊列中。在成立之初,就已經(jīng)成立了專門的審計小組負責內(nèi)容安全。當時只有幾個學生,開發(fā)所有的客戶端,后端,算法,頭條很重視內(nèi)容審核。

現(xiàn)在,今日頭條的內(nèi)容主要來自兩個部分,一個是擁有成熟內(nèi)容生產(chǎn)能力的PGC平臺。

一類是UGC用戶內(nèi)容,如問答、用戶評論、微頭條等。這兩部分需要通過統(tǒng)一的審核機制。如果是比較少量的PGC內(nèi)容,會直接進行風險審核,沒有問題的話會廣泛推薦。UGC內(nèi)容需要經(jīng)過風險模型的篩選,有問題的會進入二次風險審核。審核通過后,內(nèi)容才會真正被推薦。這時候如果收到超過一定量的評論或者舉報負面反饋,就會回到審核環(huán)節(jié),有問題就直接下架。整個機制比較健全。作為行業(yè)領(lǐng)導者,今日頭條在內(nèi)容安全方面一直以更高的標準要求自己。

內(nèi)容分享識別技術(shù)主要包括黃色識別模型、辱罵模型和低俗模型。今日頭條的低俗模型是深度學習算法訓練出來的。樣本基數(shù)很大,圖文同時分析。這部分模型更注重召回率,甚至可以犧牲準確率。濫用模型樣本庫也超過百萬,召回率%+準確率%+。如果用戶經(jīng)常發(fā)表直言不諱或不恰當?shù)脑u論,我們有一些懲罰機制。

泛低質(zhì)鑒定涉及很多情況,比如假新聞、黑稿、題字不符、標題黨、內(nèi)容質(zhì)量低等。這部分內(nèi)容很難被機器理解,需要大量的反饋信息,包括其他樣本信息的對比。目前低質(zhì)量模型的準確率和召回率都不是特別高,需要結(jié)合人工審核來提高門檻。目前最終召回已經(jīng)達到%,這部分還有很多工作要做。頭條人工智能實驗室老師李航也在與密歇根大學合作建立一個研究項目,建立一個謠言識別平臺。

作者:徐州百都網(wǎng)絡(luò) | 來源: | 發(fā)布于:2022-04-25 20:22:50