沈陽微信小程序,沈陽微信小程序定制開發(fā),沈陽微信分銷商城小程序,沈陽餐飲小程序,沈陽美發(fā)小程序,沈陽超市小程序,沈陽生鮮小程序,沈陽百度小程序,沈陽支付寶小程序,沈陽微信拼團小程序,沈陽微信砍價小程序,沈陽實體店小程序,沈陽電商小程序,沈陽微信小程序開發(fā),遼寧微信小程序開發(fā),沈陽微信分銷商城,沈陽微信代運營,沈陽微信朋友圈廣告,沈陽微信代營銷,微信朋友圈廣告推廣,沈陽微信商城,品牌全網(wǎng)推廣,沈陽微網(wǎng)站,沈陽微營銷,沈陽網(wǎng)站開發(fā),沈陽網(wǎng)站建設,沈陽自適應網(wǎng)站,沈陽活動策劃執(zhí)行,沈陽商家聯(lián)盟,沈陽微信新零售小程序,盛京網(wǎng),沈陽眾都科技

當前位置: 主頁 > 新聞資訊 > 行業(yè)動態(tài) >
騰訊的內容算法是如何工作的?
來源:未知 日期:2019-07-07 點擊: 次
近期,騰訊PCG新聞產品技術部算法中心李彪應邀來到騰訊媒體研究院作內部分享,詳細梳理了算法應用產品場景,以下為部分內容實錄。
今天我跟大家分享的主題是算法賦能的內容處理和分發(fā),重點講一下內容處理。開始之前,先介紹一下算法在騰訊新聞的應用場景。
第一個,騰訊新聞APP中各種內容形態(tài)(如圖文、視頻、音頻、話題、問答等)的理解和分發(fā),涉及推薦系統(tǒng),以及AI算法賦能內容的運營。
第二個,將騰訊新聞推送到微信,每次一個大圖和三條新聞資訊,一共四條,點進去有些底層頁能跳轉到騰訊新聞APP。
第三個,海豚智音,一個“聽新聞”神器,主要用于智能音箱、車載音響和智能家電,目前能提供市場上70%的語音資訊;它涉及語音摘要、語音錄制和個性化語音推薦算法。
第四個,輔助創(chuàng)作(Dreamwriter),涉及寫稿、內容創(chuàng)作、篩稿、配圖等非常多的東西,也是本文介紹的重點。
一、算法的框架
算法整體框架由底層算法和上層應用組成。底層算法有NLP方面的詞法、句法、篇章理解等、視覺方面的圖像質量、圖文匹配、圖像視頻理解等算法,還有針對搜索的一些基礎算法。
底層算法的上面嫁接了兩大類應用,分別是推薦系統(tǒng)和搜索,推薦系統(tǒng)可分為五步。
1.內容處理
它也稱內容管理系統(tǒng),里面嵌入了文本分類、打標簽、摘要提取、語意分析、內容去重、內容分析、糾錯、配圖、篩稿等等和內容處理相關的算法。
2.索引
將初選完后的內容,即預備分發(fā)給用戶消費的圖文、視頻等資訊,加入索引。
3.畫像
它可分成基礎畫像和拓展畫像兩部分。基礎畫像通過用戶分類、Tag等興趣點、用戶基礎屬性、用戶地理位置、用戶使用時間段等情況,為用戶提供個性化推薦;還可以借鑒第三方提供的畫像,為用戶做相應的推薦。
拓展畫像會有一些隱式標識,比如根據(jù)他點擊過的新聞序列,用一個向量描述他的興趣點,而不是將他的興趣劃入某個分類或標簽,這個向量也會用在召回和排序中。
4.召回
根據(jù)用戶畫像描述的用戶興趣以及用戶行為序列,在庫中找他需要的文章。比如通過畫像的標簽進行召回、通過模型預測用戶的畫像和文章的匹配度進行召回、根據(jù)用戶的行為序列進行召回等等。
召回時,還要綜合考慮文章的熱度,比如四川地震,可能不是用戶的興趣,但是是近期熱點,也要召回,讓用戶消費這篇資訊。
此外,還得考慮人群聚類,用戶可能和其他人群有類似的興趣,但不體現(xiàn)在用戶標簽中,這時就需要做一些聚合,把別人喜歡的東西推薦給用戶。
最終通過上面多種召回途徑在庫里找出比較大的候選文章集合,準備推薦給用戶,但最終只展示一部分,因此需要進入精排選出top的。
5.精排
這里面涉及到排序算法,把底層最基礎的數(shù)據(jù)維度,比如用戶維度、內容維度設計出各種角度的特征,包括簡單的值特征,以及交叉特征,甚至復雜的模型計算出的特征,輸入到DNN+FM模型做點擊和時長預估。
它的目的是從而從幾千篇候選資訊中篩出幾十篇,為什么不是10篇、20篇呢?
因為這中間要考慮業(yè)務需求,比如多樣性因素,不能把用戶感興趣的資訊全給堆出來,要講究文章的多樣性,這里面就涉及到去重打散,要給用戶更多的候選文章。
二、算法賦能內容
算法賦能內容運營,在公司內部叫青云項目,英文是Dreamwriter,它的主要目的是通過算法來輔助內容的運營,提高它的工作質量和效率。
先看看這個項目的背景,作為公司級的內容媒體平臺,有非常多的稿件要入庫,存在稿件的精編、糾錯、篩稿、配圖、視頻增量和熱點監(jiān)控這六大問題,整個流程非常耗時。這擠占了編輯參與深度創(chuàng)作的時間,我們需要通過算法來解放他,讓他更好地創(chuàng)作。
三、算法還能做什么?
1.自動寫稿
輔助創(chuàng)作算法(Dreamwriter)能寫短文、能寫長文,它是如何做到的呢?基于模版的方法來寫作。
實際套路是根據(jù)原始的數(shù)據(jù)抓取或者是采買一些實時數(shù)據(jù)格式化入庫,然后進行邏輯的判斷,再根據(jù)信息的類型、類別選擇相應的模版生成稿子去發(fā)布。
這里有兩個疑問:如何構造模版庫呢?如何做邏輯判斷呢?
構造模版庫時,先通過人工,比如編輯和運營會先寫比較簡單的稿件模版,基于這個模版,我們通過算法去迭代,然后通過模版填充了一些詞,再挖掘出詞在不同語境下的不同模版,再循環(huán)迭代挖掘得到更多的模板。模板進入模板庫前,需要人工根據(jù)判斷準則審核一下。
接下來,我們再結合深度學習生成的模型提升模版的多樣化,比如一句話的表述,它可以表述成A,也可以表述成B,通過算法找出A和B的變化,最簡單的是進行同義詞的替換。最后再攻克表述銜接性的問題,就能得到一個更好的模版庫了。
有了模版庫之后再進行邏輯判斷,這時更多的根據(jù)內容源、所屬的場景類別決定使用哪些模版。我們現(xiàn)在的模版范圍挺大的,有一些類別是不需要人工審核,就可以直接發(fā)稿。
不過當前業(yè)界能自動寫稿的場景還是比較有限的,從流程看它比較依賴于算法挖掘出來的模版,當模版沒有套路時就很難做,比如讓它寫一篇文學作品,當前是做不到的,因為它需要巧妙的構思。
如果讓它寫一篇財經報道或者球賽報道,由于模式比較固定,機器肯定會做的很好。此外,生成式機器寫稿還存在一些問題,比如新冷詞不能很好地嵌入到文章里、生成的句子會重復等。
2.自動配圖
這個工作在新聞里面非常重要,它的目的是提升用戶體驗,吸引用戶去瀏覽資訊。有些文章是沒有圖片的,如何通過算法給它配圖?當文章比較長的時候,如何實現(xiàn)分段配圖?
有的文章里面只有一兩張圖,由于三圖文的點擊率會比單圖的高,如何湊滿三張圖呢?有時圖片比較多,如何選出高質量的圖,還和語意匹配呢?
最開始選圖時,只要能過濾掉表情圖、微博、文字圖和表格圖就行,這時使用圖像的分類模型就能實現(xiàn),缺點是有時候它選出來的圖和文章的語意匹配度不好。
舉個例子,比如之前網(wǎng)上畫了一個戶型圖,標題是君住長江尾我住長江頭,意思是說房子特別長,你住這頭,我住那頭,每天要跑很遠才能見面,第一版配的圖是它的報價,但是戶型圖沒有配。后來利用圖文語意匹配的模型解決了上述問題,整個語義匹配模型準確度超過90%,如何實現(xiàn)的呢?
先對標題或者正文的內容做一些標識,訓練時計算正例的圖片特征和負例的圖片特征之間的相對距離差,大于一個閾值,就認為語意匹配成功,即正例的圖片比負例的圖片和文章主題更貼近。
這里引出另一個問題,即如何選正例的圖片和負例的圖片?通過人工在之前分發(fā)過的文章列表中找和文章語意最相似的圖片作為正例,至于負例,將在正文里面達到一定條件的圖片作為負例,或者隨機采一些負例。
在上述基礎之上,對于無圖的文章,我們先建立一個圖庫,這個比較簡單,可以和第三方合作。還將歷史分發(fā)的有問題的圖片建立另一個圖庫,并監(jiān)控它的標簽。
有了圖庫,無圖、少圖、多圖的文章面臨的配圖難題就迎刃而解了。不過模型還需要進一步的改進,比如圖像所處的位置和文本的匹配,再比如圖像主體和文章想描述的主體之間的語義匹配。
3.自動提取摘要
它可分為兩種,一種是全文摘要,另一種是分段摘要。如何提取摘要呢?整個過程可分為四步。
第一步是預處理,做一些片斷的分析,比如圖像的注釋不適合做摘要,比如整篇文章沒有幾個字也不適合做摘要。
第二步是給句子打分,就是看看文章的哪些句子更可能被選為摘要的句子,假設跟文章標題最相關的句子作為摘要候選的句子,據(jù)此提取很多特征,比如句子的位置,在段首或者段尾的句子更有可能表達最重要的信息。
第三步是句子選擇,結合句子打分再考慮冗余性和連貫性來篩選句子,篩選句子時,會遇到候選句子有很多的情況,需要去掉冗余,這時先從庫中選一個句子,再和已選的句子集合進行匹配,相似度高的句子就放棄。還會遇到句子評分很高,但不能體現(xiàn)文章的核心內容的情況,這時需要做一些處理。
第四步是后處理,對選出來的句子做一些融合,再形成摘要,再然后通過人工評價內容是否通順、信息覆蓋是否全。
此外,智能的語音資訊也不能太長,因為10分鐘或5分鐘的語音會讓用戶很煩燥。這時需要對一篇新聞資訊提取出幾個摘要,確保一分鐘之內就能讀完。
4.自動生成短視頻
基于摘要配圖,再綜合文本,就能自動生成短視頻,即圖文轉視頻。有些文章,特別是娛樂類的圖片比較多,文字也不少,但是沒有對應的視頻,怎樣才能把這些圖文修成一個視頻呢?
先出一些摘要,再把摘要的句子打散,把這些句子配到每一個圖片上面。然后通過人工錄播或合成人聲搞定聲音,再做圖像之間的渲染和背景音樂的選擇,就生成了一個視頻。雖然它跟真實的視頻有一些差距,但是它的效果還是非常好的。
對于圖片比較少的文章,不足以支撐幾十秒的視頻時,需要通過自動配圖先給它配一些圖,再通過自動提取摘要萃取文章精華,最后自動生成短視頻。
5.分類平臺
AI輔助運營時,有很多分類,比如文章質量分、調性分、自動篩稿、一級分類、二級分類、地域分類、題材分類,歸根到底,從算法的角度來說就是分類任務。
最難的就是定義分類的標準,比如說按照質量分,質量分為三級,什么是一級、二級、三級,肯定有一個標準。在這個過程,編輯老師需要和算法團隊頻繁溝通如何制定標準,如何標注數(shù)據(jù),還得不斷反饋這些標注的質量。
標準確定后,累積一定樣本就可以通過文本分類方法來做,我們分類平臺能自動訓練,模型選擇,評估和在線服務化。
6.自動糾錯
由于錯別字的范圍不太好限定,所以錯別字的糾正非常難。常見的同音或近意錯別字,比如發(fā)標、發(fā)表,很容易糾正。
再難一點的是搭配錯誤,詞或者是字本身沒有錯誤,但是它不適合在這個語境用,搭配錯誤涉及到長距離的語意搭配錯誤(比如第一遍和第二遍的內容不一樣)和短距離的語意搭配錯誤。更難的設計知識內的錯誤,比如政治問題或者歷史人物信息等錯誤。
從應用角度來講,靠算法糾錯有時候不一定很準,有些本身沒有錯誤但算法提示錯誤,比如某一個人物講的話,這時需要標紅提醒一下。有時這個地方可能錯了,但算法沒有找到合適的詞去糾正,就有錯誤提醒。
自動糾錯大體可分為兩步。第一步是對輸入的文本先進行預處理,再加入一個規(guī)則系統(tǒng)。通用規(guī)則有成語、諺語,它是約定俗成的,字不對的話直接糾正過來就行。
第二步是通過模型糾正中高頻詞,通過自創(chuàng)方法糾正低頻詞。一般某一個字錯了,它的分詞也是錯的,這種需要結合上下文進行糾正,是比較難的。對于高頻詞的糾正,可以通過算法模型學習來實現(xiàn)。對于低頻次,就非常難學好。
7.生成簡報
即綜合好幾篇文章,自動生成一篇綜合性的文章,這個完全由算法來做。怎么做呢?
首先是選文章,根據(jù)過去一天里用戶反饋的信息,拿出一個候選的文章集合,再從每篇文章里抽取摘要。然后是配圖和選圖,這樣就得到了一個由標題、摘要和圖片組成的比較短的內容,之后把這些文章整合在一起。接下來就是生成一個讓用戶更容易點的標題,最后需要人工審一下。
8.熱點監(jiān)控
熱點監(jiān)控會對不同來源的熱點做實時監(jiān)控。監(jiān)控之前需要更快的找到熱點,如何實現(xiàn)呢?
第一種是通過微信和微博,微信熱點通過內部合作來找到,微博熱點通過抓取大V之間的轉發(fā)、轉評贊等方式發(fā)現(xiàn)熱點。
第二種是根據(jù)用戶的消費情況找到熱點,相對會滯后一點,比如推薦系統(tǒng)里面的統(tǒng)計熱點召回。
第三種是通過庫存的網(wǎng)站發(fā)現(xiàn)所謂的熱點,比如自媒體的文章同質非常多,通過算法得到潛在的熱點。
相關新聞