萬(wàn)字詳解:騰訊如何自研大規(guī)模知識(shí)圖譜 Topbase
2) 實(shí)體分類的特征選擇:
屬性名稱:除了通用類的屬性名稱,如:中文名,別名,正文,簡(jiǎn)介等,其他屬性名稱都作為特征;
屬性值:不是所有的屬性值都是有助于實(shí)體分類,如性別的屬性值“男”或者“女”對(duì)區(qū)分該實(shí)體是“商業(yè)人物”和“娛樂(lè)人物”沒(méi)有幫助,但是職業(yè)的屬性值如“歌手”“CEO”等對(duì)于實(shí)體的細(xì)類別則有很強(qiáng)的指示作用,這些屬性值可以作為實(shí)體細(xì)分類的重要特征。一個(gè)屬性值是否需要加入他的屬性值信息,我們基于第一部分得到的訓(xùn)練數(shù)據(jù),利用特征選擇指標(biāo)如卡方檢驗(yàn)值,信息增益等進(jìn)行篩選。
簡(jiǎn)介:由于簡(jiǎn)介內(nèi)容相對(duì)較長(zhǎng)且信息冗余,并非用得越多越好。針對(duì)簡(jiǎn)介的利用我們主要采用百科簡(jiǎn)介中頭部幾句話中的主語(yǔ)是該實(shí)體的句子。
3) 實(shí)體分類模型
模型架構(gòu):基于 bert 預(yù)訓(xùn)練語(yǔ)言模型的多 Label 分類模型
圖16 實(shí)體分類基礎(chǔ)模型
模型輸入:我們針對(duì)上述特征進(jìn)行拼接作為 bert 的輸入,利用[sep]隔開(kāi)實(shí)體的兩類信息,每一類信息用逗號(hào)隔開(kāi)不同部分。第一類信息是實(shí)體名稱和實(shí)體簡(jiǎn)介,刻畫(huà)了實(shí)體的一個(gè)基本描述內(nèi)容,第二類信息是實(shí)體的各種屬性,刻畫(huà)了實(shí)體的屬性信息。例如,劉德華的輸入形式如下:
圖17 實(shí)體分類模型的輸入形式
模型 loss:基于層次 loss 方式,實(shí)體 Label 是子類:父類 Label 要轉(zhuǎn)換為正例計(jì)算 loss;實(shí)體 Label 是父類:所有子類 label 以一定概率 mask 不產(chǎn)生負(fù)例 loss,避免訓(xùn)練數(shù)據(jù)存在的細(xì)類別漏召回問(wèn)題。
七、知識(shí)融合 - 實(shí)體對(duì)齊
知識(shí)融合的目的是將不同來(lái)源的數(shù)據(jù)進(jìn)行合并處理。如從搜狗百科,體育頁(yè)面以及 QQ 音樂(lè)都獲取到了"姚明"信息,首先需要判斷這些來(lái)源的"姚明"是否指同一實(shí)體,如果是同一個(gè)實(shí)體(圖 18 中的搜狗和虎撲的姚明頁(yè)面)則可以將他們的信息進(jìn)行融合,如果不是(QQ 音樂(lè)的姚明頁(yè)面)則不應(yīng)該將其融合。知識(shí)融合的核心是實(shí)體對(duì)齊,即如何將不同來(lái)源的同一個(gè)實(shí)體進(jìn)行合并。
圖18 知識(shí)融合示列說(shuō)明
1. 實(shí)體對(duì)齊挑戰(zhàn)
不同來(lái)源實(shí)體的屬性信息重疊少,導(dǎo)致相似度特征稀疏,容易欠融合;
圖19 來(lái)自于百科和旅游網(wǎng)站的武夷山頁(yè)面信息
同系列作品(電影,電視。┫嗨贫雀,容易過(guò)融合,如兩部還珠格格電視劇
圖20 兩部還珠格格的信息內(nèi)容
多路來(lái)源的實(shí)體信息量很大(億級(jí)別頁(yè)面),如果每次進(jìn)行全局融合計(jì)算復(fù)雜度高,而且會(huì)產(chǎn)生融合實(shí)體的 ID 漂移問(wèn)題。
2. 實(shí)體對(duì)齊的解決思路
實(shí)體對(duì)齊的整體流程如圖所示,其主要環(huán)節(jié)包括數(shù)據(jù)分桶,桶內(nèi)實(shí)體相似度計(jì)算,桶內(nèi)實(shí)體的聚類融合。
圖21 Topbase實(shí)體對(duì)齊流程圖
1)數(shù)據(jù)分桶:
數(shù)據(jù)分桶的目的是對(duì)所有的多源實(shí)體數(shù)據(jù)進(jìn)行一個(gè)粗聚類,粗聚類的方法基于簡(jiǎn)單的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分桶,具體規(guī)則主要是同名(原名或者別名相同)實(shí)體分在一個(gè)桶內(nèi),除了基于名稱匹配,我們還采用一些專有的屬性值進(jìn)行分桶,如出生年月和出生地一致的人物分在一個(gè)桶。
2)實(shí)體相似度計(jì)算:
實(shí)體相似度直接決定了兩個(gè)實(shí)體是否可以合并,它是實(shí)體對(duì)齊任務(wù)中的核心。為了解決相似屬性稀疏導(dǎo)致的欠融合問(wèn)題,我們引入異構(gòu)網(wǎng)絡(luò)向量化表示的特征,為了解決同系列作品極其相似的過(guò)融合問(wèn)題,我們引入了互斥特征。
異構(gòu)網(wǎng)絡(luò)向量化表示特征:每個(gè)來(lái)源的數(shù)據(jù)可以構(gòu)建一個(gè)同源實(shí)體關(guān)聯(lián)網(wǎng)絡(luò),邊是兩個(gè)實(shí)體頁(yè)面之間的超鏈接,如下圖所示,百科空間可以構(gòu)建一個(gè)百科實(shí)體關(guān)聯(lián)網(wǎng)絡(luò),影視劇網(wǎng)站可以構(gòu)建一個(gè)影視劇網(wǎng)站的實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)。不同空間的兩個(gè)實(shí)體,如果存在高重合度信息,容易判別二者相似度的兩個(gè)實(shí)體,可以建立映射關(guān)系(如影視劇網(wǎng)站的梁朝偉頁(yè)面和百科的梁朝偉頁(yè)面信息基本一致,則可以認(rèn)為二者是同一個(gè)實(shí)體,建立鏈接關(guān)系),這樣可以將多源異構(gòu)網(wǎng)絡(luò)進(jìn)行合并,梁朝偉和劉德華屬于連接節(jié)點(diǎn),兩個(gè)無(wú)間道重合信息少,則作為兩個(gè)獨(dú)立的節(jié)點(diǎn)。然后基于 deepwalk 方式得到多源異構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)向量化表示特征。
圖22 多源異構(gòu)網(wǎng)絡(luò)關(guān)聯(lián)圖
文本相似特征:主要是針對(duì)存在簡(jiǎn)介信息的實(shí)體,利用 bert 編碼得到向量,如果兩個(gè)實(shí)體都存在簡(jiǎn)介信息,則將兩個(gè)簡(jiǎn)介向量進(jìn)行點(diǎn)乘得到他們的文本相似度特征;
基本特征:其他屬性的相似度特征,每一維表示屬性,每一維的值表示該屬性值的一個(gè) Jaccard 相似度;
互斥特征:主要解決同系列作品及其相似的問(wèn)題,人工設(shè)定的重要區(qū)分度特征,如電視劇的集數(shù),系列名,上映時(shí)間。
最后,按照下圖結(jié)構(gòu)將上述相似度特征進(jìn)行融合預(yù)測(cè)兩兩實(shí)體是否是同一實(shí)體;
圖23 實(shí)體對(duì)相似度打分模塊
3)相似實(shí)體的聚類合并:
Base 融合:在上述步驟的基礎(chǔ)上,我們采用層次聚類算法,對(duì)每一個(gè)桶的實(shí)體進(jìn)行對(duì)齊合并,得到 base 版的融合數(shù)據(jù),然后賦予每一個(gè)融合后的實(shí)體一個(gè)固定的 ID 值,這就得到了一個(gè) Base 的融合庫(kù);
增量融合:對(duì)于每日新增的實(shí)體頁(yè)面信息,我們不再重新進(jìn)行聚類處理,而是采用“貼”的模式,將每一個(gè)新增實(shí)體頁(yè)面和已有的融合實(shí)體進(jìn)行相似度計(jì)算,判斷該實(shí)體頁(yè)面應(yīng)該歸到哪一個(gè)融合實(shí)體中,如果相似度都低于設(shè)置的閾值,則該新增實(shí)體獨(dú)立成一堆,并設(shè)置一個(gè)新的融合實(shí)體 ID。增量融合的策略可以避免每次重復(fù)計(jì)算全量實(shí)體頁(yè)面的融合過(guò)程,方便數(shù)據(jù)及時(shí)更新,同時(shí)保證各個(gè)融合實(shí)體的穩(wěn)定性,不會(huì)輕易發(fā)生融合實(shí)體 ID 的漂移問(wèn)題;
融合拆解:由于 Base 融合可能存在噪聲,所以我們?cè)黾恿艘粋(gè)融合的修復(fù)模塊,針對(duì)發(fā)現(xiàn)的 badcase,對(duì)以融合成堆的實(shí)體進(jìn)行拆解重新融合,這樣可以局部修復(fù)融合錯(cuò)誤,方便運(yùn)營(yíng)以及批量處理 badcase。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專題
- 1 人形機(jī)器人,正狂奔在批量交付的曠野
- 2 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 3 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 4 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 5 2025年8月人工智能投融資觀察
- 6 7 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 8 Manus跑路,大廠掉線,只能靠DeepSeek了
- 9 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 10 地平線的野心:1000萬(wàn)套HSD上車(chē)