什么是文本摘要?為什么要有注意力機(jī)制?
什么是NLP中的文本摘要
自動(dòng)文本摘要是在保持關(guān)鍵信息內(nèi)容和整體含義的同時(shí),生成簡(jiǎn)潔流暢的摘要的任務(wù)。 文本摘要目前大致可以分為兩種類(lèi)型:
Extractive Summarization:重要內(nèi)容、語(yǔ)句提取。
Abstractive Summarization:文本總結(jié)。
Extractive Summarization
由圖可以看出,這種方法提取的內(nèi)容語(yǔ)句來(lái)自于原文。
Abstractive Summarization
由圖可以看出,這種方法提取的內(nèi)容語(yǔ)句可能不存在于原文。
Seq2Seq模型
Seq2Seq模型可以處理一切連續(xù)型信息,包括情感分類(lèi),機(jī)器翻譯,命名實(shí)體識(shí)別等。 機(jī)器翻譯任務(wù)中,輸入是連續(xù)文本序列,輸出也是連續(xù)文本序列。 命名實(shí)體識(shí)別中,輸入是連續(xù)文本序列,輸出是連續(xù)的標(biāo)簽信息。 所以,我們可以利用Seq2Seq模型,通過(guò)輸入一段長(zhǎng)文本,輸出短的摘要,實(shí)現(xiàn)文本摘要功能。 下圖是典型的Seq2Seq模型架構(gòu):
通常我們可以選擇RNNs網(wǎng)絡(luò)的變體GRU或者LSTM,這是因?yàn)樗鼈兡軌蛲ㄟ^(guò)克服梯度消失的問(wèn)題來(lái)捕獲長(zhǎng)期依賴(lài)性。
Encoder編碼器
LSTM中的Encoder讀取整個(gè)輸入序列,其中每個(gè)時(shí)間step上,都會(huì)有一個(gè)字輸入編碼器。然后,他在每個(gè)時(shí)間step上處理信息,并捕獲輸入序列中存在的上下文信息。
上一個(gè)時(shí)間step的隱藏層h1與記憶單元層c1將會(huì)用來(lái)初始化Decoder。
Decoder解碼器
Decoder是LSTM結(jié)構(gòu)的另一部分。它逐字讀取整個(gè)目標(biāo)序列,并以一個(gè)時(shí)間步長(zhǎng)預(yù)測(cè)相同的序列偏移量。 解碼器可以在給定前一個(gè)單詞的情況下預(yù)測(cè)序列中的下一個(gè)單詞。解碼器的初始輸入是編碼器最后一步的結(jié)果。
在將整個(gè)目標(biāo)序列放入解碼器前,還需將[start] 與 [end]這兩個(gè)特殊的tokens加入序列中,告知模型的開(kāi)始與結(jié)束。模型通過(guò)輸入的[start]開(kāi)始預(yù)測(cè)第一個(gè)詞,而[end]則表示整個(gè)句子的結(jié)束。
Deocder的工作流程
假設(shè)輸入序列為[x1,x2,x3,x4],將其編碼成內(nèi)部固定長(zhǎng)度的向量。 下圖顯示了每一個(gè)time step下Decoder是如何工作的。

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
12月18日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專(zhuān)題
- 1 人形機(jī)器人,正狂奔在批量交付的曠野
- 2 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 3 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 4 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 5 2025年8月人工智能投融資觀察
- 6 7 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 8 Manus跑路,大廠掉線(xiàn),只能靠DeepSeek了
- 9 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 10 地平線(xiàn)的野心:1000萬(wàn)套HSD上車(chē)