訂閱
糾錯(cuò)
加入自媒體

文生圖的“天花板”被捅破了!Gen-Searcher讓AI學(xué)會(huì)“翻書(shū)找答案”:不是背題,是開(kāi)卷考!

作者:Kaituo Feng等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

Gen-Searcher:首次探索并訓(xùn)練了一種用于圖像生成的多模態(tài)深度搜索智能體。我們已將該項(xiàng)目完全開(kāi)源,希望 Gen-Searcher 能為未來(lái)的相關(guān)研究提供開(kāi)放的基礎(chǔ)架構(gòu)。

構(gòu)建數(shù)據(jù)pipeline與基準(zhǔn)測(cè)試:為了支持模型訓(xùn)練,開(kāi)發(fā)了專(zhuān)門(mén)的數(shù)據(jù)pipeline來(lái)構(gòu)建“搜索密集型”圖像生成數(shù)據(jù),并由此產(chǎn)生了兩個(gè)訓(xùn)練數(shù)據(jù)集:Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。此外還引入了 KnowGen,這是一個(gè)極具挑戰(zhàn)性的新基準(zhǔn),專(zhuān)門(mén)用于評(píng)估在知識(shí)密集型真實(shí)場(chǎng)景下,基于搜索增強(qiáng)的圖像生成能力。

實(shí)驗(yàn)驗(yàn)證有效性:廣泛的實(shí)驗(yàn)證明了 Gen-Searcher 的卓越性能。方法使 Qwen-Image 在 KnowGen 基準(zhǔn)上提升了約 16個(gè)點(diǎn),在 WISE 基準(zhǔn)上提升了約 15個(gè)點(diǎn)。

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有的圖像生成模型雖能生成高保真圖像,但根本上受限于預(yù)訓(xùn)練階段獲得的固定內(nèi)部知識(shí),在需要豐富世界知識(shí)或最新信息的真實(shí)場(chǎng)景中經(jīng)常失效。

提出的方案

Gen-Searcher——首個(gè)經(jīng)過(guò)訓(xùn)練的搜索增強(qiáng)圖像生成智能體,能夠執(zhí)行多跳推理和搜索,收集文本知識(shí)和參考圖像以支撐有根據(jù)的生成。該工作還構(gòu)建了專(zhuān)門(mén)的數(shù)據(jù)pipeline,策劃了兩個(gè)高質(zhì)量數(shù)據(jù)集(Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k),并引入了KnowGen基準(zhǔn)用于評(píng)估。

應(yīng)用的技術(shù)

采用兩階段訓(xùn)練方案,先進(jìn)行監(jiān)督微調(diào)(SFT),再進(jìn)行基于智能體的強(qiáng)化學(xué)習(xí)(agentic RL)。RL階段采用雙獎(jiǎng)勵(lì)反饋機(jī)制,結(jié)合基于文本的獎(jiǎng)勵(lì)(,評(píng)估輸出文本包含信息的充分性、正確性和生成相關(guān)性)和基于圖像的獎(jiǎng)勵(lì)(,即K-Score,評(píng)估最終生成圖像質(zhì)量),最終獎(jiǎng)勵(lì)計(jì)算公式為 。優(yōu)化使用GRPO算法,優(yōu)勢(shì)函數(shù)計(jì)算為 。

達(dá)到的效果

Gen-Searcher在不同圖像生成主干網(wǎng)絡(luò)上均帶來(lái)顯著提升,如Qwen-Image在KnowGen上的K-Score從14.98提升至31.52(約16.5分提升)。更值得注意的是,訓(xùn)練于Qwen-Image的Gen-Searcher可直接應(yīng)用于Seedream 4.5和Nano Banana Pro而無(wú)需額外訓(xùn)練,分別帶來(lái)約16分和3分的提升,展現(xiàn)出強(qiáng)大的可遷移性。在WISE基準(zhǔn)上,Gen-Searcher將Qwen-Image從0.62提升至0.77。

方法架構(gòu)

數(shù)據(jù)集構(gòu)建

高質(zhì)量訓(xùn)練數(shù)據(jù)對(duì)于開(kāi)發(fā)能夠執(zhí)行多跳深度搜索和推理以進(jìn)行圖像生成的搜索智能體至關(guān)重要。然而,此類(lèi)數(shù)據(jù)并非天然存在,因?yàn)樗枰獙?duì)齊的搜索密集型提示、智能體搜索軌跡和有根據(jù)的圖像的三元組。

為解決這一挑戰(zhàn),工作設(shè)計(jì)了一個(gè)專(zhuān)門(mén)的數(shù)據(jù)pipeline,自動(dòng)構(gòu)建用于搜索支撐圖像生成的訓(xùn)練數(shù)據(jù)。整體pipeline包含四個(gè)階段:文本提示構(gòu)建、智能體軌跡生成、有根據(jù)的圖像合成,以及數(shù)據(jù)篩選與策劃。如下圖3所示為該數(shù)據(jù)策劃pipeline的示意圖。

文本提示構(gòu)建。首先構(gòu)建需要在圖像生成前進(jìn)行深度網(wǎng)絡(luò)搜索的文本提示。為確保多樣性和真實(shí)的搜索難度,采用兩種互補(bǔ)策略。主要方法使用精心設(shè)計(jì)的提示工程指導(dǎo)Gemini 3 Pro生成跨廣泛類(lèi)別的多跳搜索密集型提示,包括動(dòng)漫、建筑、藝術(shù)、天文、生物、名人、化學(xué)、文化、工程、電影、游戲、地理、歷史、工業(yè)、醫(yī)學(xué)、物理、政治、海報(bào)、宗教和體育。這些提示明確設(shè)計(jì)為所需信息無(wú)法通過(guò)單輪搜索獲得,而需要跨網(wǎng)絡(luò)的多步證據(jù)聚合和分析。

作為補(bǔ)充策略,工作將現(xiàn)有深度研究問(wèn)答數(shù)據(jù)集中的樣本轉(zhuǎn)換為面向圖像生成的提示。具體而言,使用Gemini 3 Pro將信息尋求問(wèn)題轉(zhuǎn)換為需要生成被查詢(xún)實(shí)體或事件的有根據(jù)視覺(jué)描述的提示。這一策略主要貢獻(xiàn)與一般新聞相關(guān)的提示,進(jìn)一步擴(kuò)展了多樣化知識(shí)場(chǎng)景的覆蓋范圍。

智能體軌跡生成。給定構(gòu)建的文本提示,生成智能體搜索軌跡以執(zhí)行深度搜索并收集足夠的證據(jù),用于生成最終的搜索支撐提示以及與所選參考圖像一起提供準(zhǔn)確視覺(jué)特征。同時(shí),這些軌跡也作為后續(xù)監(jiān)督微調(diào)的寶貴監(jiān)督數(shù)據(jù)。

具體而言,工作以多輪方式使用Gemini 3 Pro配合一組搜索工具。工具集包括search用于從網(wǎng)絡(luò)檢索文本信息、image_search用于通過(guò)文本查詢(xún)搜索相關(guān)圖像,以及browse用于閱讀和分析檢索網(wǎng)頁(yè)的詳細(xì)內(nèi)容。在此過(guò)程中,智能體持續(xù)分析來(lái)自環(huán)境的文本和視覺(jué)反饋,識(shí)別有用的證據(jù)和參考圖像,并相應(yīng)地規(guī)劃下一步行動(dòng)。通過(guò)這個(gè)多輪推理和搜索過(guò)程,智能體在最終生成用于圖像合成的有根據(jù)提示和一組相關(guān)參考圖像之前,逐步聚合來(lái)自多個(gè)來(lái)源的信息。

真實(shí)圖像合成。獲得最終有根據(jù)的提示和視覺(jué)參考后,使用專(zhuān)有圖像生成模型Nano Banana Pro合成相應(yīng)圖像。生成的圖像作為訓(xùn)練搜索智能體的合成真實(shí)值。此過(guò)程產(chǎn)生約30K原始樣本,包括提示、搜索軌跡、有根據(jù)的提示、參考圖像和真實(shí)圖像。

數(shù)據(jù)篩選與基準(zhǔn)構(gòu)建。為確保數(shù)據(jù)質(zhì)量,進(jìn)一步采用另一個(gè)強(qiáng)大的專(zhuān)有模型Seed1.8從多個(gè)角度對(duì)生成樣本進(jìn)行評(píng)分,包括提示是否真正需要搜索、生成內(nèi)容的正確性、對(duì)提示的忠實(shí)度、視覺(jué)美學(xué)、文本渲染清晰度和安全性考慮。這些基于模型的分?jǐn)?shù)與基于規(guī)則的篩選相結(jié)合,例如移除token長(zhǎng)度過(guò)長(zhǎng)或搜索結(jié)果不一致的提示。篩選后獲得約17K高質(zhì)量樣本。

從這個(gè)策劃的數(shù)據(jù)集中,選擇630個(gè)人工驗(yàn)證的樣本來(lái)構(gòu)建一個(gè)名為KnowGen的留岀基準(zhǔn),該基準(zhǔn)將在后文介紹。剩余的16K樣本用于訓(xùn)練,并被分成兩個(gè)數(shù)據(jù)集:Gen-Searcher-SFT-10k用于監(jiān)督微調(diào)和Gen-Searcher-RL-6k用于智能體強(qiáng)化學(xué)習(xí)。工作嚴(yán)格確保訓(xùn)練數(shù)據(jù)和評(píng)估基準(zhǔn)之間不存在重疊。

KnowGen基準(zhǔn)

為進(jìn)行評(píng)估,工作引入了KnowGen,一個(gè)旨在評(píng)估知識(shí)密集型真實(shí)場(chǎng)景中搜索支撐圖像生成的綜合基準(zhǔn)。與主要強(qiáng)調(diào)提示遵循或視覺(jué)質(zhì)量的傳統(tǒng)文本到圖像基準(zhǔn)不同,KnowGen明確關(guān)注知識(shí)密集型和搜索依賴(lài)型生成場(chǎng)景,其中解決提示通常需要從網(wǎng)絡(luò)檢索和聚合證據(jù)。

KnowGen中的每個(gè)樣本都被構(gòu)建為需要非平凡的外部知識(shí),許多樣本還需要在多個(gè)來(lái)源上進(jìn)行多跳搜索。為確?煽啃,所有評(píng)估樣本都經(jīng)過(guò)人工驗(yàn)證。

類(lèi)別組成。為提供對(duì)不同類(lèi)型搜索支撐生成任務(wù)的廣泛覆蓋,工作將KnowGen中的630個(gè)樣本分成兩個(gè)高級(jí)子集:Science & Knowledge和Pop Culture & News。Science & Knowledge子集包括以下類(lèi)別:天文、生物、化學(xué)、物理、工程、醫(yī)學(xué)、工業(yè)、建筑、歷史、地理、宗教、政治、文化、藝術(shù)和體育。這些任務(wù)通常需要事實(shí)性世界知識(shí)、實(shí)體消歧或領(lǐng)域特定信息,且經(jīng)常涉及必須正確視覺(jué)或文本實(shí)現(xiàn)的細(xì)粒度有根據(jù)細(xì)節(jié)。

Pop Culture & News子集涵蓋與動(dòng)漫、游戲、電影、名人、海報(bào)和一般新聞相關(guān)的提示。與第一個(gè)子集相比,這些任務(wù)更頻繁地涉及快速變化的現(xiàn)實(shí)世界信息、流行文化實(shí)體,以及必須準(zhǔn)確渲染的提示要求的文本或外觀細(xì)節(jié)。這種兩部分設(shè)計(jì)使KnowGen能夠在統(tǒng)一基準(zhǔn)內(nèi)評(píng)估相對(duì)穩(wěn)定的知識(shí)密集型場(chǎng)景和動(dòng)態(tài)的、高更新的真實(shí)場(chǎng)景。如下圖4所示為該基準(zhǔn)的類(lèi)別和示例概覽。

評(píng)估指標(biāo)。為評(píng)估KnowGen上的生成質(zhì)量,工作引入了K-Score,一個(gè)旨在從多個(gè)角度評(píng)估搜索支撐圖像生成的指標(biāo)。采用GPT-4.1作為評(píng)估模型輸出的評(píng)判者,遵循WISE基準(zhǔn)的做法。對(duì)于每個(gè)樣本,評(píng)估器接收原始文本提示、真實(shí)參考圖像和模型生成圖像作為輸入,并從四個(gè)維度對(duì)生成結(jié)果進(jìn)行評(píng)分:faithfulness(忠實(shí)度)、visual_correctness(視覺(jué)正確性)、text_accuracy(文本準(zhǔn)確性)和aesthetics(美學(xué))。

忠實(shí)度衡量生成圖像在場(chǎng)景結(jié)構(gòu)級(jí)別是否遵循提示,包括要求的主題、關(guān)系、設(shè)置和請(qǐng)求的格式。視覺(jué)正確性評(píng)估關(guān)鍵有根據(jù)的視覺(jué)屬性相對(duì)于目標(biāo)概念是否與參考圖像一致且正確,如主題外觀、物體特征或其他外部可驗(yàn)證的視覺(jué)線(xiàn)索。文本準(zhǔn)確性衡量圖像中任何提示要求的可讀文本是否存在、清晰且正確;當(dāng)提示不要求可讀文本時(shí),該維度被視為不適用且不計(jì)入平均分。美學(xué)衡量生成圖像的整體視覺(jué)質(zhì)量和藝術(shù)吸引力,包括構(gòu)圖、色彩和諧、光照等,評(píng)估圖像是否呈現(xiàn)視覺(jué)精致和美學(xué)愉悅。

按照評(píng)估設(shè)計(jì),每個(gè)維度使用三級(jí)離散量表  進(jìn)行評(píng)分。具體而言,分?jǐn)?shù)1表示生成圖像完全滿(mǎn)足該維度的要求,0.5表示該維度大致正確或滿(mǎn)足但包含輕微問(wèn)題或部分不匹配,0表示生成未能滿(mǎn)足該維度的關(guān)鍵要求。最終K-Score計(jì)算為這些四維度的加權(quán)組合:

該加權(quán)強(qiáng)調(diào)了搜索支撐圖像生成最關(guān)鍵的兩個(gè)方面,即正確渲染有根據(jù)的視覺(jué)屬性和準(zhǔn)確再現(xiàn)要求的文本內(nèi)容,同時(shí)仍考慮整體提示遵循度和圖像美學(xué)。工作分別報(bào)告兩個(gè)高級(jí)子集的K-Score以及KnowGen上的總體平均值。

訓(xùn)練方案

本節(jié)訓(xùn)練Gen-Searcher作為多模態(tài)深度搜索智能體,能夠從網(wǎng)絡(luò)迭代收集外部知識(shí)和視覺(jué)證據(jù)以進(jìn)行圖像生成。訓(xùn)練方案遵循兩階段pipeline,包括SFT和智能體RL。

搜索工具。Gen-Searcher配備三種搜索工具。第一個(gè)是search,執(zhí)行網(wǎng)絡(luò)文本搜索并返回每個(gè)查詢(xún)的top-k相關(guān)網(wǎng)頁(yè)URL及其短片段。該工具主要用于驗(yàn)證事實(shí)信息,如實(shí)體名稱(chēng)、事件細(xì)節(jié)、日期、位置和簡(jiǎn)潔描述。第二個(gè)是image_search,檢索給定文本查詢(xún)的top-k相關(guān)圖像,連同圖像URL和簡(jiǎn)要描述,使智能體能夠確定身份、物體、地標(biāo)、服裝和其他細(xì)粒度外觀細(xì)節(jié)。第三個(gè)是browse,接收網(wǎng)頁(yè)URL作為輸入并返回頁(yè)面內(nèi)容摘要;在實(shí)現(xiàn)中,該摘要由Qwen3-VL-30B-A3B-Instruct生成。當(dāng)淺層搜索結(jié)果不足且智能體需要從網(wǎng)頁(yè)提取具體證據(jù)時(shí)使用此工具。在每一步,智能體觀察當(dāng)前提示和累積的搜索反饋,然后決定是否繼續(xù)搜索、檢索視覺(jué)參考、瀏覽頁(yè)面獲取更多細(xì)節(jié),或以最終有根據(jù)的提示和所選參考圖像終止。如下圖5所示為Gen-Searcher的代表性推理軌跡示例。

兩階段訓(xùn)練。工作從Qwen3-VL-8B-Instruct初始化Gen-Searcher。在第一階段,在Gen-Searcher-SFT-10k上進(jìn)行監(jiān)督微調(diào),教授模型執(zhí)行多輪工具使用,包括發(fā)出搜索查詢(xún)、解釋文本和視覺(jué)反饋、選擇有用的參考圖像,以及撰寫(xiě)最終搜索支撐的提示。在第二階段,在Gen-Searcher-RL-6k上通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型,使其能夠?qū)W習(xí)更有效的搜索策略并產(chǎn)生改進(jìn)的工具調(diào)用軌跡。值得注意的是,在訓(xùn)練期間圖像生成器保持固定;工作僅優(yōu)化Qwen3-VL-8B-Instruct以生成搜索支撐的提示以及相應(yīng)的參考圖像。

雙獎(jiǎng)勵(lì)反饋設(shè)計(jì)。在該設(shè)置中進(jìn)行RL的自然選擇是直接使用基于圖像的獎(jiǎng)勵(lì)(如K-Score)來(lái)評(píng)估最終生成圖像。然而,僅依賴(lài)圖像獎(jiǎng)勵(lì)會(huì)導(dǎo)致大量噪聲和不穩(wěn)定性。這是因?yàn)樽罱K圖像質(zhì)量不僅取決于檢索證據(jù)的正確性,還取決于下游圖像生成器的能力和隨機(jī)性。特別是對(duì)于開(kāi)源生成器如Qwen-Image,即使智能體已收集正確信息,復(fù)雜提示仍可能無(wú)法產(chǎn)生高質(zhì)量圖像,且即使相似的有根據(jù)提示也可能導(dǎo)致明顯不同的生成結(jié)果。因此,純基于圖像的獎(jiǎng)勵(lì)引入大方差并使策略?xún)?yōu)化不穩(wěn)定。

為解決此問(wèn)題,工作引入額外的基于文本的獎(jiǎng)勵(lì),記為 ,其評(píng)估最終輸出文本是否包含用于合成目標(biāo)圖像的充分、正確且與生成相關(guān)的信息。同樣使用GPT-4.1作為評(píng)判者,以五級(jí)量表對(duì)該獎(jiǎng)勵(lì)進(jìn)行評(píng)分,取值為 。與圖像獎(jiǎng)勵(lì)相比,文本獎(jiǎng)勵(lì)為信息收集和證據(jù)聚合的質(zhì)量提供更直接的監(jiān)督。然而,僅使用文本獎(jiǎng)勵(lì)也不充分,因?yàn)楸砻嫔习浞中畔⒌奈谋静灰欢ㄖС指哔|(zhì)量圖像生成。僅優(yōu)化文本獎(jiǎng)勵(lì)將因此忽略實(shí)際最終任務(wù)生成結(jié)果,并可能鼓勵(lì)文本信息豐富但對(duì)生成實(shí)際無(wú)效的輸出。相應(yīng)提示可在附錄B中找到。

因此,工作結(jié)合兩種信號(hào)并采用雙反饋獎(jiǎng)勵(lì)設(shè)計(jì),其中基于文本的獎(jiǎng)勵(lì)監(jiān)督所收集信息的質(zhì)量,基于圖像的獎(jiǎng)勵(lì)反映最終生成性能。最終獎(jiǎng)勵(lì)計(jì)算為:

其中  是平衡超參數(shù)。這里工作簡(jiǎn)單設(shè)置  并使用K-Score作為 。

優(yōu)化。計(jì)算最終獎(jiǎng)勵(lì)后,工作使用GRPO優(yōu)化策略。對(duì)于查詢(xún)  下采樣的每個(gè)輸出 ,通過(guò)將其獎(jiǎng)勵(lì)與采樣組內(nèi)獎(jiǎng)勵(lì)的均值和標(biāo)準(zhǔn)差進(jìn)行歸一化來(lái)計(jì)算優(yōu)勢(shì):

最終策略更新遵循標(biāo)準(zhǔn)GRPO目標(biāo):

其中變量和超參數(shù)按照原始GRPO算法定義。

實(shí)驗(yàn)分析

實(shí)驗(yàn)設(shè)置。工作使用8塊NVIDIA H800 GPU訓(xùn)練Gen-Searcher-8B,以Qwen3-VL-8B-Instruct作為基礎(chǔ)模型。首先在Gen-Searcher-SFT-10k上進(jìn)行監(jiān)督微調(diào),然后在Gen-Searcher-RL-6k上進(jìn)行智能體RL訓(xùn)練。SFT和RL均使用AdamW作為優(yōu)化器,SFT學(xué)習(xí)率設(shè)為 ,RL學(xué)習(xí)率設(shè)為 ,批量大小均設(shè)為8。

RL訓(xùn)練期間,額外在16塊H800 GPU上部署Qwen-Image-Edit-2509以支持rollout圖像生成,因?yàn)榘l(fā)現(xiàn)2509版本比2511版本提供更優(yōu)的文本渲染質(zhì)量。同時(shí)還在8塊H800 GPU上部署Qwen3-VL-30B-Instruct-A3B作為browse工具的摘要模型。為提升效率,設(shè)置組大小為6,最大交互輪數(shù)限制為10,每輪最多返回5張圖像,最大上下文長(zhǎng)度設(shè)為36K,每輪模型響應(yīng)長(zhǎng)度限制為4K。按照先前做法,在訓(xùn)練中屏蔽過(guò)長(zhǎng)rollout和重復(fù)響應(yīng)的rollout。訓(xùn)練過(guò)程消耗約一天時(shí)間。

KnowGen基準(zhǔn)結(jié)果。如下文表1所示為不同模型在KnowGen基準(zhǔn)上的性能。總體而言,KnowGen對(duì)當(dāng)前圖像生成模型(尤其是開(kāi)源模型)而言是一個(gè)極具挑戰(zhàn)性的基準(zhǔn)。即使是強(qiáng)大的開(kāi)源基線(xiàn)如Qwen-Image、HunyuanImage-3.0、FLUX和Z-Image,K-Score也僅達(dá)到9到15分左右,表明知識(shí)密集型和搜索支撐圖像生成仍遠(yuǎn)超出標(biāo)準(zhǔn)文本到圖像系統(tǒng)的能力范圍。相比之下,專(zhuān)有模型表現(xiàn)顯著更好,Nano Banana Pro實(shí)現(xiàn)了最強(qiáng)的基線(xiàn)結(jié)果50.38,GPT-Image-1.5達(dá)到44.97。這一巨大差距表明KnowGen在背景知識(shí)檢索和忠實(shí)視覺(jué)實(shí)現(xiàn)方面都提出了重大挑戰(zhàn),也突顯了開(kāi)源和專(zhuān)有系統(tǒng)在處理此類(lèi)任務(wù)方面的明顯差異。

該方法在不同圖像生成主干網(wǎng)絡(luò)上均帶來(lái)顯著提升。與Qwen-Image結(jié)合時(shí),Gen-Searcher-8B將總體K-Score從14.98提升至31.52,獲得16.54分的提升。這一大幅提升表明Gen-Searcher能夠通過(guò)主動(dòng)從網(wǎng)絡(luò)收集有根據(jù)的文本證據(jù)和視覺(jué)參考,大幅彌補(bǔ)開(kāi)源圖像生成器內(nèi)置搜索能力的不足。更重要的是,Gen-Searcher不僅僅是學(xué)習(xí)特定生成器的提示啟發(fā)式,而是學(xué)習(xí)可遷移的搜索- grounding策略,能夠泛化到不同的下游圖像生成器。

值得注意的是,盡管Gen-Searcher在RL期間使用Qwen-Image作為rollout生成器進(jìn)行訓(xùn)練,但它在測(cè)試時(shí)能夠很好地遷移到其他生成器。特別是,它將Seedream 4.5從31.01提升至47.29,獲得16.28分的提升,并進(jìn)一步將Nano Banana Pro從50.38提升至53.30,達(dá)到表中最佳總體結(jié)果。這些結(jié)果不僅展示了搜索智能體的有效性,還展示了其在具有非常不同原生能力的圖像生成器間的強(qiáng)大可遷移性和魯棒性。

對(duì)四個(gè)評(píng)估維度的分析表明,Gen-Searcher帶來(lái)的增益主要來(lái)自visual correctness和text accuracy的提升,這也是KnowGen中最重要的兩個(gè)組成部分。這表明該搜索框架使圖像生成器能夠更好地生成需要現(xiàn)實(shí)世界知識(shí)的準(zhǔn)確視覺(jué)屬性和文本內(nèi)容。在某些情況下,觀察到美學(xué)分?jǐn)?shù)略有下降,這可能源于生成器需要整合來(lái)自多個(gè)檢索參考圖像的信息,因此無(wú)法始終產(chǎn)生最理想或視覺(jué)最愉悅的構(gòu)圖。

工作還發(fā)現(xiàn)Nano Banana Pro上有趣的模式:其提升主要來(lái)自visual correctness,而text accuracy幾乎保持不變。一種可能的解釋是Nano Banana Pro已經(jīng)在內(nèi)部支持基于文本的搜索,這有助于保持與文本相關(guān)的性能,但它不檢索視覺(jué)參考圖像,在確定細(xì)粒度視覺(jué)屬性方面留下了 substantial 的改進(jìn)空間。

WISE基準(zhǔn)結(jié)果。如下表2所報(bào)告為不同模型在WISE基準(zhǔn)上的性能。與KnowGen相比,WISE是一個(gè)相對(duì)更簡(jiǎn)單的基準(zhǔn),但仍需要一定量的世界知識(shí)以進(jìn)行正確的圖像生成。

Gen-Searcher-8B與Qwen-Image結(jié)合在WISE上取得最佳總體性能0.77,顯著優(yōu)于原始Qwen-Image基線(xiàn)的0.62,提升0.15。它也超越了所有其他開(kāi)源模型,包括LongCat-Image、HunyuanImage-3.0和FLUX.1-dev。觀察各個(gè)類(lèi)別,該方法在Cultural、Time、Space、Biology以及特別是Chemistry上帶來(lái)明顯提升,其中Chemistry分?jǐn)?shù)從0.40提升至0.75。這些結(jié)果進(jìn)一步證明Gen-Searcher能夠超越KnowGen進(jìn)行泛化,并有效增強(qiáng)基于知識(shí)的圖像生成基準(zhǔn)上的圖像生成能力。

消融實(shí)驗(yàn)。為驗(yàn)證Gen-Searcher中不同組件的有效性并更好理解每個(gè)設(shè)計(jì)選擇在整體框架中的作用,工作比較了以下變體:

(1)無(wú)任何搜索增強(qiáng)的原始Qwen-Image基線(xiàn);

(2)Qwen-Image + workflow,使用Qwen3-VL-8B-Instruct作為搜索智能體,采用手動(dòng)設(shè)計(jì)的基于提示的搜索工作流而無(wú)需任何額外訓(xùn)練;

(3)Qwen-Image + Gen-Searcher-SFT,僅應(yīng)用監(jiān)督微調(diào)訓(xùn)練Gen-Searcher而無(wú)需強(qiáng)化學(xué)習(xí);

(4)Qwen-Image + Gen-Searcher w.o. text reward,移除基于文本的獎(jiǎng)勵(lì),RL訓(xùn)練期間僅使用基于圖像的獎(jiǎng)勵(lì);

(5)Qwen-Image + Gen-Searcher w.o. image reward,移除基于圖像的獎(jiǎng)勵(lì),RL訓(xùn)練期間僅使用基于文本的獎(jiǎng)勵(lì);

(6)完整的Gen-Searcher模型,包括SFT初始化和提出的智能體RL訓(xùn)練期間的雙獎(jiǎng)勵(lì)反饋設(shè)計(jì)。

如下表3所示,所有組件都對(duì)最終性能有積極貢獻(xiàn)。與原始Qwen-Image基線(xiàn)相比,基于提示的工作流將KnowGen分?jǐn)?shù)從14.98提升至22.91,表明僅引入外部搜索就能為知識(shí)密集型圖像生成帶來(lái)收益。用Gen-Searcher-SFT替換基于提示的工作流進(jìn)一步提升分?jǐn)?shù)至28.15,證明了直接從軌跡數(shù)據(jù)學(xué)習(xí)工具使用行為相對(duì)于依賴(lài)手動(dòng)設(shè)計(jì)提示規(guī)則的優(yōu)勢(shì)。這表明在策劃的搜索軌跡上進(jìn)行監(jiān)督學(xué)習(xí)使模型能夠更好地組織搜索行動(dòng)、整合檢索證據(jù),并為生成產(chǎn)生更有效的有根據(jù)提示。

智能體強(qiáng)化學(xué)習(xí)在SFT基礎(chǔ)上帶來(lái)額外收益,完整的Gen-Searcher達(dá)到最佳性能31.52。這表明雖然SFT為基本工具使用提供了強(qiáng)大的初始化,但RL對(duì)于進(jìn)一步優(yōu)化長(zhǎng)程搜索行為和提升所收集證據(jù)及最終輸出的整體質(zhì)量仍然至關(guān)重要。此外,移除文本獎(jiǎng)勵(lì)或圖像獎(jiǎng)勵(lì)都會(huì)導(dǎo)致明顯下降,分?jǐn)?shù)分別降至29.59和29.36。這證實(shí)了兩個(gè)獎(jiǎng)勵(lì)信號(hào)發(fā)揮互補(bǔ)作用。文本獎(jiǎng)勵(lì)為智能體是否在文本層面收集了充分且正確的信息提供更直接的監(jiān)督,而圖像獎(jiǎng)勵(lì)將策略與最終生成結(jié)果對(duì)齊,并鼓勵(lì)所收集證據(jù)對(duì)圖像合成實(shí)際有用。總體而言,消融結(jié)果驗(yàn)證了整體框架的有效性,包括學(xué)習(xí)的搜索行為、智能體RL優(yōu)化和提出的雙獎(jiǎng)勵(lì)設(shè)計(jì)。

定性可視化分析。如下圖6所示為KnowGen基準(zhǔn)上的代表性定性示例?傮w而言,Gen-Searcher在不同下游生成器上持續(xù)提升生成圖像的質(zhì)量和正確性在知識(shí)密集型、真實(shí)場(chǎng)景中。首先,觀察到Nano Banana Pro在生成真實(shí)、知識(shí)密集型場(chǎng)景的準(zhǔn)確細(xì)粒度視覺(jué)屬性方面仍有不足,因?yàn)樗鼰o(wú)法執(zhí)行圖像搜索以獲取精確的視覺(jué)參考。因此,即使某些文本信息正確,生成的身份、物體外觀或建筑細(xì)節(jié)也可能偏離目標(biāo)。相比之下,Gen-Searcher通過(guò)搜索相關(guān)參考圖像并用更準(zhǔn)確的有根據(jù)視覺(jué)證據(jù)確定生成過(guò)程,從而改進(jìn)Nano Banana Pro。

一個(gè)有趣的發(fā)現(xiàn)是,對(duì)于Qwen-Image,即使搜索智能體已收集正確信息,由于圖像生成器本身的限制(如多主題一致性問(wèn)題、文本渲染不佳問(wèn)題),最終生成有時(shí)仍可能不準(zhǔn)確。如上文圖6的第四行提供了這樣一個(gè)示例,其中搜索內(nèi)容正確但生成的圖像仍未能忠實(shí)地實(shí)現(xiàn)所需的多角色細(xì)節(jié)?傊@些示例表明Gen-Searcher能夠通過(guò)為有根據(jù)的文本和視覺(jué)證據(jù)提供支撐,大幅改進(jìn)強(qiáng)大的專(zhuān)有模型Nano Banana Pro和開(kāi)源模型Qwen-Image的生成質(zhì)量,而某些失敗案例也表明下游圖像生成器的能力仍是一個(gè)挑戰(zhàn)。

參數(shù)分析。工作進(jìn)一步分析了雙反饋設(shè)計(jì)中基于文本獎(jiǎng)勵(lì)和基于圖像獎(jiǎng)勵(lì)之間的平衡系數(shù) 。如下圖7所示為使用不同  進(jìn)行RL訓(xùn)練的Gen-Searcher性能。觀察到設(shè)置  或  都會(huì)導(dǎo)致明顯的性能下降,表明兩個(gè)獎(jiǎng)勵(lì)信號(hào)對(duì)于有效訓(xùn)練都是必需的。這與動(dòng)機(jī)一致:僅依賴(lài)圖像獎(jiǎng)勵(lì)由于下游生成器的隨機(jī)性和有限能力而引入高方差,而僅依賴(lài)文本獎(jiǎng)勵(lì)忽略所收集信息是否實(shí)際支持高質(zhì)量圖像合成。相比之下,發(fā)現(xiàn)當(dāng)  設(shè)置在0.3到0.6范圍內(nèi)時(shí)性能持續(xù)強(qiáng)勁,表明該方法對(duì)該超參數(shù)在相對(duì)廣泛的范圍內(nèi)相對(duì)不敏感。

結(jié)論

該工作提出了Gen-Searcher,這是首個(gè)嘗試使用智能體強(qiáng)化學(xué)習(xí)訓(xùn)練多模態(tài)深度搜索智能體用于知識(shí)密集型圖像生成的研究。為實(shí)現(xiàn)這一設(shè)置,工作構(gòu)建了專(zhuān)門(mén)的數(shù)據(jù)pipeline,創(chuàng)建了兩個(gè)訓(xùn)練數(shù)據(jù)集Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k,并引入了KnowGen基準(zhǔn)以及K-Score用于評(píng)估真實(shí)世界知識(shí)密集型圖像生成。基于這些資源,工作通過(guò)監(jiān)督微調(diào)和具有雙獎(jiǎng)勵(lì)反饋的智能體強(qiáng)化學(xué)習(xí)的兩階段方案訓(xùn)練Gen-Searcher。

大量實(shí)驗(yàn)表明,Gen-Searcher在KnowGen和WISE上都為不同圖像生成主干網(wǎng)絡(luò)帶來(lái)大幅提升,同時(shí)在圖像生成器間展現(xiàn)出強(qiáng)大的可遷移性。該工作期望這一研究能夠成為真實(shí)世界圖像生成搜索智能體未來(lái)研究的開(kāi)放基礎(chǔ)。

參考文獻(xiàn)

[1] Gen-Searcher: Reinforcing Agentic Search for Image Generation

       原文標(biāo)題 : 文生圖的“天花板”被捅破了!Gen-Searcher讓AI學(xué)會(huì)“翻書(shū)找答案”:不是背題,是開(kāi)卷考!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)