123,123,123

文生圖的“天花板”被捅破了！Gen-Searcher讓AI學(xué)會(huì)“翻書(shū)找答案”：不是背題，是開(kāi)卷考!

2026-04-02 15:32

作者：Kaituo Feng等

解讀：AI生成未來(lái)

亮點(diǎn)直擊

Gen-Searcher：首次探索并訓(xùn)練了一種用于圖像生成的多模態(tài)深度搜索智能體。我們已將該項(xiàng)目完全開(kāi)源，希望 Gen-Searcher 能為未來(lái)的相關(guān)研究提供開(kāi)放的基礎(chǔ)架構(gòu)。

構(gòu)建數(shù)據(jù)pipeline與基準(zhǔn)測(cè)試：為了支持模型訓(xùn)練，開(kāi)發(fā)了專(zhuān)門(mén)的數(shù)據(jù)pipeline來(lái)構(gòu)建“搜索密集型”圖像生成數(shù)據(jù)，并由此產(chǎn)生了兩個(gè)訓(xùn)練數(shù)據(jù)集：Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。此外還引入了 KnowGen，這是一個(gè)極具挑戰(zhàn)性的新基準(zhǔn)，專(zhuān)門(mén)用于評(píng)估在知識(shí)密集型真實(shí)場(chǎng)景下，基于搜索增強(qiáng)的圖像生成能力。

實(shí)驗(yàn)驗(yàn)證有效性：廣泛的實(shí)驗(yàn)證明了 Gen-Searcher 的卓越性能。方法使 Qwen-Image 在 KnowGen 基準(zhǔn)上提升了約 16個(gè)點(diǎn)，在 WISE 基準(zhǔn)上提升了約 15個(gè)點(diǎn)。

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有的圖像生成模型雖能生成高保真圖像，但根本上受限于預(yù)訓(xùn)練階段獲得的固定內(nèi)部知識(shí)，在需要豐富世界知識(shí)或最新信息的真實(shí)場(chǎng)景中經(jīng)常失效。

提出的方案

Gen-Searcher——首個(gè)經(jīng)過(guò)訓(xùn)練的搜索增強(qiáng)圖像生成智能體，能夠執(zhí)行多跳推理和搜索，收集文本知識(shí)和參考圖像以支撐有根據(jù)的生成。該工作還構(gòu)建了專(zhuān)門(mén)的數(shù)據(jù)pipeline，策劃了兩個(gè)高質(zhì)量數(shù)據(jù)集（Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k），并引入了KnowGen基準(zhǔn)用于評(píng)估。

應(yīng)用的技術(shù)

采用兩階段訓(xùn)練方案，先進(jìn)行監(jiān)督微調(diào)（SFT），再進(jìn)行基于智能體的強(qiáng)化學(xué)習(xí)（agentic RL）。RL階段采用雙獎(jiǎng)勵(lì)反饋機(jī)制，結(jié)合基于文本的獎(jiǎng)勵(lì)（，評(píng)估輸出文本包含信息的充分性、正確性和生成相關(guān)性）和基于圖像的獎(jiǎng)勵(lì)（，即K-Score，評(píng)估最終生成圖像質(zhì)量），最終獎(jiǎng)勵(lì)計(jì)算公式為。優(yōu)化使用GRPO算法，優(yōu)勢(shì)函數(shù)計(jì)算為。

達(dá)到的效果

Gen-Searcher在不同圖像生成主干網(wǎng)絡(luò)上均帶來(lái)顯著提升，如Qwen-Image在KnowGen上的K-Score從14.98提升至31.52（約16.5分提升）。更值得注意的是，訓(xùn)練于Qwen-Image的Gen-Searcher可直接應(yīng)用于Seedream 4.5和Nano Banana Pro而無(wú)需額外訓(xùn)練，分別帶來(lái)約16分和3分的提升，展現(xiàn)出強(qiáng)大的可遷移性。在WISE基準(zhǔn)上，Gen-Searcher將Qwen-Image從0.62提升至0.77。

方法架構(gòu)

數(shù)據(jù)集構(gòu)建

高質(zhì)量訓(xùn)練數(shù)據(jù)對(duì)于開(kāi)發(fā)能夠執(zhí)行多跳深度搜索和推理以進(jìn)行圖像生成的搜索智能體至關(guān)重要。然而，此類(lèi)數(shù)據(jù)并非天然存在，因?yàn)樗枰獙?duì)齊的搜索密集型提示、智能體搜索軌跡和有根據(jù)的圖像的三元組。

為解決這一挑戰(zhàn)，工作設(shè)計(jì)了一個(gè)專(zhuān)門(mén)的數(shù)據(jù)pipeline，自動(dòng)構(gòu)建用于搜索支撐圖像生成的訓(xùn)練數(shù)據(jù)。整體pipeline包含四個(gè)階段：文本提示構(gòu)建、智能體軌跡生成、有根據(jù)的圖像合成，以及數(shù)據(jù)篩選與策劃。如下圖3所示為該數(shù)據(jù)策劃pipeline的示意圖。

文本提示構(gòu)建。首先構(gòu)建需要在圖像生成前進(jìn)行深度網(wǎng)絡(luò)搜索的文本提示。為確保多樣性和真實(shí)的搜索難度，采用兩種互補(bǔ)策略。主要方法使用精心設(shè)計(jì)的提示工程指導(dǎo)Gemini 3 Pro生成跨廣泛類(lèi)別的多跳搜索密集型提示，包括動(dòng)漫、建筑、藝術(shù)、天文、生物、名人、化學(xué)、文化、工程、電影、游戲、地理、歷史、工業(yè)、醫(yī)學(xué)、物理、政治、海報(bào)、宗教和體育。這些提示明確設(shè)計(jì)為所需信息無(wú)法通過(guò)單輪搜索獲得，而需要跨網(wǎng)絡(luò)的多步證據(jù)聚合和分析。

作為補(bǔ)充策略，工作將現(xiàn)有深度研究問(wèn)答數(shù)據(jù)集中的樣本轉(zhuǎn)換為面向圖像生成的提示。具體而言，使用Gemini 3 Pro將信息尋求問(wèn)題轉(zhuǎn)換為需要生成被查詢(xún)實(shí)體或事件的有根據(jù)視覺(jué)描述的提示。這一策略主要貢獻(xiàn)與一般新聞相關(guān)的提示，進(jìn)一步擴(kuò)展了多樣化知識(shí)場(chǎng)景的覆蓋范圍。

智能體軌跡生成。給定構(gòu)建的文本提示，生成智能體搜索軌跡以執(zhí)行深度搜索并收集足夠的證據(jù)，用于生成最終的搜索支撐提示以及與所選參考圖像一起提供準(zhǔn)確視覺(jué)特征。同時(shí)，這些軌跡也作為后續(xù)監(jiān)督微調(diào)的寶貴監(jiān)督數(shù)據(jù)。

具體而言，工作以多輪方式使用Gemini 3 Pro配合一組搜索工具。工具集包括search用于從網(wǎng)絡(luò)檢索文本信息、image_search用于通過(guò)文本查詢(xún)搜索相關(guān)圖像，以及browse用于閱讀和分析檢索網(wǎng)頁(yè)的詳細(xì)內(nèi)容。在此過(guò)程中，智能體持續(xù)分析來(lái)自環(huán)境的文本和視覺(jué)反饋，識(shí)別有用的證據(jù)和參考圖像，并相應(yīng)地規(guī)劃下一步行動(dòng)。通過(guò)這個(gè)多輪推理和搜索過(guò)程，智能體在最終生成用于圖像合成的有根據(jù)提示和一組相關(guān)參考圖像之前，逐步聚合來(lái)自多個(gè)來(lái)源的信息。

真實(shí)圖像合成。獲得最終有根據(jù)的提示和視覺(jué)參考后，使用專(zhuān)有圖像生成模型Nano Banana Pro合成相應(yīng)圖像。生成的圖像作為訓(xùn)練搜索智能體的合成真實(shí)值。此過(guò)程產(chǎn)生約30K原始樣本，包括提示、搜索軌跡、有根據(jù)的提示、參考圖像和真實(shí)圖像。

數(shù)據(jù)篩選與基準(zhǔn)構(gòu)建。為確保數(shù)據(jù)質(zhì)量，進(jìn)一步采用另一個(gè)強(qiáng)大的專(zhuān)有模型Seed1.8從多個(gè)角度對(duì)生成樣本進(jìn)行評(píng)分，包括提示是否真正需要搜索、生成內(nèi)容的正確性、對(duì)提示的忠實(shí)度、視覺(jué)美學(xué)、文本渲染清晰度和安全性考慮。這些基于模型的分?jǐn)?shù)與基于規(guī)則的篩選相結(jié)合，例如移除token長(zhǎng)度過(guò)長(zhǎng)或搜索結(jié)果不一致的提示。篩選后獲得約17K高質(zhì)量樣本。

從這個(gè)策劃的數(shù)據(jù)集中，選擇630個(gè)人工驗(yàn)證的樣本來(lái)構(gòu)建一個(gè)名為KnowGen的留岀基準(zhǔn)，該基準(zhǔn)將在后文介紹。剩余的16K樣本用于訓(xùn)練，并被分成兩個(gè)數(shù)據(jù)集：Gen-Searcher-SFT-10k用于監(jiān)督微調(diào)和Gen-Searcher-RL-6k用于智能體強(qiáng)化學(xué)習(xí)。工作嚴(yán)格確保訓(xùn)練數(shù)據(jù)和評(píng)估基準(zhǔn)之間不存在重疊。

KnowGen基準(zhǔn)

為進(jìn)行評(píng)估，工作引入了KnowGen，一個(gè)旨在評(píng)估知識(shí)密集型真實(shí)場(chǎng)景中搜索支撐圖像生成的綜合基準(zhǔn)。與主要強(qiáng)調(diào)提示遵循或視覺(jué)質(zhì)量的傳統(tǒng)文本到圖像基準(zhǔn)不同，KnowGen明確關(guān)注知識(shí)密集型和搜索依賴(lài)型生成場(chǎng)景，其中解決提示通常需要從網(wǎng)絡(luò)檢索和聚合證據(jù)。

KnowGen中的每個(gè)樣本都被構(gòu)建為需要非平凡的外部知識(shí)，許多樣本還需要在多個(gè)來(lái)源上進(jìn)行多跳搜索。為確�？煽啃�，所有評(píng)估樣本都經(jīng)過(guò)人工驗(yàn)證。

類(lèi)別組成。為提供對(duì)不同類(lèi)型搜索支撐生成任務(wù)的廣泛覆蓋，工作將KnowGen中的630個(gè)樣本分成兩個(gè)高級(jí)子集：Science & Knowledge和Pop Culture & News。Science & Knowledge子集包括以下類(lèi)別：天文、生物、化學(xué)、物理、工程、醫(yī)學(xué)、工業(yè)、建筑、歷史、地理、宗教、政治、文化、藝術(shù)和體育。這些任務(wù)通常需要事實(shí)性世界知識(shí)、實(shí)體消歧或領(lǐng)域特定信息，且經(jīng)常涉及必須正確視覺(jué)或文本實(shí)現(xiàn)的細(xì)粒度有根據(jù)細(xì)節(jié)。

Pop Culture & News子集涵蓋與動(dòng)漫、游戲、電影、名人、海報(bào)和一般新聞相關(guān)的提示。與第一個(gè)子集相比，這些任務(wù)更頻繁地涉及快速變化的現(xiàn)實(shí)世界信息、流行文化實(shí)體，以及必須準(zhǔn)確渲染的提示要求的文本或外觀細(xì)節(jié)。這種兩部分設(shè)計(jì)使KnowGen能夠在統(tǒng)一基準(zhǔn)內(nèi)評(píng)估相對(duì)穩(wěn)定的知識(shí)密集型場(chǎng)景和動(dòng)態(tài)的、高更新的真實(shí)場(chǎng)景。如下圖4所示為該基準(zhǔn)的類(lèi)別和示例概覽。

評(píng)估指標(biāo)。為評(píng)估KnowGen上的生成質(zhì)量，工作引入了K-Score，一個(gè)旨在從多個(gè)角度評(píng)估搜索支撐圖像生成的指標(biāo)。采用GPT-4.1作為評(píng)估模型輸出的評(píng)判者，遵循WISE基準(zhǔn)的做法。對(duì)于每個(gè)樣本，評(píng)估器接收原始文本提示、真實(shí)參考圖像和模型生成圖像作為輸入，并從四個(gè)維度對(duì)生成結(jié)果進(jìn)行評(píng)分：faithfulness（忠實(shí)度）、visual_correctness（視覺(jué)正確性）、text_accuracy（文本準(zhǔn)確性）和aesthetics（美學(xué)）。

忠實(shí)度衡量生成圖像在場(chǎng)景結(jié)構(gòu)級(jí)別是否遵循提示，包括要求的主題、關(guān)系、設(shè)置和請(qǐng)求的格式。視覺(jué)正確性評(píng)估關(guān)鍵有根據(jù)的視覺(jué)屬性相對(duì)于目標(biāo)概念是否與參考圖像一致且正確，如主題外觀、物體特征或其他外部可驗(yàn)證的視覺(jué)線(xiàn)索。文本準(zhǔn)確性衡量圖像中任何提示要求的可讀文本是否存在、清晰且正確；當(dāng)提示不要求可讀文本時(shí)，該維度被視為不適用且不計(jì)入平均分。美學(xué)衡量生成圖像的整體視覺(jué)質(zhì)量和藝術(shù)吸引力，包括構(gòu)圖、色彩和諧、光照等，評(píng)估圖像是否呈現(xiàn)視覺(jué)精致和美學(xué)愉悅。

按照評(píng)估設(shè)計(jì)，每個(gè)維度使用三級(jí)離散量表進(jìn)行評(píng)分。具體而言，分?jǐn)?shù)1表示生成圖像完全滿(mǎn)足該維度的要求，0.5表示該維度大致正確或滿(mǎn)足但包含輕微問(wèn)題或部分不匹配，0表示生成未能滿(mǎn)足該維度的關(guān)鍵要求。最終K-Score計(jì)算為這些四維度的加權(quán)組合：

該加權(quán)強(qiáng)調(diào)了搜索支撐圖像生成最關(guān)鍵的兩個(gè)方面，即正確渲染有根據(jù)的視覺(jué)屬性和準(zhǔn)確再現(xiàn)要求的文本內(nèi)容，同時(shí)仍考慮整體提示遵循度和圖像美學(xué)。工作分別報(bào)告兩個(gè)高級(jí)子集的K-Score以及KnowGen上的總體平均值。

訓(xùn)練方案

本節(jié)訓(xùn)練Gen-Searcher作為多模態(tài)深度搜索智能體，能夠從網(wǎng)絡(luò)迭代收集外部知識(shí)和視覺(jué)證據(jù)以進(jìn)行圖像生成。訓(xùn)練方案遵循兩階段pipeline，包括SFT和智能體RL。

搜索工具。Gen-Searcher配備三種搜索工具。第一個(gè)是search，執(zhí)行網(wǎng)絡(luò)文本搜索并返回每個(gè)查詢(xún)的top-k相關(guān)網(wǎng)頁(yè)URL及其短片段。該工具主要用于驗(yàn)證事實(shí)信息，如實(shí)體名稱(chēng)、事件細(xì)節(jié)、日期、位置和簡(jiǎn)潔描述。第二個(gè)是image_search，檢索給定文本查詢(xún)的top-k相關(guān)圖像，連同圖像URL和簡(jiǎn)要描述，使智能體能夠確定身份、物體、地標(biāo)、服裝和其他細(xì)粒度外觀細(xì)節(jié)。第三個(gè)是browse，接收網(wǎng)頁(yè)URL作為輸入并返回頁(yè)面內(nèi)容摘要；在實(shí)現(xiàn)中，該摘要由Qwen3-VL-30B-A3B-Instruct生成。當(dāng)淺層搜索結(jié)果不足且智能體需要從網(wǎng)頁(yè)提取具體證據(jù)時(shí)使用此工具。在每一步，智能體觀察當(dāng)前提示和累積的搜索反饋，然后決定是否繼續(xù)搜索、檢索視覺(jué)參考、瀏覽頁(yè)面獲取更多細(xì)節(jié)，或以最終有根據(jù)的提示和所選參考圖像終止。如下圖5所示為Gen-Searcher的代表性推理軌跡示例。

兩階段訓(xùn)練。工作從Qwen3-VL-8B-Instruct初始化Gen-Searcher。在第一階段，在Gen-Searcher-SFT-10k上進(jìn)行監(jiān)督微調(diào)，教授模型執(zhí)行多輪工具使用，包括發(fā)出搜索查詢(xún)、解釋文本和視覺(jué)反饋、選擇有用的參考圖像，以及撰寫(xiě)最終搜索支撐的提示。在第二階段，在Gen-Searcher-RL-6k上通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型，使其能夠?qū)W習(xí)更有效的搜索策略并產(chǎn)生改進(jìn)的工具調(diào)用軌跡。值得注意的是，在訓(xùn)練期間圖像生成器保持固定；工作僅優(yōu)化Qwen3-VL-8B-Instruct以生成搜索支撐的提示以及相應(yīng)的參考圖像。

雙獎(jiǎng)勵(lì)反饋設(shè)計(jì)。在該設(shè)置中進(jìn)行RL的自然選擇是直接使用基于圖像的獎(jiǎng)勵(lì)（如K-Score）來(lái)評(píng)估最終生成圖像。然而，僅依賴(lài)圖像獎(jiǎng)勵(lì)會(huì)導(dǎo)致大量噪聲和不穩(wěn)定性。這是因?yàn)樽罱K圖像質(zhì)量不僅取決于檢索證據(jù)的正確性，還取決于下游圖像生成器的能力和隨機(jī)性。特別是對(duì)于開(kāi)源生成器如Qwen-Image，即使智能體已收集正確信息，復(fù)雜提示仍可能無(wú)法產(chǎn)生高質(zhì)量圖像，且即使相似的有根據(jù)提示也可能導(dǎo)致明顯不同的生成結(jié)果。因此，純基于圖像的獎(jiǎng)勵(lì)引入大方差并使策略?xún)?yōu)化不穩(wěn)定。

為解決此問(wèn)題，工作引入額外的基于文本的獎(jiǎng)勵(lì)，記為，其評(píng)估最終輸出文本是否包含用于合成目標(biāo)圖像的充分、正確且與生成相關(guān)的信息。同樣使用GPT-4.1作為評(píng)判者，以五級(jí)量表對(duì)該獎(jiǎng)勵(lì)進(jìn)行評(píng)分，取值為。與圖像獎(jiǎng)勵(lì)相比，文本獎(jiǎng)勵(lì)為信息收集和證據(jù)聚合的質(zhì)量提供更直接的監(jiān)督。然而，僅使用文本獎(jiǎng)勵(lì)也不充分，因?yàn)楸砻嫔习浞中畔⒌奈谋静灰欢ㄖС指哔|(zhì)量圖像生成。僅優(yōu)化文本獎(jiǎng)勵(lì)將因此忽略實(shí)際最終任務(wù)生成結(jié)果，并可能鼓勵(lì)文本信息豐富但對(duì)生成實(shí)際無(wú)效的輸出。相應(yīng)提示可在附錄B中找到。

因此，工作結(jié)合兩種信號(hào)并采用雙反饋獎(jiǎng)勵(lì)設(shè)計(jì)，其中基于文本的獎(jiǎng)勵(lì)監(jiān)督所收集信息的質(zhì)量，基于圖像的獎(jiǎng)勵(lì)反映最終生成性能。最終獎(jiǎng)勵(lì)計(jì)算為：

其中是平衡超參數(shù)。這里工作簡(jiǎn)單設(shè)置并使用K-Score作為。

優(yōu)化。計(jì)算最終獎(jiǎng)勵(lì)后，工作使用GRPO優(yōu)化策略。對(duì)于查詢(xún) 下采樣的每個(gè)輸出，通過(guò)將其獎(jiǎng)勵(lì)與采樣組內(nèi)獎(jiǎng)勵(lì)的均值和標(biāo)準(zhǔn)差進(jìn)行歸一化來(lái)計(jì)算優(yōu)勢(shì)：

最終策略更新遵循標(biāo)準(zhǔn)GRPO目標(biāo)：

其中變量和超參數(shù)按照原始GRPO算法定義。

實(shí)驗(yàn)分析

實(shí)驗(yàn)設(shè)置。工作使用8塊NVIDIA H800 GPU訓(xùn)練Gen-Searcher-8B，以Qwen3-VL-8B-Instruct作為基礎(chǔ)模型。首先在Gen-Searcher-SFT-10k上進(jìn)行監(jiān)督微調(diào)，然后在Gen-Searcher-RL-6k上進(jìn)行智能體RL訓(xùn)練。SFT和RL均使用AdamW作為優(yōu)化器，SFT學(xué)習(xí)率設(shè)為，RL學(xué)習(xí)率設(shè)為，批量大小均設(shè)為8。

RL訓(xùn)練期間，額外在16塊H800 GPU上部署Qwen-Image-Edit-2509以支持rollout圖像生成，因?yàn)榘l(fā)現(xiàn)2509版本比2511版本提供更優(yōu)的文本渲染質(zhì)量。同時(shí)還在8塊H800 GPU上部署Qwen3-VL-30B-Instruct-A3B作為browse工具的摘要模型。為提升效率，設(shè)置組大小為6，最大交互輪數(shù)限制為10，每輪最多返回5張圖像，最大上下文長(zhǎng)度設(shè)為36K，每輪模型響應(yīng)長(zhǎng)度限制為4K。按照先前做法，在訓(xùn)練中屏蔽過(guò)長(zhǎng)rollout和重復(fù)響應(yīng)的rollout。訓(xùn)練過(guò)程消耗約一天時(shí)間。

KnowGen基準(zhǔn)結(jié)果。如下文表1所示為不同模型在KnowGen基準(zhǔn)上的性能。總體而言，KnowGen對(duì)當(dāng)前圖像生成模型（尤其是開(kāi)源模型）而言是一個(gè)極具挑戰(zhàn)性的基準(zhǔn)。即使是強(qiáng)大的開(kāi)源基線(xiàn)如Qwen-Image、HunyuanImage-3.0、FLUX和Z-Image，K-Score也僅達(dá)到9到15分左右，表明知識(shí)密集型和搜索支撐圖像生成仍遠(yuǎn)超出標(biāo)準(zhǔn)文本到圖像系統(tǒng)的能力范圍。相比之下，專(zhuān)有模型表現(xiàn)顯著更好，Nano Banana Pro實(shí)現(xiàn)了最強(qiáng)的基線(xiàn)結(jié)果50.38，GPT-Image-1.5達(dá)到44.97。這一巨大差距表明KnowGen在背景知識(shí)檢索和忠實(shí)視覺(jué)實(shí)現(xiàn)方面都提出了重大挑戰(zhàn)，也突顯了開(kāi)源和專(zhuān)有系統(tǒng)在處理此類(lèi)任務(wù)方面的明顯差異。

該方法在不同圖像生成主干網(wǎng)絡(luò)上均帶來(lái)顯著提升。與Qwen-Image結(jié)合時(shí)，Gen-Searcher-8B將總體K-Score從14.98提升至31.52，獲得16.54分的提升。這一大幅提升表明Gen-Searcher能夠通過(guò)主動(dòng)從網(wǎng)絡(luò)收集有根據(jù)的文本證據(jù)和視覺(jué)參考，大幅彌補(bǔ)開(kāi)源圖像生成器內(nèi)置搜索能力的不足。更重要的是，Gen-Searcher不僅僅是學(xué)習(xí)特定生成器的提示啟發(fā)式，而是學(xué)習(xí)可遷移的搜索- grounding策略，能夠泛化到不同的下游圖像生成器。

值得注意的是，盡管Gen-Searcher在RL期間使用Qwen-Image作為rollout生成器進(jìn)行訓(xùn)練，但它在測(cè)試時(shí)能夠很好地遷移到其他生成器。特別是，它將Seedream 4.5從31.01提升至47.29，獲得16.28分的提升，并進(jìn)一步將Nano Banana Pro從50.38提升至53.30，達(dá)到表中最佳總體結(jié)果。這些結(jié)果不僅展示了搜索智能體的有效性，還展示了其在具有非常不同原生能力的圖像生成器間的強(qiáng)大可遷移性和魯棒性。

對(duì)四個(gè)評(píng)估維度的分析表明，Gen-Searcher帶來(lái)的增益主要來(lái)自visual correctness和text accuracy的提升，這也是KnowGen中最重要的兩個(gè)組成部分。這表明該搜索框架使圖像生成器能夠更好地生成需要現(xiàn)實(shí)世界知識(shí)的準(zhǔn)確視覺(jué)屬性和文本內(nèi)容。在某些情況下，觀察到美學(xué)分?jǐn)?shù)略有下降，這可能源于生成器需要整合來(lái)自多個(gè)檢索參考圖像的信息，因此無(wú)法始終產(chǎn)生最理想或視覺(jué)最愉悅的構(gòu)圖。

工作還發(fā)現(xiàn)Nano Banana Pro上有趣的模式：其提升主要來(lái)自visual correctness，而text accuracy幾乎保持不變。一種可能的解釋是Nano Banana Pro已經(jīng)在內(nèi)部支持基于文本的搜索，這有助于保持與文本相關(guān)的性能，但它不檢索視覺(jué)參考圖像，在確定細(xì)粒度視覺(jué)屬性方面留下了 substantial 的改進(jìn)空間。

WISE基準(zhǔn)結(jié)果。如下表2所報(bào)告為不同模型在WISE基準(zhǔn)上的性能。與KnowGen相比，WISE是一個(gè)相對(duì)更簡(jiǎn)單的基準(zhǔn)，但仍需要一定量的世界知識(shí)以進(jìn)行正確的圖像生成。

Gen-Searcher-8B與Qwen-Image結(jié)合在WISE上取得最佳總體性能0.77，顯著優(yōu)于原始Qwen-Image基線(xiàn)的0.62，提升0.15。它也超越了所有其他開(kāi)源模型，包括LongCat-Image、HunyuanImage-3.0和FLUX.1-dev。觀察各個(gè)類(lèi)別，該方法在Cultural、Time、Space、Biology以及特別是Chemistry上帶來(lái)明顯提升，其中Chemistry分?jǐn)?shù)從0.40提升至0.75。這些結(jié)果進(jìn)一步證明Gen-Searcher能夠超越KnowGen進(jìn)行泛化，并有效增強(qiáng)基于知識(shí)的圖像生成基準(zhǔn)上的圖像生成能力。

消融實(shí)驗(yàn)。為驗(yàn)證Gen-Searcher中不同組件的有效性并更好理解每個(gè)設(shè)計(jì)選擇在整體框架中的作用，工作比較了以下變體：

（1）無(wú)任何搜索增強(qiáng)的原始Qwen-Image基線(xiàn)；

（2）Qwen-Image + workflow，使用Qwen3-VL-8B-Instruct作為搜索智能體，采用手動(dòng)設(shè)計(jì)的基于提示的搜索工作流而無(wú)需任何額外訓(xùn)練；

（3）Qwen-Image + Gen-Searcher-SFT，僅應(yīng)用監(jiān)督微調(diào)訓(xùn)練Gen-Searcher而無(wú)需強(qiáng)化學(xué)習(xí)；

（4）Qwen-Image + Gen-Searcher w.o. text reward，移除基于文本的獎(jiǎng)勵(lì)，RL訓(xùn)練期間僅使用基于圖像的獎(jiǎng)勵(lì)；

（5）Qwen-Image + Gen-Searcher w.o. image reward，移除基于圖像的獎(jiǎng)勵(lì)，RL訓(xùn)練期間僅使用基于文本的獎(jiǎng)勵(lì)；

（6）完整的Gen-Searcher模型，包括SFT初始化和提出的智能體RL訓(xùn)練期間的雙獎(jiǎng)勵(lì)反饋設(shè)計(jì)。

如下表3所示，所有組件都對(duì)最終性能有積極貢獻(xiàn)。與原始Qwen-Image基線(xiàn)相比，基于提示的工作流將KnowGen分?jǐn)?shù)從14.98提升至22.91，表明僅引入外部搜索就能為知識(shí)密集型圖像生成帶來(lái)收益。用Gen-Searcher-SFT替換基于提示的工作流進(jìn)一步提升分?jǐn)?shù)至28.15，證明了直接從軌跡數(shù)據(jù)學(xué)習(xí)工具使用行為相對(duì)于依賴(lài)手動(dòng)設(shè)計(jì)提示規(guī)則的優(yōu)勢(shì)。這表明在策劃的搜索軌跡上進(jìn)行監(jiān)督學(xué)習(xí)使模型能夠更好地組織搜索行動(dòng)、整合檢索證據(jù)，并為生成產(chǎn)生更有效的有根據(jù)提示。

智能體強(qiáng)化學(xué)習(xí)在SFT基礎(chǔ)上帶來(lái)額外收益，完整的Gen-Searcher達(dá)到最佳性能31.52。這表明雖然SFT為基本工具使用提供了強(qiáng)大的初始化，但RL對(duì)于進(jìn)一步優(yōu)化長(zhǎng)程搜索行為和提升所收集證據(jù)及最終輸出的整體質(zhì)量仍然至關(guān)重要。此外，移除文本獎(jiǎng)勵(lì)或圖像獎(jiǎng)勵(lì)都會(huì)導(dǎo)致明顯下降，分?jǐn)?shù)分別降至29.59和29.36。這證實(shí)了兩個(gè)獎(jiǎng)勵(lì)信號(hào)發(fā)揮互補(bǔ)作用。文本獎(jiǎng)勵(lì)為智能體是否在文本層面收集了充分且正確的信息提供更直接的監(jiān)督，而圖像獎(jiǎng)勵(lì)將策略與最終生成結(jié)果對(duì)齊，并鼓勵(lì)所收集證據(jù)對(duì)圖像合成實(shí)際有用。總體而言，消融結(jié)果驗(yàn)證了整體框架的有效性，包括學(xué)習(xí)的搜索行為、智能體RL優(yōu)化和提出的雙獎(jiǎng)勵(lì)設(shè)計(jì)。

定性可視化分析。如下圖6所示為KnowGen基準(zhǔn)上的代表性定性示例�？傮w而言，Gen-Searcher在不同下游生成器上持續(xù)提升生成圖像的質(zhì)量和正確性在知識(shí)密集型、真實(shí)場(chǎng)景中。首先，觀察到Nano Banana Pro在生成真實(shí)、知識(shí)密集型場(chǎng)景的準(zhǔn)確細(xì)粒度視覺(jué)屬性方面仍有不足，因?yàn)樗鼰o(wú)法執(zhí)行圖像搜索以獲取精確的視覺(jué)參考。因此，即使某些文本信息正確，生成的身份、物體外觀或建筑細(xì)節(jié)也可能偏離目標(biāo)。相比之下，Gen-Searcher通過(guò)搜索相關(guān)參考圖像并用更準(zhǔn)確的有根據(jù)視覺(jué)證據(jù)確定生成過(guò)程，從而改進(jìn)Nano Banana Pro。

一個(gè)有趣的發(fā)現(xiàn)是，對(duì)于Qwen-Image，即使搜索智能體已收集正確信息，由于圖像生成器本身的限制（如多主題一致性問(wèn)題、文本渲染不佳問(wèn)題），最終生成有時(shí)仍可能不準(zhǔn)確。如上文圖6的第四行提供了這樣一個(gè)示例，其中搜索內(nèi)容正確但生成的圖像仍未能忠實(shí)地實(shí)現(xiàn)所需的多角色細(xì)節(jié)�？傊@些示例表明Gen-Searcher能夠通過(guò)為有根據(jù)的文本和視覺(jué)證據(jù)提供支撐，大幅改進(jìn)強(qiáng)大的專(zhuān)有模型Nano Banana Pro和開(kāi)源模型Qwen-Image的生成質(zhì)量，而某些失敗案例也表明下游圖像生成器的能力仍是一個(gè)挑戰(zhàn)。

參數(shù)分析。工作進(jìn)一步分析了雙反饋設(shè)計(jì)中基于文本獎(jiǎng)勵(lì)和基于圖像獎(jiǎng)勵(lì)之間的平衡系數(shù) 。如下圖7所示為使用不同進(jìn)行RL訓(xùn)練的Gen-Searcher性能。觀察到設(shè)置或都會(huì)導(dǎo)致明顯的性能下降，表明兩個(gè)獎(jiǎng)勵(lì)信號(hào)對(duì)于有效訓(xùn)練都是必需的。這與動(dòng)機(jī)一致：僅依賴(lài)圖像獎(jiǎng)勵(lì)由于下游生成器的隨機(jī)性和有限能力而引入高方差，而僅依賴(lài)文本獎(jiǎng)勵(lì)忽略所收集信息是否實(shí)際支持高質(zhì)量圖像合成。相比之下，發(fā)現(xiàn)當(dāng) 設(shè)置在0.3到0.6范圍內(nèi)時(shí)性能持續(xù)強(qiáng)勁，表明該方法對(duì)該超參數(shù)在相對(duì)廣泛的范圍內(nèi)相對(duì)不敏感。

結(jié)論

該工作提出了Gen-Searcher，這是首個(gè)嘗試使用智能體強(qiáng)化學(xué)習(xí)訓(xùn)練多模態(tài)深度搜索智能體用于知識(shí)密集型圖像生成的研究。為實(shí)現(xiàn)這一設(shè)置，工作構(gòu)建了專(zhuān)門(mén)的數(shù)據(jù)pipeline，創(chuàng)建了兩個(gè)訓(xùn)練數(shù)據(jù)集Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k，并引入了KnowGen基準(zhǔn)以及K-Score用于評(píng)估真實(shí)世界知識(shí)密集型圖像生成。基于這些資源，工作通過(guò)監(jiān)督微調(diào)和具有雙獎(jiǎng)勵(lì)反饋的智能體強(qiáng)化學(xué)習(xí)的兩階段方案訓(xùn)練Gen-Searcher。

大量實(shí)驗(yàn)表明，Gen-Searcher在KnowGen和WISE上都為不同圖像生成主干網(wǎng)絡(luò)帶來(lái)大幅提升，同時(shí)在圖像生成器間展現(xiàn)出強(qiáng)大的可遷移性。該工作期望這一研究能夠成為真實(shí)世界圖像生成搜索智能體未來(lái)研究的開(kāi)放基礎(chǔ)。

參考文獻(xiàn)

[1] Gen-Searcher: Reinforcing Agentic Search for Image Generation

原文標(biāo)題 : 文生圖的“天花板”被捅破了！Gen-Searcher讓AI學(xué)會(huì)“翻書(shū)找答案”：不是背題，是開(kāi)卷考!