精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

字節跳動發布文生圖開放模型,迅速沖上Hugging Face Spaces熱榜

jf_WZTOguxH ? 來源:AI前線 ? 2024-02-26 13:47 ? 次閱讀

很高興跟大家分享我們最新的文生圖模型 —— SDXL-Lightning,它實現了前所未有的速度和質量,并且已經向社區開放。

閃電般的圖片生成

生成式 AI 正憑借其根據文本提示(text prompts)創造出驚艷圖像乃至視頻的能力,贏得全球的矚目。當前最先進的生成模型依賴于擴散過程(diffusion),這是一個將噪聲逐步轉化為圖像樣本的迭代過程。這個過程需要耗費巨大的計算資源并且速度較慢,在生成高質量圖像樣本的過程中,單張圖像的處理時間約為 5 秒,其中通常需要多次(20 到 40 次)調用龐大的神經網絡。這樣的速度限制了有快速、實時生成需求的應用場景。如何在提升生成質量的同時加快速度,是當前研究的熱點領域,也是我們工作的核心目標。

SDXL-Lightning 通過一種創新技術——漸進式對抗蒸餾(Progressive Adversarial Distillation)——突破了這一障礙,實現了前所未有的生成速度。該模型能夠在短短 2 步或 4 步內生成極高質量和分辨率的圖像,將計算成本和時間降低十倍。我們的方法甚至可以在 1 步內為超時敏感的應用生成圖像,雖然可能會稍微犧牲一些質量。

除了速度優勢,SDXL-Lightning 在圖像質量上也有顯著表現,并在評估中超越了以往的加速技術。在實現更高分辨率和更佳細節的同時保持良好的多樣性和圖文匹配度。

33c5b058-d461-11ee-a297-92fbcf53809c.gif

速度對比示意

原始模型(20 步),SDXL-Lightning 模型(2 步)

模型效果

SDXL-Lightning 模型可以通過 1 步、2 步、4 步和 8 步來生成圖像。推理步驟越多,圖像質量越好。

以下是 4 步生成結果——

以下是 2 步生成結果—— 與以前的方法(Turbo 和 LCM)相比,我們的方法生成的圖像在細節上有顯著改進,并且更忠實于原始生成模型的風格和布局。

3400e01a-d461-11ee-a297-92fbcf53809c.png

回饋社區,開放模型

開源開放的浪潮已經成為推動人工智能迅猛發展的關鍵力量,字節跳動也自豪地成為這股浪潮的一部分。我們的模型基于目前最流行的文字生成圖像開放模型 SDXL,該模型已經擁有一個繁榮的生態系統。現在,我們決定將 SDXL-Lightning 開放給全球的開發者、研究人員和創意從業者,以便他們能訪問并運用這一模型,進一步推動整個行業的創新和協作。

在設計 SDXL-Lightning 時,我們就考慮到與開放模型社區的兼容。社區中已有眾多藝術家和開發者創建了各種各樣的風格化圖像生成模型,例如卡通和動漫風格等。為了支持這些模型,我們提供 SDXL-Lightning 作為一個增速插件,它可以無縫地整合到這些多樣風格的 SDXL 模型中,為各種不同模型加快圖像生成的速度。 342047d4-d461-11ee-a297-92fbcf53809c.png

SDXL-Lightning 模型也可以和目前非常流行的控制插件 ControlNet 相結合,實現極速可控的圖片生成。

345c001c-d461-11ee-a297-92fbcf53809c.png

SDXL-Lightning 模型也支持開源社區里目前最流行的生成軟件 ComfyUI,模型可以被直接加載來使用:

347621e0-d461-11ee-a297-92fbcf53809c.png

關于技術細節

從理論上來說,圖像生成是一個由噪聲到清晰圖像的逐步轉化過程。在這一過程中,神經網絡學習在這個轉化流(flow)中各個位置上的梯度。

生成圖像的具體步驟是這樣的:

首先我們在流的起點,隨機采樣一個噪聲樣本,接著用神經網絡計算出梯度。根據當前位置上的梯度,我們對樣本進行微小的調整,然后不斷重復這一過程。每一次迭代,樣本都會更接近最終的圖像分布,直至獲得一張清晰的圖像。 34921a9e-d461-11ee-a297-92fbcf53809c.png

圖:生成流程(來自:https://arxiv.org/abs/2011.13456)

由于生成流復雜且非直線,生成過程必須一次只走一小步以減少梯度誤差累積,所以需要神經網絡的頻繁計算,這就是計算量大的原因。

34a43d00-d461-11ee-a297-92fbcf53809c.png

圖:曲線流程(圖片來自:https://arxiv.org/abs/2210.05475)

為了減少生成圖像所需的步驟數量,許多研究致力于尋找解決方案。一些研究提出了能減少誤差的采樣方法,而其他研究則試圖使生成流更加直線化。盡管這些方法有所進展,但它們仍然需要超過 10 個推理步驟來生成圖像。

另一種方法是模型蒸餾,它能夠在少于 10 個推理步驟的情況下生成高質量圖像。不同于計算當前流位置下的梯度,模型蒸餾改變模型預測的目標,直接讓其預測下一個更遠的流位置。具體來說,我們訓練一個學生網絡直接預測老師網絡完成了多步推理后的結果。這樣的策略可以大幅減少所需的推理步驟數量。通過反復應用這個過程,我們可以進一步降低推理步驟的數量。這種方法被先前的研究稱之為漸進式蒸餾。

34bd92c8-d461-11ee-a297-92fbcf53809c.png

圖:漸進式蒸餾,學生網絡預測老師網絡多步后的結果

在實際操作中,學生網絡往往難以精確預測未來的流位置。誤差隨著每一步的累積而放大,導致在少于 8 步推理的情況下,模型產生的圖像開始變得模糊不清。

為了解決這個問題,我們的策略是不強求學生網絡精確匹配教師網絡的預測,而是讓學生網絡在概率分布上與教師網絡保持一致。換言之,學生網絡被訓練來預測一個概率上可能的位置,即使這個位置并不完全準確,我們也不會對它進行懲罰。這個目標是通過對抗訓練來實現的,引入了一個額外的判別網絡來幫助實現學生網絡和教師網絡輸出的分布匹配。

這是我們研究方法的簡要概述。在技術論文(https://arxiv.org/abs/2402.13929)中,我們提供了更深入的理論分析、訓練策略以及模型的具體公式化細節。

SDXL-Lightning 之外

盡管本研究主要探討了如何利用 SDXL-Lightning 技術進行圖像生成,但我們所提出的漸進式對抗蒸餾方法的應用潛力不局限于靜態圖像的范疇。這一創新技術也可以被運用于快速且高質量生成視頻、音頻以及其他多模態內容。我們誠摯邀請您在 HuggingFace 平臺上體驗 SDXL-Lightning,并期待您寶貴的意見和反饋。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4764

    瀏覽量

    100542
  • LCM
    LCM
    +關注

    關注

    6

    文章

    57

    瀏覽量

    34537
  • 字節跳動
    +關注

    關注

    0

    文章

    311

    瀏覽量

    8904
  • 生成式AI
    +關注

    關注

    0

    文章

    488

    瀏覽量

    459

原文標題:就是“快”!字節跳動發布文生圖開放模型,迅速沖上Hugging Face Spaces 熱榜

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    字節跳動自研視頻生成模型Seaweed開放

    近日,字節跳動旗下的AI內容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這一舉措標志著字節
    的頭像 發表于 11-11 14:31 ?208次閱讀

    字節跳動計劃在歐洲設立AI研發中心

    字節跳動正積極布局歐洲市場,計劃在該地區設立AI研發中心。據知情人士透露,字節跳動已開始在歐洲尋找LLM(Large Language Model,大語言
    的頭像 發表于 10-28 11:04 ?508次閱讀

    華發數智攜手字節跳動共同發布AI數字人及大模型綜合解決方案

    近日,珠海華發數智技術有限公司(簡稱:華發數智)攜手字節跳動旗下領先的云服務平臺火山引擎,共同發布了AI數字人及大模型綜合解決方案,標志著華發集團在AI大
    的頭像 發表于 08-07 16:53 ?620次閱讀

    Hugging Face科技公司推出SmolLM系列語言模型

    7月22日最新資訊,Hugging Face科技公司在語言模型領域再創新高,正式推出了SmolLM系列——一款專為適應多樣計算資源而設計的緊湊型語言模型家族。該系列包含三個版本,分別搭
    的頭像 發表于 07-23 16:35 ?282次閱讀

    字節跳動發布豆包MarsCo智能開發工具

    在數字時代的浪潮中,編程已成為推動科技進步和創新的核心動力。為了助力國內開發者更高效、智能地進行編程工作,字節跳動公司近日發布了全新的智能開發工具——豆包 MarsCode。這款工具基于強大的豆包大
    的頭像 發表于 07-01 15:03 ?648次閱讀

    字節跳動否認AI手機研發項目

    近日,有市場傳聞稱字節跳動已在兩個月前秘密啟動了AI手機研發項目,引發業界廣泛關注。然而,字節跳動相關人士迅速對此作出回應,表示這些消息并不
    的頭像 發表于 06-12 15:54 ?562次閱讀

    快手自研文生模型“可開放,支持AI圖像創作及定制

    5月30日最新動態,快手于近日向公眾推出其自主研發的文生模型命名為“可”。該模型具備文生
    的頭像 發表于 05-31 10:32 ?594次閱讀

    谷歌發布AI文生模型Imagen

    近日,谷歌在人工智能領域取得新突破,正式推出了Imagen文生模型。這款模型以其卓越的細節調整功能、逼真的光線效果以及從草圖快速生成高分辨率圖像的能力,引起了業界的廣泛關注。
    的頭像 發表于 05-16 09:30 ?478次閱讀

    字節跳動發布豆包大模型

    在近日舉行的火山引擎原動力大會上,字節跳動公司正式發布了其強大的豆包大模型。據火山引擎總裁譚待透露,這款大模型展現了驚人的數據處理能力,目前
    的頭像 發表于 05-15 11:26 ?704次閱讀

    南開大學和字節跳動聯合開發一款StoryDiffusion模型

    近日,南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。
    的頭像 發表于 05-07 14:46 ?1193次閱讀

    ServiceNow、Hugging Face 和 NVIDIA 發布全新開放獲取 LLM,助力開發者運用生成式 AI 構建企業應用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日發布 StarCoder2,其為一系列用于代碼生成的開放
    發表于 02-29 11:12 ?232次閱讀
    ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA <b class='flag-5'>發布</b>全新<b class='flag-5'>開放</b>獲取 LLM,助力開發者運用生成式 AI 構建企業應用

    字節跳動辟謠推出中文版Sora 期待國產Sora大模型

    字節跳動辟謠推出中文版Sora 期待國產Sora大模型 “文成視頻大模型”的熱度持續火爆,大家都在期待國產的大模型面世。科技巨頭
    的頭像 發表于 02-21 17:29 ?828次閱讀

    字節跳動辟謠推出中文版Sora

    近日,有關字節跳動在Sora引爆文生視頻賽道之前,已研發出“中文版Sora”的傳言在網絡上流傳。據稱,這款創新性視頻模型名為Boximator,具備通過文本精準控制生成視頻中人物或物體
    的頭像 發表于 02-21 10:27 ?680次閱讀

    字節跳動澄清未推出中文版Sora

    近日,有傳聞稱字節跳動在Sora文生視頻模型發布之前,已經推出了一款名為Boximator的顛覆性視頻
    的頭像 發表于 02-20 13:58 ?647次閱讀

    字節跳動推出一款顛覆性視頻模型—Boximator

    在 Sora 引爆文生視頻賽道之前,國內的字節跳動也推出了一款顛覆性視頻模型——Boximator。
    的頭像 發表于 02-20 13:44 ?1053次閱讀
    <b class='flag-5'>字節</b><b class='flag-5'>跳動</b>推出一款顛覆性視頻<b class='flag-5'>模型</b>—Boximator