2022年11月30日,ChatGPT模型問世后,立刻在全球范圍內掀起了軒然大波。無論AI從業者還是非從業者,都在熱議ChatGPT極具沖擊力的交互體驗和驚人的生成內容。這使得廣大群眾重新認識到人工智能的潛力和價值。對于AI從業者來說,ChatGPT模型成為一種思路的擴充,大模型不再是刷榜的玩具,所有人都認識到高質量數據的重要性,并堅信“有多少人工,就會有多少智能”。
ChatGPT模型效果過于優秀,在許多任務上,即使是零樣本或少樣本數據也可以達到SOTA效果,使得很多人轉向大模型的研究。
不僅Google提出了對標ChatGPT的Bard模型,國內涌現出了許多中文大模型,如百度的“文心一言”、阿里的“通義千問”、商湯的“日日新”、知乎的“知海圖AI”、清華智譜的“ChatGLM”、復旦的“MOSS”、Meta的“Llama1&Llama2”等等。
Alpaca模型問世之后,證明了70億參數量的模型雖然達不到ChatGPT的效果,但已經極大程度上降低了大模型的算力成本,使得普通用戶和一般企業也可以使用大模型。之前一直強調的數據問題,可以通過GPT-3.5或GPT-4接口來獲取數據,并且數據質量也相當高。如果只需要基本的效果模型,數據是否再次精標已經不是那么重要了(當然,要獲得更好的效果,則需要更精準的數據)。
1Tansformer架構模型
預訓練語言模型的本質是通過從海量數據中學到語言的通用表達,使得在下游子任務中可以獲得更優異的結果。隨著模型參數不斷增加,很多預訓練語言模型又被稱為大型語言模型(Large Language Model,LLM)。不同人對于“大”的定義不同,很難說多少參數量的模型是大型語言模型,通常并不強行區分預訓練語言模型和大型語言模型之間的差別。
圖注:來自《Attention Is All You Need》
預訓練語言模型根據底層模型網絡結構,一般分為僅Encoder架構模型、僅Decoder架構模型和Encoder-Decoder架構模型。其中,僅Encoder架構模型包括但不限于BERT、RoBerta、Ernie、SpanBert、AlBert等;僅Decoder架構模型包括但不限于GPT、CPM、PaLM、OPT、Bloom、Llama等;Encoder-Decoder架構模型包括但不限于Mass、Bart、T5等。
圖注:來自《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》
2ChatGPT原理
ChatGPT訓練的整體流程主要分為3個階段,預訓練與提示學習階段,結果評價與獎勵建模階段以及強化學習自我進化階段;3個階段分工明確,實現了模型從模仿期、管教期、自主期的階段轉變。
圖注:來自url:https://openai.com/blog/chatgpt
在第一階段的模仿期,模型將重點放在學習各項指令型任務中,這個階段的模型沒有自我判別意識,更多的是模仿人工行為的過程,通過不斷學習人類標注結果讓其行為本身具有一定的智能型。然而僅僅是模仿往往會讓機器的學習行為變成邯鄲學步。
在第二階段的管教期,優化內容發生了方向性轉變,將重點從教育機器答案內容改變為教育機器答案的好壞。如果第一階段,重點希望機器利用輸入X,模仿學習輸出Y',并力求讓Y'與原先標注的Y保持一致。那么,在第二階段,重點則希望多個模型在針對X輸出多個結果(Y1,Y2,Y3,Y4)時,可以自行判斷多個結果的優劣情況。
當模型具備一定的判斷能力時,認為該模型已經完成第二階段的學習,可以進入第三階段——自主期。在自主期的模型,需要通過左右互博的方式完成自我進化,即一方面自動生成多個輸出結果,另一方面判斷不同結果的優劣程度,并基于不同輸出的效果模型差異評估,優化改進自動生成過程的模型參數,進而完成模型的自我強化學習。
總結來說,也可以將ChatGPT的3個階段比喻為人成長的3個階段,模仿期的目的是“知天理”,管教期的目的是“辨是非”,自主期的目的是“格萬物”。
3提示學習與大模型能力的涌現 ?
ChatGPT模型發布后,因其流暢的對話表達、極強的上下文存儲、豐富的知識創作及其全面解決問題的能力而風靡全球,刷新了大眾對人工智能的認知。提示學習(Prompt Learning)、上下文學習(In-Context Learning)、思維鏈(Chain of Thought,CoT)等概念也隨之進入大眾視野。市面上甚至出現了提示工程師這個職業,專門為指定任務編寫提示模板。
提示學習被廣大學者認為是自然語言處理在特征工程、深度學習、預訓練+微調之后的第四范式。隨著語言模型的參數不斷增加,模型也涌現了上下文學習、思維鏈等能力,在不訓練語言模型參數的前提下,僅通過幾個演示示例就可以在很多自然語言處理任務上取得較好的成績。
3.1 提示學習
提示學習是在原始輸入文本上附加額外的提示(Prompt)信息作為新的輸入,將下游的預測任務轉化為語言模型任務,并將語言模型的預測結果轉化為原本下游任務的預測結果。
以情感分析任務為例,原始任務是根據給定輸入文本“我愛中國”,判斷該段文本的情感極性。提示學習則是在原始輸入文本“我愛中國”上增加額外的提示模板,例如:“這句話的情感為{mask}?!钡玫叫碌妮斎胛谋尽拔覑壑袊?。這句話的情感為{mask}。”然后利用語言模型的掩碼語言模型任務,針對{mask}標記進行預測,再將其預測出的Token映射到情感極性標簽上,最終實現情感極性預測。
3.2 上下文學習
上下文學習可以看作提示學習的一種特殊情況,即演示示例看作提示學習中人工編寫提示模板(離散型提示模板)的一部分,并且不進行模型參數的更新。
上下文學習的核心思想是通過類比來學習。對于一個情感分類任務來說,首先從已存在的情感分析樣本庫中抽取出部分演示示例,包含一些正向或負向的情感文本及對應標簽;然后將其演示示例與待分析的情感文本進行拼接,送入到大型語言模型中;最終通過對演示示例的學習類比得出文本的情感極性。
圖注:來自《A Survey on In-context Learning》
這種學習方法也更加貼近人類學習后進行決策過程,通過觀察別人對某些事件的處理方法,當自己遇到相同或類似事件時,可以輕松地并很好地解決。
3.3 思維鏈
大型語言模型橫行的時代,它徹底改變了自然語言處理的模式。隨著模型參數的增加,例如:情感分析、主題分類等系統-1任務(人類可以快速直觀地完成的任務),即使是在少樣本和零樣本條件下均可以獲得較好的效果。但對于系統-2任務(人類需要緩慢而深思熟慮的思考才能完成的任務),例如:邏輯推理、數學推理和常識推理等任務,即使模型參數增加到數千億時,效果也并不理想,也就是簡單地增加模型參數量并不能帶來實質性的性能提升。
Google于2022年提出了思維鏈(Chain of thought,CoT)的概念,來提高大型語言模型執行各種推理任務的能力。思維鏈本質上是一種離散式提示模板,主旨是通過提示模板使得大型語言模型可以模仿人類思考的過程,給出逐步的推理依據,來推導出最終的答案,而每一步的推理依據組成的句子集合就是思維鏈的內容。
思維鏈其實是幫助大型語言模型將一個多步問題分解為多個可以被單獨解答的中間步驟,而不是在一次向前傳遞中解決整個多跳問題。
圖注:來自《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》
4行業參考建議
4.1 擁抱變化
與其他領域不同,AIGC領域是當前變化最迅速的領域之一。以2023年3月13日至2023年3月19日這一周為例,我們經歷了清華發布ChatGLM 6B開源模型、openAI將GPT4接口發布、百度文心一言舉辦發布會、微軟推出Office同ChatGPT相結合的全新產品Copilot等一系列重大事件。
這些事件都會影響行業研究方向,并引發更多思考,例如,下一步技術路線是基于開源模型,還是從頭預訓練新模型,參數量應該設計多少?Copilot已經做好,辦公插件AIGC的應用開發者如何應對?
即便如此,仍建議從業者擁抱變化,快速調整策略,借助前沿資源,以加速實現自身任務。
4.2? 定位清晰
一定要明確自身細分賽道的目標,例如是做應用層還是底座優化層,是做C端市場還是B端市場,是做行業垂類應用還是通用工具軟件。千萬不要好高騖遠,把握住風口,“切準蛋糕”。
定位清晰并不是指不撞南墻不回,更多的是明白自身目的及意義所在。
4.3? 合規可控
AIGC最大的問題在于輸出的不可控性,如果無法解決這個問題,它的發展將面臨很大的瓶頸,無法在B端和C端市場廣泛使用。在產品設計過程中,需要關注如何融合規則引擎、強化獎懲機制以及適當的人工介入。從業者應重點關注AIGC生成內容所涉及的版權、道德和法律風險。
4.4? 經驗沉淀
經驗沉淀的目的是為了建立自身的壁壘。不要將所有的希望寄托于單個模型上,例如我們曾經將產品設計成純文本格式,以便同ChatGPT無縫結合,但最新的GPT4已經支持多模態輸入。我們不應氣餒,而是要快速擁抱變化,并利用之前積累的經驗(數據維度、Prompt維度、交互設計維度)快速完成產品升級,以更好地應對全新的場景和交互形態。
以上建議希望從業者加以參考。
雖然AIGC的浪潮下存在不少泡沫,但只要我們懷揣著擁抱變化的決心,始終明確我們要到達的遠方,認真面對周圍的風險危機,不斷在實戰中鍛煉自身的能力,相信終有一天,會到達我們心中所向往的目的地。
編輯:黃飛
?
評論
查看更多