詳解ChatGPT的預訓練模型成長史

近年來，隨著各大廠商的激烈角逐，預訓練模型（The Pretrained Foundation Models ，PFMs）的發展可謂百花爭鳴，誰都想在這場沒有硝煙的戰爭中力壓群雄，作為下游任務的基礎，像BERT、GPT-3、MAE、DALLE-E和ChatGPT基于大規模數據訓練，可為各種下游應用提供合理的參數初始化。這種遷移學習范式，讓預訓練模型以一種高傲的姿態在各種任務和應用中大放異彩。特別是最近大火ChatGPT，帶著其獨有的"思維”在各大領域亂殺，也將人工智能推向了新一輪高潮。本文也是從預訓練模型成長的幾個關鍵因素做了系統闡述，旨在帶領大家一起見證預訓練模型的蛻變歷程。

1.簡介

圖 1：PFMs的歷史和演變

目前PFMS已經在NLP、CV、GL這三個主要的AI領域得到了廣泛的研究，如圖一所示，通過在大型語料中學習通用的特征表示，再針對不同的下游任務進行微調，已經在文本分類、圖像分類、對象檢測、圖形分類等任務中表現出色。特別是針對NLP領域，預訓練模型有著獨特的優勢，它的訓練數據可以來自任何沒有標記的文本，得到的語言模型（Language Models，LM）可以捕獲到文本中的長期依賴、層次結構等關聯信息。早期的預訓練是一種靜態技術，例如NNLM[1]和Word2vec[2]，但靜態方法難以適應不同的語義環境。因此，像BERT[3]、XLNET[4]這類的動態預訓練技術應運而生。

PFMs能在nlp中盛行起來，得益于能它同時對單詞的句法和語義表示進行建模，并根據不同的輸入動態改變多義詞的表示上下文。PFM能學習豐富的語法和語義推理知識，效果更好。表1是對近幾年來NLP領域PFMs相關信息的匯總。其中，Transforms作為PFMs主流的模型架構,它使用了Attention機制，將序列中的任意兩個位置之間的距離縮小為一個常量，在分析預測更長的文本時,捕捉間隔較長的語義關聯效果更好；其次它不是類似RNN的順序結構，因此具有更好的并行性，符合現有的GPU框架，能夠利用分布式GPU進行并行訓練，提升模型訓練效率。

表1：NLP領域的預訓練模型

目前在NLP領域PFMs的學習方法主要分為監督學習、半監督學習、弱監督學習、自監督學習和強化學習這五種，同時根據預訓練任務根據上述的的學習方法可分為五類：掩碼語言建模（MLM）、去噪自動編碼器（DAE）、替換令牌檢測（RTD）、下一句預測（NSP）、句子順序預測（SOP）。其中，MLM在輸入序列中隨機擦除一些單詞，然后在預訓練期間預測這些擦除的單詞，典型的例子包括BERT 和SpanBERT[5]；DAE 用于向原始語料庫添加噪聲，并使用包含噪聲的語料庫重建原始輸入，BART[6] 就是一個典型的例子；RTD 是一個判別任務，用于確定 LM 是否已替換當前令牌，這項任務在ELECTRA[7] 中引入；為了使模型理解兩個句子之間的相關性并捕獲句子級表示，引入了NSP任務。PFM 輸入來自不同文檔的兩個句子，并檢查句子的順序是否正確，一個典型的例子是BERT；與NSP不同，SOP使用文檔中的兩個連續片段作為正樣本，并使用兩個片段的交換順序作為負樣本。PFM可以更好地模擬句子之間的相關性，例如ALBERT[8] 。

2.字表征

當前大規模的預訓練模型在問答、機器閱讀理解和自然語言推理中取得了比人類更好的性能，表明目前PFM的構建方法是實用的。現有的預訓練語言模型根據字表征方法主要分為三個分支：（1）自回歸語言模型，（2）上下文語言模型，（3）排列語言模型。其中單詞預測方向和上下文信息是其中最重要的因素。

2.1 自回歸語言模型

自回歸語言模型基于前一個單詞預測下一個可能的單詞，或基于后續單詞預測最后一個可能的單詞。它被選為特征提取器，并從前一個單詞中提取文本表示。因此，它在自然語言生成（Natural language generation，NLG）任務中具有更好的性能，例如文本摘要和機器翻譯。對于一個序列，根據前一個詞計算的給定單詞的概率為前向LM，公式如下：

其中，是輸入序列的長度。此外，雙向LM（Bi-LM）也是基于自回歸語言模型，以及從向前和向后方向提取的文本表示連接在一起模型架構設計方法。GPT[9]采用自監督預訓練、監督微調和stacked Transformer [10] 作為其解碼器。后續，OpenAI提出了GPT-2[11]，并將stacked Transformer層數增加到48層。參數總數達到15億。GPT-2還引入了多任務學習。GPT-2 具有相當大的模型容量，可以針對不同的任務模型進行調整，而不是微調它們。但是，GPT-2 也使用自回歸語言模型。因此，它提高了模型的性能而不會大幅增加成本。由于是單向transformer缺乏上下文建模能力，GPT-2的主要性能提升來自于多任務的綜合效應預訓練、超大型數據集和超大型模型。對于特定的下游任務，仍然需要基于任務的數據集進行微調。但是，擴大LM的訓練規模可以顯著提高與任務無關的性能。因此，提出了 GPT-3[12] ，它將模型大小增加到 175億個參數，并使用 45TB 的數據進行訓練。因此，它可以實現良好的性能無需針對特定的下游任務進行微調。

2.2 上下文語言模型

自回歸語言模型僅使用上文或下文的信息，不能同時使用上下文的信息。ELMO[13] 僅使用雙向長短期記憶（LSTM），它是兩個向后和向前單向 LSTM 的串聯。上下文LM預測基于上下文詞。它使用變壓器編碼器，模型的上層和下層由于自注意力機制而直接相互連接。對于單詞序列 T，給定單詞的概率計算如下：

BERT模型輸入由三部分組成：詞嵌入，段嵌入和位置嵌入。它使用雙向transformer作為特征提取器，這抵消了ELMO和GPT的缺陷。但是，BERT的缺點也不容忽視。雙向transformer結構并沒有消除自編碼模型的約束。其大量的模型參數對計算資源低的設備非常不友好，并且難以部署和應用。大多數PFM需要更多的訓練任務和更大的語料庫。針對訓練不足的問題，后續提出了RoBERTa[14]。它使用更大的批次大小和未標記的數據。此外，它可以訓練更長的模型，刪除 NSP 任務，并添加長序列訓練。在處理文本輸入時，采用字節對編碼（BPE）[15]進行分詞。BPE 對每個輸入序列使用不同的掩碼模式，即使輸入順序相同。

2.3 排列語言模型

使用上下文語言模型的建模方法可以視為自動編碼模型。但是，由于訓練階段和微調階段的不一致，性能的自動編碼模型在自然語言生成（NLG）任務中很差。排列語言模型旨在結合了自回歸語言模型和自動編碼器語言模型的優點。它改善了兩種模型在很大程度上可以作為未來預訓練目標構建的基本思路任務。對于給定的輸入序列，排列語言模型的目標函數的形式表示如下：

其中是所有排列中的共享參數，表示所有可能排列的集合輸入序列和和表示第t個元素和a的元素排列.

以BERT為代表的的MLM可以很好地實現雙向編碼。然而，MLM在預訓練期間使用掩碼標記，但在微調期間不使用，這導致在預訓練和微調期間數據不一致。為了實現雙向編碼，避免了MLM的問題，提出了排列語言模型。排列語言模型基于自回歸語言模型，避免了不一致數據的影響。然而，與傳統的自回歸模型不同，排列語言模型不再按順序對序列進行建模。它以最大化序列給出了序列的所有可能的排列。通過這種方式，任何位置都可以利用來自所有位置的上下文信息，使排列語言模型實現雙向編碼。最常見的排列語言模型模型是XLNET和MPNet[16]。XLNET是第一個基于LM的排列PFM。此外，XLNet還集成了Transformer-XL的兩個最關鍵技術：相對位置編碼和段遞歸機制。MPNet將MLM模型與排列語言模型相結合，通過排列語言模型預測tokens之間的依賴關系。它使用輔助位置信息作為輸入，使模型能夠看到完整的句子，從而減少位置差異。

3.模型架構

圖 2：BART架構

早期ELMO采用多層RNN結構。每一層都是雙向LSTM結構，有向前和向后 LM。以這兩個方向的最大可能性為目標功能。與詞向量法相比，ELMO引入了上下文信息并改進了多義問題，但ELMO提取語言特征的整體能力較弱。PFMs的應用研究主要有兩個方向。一種是具有微調功能的PFM（例如BERT），另一個是具有zero/few-shot prompts（例如 GPT）的 PFM。BERT使用雙向編碼器以預測哪些單詞被屏蔽并確定兩個句子是否與上下文相關。但是，文檔是雙向編碼的，并且被屏蔽的單詞是獨立預測的，這降低了生成能力。GPT 使用自回歸解碼器作為特征提取器，根據前幾個單詞預測下一個單詞，并使用微調解決下游任務，因此更適合文本生成任務。但是，GPT 僅使用前一個詞進行預測，無法學習雙向交互信息。與這些模型不同，BART是由 seq2seq 模型構建的降噪自動編碼器，采用編碼器-解碼器結構，如圖2所示。預訓練主要包括使用噪聲銷毀文本并使用 seq2seq 模型重建原始文本。預訓練主要包括使用噪聲銷毀文本和使用 seq2seq 模型重建原始文本。編碼層采用雙向Transformer。它采用五種添加噪聲模式：（1）單字掩碼;（2）字刪除;(3)跨度掩碼;（4）句子改編;（5）文件重新排列。在編碼器部分，序列具有在將其輸入編碼器之前被屏蔽。然后，解碼器根據編碼器輸出的編碼表示形式和未屏蔽的序列恢復原始序列。這添加一系列噪聲模式使 BART 在序列生成方面的性能在自然語言推理任務顯著改善。

4.掩碼設計

注意力機制首先將基本單詞聚合為句子向量和重要句子向量轉換為文本向量，這允許模型對不同的輸入給予不同的關注。對于BERT來說，作為一個雙向編碼LM，輸入句子中的任意兩個單詞都可以相互看到。但是，它阻礙了BERT模型學習NLG任務的能力。

圖 3：spanBERT架構

后續基于RoBERTa的提出SpanBERT，它采用了動態掩蔽的思想和單段預訓練，如圖3所示，提出了跨度掩碼和跨度邊界目標（SBO）來屏蔽一定長度的單詞。跨度邊界的目標任務是通過兩端觀察到的令牌恢復所有屏蔽的跨度（tokens）。訓練階段使用RoBERTa中提出的動態掩碼策略，而不是數據預處理過程中的掩碼。與BERT不同，SpanBERT隨機覆蓋連續的文本并添加SBO訓練目標。它使用最接近跨度邊界的tokens預測跨度，并消除 NSP 預訓練任務。

Song 等提出了掩蔽的 seq2seq 預訓練模型 MASS[17]。在訓練階段，編碼器的輸入序列被隨機屏蔽為長度為K的連續段。掩蓋的片段將通過 MASS 解碼器恢復。UniLM[18]通過為輸入數據中的兩個句子設計不同的掩碼來建模來完成NLG的學習。對于第一個句子，UniLM使用與轉換編碼器相同的結構，使每個單詞注意到其前后單詞。對于第二句，每個單詞只能注意到第一句和前面的所有單詞當前句子中的單詞。因此，模型輸入的第一句和第二句構成了經典seq2seq 模式。

5.提升方式

5.1 提升模型性能

大多數流行的預訓練模型都需要大量的預訓練數據，這對硬件提出了巨大的要求，使得重新訓練具有挑戰性，只能做一些模型的微調。為了解決這些問題，出現了一些模型。例如，百度發布的ERNIE Tiny就是小型化的ERNIE[19]，它減少了層數，預測速度提高了4.3倍，精度略有下降。ALBERT通過減少內存消耗和訓練速度。但是，不可否認的是，無論哪種壓縮對于這些大型模型，模型在這些任務中的性能將急劇下降。它要求在以后的工作中注意高級語義和語法信息的高效表示和無損壓縮。通過使用字嵌入參數分解和層之間的隱藏參數共享，ALBERT顯著減少了模型的參數數量，而不會降低性能。它提出了SOP的訓練任務，預測兩個句子的順序以提高性能。

5.2 多任務學習

ERNIE主要由Transformer編碼器和任務嵌入兩部分組成。在Transformer編碼器中，自注意機制用于捕獲每個tokens的上下文信息并生成上下文表示嵌入。任務嵌入是一個將不同特征應用于任務的技術。ERNIE 2.0 [20] 引入了多任務學習，以實現詞匯、語法和語義的預訓練。ERNIE 2.0 使用七種不同的預訓練任務，涵蓋三個方面：詞級、句級和語義級。它使用持續學習，使先前訓練任務中的知識得以保留，并使模型能夠獲得遠距離記憶。它使用轉換器編碼器并引入任務嵌入，使模型能夠在持續學習過程中區分不同的任務。UniLM使用三個預訓練任務：單向 LM、雙向 LM 和編碼器-解碼器LM。通過自注意力層掩碼機制，它可以在預訓練階段同時完成三種目標任務。在訓練階段，UniLM采用SpanBERT提出的小段掩模策略，損失函數由上述三個預訓練任務的損失函數組成。為了保持所有損失函數的貢獻一致性，同時訓練了三個預訓練任務。多個任務的建模和參數共享使LM在自然語言理解（NLU）和NLG任務中實現良好的泛化能力。

5.3 針對下游任務

預訓練模型往往很大，那么如何匹配不同的下游任務同樣重要。已經出現了一些在專用語料庫上訓練的預訓練模型。Cui等人提出了BERT-whole word masking模型（BERT-WWM）。他們直接使用中文中的BERT根據原始的MLM訓練進行隨機屏蔽，導致語義信息的丟失。ZEN[21]是基于BERT的文本編碼器，它采用N-gram 增強性能，有效集成相當細粒度的文本信息，收斂速度快，性能好。Tsai[22]等人提出了一種用于序列標記任務的定向多語言序列標記模型。針對低質量語言，采用知識蒸餾法，在詞性標注和多重形態屬性預測兩個任務中能取得更好的表現，推理時間縮短了27倍。

6.指令對齊

指令對齊方法旨在讓LM遵循人類意圖并生成有意義的輸出。一般方法是以監督方式使用高質量語料庫微調預訓練的LM。為了進一步提高學習LMs的有用性和無害性，將強化學習引入微調程序，以便學習障礙可以根據人類或人工智能的反饋修改其響應。受監督和強化學習方法可以利用思維鏈風格的推理來提高人類判斷的性能和人工智能決策的透明度。

6.1 監督式微調 (SFT)

SFT是一種成熟的技術，可以解鎖知識并應用它到特定的現實世界，甚至是看不見的任務。SFT 的模板由輸入輸出對和指令。例如，給定指令“將此句子翻譯成英文：”和一個輸入“今天天氣不錯”，我們希望LM生成目標"The weather is nice today",該模板通常是人造的，包括非自然指令和自然指令，或基于種子語料庫的引導。LM傷害的倫理和社會風險是SFT的重要關注點。

6.2 人類反饋強化學習（RLHF)

RL已被應用于增強NLP任務中的各種模型，例如機器翻譯，摘要，圖像標題，問題生成，文本游戲等。RL通過將語言生成任務中的不可微分目標視為順序決策問題來優化它們。但是，存在過度擬合使用神經網絡的指標的風險，從而導致在指標上得分很高的荒謬樣本。同時，其還用于使LM與人類偏好保持一致。

圖 4：ChatGPT框架

InstructGPT 建議使用 PPO[23] 根據經過訓練的獎勵模型微調大模型，以對齊 LM與人類偏好，這與ChatGPT應用的方法相同，名為RLHF。具體見圖4，獎勵模型使用人工標記員手動對輸出進行排名的比較數據進行訓練。對于它們中的每一個，獎勵模型計算一個獎勵，用于使用 PPO 更新 LM。由DeepMind開發的Sparrow[24]也利用RLHF來降低不安全和不適當答案的風險。盡管RLHF 取得了一些有希望的結果，這一領域的進展因缺乏公開的基準和實現資源，導致人們認為 RL 對于 NLP 來說是一種困難的方法。因此，最近引入了一個名為RL4LMs[25]的開源庫，該庫由用于在基于LM的生成上微調和評估RL算法的構建塊組成。

與傳統的 RL 方法相比，RLHF 的關鍵優勢在于能更好地與人類的意圖保持一致，以及以未來的反饋為條件進行規劃，從各種類型的反饋中進行流暢的學習，并根據需要對反饋進行整理，所有這些都是創建真正的智能代理所不可缺少的。它還允許機器通過抽象人類的價值來學習，而不是簡單地模仿人類的行為，從而使代理具有更強的適應性，更強的可解釋性，以及更可靠的決策。

6.3 思維鏈（CoT）

在NLP領域，這幾年模型的規模是越來越大，幾億參數量現在都只能算小模型，預訓練模型也已經向大模型的方向去演進，那大模型的好處顯而易見：推理能力強，采樣效率高，因為模型參數大，能儲存很多的知識。最近幾年有學者通過構建這種推理的中間過程，來簡化推理取得了比較好的效果，而我們所知大模型通過prompt進行上下文小樣本學習能力也是極強的。但問題就是創建很多的中間步驟用來做監督finetune是非常耗時的，而且傳統的prompt方式在數學計算、常識推理等做的又不好，怎么結合上下文小樣本學習能力和中間步驟來改善推理能力是一個問題。CoT在此基礎上應用而生，其基礎原理就是將多步求解的問題分解出中間步驟, 模型分配額外的計算能力給推理步驟，它可以增加模型的可解釋性, 知道它是如何得出特定答案，并且模型還有機會通過調試推理路徑中存在錯誤的地方，原則上適用于所有任務，只需提供少量思維鏈的范例，現有的大規模語言模型即可使用思維鏈進行推理。

7.總結

本文主要闡述了PFMs成長歷程，文章大部分內容來源于論文[26],原文從NLP、CV、GL這幾個領域的PFMs做了綜合調研，作者主要針對PFMs在NLP領域的底層基礎到上層技術進行了梳理。目前來看，PFMs在僅僅在參數量規模上已經很難讓人產生很大共鳴了，而人們現在更加在意的是PFMs的實際的推理性能和處理復雜推理任務的能力，這里面還要額外考慮到對軟硬件資源成本和實際應用場景中的合規性，更加注重PFMs的落地性和實用性，正如chatgpt一出場就能夠驚艷全場，其參數量已經不是輿論的焦點了，這款AI殺手級的應用出現，其驚艷的表現可能會給世界帶來新的產業革命。當然，還是受限于其模型大小和使用成本，ChatGPT并沒有完全普及開來，但隨著算法技術和算力技術的不斷進步，下一代的PFMs也必然會更加完善，在越來越多的領域進行應用，為人類帶來更好的體驗感和便利性。

編輯：黃飛

閱讀全文

gpu(126255) gpu(126255)
nlp(21784) nlp(21784)
半監督學習(2473) 半監督學習(2473)
ChatGPT(3870) ChatGPT(3870)

AI模型是如何訓練的？訓練一個模型花費多大？

電子發燒友網報道（文/李彎彎）在深度學習中，經常聽到一個詞“模型訓練”，但是模型是什么？又是怎么訓練的？在人工智能中，面對大量的數據，要在雜亂無章的內容中，準確、容易地識別，輸出需要的圖像/語音

2022-10-23 00:19:00

24277

類ChatGPT訓練需高性能芯片大規模并聯，高速接口IP迎紅利時代

發布類ChatGPT應用。眾所周知，類ChatGPT應用是一個吞金獸，微軟公司為了訓練ChatGPT使用了1萬張英偉達的高端GPU。“從訓練的角度來看，計算性能再好的GPU芯片比如A100如果無法集群在一起去訓練，那么訓練一個類ChatGPT的大模型可能需要上百年。因此，AI大模型

2023-03-06 09:18:52

1585

一文詳解知識增強的語言預訓練模型

隨著預訓練語言模型(PLMs)的不斷發展，各種NLP任務設置上都取得了不俗的性能。盡管PLMs可以從大量語料庫中學習一定的知識，但仍舊存在很多問題，如知識量有限、受訓練數據長尾分布影響魯棒性不好

2022-04-02 17:21:43

8765

ChatGPT/GPT的原理及ChatGPT的技術架構解析

CAI模型訓練過程 Claude 和 ChatGPT 都依賴于強化學習(RL)來訓練偏好（preference）模型。CAI（Constitutional AI）也是建立在RLHF的基礎之上，不同之處在于，CAI的排序過程使用模型（而非人類）對所有生成的輸出結果提供一個初始排序結果。

2023-02-16 14:16:58

3427

基于不同量級預訓練數據的RoBERTa模型分析

NLP領域的研究目前由像RoBERTa等經過數十億個字符的語料經過預訓練的模型匯主導。那么對于一個預訓練模型，對于不同量級下的預訓練數據能夠提取到的知識和能力有何不同？

2023-03-03 11:21:51

1339

如何在SAM時代下打造高效的高性能計算大模型訓練平臺

Segment Anything Model (SAM)是Meta 公司最近推出的一個創新AI 模型，專門用于計算機視覺領域圖像分割任務。借鑒ChatGPT 的學習范式，將預訓練和特定任務結合

2023-08-21 04:02:50

1293

使用Huggingface創建大語言模型RLHF訓練流程

ChatGPT已經成為家喻戶曉的名字，而大語言模型在ChatGPT刺激下也得到了快速發展，這使得我們可以基于這些技術來改進我們的業務。

2023-12-06 17:02:27

719

LLM風口背后，ChatGPT的成本問題

，有沒有可能做出下一個ChatGPT？以及打造這樣一個模型所需的研發成本和運營成本究竟是多少。 ? C hatGPT 背后的成本，以及 GPU 廠商等候多時的增長點 ? 首先，ChatGPT是OpenAI預訓練的對話模型，除去訓練本身所需的硬件與時間成本外，運營時的推理成本也要算

2023-02-15 01:19:00

4129

ChatGPT等大模型的發展，對GPGPU有怎樣的性能要求？

電子發燒友網報道（文/李彎彎）最近，在ChatGPT火了之后，國內互聯網科技圈不時傳出計劃或者正在研究類ChatGPT大模型的消息。 ? 然而在相關技術真正面世之前，近日，OpenAI又放

2023-03-07 09:15:15

1716

ChatGPT系統開發AI人功智能方案

。ChatGPT是一個由OpenAI開發的人工智能語言模型，可以實現自然語言處理、對話生成等功能。要開發一個類似ChatGPT的人工智能系統軟件，可以遵循以下步驟：確定應用場景：確定人工智能系統軟件要

2023-05-18 10:16:50

chatGPT一種生產力的變革

主要表現為三個方面：一是代替創作中的重復環節，提升創作效率；二是將創意與創作相分離，內容創作者可以從人工智能的生成作品中找尋靈感與思路；三是綜合海量預訓練的數據和模型中引入的隨機性，有利于拓展創新

2023-04-25 16:04:09

訓練好的ai模型導入cubemx不成功怎么解決？

訓練好的ai模型導入cubemx不成功咋辦，試了好幾個模型壓縮了也不行，ram占用過大，有無解決方案？

2023-08-04 09:16:28

GBDT算法原理和模型訓練

)，其中y取值1或-1（代表二分類的類別標簽），這也是GBDT可以用來解決分類問題的原因。模型訓練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-23 14:38:58

Pytorch模型訓練實用PDF教程【中文】

本教程以實際應用、工程開發為目的，著重介紹模型訓練過程中遇到的實際問題和方法。在機器學習模型開發中，主要涉及三大部分，分別是數據、模型和損失函數及優化器。本文也按順序的依次介紹數據、模型和損失函數

2018-12-21 09:18:02

labview可以調用在python上訓練好的分類模型么？

能否直接調用訓練好的模型文件？

2021-06-22 14:51:03

【Sipeed M2 Dock開發板試用體驗】之家貓檢測模型訓練篇

準備開始為家貓做模型訓練檢測，要去官網https://maix.sipeed.com/home 注冊帳號，文章尾部的視頻是官方的，與目前網站略有出路，說明訓練網站的功能更新得很快。其實整個的過程

2022-06-26 21:19:40

【書籍評測活動NO.30】大規模語言模型：從理論到實踐

TOP1的桂冠，可想大家對本書的認可和支持！這本書為什么如此受歡迎？它究竟講了什么？下面就給大家詳細~~ 本書主要內容本書圍繞大語言模型構建的四個主要階段——預訓練、有監督微調、獎勵建模和強化

2024-03-11 15:16:39

【國產FPGA+OMAPL138開發板體驗】（原創）6.FPGA連接ChatGPT 4

方面。而且，由于ChatGPT 4是一個大型的語言模型。通常，FPGA會用于處理一些底層的數據流或執行特定的硬件加速任務，而ChatGPT 4這樣的模型則會在云端或高性能服務器上運行。不過

2024-02-14 21:58:43

一個對于足球的狂熱者的成長史

一個對于足球的狂熱者的成長史。我們每一個人都不平凡，都有著自己的夢想。你之所以沒有達到你預期的目標可能是因為，"天時“不夠或者”地利“沒達到，更可能是”人脈“沒掌握。更有可能是你壓根

2014-05-06 13:52:52

三星電子行業巨頭成長史

據美國研究公司ICInsights發布報告預計，銷售額顯示，三星電子有很大可能性，超過英特爾成為全球最大的芯片商。油柑網利用WMS物流系統在高準確率、優化倉儲空間、提高人工效率等方面的特點，為用戶提供極速發貨體驗：當天16:00前訂單當天發出，16:00后訂單最遲次日12:00前發出。油柑網全場電子元器件訂單單筆實付金額滿8.8元包郵。 ICInsights表示，考慮到存儲芯片價格漲幅這一因素的話，英特爾預計在2017年二季度將實現144億美元的銷售額，而三星電子的銷售額預計將達到146億美元。因此如果存儲芯片的市場價格在二季度及余下時間里都能持續增長，三星電子將會取代英特爾成為全球最大芯片制造商。獨占半壁江山但跟核心處理器芯片不同的是，三星的增長是受益于不斷漲價的存儲芯片。數據顯示，英特爾預計在2017年二季度將實現144億美元的銷售額，而三星電子的銷售額預計將達到146億美元，如果未來存儲芯片價格依舊居高不下，三星將會取代英特爾成為全球最大的芯片制造商。換句話說，在手機領域的存儲元器件方面，三星一家幾乎占據了半壁江山。即便在去年因為手機電池爆炸事件遭受重裝，但由于日益高昂的存儲芯片，三星的賺錢能力竟毫發無損。三星在2017年第一財年報告顯示，受到芯片業務強勁表現的提振，三星第一季度凈利潤達到7.68萬億韓元(約合67.8億美元)，同比增長46.3%。而具體到半導體部門，銷售額為15.66萬億韓元(約合138.25億美元)，較上年同期的11.15萬億韓元增長40.4%;營業利潤為6.31萬億韓元(約合55.70億美元)，較上年同期的2.63萬億韓元更是增長了恐怖的139.9%。但是三星在40多年前進軍芯片行業時并非一帆風順。白手起家的三星電子三星電子是韓國最大的電子工業企業，同時也是三星集團旗下最大的子公司。1938年3月它于韓國大邱成立，創始人是李秉喆。現任會長是李健熙，副會長是李在镕和權五鉉，社長是崔志成，首席執行官是由權五鉉、申宗鈞、尹富根三位組成的聯席CEO。在世界上最有名的100個商標的列表中，三星電子是唯一的一個韓國商標，是韓國民族工業的象征。李秉喆出生富裕家庭，貪玩但聰明，入讀日本早稻田大學。 1936年，與朋友合開碾米合作廠(協同精米所)，不久失敗。 1938年，3萬韓元創立三星商會，主要出口干貨、蔬菜、水果到中國東北地區。 1948年，成立三星物產公司，增加經營品種，擴大貿易地區。 1953年，他建立了“第一制糖”廠，結束韓國白糖依賴進口的歷史。 1954年成立了“第一毛織”，滿足國內需求。 1960年，進軍肥料工業，籌建肥料廠。 1969年，把握趨勢進軍電子行業，“三星三洋電子公司”成立，開始生產電視機。之后與三星電子工業有限公司合并。主要是為日本三洋公司生產電視機、洗衣機、冰箱等電子。之所以會發展電子業，是因為李秉喆根據當時韓國的技術、勞動力、附加值、出口預期等多方面判斷電子業將是一條康莊大道。 1984年，三星電子工業公司更名為三星電子。在更名之前，1976年，三星電子機械公司累計生產一千萬臺黑白電視機。 1978年，三星電子工業累計生產破四千萬臺黑白電視。 1979年，三星電子工業開始生產微波爐。 1980年，三星電子工業開始生產空調。 1981年，生產破一千萬臺彩色電視機。三星能成為世界一流企業最關鍵的是李秉喆提出“走開發尖端科技”路線，之后三星投入巨資發展尖端科技，還引進美國技術，使韓國成為了繼美國、日本之后，第三個能獨立開發半導體的國家，這也是如今三星和蘋果能夠抗衡的資本。把握趨勢進軍電子行業在韓國，有句話流傳甚廣：“韓國人的一生無法避免三件事，死亡、稅收和三星。”這真是一件極恐怖的事! 雖然三星集團業務涉及各大領域，但從總的來看三星電子的收入大概占了集團的六成左右，其實主要還是以電子產業為主，這要歸功于當年李秉喆的眼光。李秉喆是個十分會洞悉市場需求的人，用我們現在的話來說就是很會抓風口的人，每當經濟轉型，產業升級的時候他都能立即把握住趨勢。七十年代晚期到八十年代初期，是多元化程度逐步提高，三星核心科技業務在全球范圍內增長的階段。 1978年，三星半導體以及三星電子成為兩個獨立的實體，同時也開始向全球市場提供新產品。在1983年12月成功開發出64KDRAM(動態隨機存儲器，DynamicRandomAccessMemory)VLSI芯片，并因此成為世界半導體產品領導者。在此之前，三星只是為本國市場生產半導體。在八十年代中期，三星開始進入系統開發業務領域，在1985年成立了三星數據系統(現在的名稱為三星SDS)作為在包括系統集成、系統管理、咨詢，以及網絡服務的信息技術服務的領導者。在1986年成立的三星經濟研究院(SERI)，以及在1987年成立的三星綜合技術研究院(SAIT)。這兩個作為先驅的R&D組織，成功地幫助三星將其業務甚至進一步擴大到電子、半導體、高分子化學、基因工程、光纖通訊、航空，以及從納米技術到先進的網絡結構等廣闊的領域。在1987年11月19日，三星的創始人李秉喆會長在執掌三星集團近50年之后逝世。他的兒子李健熙繼任成為三星新的會長。在1988年三星集團慶祝公司成立50周年的慶典上，他宣布公司開始“二次創業”，將領導三星進一步發展，成為世界級的二十一世紀企業。為了“二次創業”，三星挑戰自己，重組了舊的業務，并開始進入新的業務領域，目標是成為世界五大電子公司之一。1988年，三星電子與三星半導體&無線通訊的合并無疑是向這個目標前進的一個關鍵。因為在公司的歷史上，這是第一次，三星那時走上了最大化技術資源、開發增值產品之路。重疊項目的綜合節約了成本，并有效地運用資金與人力。到八十年代后半葉，三星在創建穩固電子與重工業的努力終于有了回報，公司獲得了與高技術產品相匹配的聲譽。三星電子邁上世界舞臺二十世紀九十年代初期，高技術產業面臨著前所未有的巨大挑戰。兼并、聯合以及收購等商業行為非常普遍，競爭與合并風起云涌。各個公司都不得不重新思考自己的技術與服務的定位。業務開始跨出國家與國家、公司與公司之間的界限。為了把握這些機會，三星在1993年提出來“新經營”規劃。 “新經營”不僅僅是三星業務結構的重新設計，而是一場旨在制造世界一流產品、提供全體客戶滿意，以及成為一個優秀的企業公民的全面革新運動。回顧過去，“新經營”是三星發展過程中決定性的轉折點，是整個公司以“質量第一”為基礎重新進行定位的階段。在此期間，17種不同的產品，從半導體到計算機顯示器，從TFT-LCD顯示屏到彩色顯像管，在其各自領域中，產品的全球市場份額躍居前五位。12種其他產品也在其各自領域中名列前茅。在一些領域，比如LCD等，三星從一開始就是第一。自從1993年進入LCD以來，三星就毫無爭議地是世界領導者。另外一個實例是三星重工業的鉆井船，自從三星開始進入這個領域，就擁有了世界市場60%的份額。毫無疑問，三星在這些領域的成功，一部分歸功于三星在其遍布世界的工廠中嚴格的質量控制。由于實行“一站停線(LineStop)”系統,任何員工只要在生產流程中發現不合格產品，都可以立即關閉組裝生產線。整個生產線會被停下來，直到問題得以解決。在總體質量管理過程中，三星還堅持采用“六西格瑪(SixSigma)”方法。當然,“新經營”不僅僅是為了獲得優質產品，同時也是為了獲得優秀的人才。無論三星的業務開展到世界的什么地方，三星人力開發院就會專門為所有直接與客戶接觸的人員提供客戶服務的講座。三星旗下位于首爾市中心的世界級酒店——新羅飯店甚至還為三星生命保險、三星證券和三星信用卡等公司的雇員提供禮儀培訓課程。劫后重生的三星電子 1997對于幾乎所有的韓國人來說都是黑暗的。在那一年，幾乎所有的韓國公司都處于萎縮狀態，三星也不例外。公司通過將下屬公司的數量減少到45個(附屬公司數量的標準根據“公平貿易法”(FairTradeLaw)確定)，幾乎裁減了50,000人，改善了公司財務結構的合理性，使公司的負債率從1997年的365%降低到1999年的148%。公司以15億美元的價格將公司原有的10個業務單位賣給了國外公司，包括三星重工業旗下深受好評的施工設備業務賣給了瑞典的VolvoAB，將叉車業務賣給了Clark。雖然這個消息令人感到凄涼，但是由于其在數字以及網絡技術方面的領先地位，及其在電子、金融，以及其他相關服務方面的穩定與專注，使三星成為為數不多的幾個能夠在經濟危機后繼續增長的公司之一。 1998年2月三星電子開發出世界第一個128MB同步DRAM以及128MBFlash內存。 7月三星電子開發出世界最小的半導體封裝。同年，三星電子成為世界第一個擁有4-GB半導體處理生產技術的廠商 1999年7月三星電子世界第一個1GDDRDRAM芯片實現商業化，并引入世界最快的3DGraphics圖形卡專用222MHz32-MbitSGRAM。 2001年，三星電子移動電話生產量超過5千萬臺，并開發出世界最大的40英寸TFT-LCD顯示器。 2001年，三星電子銷售額達到247億美元，創利潤22億美元。在存儲器芯片和超薄顯示器市場都是世界第一，并且已經穩居全球第四大手機生產商位置，三星開始領軍全球電子業。 2007年，開發出了世界第一款30nm64GbNANDFlash內存。 2010年，三星電子開發出世界上第一個30nmDRAM，銷售業績創歷史新高——總銷售額100萬億韓元和營業利潤10億韓元同時突破。時至今日，三星電子已經發展成為全世界最大的消費電子企業，除了消費者熟知的智能手機、電視機之外，三星還擁有半導體、顯示面板在內的零部件業務。今年二季度，三星電子將超越英特爾，成為全球半導體市場的營收霸主。負面不斷，卻觸底反彈 “炸機”和高層賄賂事件曝光后，世人都認為三星要完蛋了。8月，三星股價下跌3.2%至110.4萬韓元，創下自前年10月28日以來新低。可三星電子股價在經歷了連續3個月劇烈震蕩后，于11月中旬開始，奇跡般觸底反彈，大漲20%，到12月，股價多次超過180萬韓元，創下自上市以來的新高。一般而言，在手機元器件的分類中，存儲的元器件包括了內存和閃存，內存即大眾所理解的DRAM，而包括eMMC、UFS都是閃存(NANDFlash)加上控制器的套件，這個解決方案也廣泛應用了當下的手機行業。根據調研機構trendforce的數據，目前三星內存(DRAM)整體市場份額超過50%，應用在智能手機的內存更是超過60%，eMMC、UFS所屬于的閃存(NANDFlash)方面，三星的市場份額接近40%。就市場情況而言，目前可以生產eMMC型號閃存的廠商很多，但能夠生產UFS卻只有三星、東芝、SK海力士三家，而在具體的量產能力上，三星比起其他兩家公司來說更勝一籌。在主流的高端手機上，也會有更多廠商選會選擇UFS，因此可以說國產手機在存儲芯片方面對三星處于絕對依賴的狀態。價格趨勢方面，trendforce的分析師對36氪記者說，存儲器產品從2016年下半年開始一直呈現大幅上漲狀態了40%，持續到今年一季度，從二季度開始上漲趨勢減緩，但是上漲勢頭還會持續到年底，預計應用于智能手機等產品的行動式內存2017年全年漲幅將大于10%。而反映到智能手機產品上，今年以來，包括小米、酷派、魅族等手機公司都有不同程度的漲價，而華為發布的P10更是比上一代產品P9，貴了將近1000元。所以，雖然三星在2016年遭遇了“Note7爆炸事件”，但其股價在2016年仍然大漲了接近50%。進入2017年，短短的四個來月，股價又上漲了25%。學習三星，中國芯片任重而道遠目前，全球芯片生產商主要集中在美國、日本、韓國和中國的***地區。相比之下，中國內地雖然是全球最大的電子消費市場，每年生產銷售了最大量的手機、電腦、汽車和各種家電，但芯片90%依靠進口。雖然也有部分企業(比如華為)力圖在芯片上實現突破，但取得的進展一直不大。全球每年生產的芯片，50%左右被中國人高價買走。這意味著，中國電子產業仍然處于全球生產鏈條的中低端，還意味著最豐厚的利潤被芯片生產商拿走了。而中國市場，則淪為了三星、英特爾、高通這些企業的提款機。你知道中國目前每年進口金額最大的單一商品是什么嗎?估計很多人還以為是石油，事實上過去幾年芯片已經超過石油，成為我們從海外購買最多的商品，每年進口額超過2200億美元。換句話說，中國的“芯片安全問題”，已經超過了“石油安全問題”。 “薩德入韓”事件后，中韓經貿關系受到了影響。這時候，很多中國人才驚聞：中國最大的商品進口國竟然是韓國，每年中國從韓國的進口額超過了美國、日本;中國最大的貿易逆差，也是韓國帶來的，相當于韓國順差來源的73%。 2016年全球主要芯片企業排名，中國只有***地區的企業上榜很顯然，芯片已經成為中國經濟崛起過程中，下一個急需攻克的陣地。而三星，就是我們實現跨越的最大對手。我們不能為手機在中低端市場擊敗三星而沾沾自喜，而應該清醒地看到三星在芯片業務上的強大優勢。主要來說，中國企業應當學習三星“兩頭抓”的戰略。

2019-04-24 17:17:53

不到1分鐘開發一個GPT應用！各路大神瘋狂整活，網友：ChatGPT就是新iPhone

這個說法并不準確。盡管ChatGPT等語言模型已經在一定程度上改變了我們獲取信息、學習知識的方式，但它們并不能替代人類進行創造性思考和創造性活動。雖然一些人可能會利用ChatGPT等語言模型快速

2023-11-19 12:06:10

醫療模型人訓練系統是什么？

醫療模型人訓練系統是為滿足廣大醫學生的需要而設計的。我國現代醫療模擬技術的發展處于剛剛起步階段，大部分仿真系統產品都源于國外，雖然對于模擬人仿真已經出現一些產品，但那些產品只是就模擬人的某一部分，某一個功能實現的仿真，沒有一個完整的系統綜合其所有功能。

2019-08-19 08:32:45

在IC設計/驗證中怎么應用ChatGPT呢？

技術改變生活。最近一段時間，OpenAI旗下的ChatGPT大火。根據官網自身的介紹（見圖1），其是由 OpenAI 提出的大型預訓練語言模型，使用了許多深度學習技術，可以生成文本內容，也可以進行

2023-02-21 15:16:46

在Ubuntu上使用Nvidia GPU訓練模型

問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候，沒有問題，過一會再訓練出現非常卡頓，使用nvidia-smi查看發現，顯示GPU的風扇和電源報錯：解決方案自動風扇控制在nvidia

2022-01-03 08:24:09

基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的表情或性別gradcam

CV：基于Keras利用訓練好的hdf5模型進行目標檢測實現輸出模型中的臉部表情或性別的gradcam(可視化)

2018-12-27 16:48:28

如何使用eIQ門戶訓練人臉檢測模型？

我正在嘗試使用 eIQ 門戶訓練人臉檢測模型。我正在嘗試從 tensorflow 數據集 (tfds) 導入數據集，特別是 coco/2017 數據集。但是，我只想導入 wider_face。但是，當我嘗試這樣做時，會出現導入程序錯誤，如下圖所示。任何幫助都可以。

2023-04-06 08:45:14

怎樣使用PyTorch Hub去加載YOLOv5模型

PyTorch Hub 加載預訓練的 YOLOv5s 模型，model并傳遞圖像進行推理。'yolov5s'是最輕最快的 YOLOv5 型號。有關所有可用模型的詳細信息，請參閱自述文件。詳細示例此示例

2022-07-22 16:02:42

探索一種降低ViT模型訓練成本的方法

Transformers已成為計算機視覺最新進展的核心。然而，從頭開始訓練ViT模型可能會耗費大量資源和時間。在本文中旨在探索降低ViT模型訓練成本的方法。引入了一些算法改進，以便能夠在有限的硬件

2022-11-24 14:56:31

用tflite接口調用tensorflow模型進行推理

tensorflow模型部署系列的一部分，用于tflite實現通用模型的部署。本文主要使用pb格式的模型文件，其它格式的模型文件請先進行格式轉換，參考tensorflow模型部署系列————預訓練模型導出。從...

2021-12-22 06:51:18

科技大廠競逐AIGC，中國的ChatGPT在哪？

。圖源：OpenAI官網中國AI水平與ChatGPT有多大的差距？中國如何訓練出這樣的GPT大模型？難點又在哪里？ ChatGPT是AIGC的一種實現。在AIGC的大模型建設和應用層面，國內

2023-03-03 14:28:48

算法原理與模型訓練

)，其中y取值1或-1（代表二分類的類別標簽），這也是GBDT可以用來解決分類問題的原因。模型訓練代碼地址 https://github.com/qianshuang/ml-expdef train

2019-01-25 15:02:15

請問K510設備什么時候可以支持線上模型訓練？

目前官方的線上模型訓練只支持K210，請問K510什么時候可以支持

2023-09-13 06:12:13

黃尚慶：電機工程師的成長史，學習經驗分享

學習過程成長到了現在的資深電子工程師？我從事電機行業已經有5年的實際經驗，從參加工作就開始接觸電機控制。主要是做電機控制的相關工作，如工業機器人的伺服電機，工業控制的異步電動機，以及變頻器。在做項目

2019-09-26 17:01:14

德信成長史：模擬IC公司如何擺脫同質化

德信成長史：模擬IC公司如何擺脫同質化在今天的半導體市場上，同質化是一個非常突出的問題，尤其以電源產品為甚。而且，因為電源市場較大，該市場又吸引了中

2010-02-05 08:52:04

781

MOS管模型分類 NMOS的模型圖詳解

MOS管常需要偏置在弱反型區和中反型區，就是未來在相同的偏置電流下獲得更高的增益。目前流行的MOS管模型大致可分為兩類，本文將詳解MOS管模型的類型和NMOS的模型圖。

2018-02-23 08:44:00

51664

一位軟件工程師的成長史

前段時間，我寫了很多關于嵌入式學習的文章，通過不少學習者的反饋使我有成就感。分享的樂趣使我決定繼續寫下去。在接下來的時間，我計劃也開始寫關于Java的內容。希望對你或多或少提供方向，當然，老規矩，遇到問題或者想發展確沒方向的新手都可以私我。話不多說，給大家帶來一個軟件工程師的成長史：

2018-06-19 15:28:00

2386

關于語言模型和對抗訓練的工作

本文把對抗訓練用到了預訓練和微調兩個階段，對抗訓練的方法是針對embedding space，通過最大化對抗損失、最小化模型損失的方式進行對抗，在下游任務上取得了一致的效果提升。有趣的是，這種對抗

2020-11-02 15:26:49

1802

Pytorch量化感知訓練的詳解

量化感知訓練（Quantization Aware Training ）是在模型中插入偽量化模塊（fake\_quant module）模擬量化模型在推理過程中進行的舍入（r...

2020-12-08 22:57:05

1722

小米在預訓練模型的探索與優化

導讀：預訓練模型在NLP大放異彩，并開啟了預訓練-微調的NLP范式時代。由于工業領域相關業務的復雜性，以及工業應用對推理性能的要求，大規模預訓練模型往往不能簡單直接地被應用于NLP業務中。本文將為

2020-12-31 10:17:11

2217

多模態圖像-文本預訓練模型

在某一方面的智能程度。具體來說是，領域專家人工構造標準數據集，然后在其上訓練及評價相關模型及方法。但由于相關技術的限制，要想獲得效果更好、能力更強的模型，往往需要在大量的有標注的數據上進行訓練。近期預訓練模型的

2021-09-06 10:06:53

3351

如何實現更綠色、經濟的NLP預訓練模型遷移

NLP中，預訓練大模型Finetune是一種非常常見的解決問題的范式。利用在海量文本上預訓練得到的Bert、GPT等模型，在下游不同任務上分別進行finetune，得到下游任務的模型。然而，這種方式

2022-03-21 15:33:30

1843

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結構與BERT模型一致，因此在下游預訓練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

AI模型是如何訓練的？訓練一個模型花費多大？

2022-10-23 00:20:03

7253

最近大火的高性能計算ChatGPT究竟是什么？

ChatGPT是OpenAI開發的大型預訓練語言模型，GPT-3模型的一個變體，經過訓練可以在對話中生成類似人類的文本響應。

2022-12-15 12:28:56

1368

講一講ChatGPT的技術細節

通過人工標注等方式，使用監督學習的模式對GPT3模型（對這個是chatGPT模型的base）進行初步訓練（有監督微調，SFT），從而得到一個初步能夠理解語言的模型，尤其是prompt的模式。

2023-01-03 17:38:58

1909

ChatGPT是什么時候發布的 ChatGPT投資案例

ChatGPT中GPT的意思是generative pre-training，（關于語言模型的）生成式預訓練，這也是這款聊天機器人奠基的理論模型。GPT理論最早2018年在OpenAI上分享，2020年，OpenAI發布了GPT-3，已經可以連貫地形成即興文本。

2023-02-08 17:23:46

23581

ChatGPT背后的原理簡析

　chatGPT是一種基于轉移學習的大型語言模型，它使用GPT-2 （Generative PretrainedTransformer2）模型的技術，并進行了進一步的訓練和優化。

2023-02-09 15:09:56

7657

ChatGPT自動化操作

　　近日， ChatGPT在圈內大火。那么什么是ChatGPT呢？ ChatGPT是一種自然語言生成模型，由OpenAI開發。它基于GPT（Generative

2023-02-10 11:58:40

ChatGPT注冊以及使用教程

　　ChatGPT使用基于人類反饋的強化學習進行訓練，這種方法通過人類干預以增強機器學習的效果，從而獲得更為逼真的結果。其使用基于GPT-3.5架構的語言模型。在訓練過程中，人類訓練師扮演著用戶與人

2023-02-10 11:30:32

一文看懂ChatGPT模型原理

　　這兩天，ChatGPT模型真可謂稱得上是狂拽酷炫D炸天的存在了。一度登上了知乎熱搜，這對科技類話題是非常難的存在。不光是做人工智能、機器學習的人關注，而是大量的各行各業從業人員都來關注這個模型

2023-02-10 11:15:06

ChatGPT入門指南

是基于聊天的生成預訓練transformer模型的縮寫，是一個強大的工具，可以以各種方式使用，以提高您在許多領域的生產力。 ChatGPT是一種人工智能（AI）技術，被稱為自然語言處理（NLP）模型　　由人工智能研發公司OpenAI創建。它使用機器學習算法來分析和理解書面或口頭語言，然后根據該輸

2023-02-10 11:19:06

看海泰方圓類ChatGPT技術模型！

撰寫郵件、視頻腳本、文案、翻譯、代碼等任務，有望成為提高辦公、學習效率的工具，應用場景廣闊。 ? ChatGPT：“殺手級”AI應用的出圈 ChatGPT是一個“萬事通”：基于GPT 3.5架構的大型語言模型（LLM），通過與用戶的自然互動對話完成各種復雜的任務，如求解數學方程式、寫

2023-02-10 10:38:20

482

chatgpt國內怎么用

如此受歡迎，是因為它具有如下優秀特點： 1、強大的語言生成能力：ChatGPT是一種被訓練有素的語言模型，可以生成各種文本內容，如問答、對話、描述等。 2、語言知識豐富：ChatGPT是在大量語料庫上進行訓練的，因此它對語言知識的理解非常深刻，可以產生高質量的文

2023-02-10 14:11:58

195750

chatgpt怎么用

chatgpt怎么用 chatgpt怎么用？chatgpt 簡介 ChatGPT是一種語言模型，它被訓練來對對話進行建模。它能夠通過學習和理解人類語言來進行對話，并能夠生成適當的響應。ChatGPT

2023-02-10 14:22:27

57024

ChatGPT使用初探

　　最近一直聽到ChatGPT，如雷貫耳，目前只能在國外用。近期找了個時間專門研究了怎么使用ChatGPT. 　　ChatGPT是一種大型語言模型，由 OpenAI 訓練。它可以生成

2023-02-13 10:11:07

如何用ChatGPT高效完成工作

話式人工智能的預期。因此一經推出就驚艷世界，引爆了全球對 ChatGPT的關注。ChatGPT的模型架構基于生成預訓練轉換器（Generative Pre-training Transformer），并基于大量文本數據進行訓練。因此除了對話，ChatGPT還能夠理解復雜問題并執行高級任務。　　

2023-02-13 09:57:17

ChatGPT實現原理

）是由OpenAI發明的一種自然語言處理技術。它是一種預訓練的深度學習模型，可以用來生成文本，識別語義，做文本分類等任務。 ChatGPT實現原理火爆的ChatGPT，得益于AIGC 背后的關鍵技術NLP

2023-02-13 17:32:36

74276

ChatGPT介紹和代碼智能

一. ChatGPT 1. ChatGPT的自我介紹 2. ChatGPT的前世 2.1GPT-3是啥？General Pre-Training(GPT)，即通用預訓練語言模型，是一種利用

2023-02-14 09:33:23

如何打造我們自己的ChatGPT

離強大到危險的人工智能不遠了”。　　自2018年的BERT預訓練模型被提出后，迅速刷新了各大NLP

2023-02-14 09:14:34

關于ChatGPT的自我介紹

　　ChatGPT是由OpenAI開發的一個人工智能聊天機器人程序，由 OpenAI 公司于2022年11月推出。該程序使用基于GPT-3.5架構的大型語言模型并通過強化學習進行訓練

2023-02-14 09:19:19

ChatGPT需要怎樣的芯片？

），而在中國以百度等為代表的互聯網科技公司也紛紛表示正在研發此類技術并且將于近期上線。以ChatGPT為代表的生成類模型有一個共同的特點，就是使用了海量數據做預訓練，并且往往會搭配一個較為強大的語言模型。語言模型主要的功能是從海量的現有語料庫中進行

2023-02-17 09:45:07

521

淺析預訓練模型的起源與發展

2022年下半年開始，涌現出一大批“大模型”的優秀應用，其中比較出圈的當屬AI作畫與ChatGPT，刷爆了各類社交平臺，其讓人驚艷的效果，讓AI以一個鮮明的姿態，站到了廣大民眾面前，讓不懂AI的人也能直觀地體會到AI的強大。大模型即大規模預訓練模型。

2023-02-20 14:09:11

1391

詳解ChatGPT數據集之謎

隨著新型 AI 技術的快速發展，模型訓練數據集的相關文檔質量有所下降。模型內部到底有什么秘密？它們又是如何組建的？本文綜合整理并分析了現代大型語言模型的訓練數據集。

2023-02-21 10:06:23

1432

ChatGPT是什么意思？如何將chatgpt應用到兒童對話

　ChatGPT是一種由OpenAI開發的通用聊天機器人模型。

2023-02-21 15:32:46

3294

ChatGPT/GPT的原理 ChatGPT的技術架構

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架構開發的對話AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練，或用于收集大量對話數據。

2023-02-24 10:05:13

1421

詳細介紹ChatGPT技術原理和架構

模型選擇：ChatGPT 的開發人員選擇了 GPT-3.5 系列中的預訓練模型，而不是對原始 GPT-3 模型進行調優。使用的基線模型是最新版的 text-davinci-003（通過對程序代碼調優的 GPT-3 模型）。

2023-03-08 09:28:00

352

ChatGPT升級　OpenAI史上最強大模型GPT-4發布

ChatGPT升級史上最強大模型GPT-4發布 OpenAI正式推出了ChatGPT升級版本，號稱史上最強大模型GPT-4發布。OpenAI期待GPT-4成為一個更有價值的AI工具。 GPT-4

2023-03-15 18:15:58

2363

ChatGPT商業化意義 AIGC產業生態體系架構分析

ChatGPT是自然語言處理（NLP）下的AI大模型，通過大算力、大規模訓練數據突破AI瓶頸。2022年11月，OpenAI推出ChatGPT，ChatGPT基于GPT-3.5，使用人類反饋強化學習技術，將人類偏好作為獎勵信號并微調模型，實現有邏輯的對話能力。

2023-03-16 11:16:55

1815

ChatGPT是什么？普通人應該如何去使用ChatGPT

ChatGPT的最強輸出能力便是他的文字輸出能力，而文字輸出變現的軟件有很多例如知乎百家號等，ChatGPT的語言生成模型，它能夠通過訓練集自動生成文本。這使得利用ChatGPT進行文字變現成為一種可能性ChatGPT可以從給定主題生成無數種可能的文章。

2023-03-17 10:28:55

3247

什么是預訓練 AI 模型？

預訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用，也可以根據不同行業的應用需求進行自定義。如果要教一個剛學會走路的孩子什么是獨角獸，那么我們首先應

2023-04-04 01:45:02

1025

微軟開源“傻瓜式”類ChatGPT模型訓練工具

DeepSpeed-RLHF 模塊：DeepSpeed-RLHF 復刻了 InstructGPT 論文中的訓練模式，并確保包括 a) 監督微調（SFT），b) 獎勵模型微調和 c) 基于人類反饋

2023-04-14 09:36:28

782

聆心智能聯合洪恩打造“AI問答”| 國內首批兒童啟蒙成長領域類ChatGPT式應用

ChatGPT 的出現讓人類見證了大預言模型的能力，正在影響著多個行業的發展。作為 AI 技術的重要應用場景之一，“AI+教育”已經到了一個從結合過渡到融合的關鍵節點。如何將 AI 技術融入啟蒙成長

2023-05-11 15:12:18

607

大模型及ChatGPT核心技術論文

從Transformer提出到“大規模預訓練模型”GPT（Generative Pre-Training）的誕生，再到GPT2的迭代標志Open AI成為營利性公司，以及GPT3和ChatGPT的“出圈”；再看產業界

2023-05-16 09:56:00

523

什么是預訓練AI模型？

預訓練 AI 模型是為了完成特定任務而在大型數據集上訓練的深度學習模型。這些模型既可以直接使用，也可以根據不同行業的應用需求進行自定義。

2023-05-25 17:10:09

595

支持 ChatGPT 的機器學習模型的概況

本文介紹了支持 ChatGPT 的機器學習模型的概況，文章將從大型語言模型的介紹開始，深入探討用來訓練 GPT-3 的革命性自我注意機制，然后深入研究由人類反饋的強化學習機制這項讓 ChatGPT 與眾不同的新技術。

2023-05-26 11:44:32

541

不翻墻，怎么免費和直接使用ChatGPT？

ChatGPT（Chat Generative Pre-trained Transformer）是一種基于Transformer架構的預訓練語言模型，其目標是生成自然流暢的對話文本。它由OpenAI

2023-05-29 09:41:13

14486

ChatGPT背后的大模型技術

由于ChatGPT可以適用于非常多的任務，很多人認為 AI 已經迎來拐點。李開復將此前的 AI 定義為 AI 1.0，此后的AI定義為AI 2.0。AI 1.0 中模型適用于單領域，AI 2.0

2023-05-29 11:16:05

858

大模型訓練和部署的關鍵技術

電子發燒友網報道（文/李彎彎）ChatGPT的出現讓大模型迅速出圈，事實上，在過去這些年中，模型規模在快速提升。數據顯示，自2016年至今，模型大小每18個月增長40倍，自2019年到現在，更是

2023-05-30 13:56:09

1502

ChatGPT浪潮下，看中國大語言模型產業發展

ChatGPT的橫空出世拉開了大語言模型產業和生成式AI產業蓬勃發展的序幕。本報告將著重分析“OpenAI ChatGPT的成功之路”、“中國類ChatGPT產業發展趨勢”、“ChatGPT應用場景與生態建設”、“ChatGPT浪潮下的‘危’與‘機’”四個問題。

2023-06-01 16:49:42

777

ChatGPT是什么？ChatGPT寫代碼的原理你知道嗎

ChatGPT是什么 ChatGPT是一種人工智能聊天機器人，可以與用戶進行自然語言對話，回答問題，提供建議和娛樂等服務。它的名字"GPT"代表著"生成預訓練模型

2023-06-04 17:01:57

2330

ChatGPT技術總結

ChatGPT實際上是一個大型語言預訓練模型（即Large Language Model，后面統一簡稱LLM）。什么叫LLM？LLM指的是利用大量文本數據來訓練的語言模型，這種模型可以產生出強大

2023-06-06 17:39:10

chatgpt是什么東西？chatgpt在國內能用嗎

問題并幫助您完成撰寫電子郵件、論文和代碼等任務。這種類型的生成式 AI 模型根據來自互聯網的大量信息進行訓練，包括網站、書籍、新聞文章等。 chatgpt國內能用嗎? chatgpt國內暫時無法直接使用，企業辦公場景需要使用ChatGPT時，需要開通國際專線。國際專線為企業

2023-06-16 09:24:30

9768

ChatGPT在電磁領域的能力到底有多強？

ChatGPT簡介ChatGPT（GenerativePre-trainedTransformer）是由OpenAI開發的一個包含了1750億個參數的大型自然語言處理模型。它基于互聯網可用數據訓練

2023-02-02 15:10:33

715

chatgpt是什么原理

上具有更優的表現。它代表了 OpenAI 最新一代的大型語言模型，并且在設計上非常注重交互性。 OpenAI 使用監督學習和強化學習的組合來調優 ChatGPT，其中的強化學習組件使 ChatGPT 獨一無二。OpenAI 使用了「人類反饋強化學習」（RLHF）的訓練方法，該方法在訓練中使用人類反饋，以最

2023-06-27 13:57:09

197

chatgpt是什么意思 ChatGPT背后的技術原理

　　今天我們為大家帶來的文章，深入淺出地闡釋了ChatGPT背后的技術原理，沒有NLP或算法經驗的小伙伴，也可以輕松理解ChatGPT是如何工作的。　　ChatGPT是一種機器學習自然語言處理模型

2023-07-18 17:12:30

chatgpt是什么意思 chatgpt有什么用

有不少教程，搜索觀看即可。　　ChatGPT 是一款由 OpenAI 開發的大型語言模型，主要功能是回答用戶的問題和完成各種語言任務，如對話生成、文本摘要、翻譯、生成文本等。它使用了先進的深度學習技術和海量的語言數據進行訓練，可以在各種語言領域提供高質量的語言處理服務

2023-07-19 14:21:00

ChatGPT的工作原理

　　ChatGPT 的工作原理可以分為兩個主要步驟：預訓練和微調。　　（1）預訓練階段　　ChatGPT 使用大量的文本數據進行訓練，以了解不同語言結構和上下文之間的關系。這樣它就能夠學習到自然語言

2023-07-20 11:29:58

ChatGPT：人工智能的交互式對話伙伴

ChatGPT作為智能對話生成模型，可以幫助打造智能客服體驗的重要工具。以下是一些方法和步驟： 1.數據收集和準備：收集和整理與客服相關的數據，包括常見問題、回答示例、客戶對話記錄等。這將用于訓練

2023-08-06 16:02:36

308

ChatGPT原理 ChatGPT模型訓練 chatgpt注冊流程相關簡介

的影響，其注冊相對繁瑣。那么國內如何注冊ChatGPT賬號？本文跟大家詳細分享GPT賬戶注冊教程，手把手教你成功注冊ChatGPT。 ChatGPT是一種自然語言處理模型，ChatGPT全稱Chat

2023-12-06 16:28:00

315

卷積神經網絡模型訓練步驟

卷積神經網絡模型訓練步驟? 卷積神經網絡（Convolutional Neural Network, CNN）是一種常用的深度學習算法，廣泛應用于圖像識別、語音識別、自然語言處理等諸多領域。CNN

2023-08-21 16:42:00

885

盤古大模型和ChatGPT4的區別

盤古大模型和ChatGPT4的區別對于大家尤其是人工智能領域的從業者而言，盤古大模型（PanGu-α）和ChatGPT-4是兩個大家的比較關注的模型，這是因為它們都是在當前最先進的自然語言處理領域

2023-08-30 18:27:44

3558

盤古大模型和ChatGPT4

盤古大模型和ChatGPT4 盤古大模型和ChatGPT4：人工智能領域重要的兩大進展隨著人工智能技術的不斷發展，越來越多的模型和算法被開發出來，相繼出現了眾多重要的技術突破。其中，盤古大模型

2023-08-31 10:15:42

3484

訓練大語言模型帶來的硬件挑戰

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓練這些模型帶來的硬件挑戰，以及GPU和網絡行業如何針對訓練的工作負載不斷優化硬件。

2023-09-01 17:14:56

1046

盤古大模型與ChatGPT的模型基礎架構

華為盤古大模型以Transformer模型架構為基礎，利用深層學習技術進行訓練。模型的每個數量達到2.6億個，是目前世界上最大的漢語預備訓練模型之一。這些模型包含許多小模型，其中最大的模型包含1億4千萬個參數。

2023-09-05 09:55:56

1229

華為盤古大模型與ChatGPT的技術優勢

大規模預訓練：華為盤古大模型采用了大規模預訓練的方法，通過對大量的中文語料進行預訓練，使模型具有更強的泛化能力和適應能力。

2023-09-05 09:58:32

1431

谷歌模型訓練軟件有哪些？谷歌模型訓練軟件哪個好？

谷歌在模型訓練方面提供了一些強大的軟件工具和平臺。以下是幾個常用的谷歌模型訓練軟件及其特點。

2024-03-01 16:24:01

184

已全部加載完成

搜索歷史

詳解ChatGPT的預訓練模型成長史

評論