一夕之間,大模型的戰局再變,Google 帶著「迄今為止功能最強大、最通用的?Gemini?模型」正面硬剛 OpenAI 時下最先進的 GPT-4。
「作為一家 AI-First 的公司,我們已經走過了近八年的歷程,進步的步伐只會不斷加快。Gemini,這是 Google AI 新時代的開始」,Google CEO 桑達爾·皮查伊(Sundar Pichai)在為這個新模型親自站臺時表示,「這個模型開創的新時代代表了我們作為一家公司所做出的最大的科學和工程努力之一。我對未來以及 Gemini 將為世界各地的人們帶來的機會感到由衷的興奮。」
?
?
?
Gemini 來啦!
在今年 5?月的 Google I/O 大會上,皮查伊首次透露了 Google 正在研發一款多模態基礎模型 Gemini,下一步 Google 所有產品都將基于它們,包括 Google Bard、搜索、云。
?
時隔 7 個月的今天,在 Google 官宣 Gemini 正式到來之際,Bard 和 Pixel 8 Pro 智能手機已經率先應用上了這款大模型。不過,Gemini 目前僅提供英語版本,其他語言顯然很快就會推出。皮查伊表示,該模型最終將被整合到 Google 的搜索引擎、廣告產品、Chrome 瀏覽器等。
?
?
?
首先認識一下?Gemini
“Gemini 是整個 Google 團隊(包括 Google Research 的同事)大規模協作努力的成果。它是從頭開始構建的多模式,這意味著它可以概括和無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻”,Google DeepMind 首席執行官兼聯合創始人 Demis Hassabis 介紹道。
根據 Google 透露,Gemini 現在能夠在從數據中心到移動設備的所有設備上高效運行,其最先進的功能將顯著增強開發人員和企業客戶利用人工智能進行構建和擴展的方式。
當前,Google 帶來了三種 Gemini 型號:
Gemini Ultra?是 Google 最強大的模型,被定位為 OpenAI 的 GPT-4 的競爭對手,也似乎是為數據中心和企業應用程序設計的。不過,該款模型將于明年推出。
Gemini Pro?是一款中端型號,能夠擊敗 ChatGPT 的基準版本 GPT-3.5。與此同時,它將很快為許多 Google AI 服務提供支持,今天率先在 Bard 上應用。
Gemini Nano,這是一種專為在移動設備上運行而構建的更高效的模型。Pixel 8 Pro 手機用戶現在就可以通過 Gemini Nano 獲得一些新功能,如記錄器應用程序中的摘要功能、Gboard 中的智能回復、視頻功能、攝影和圖像編輯方面的改進。
?
?
?
?
Gemini?vs?GPT-4
事實上,自去年 OpenAI 率先推出 ChatGPT,似乎關于 AI 領域的“風頭”便被其占領了大半。顯然,其他布局 AI 的各大科技公司對此并不甘落后,在自己發布新品時,也忍不住會和 OpenAI 的產品對比一番,Google 當然也不例外。
基于此,Google 發布了一份長達?60?的《Gemini: A Family of Highly Capable Multimodal Models》(https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf),進行了技術詳解,也與 GPT-4、GPT-3.5 模型做了對比。
其中,Google 運行了 32 個完整的基準測試來將 Gemini 與行業中先進的模型進行了比較,其中從廣泛的整體測試(如多任務語言理解基準測試)到比較兩個模型生成 Python 代碼的能力。
值得一提的是,Gemini 的基礎模型支持文本輸入和文本輸出,但更強大的? Gemini Ultra 可以處理圖形、視頻和音頻。根據基準測試結果顯示,從自然圖像、音頻和視頻理解到數學推理,Gemini Ultra 的性能在大型語言模型 (LLM)?研發中使用的 32 個廣泛使用的學術基準中的 30 個上超過了 GPT-4。
整體來看,Gemini Ultra 的得分高達 90.0%,是第一個在 MMLU(大規模多任務語言理解)上超越人類專家的模型,該模型結合了數學、物理、歷史、法律、醫學和倫理學等 57 個科目來測試知識和解決問題的能力。
其中,Google 使用新的 MMLU 基準方法使 Gemini 能夠利用其推理能力在回答難題之前更仔細地思考,從而比僅使用第一印象有顯著改進。
此外,Gemini Ultra 還在新的 MMMU 基準測試中取得了 59.4% 的最先進分數,該基準測試由跨越不同領域、需要深思熟慮的推理的多模態任務組成。
根據 Google 測試的圖像基準,Gemini Ultra 的性能優于以前最先進的模型,無需從圖像中提取文本以進行進一步處理的對象字符識別 (OCR) 系統的幫助。這些基準凸顯了?Gemini?天生的多模態性,并表明了?Gemini?更復雜推理能力的早期跡象。
?
多模態?Gemini 的優勢
綜上也不難看出,Gemini 模型的優勢便體現在多模態維度上。
“我們將 Gemini 設計為原生多模式,從一開始就針對不同模式進行了預訓練。然后我們使用額外的多模態數據對其進行微調,以進一步完善其有效性。這有助于 Gemini 從頭開始無縫地理解和推理各種輸入,遠遠優于現有的多模式模型 - 而且其功能幾乎在每個領域都是最先進的”,Google 在公告中寫道。
那要細看 Gemini 模型的多模態能力,則具體體現在以下幾點:
復雜的推理
Gemini 1.0 復雜的多模式推理功能可以幫助理解復雜的書面和視覺信息。Gemini 模型通過閱讀、過濾和理解信息從數十萬份文檔中提取見解的能力,可以幫助更多的使用者從科學到金融的許多領域以數字速度實現新的突破。
理解文本、圖像、音頻
據 Google 透露,Gemini 1.0 經過訓練,可以同時識別和理解文本、圖像、音頻等,因此它可以更好地去理解,并回答與復雜主題相關的問題。以下示例中可以看到 Gemini 解釋數學和物理等復雜學科的推理能力。
高級編碼
Google 似乎將編碼視為 Gemini 的殺手級能力,也在這一維度下足了功夫。
Gemini 1.0 可以理解、解釋和生成主流編程語言(如 Python、Java、C++ 和 Go)的高質量代碼。
在上文的基準測試中,Gemini Ultra 在 HumanEval(用于評估編碼任務性能的重要行業標準)上獲得了 74.4% 的得分,以及 Natural2Code(Google 內部保留的數據集)上獲得了 74.9% 的分數,都比 GPT-4 能力更強一些。
在這次發布會上,Google 還使用了?Gemini 的專門版本,創建了更先進的代碼生成系統?AlphaCode 2(https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf),它擅長解決超出編碼范圍、涉及復雜數學和理論計算機科學的競爭性編程問題。
相較 Google 兩年前推出的 AlphaCode,AlphaCode 2 解決的問題數量幾乎是原來的兩倍。Google 估計?AlphaCode 2?的表現優于 85% 的競賽參與者,而 AlphaCode 的這一比例接近 50%。當程序員通過為代碼示例定義某些屬性來與 AlphaCode 2 協作時,它的性能會更好。
運行速度更快、成本更低
對于 Google 來說同樣重要的是,Gemini 顯然是一個效率更高的模型。它使用的是 Google 內部設計的張量處理單元(TPU) v4 和 v5e 上進行訓練的,比 Google 之前的模型(如 PaLM)運行速度更快、成本更低。
今天,除了新模型之外,Google 還推出了迄今為止最強大、最高效且可擴展的 TPU 系統 Cloud TPU v5p,專為訓練尖端 AI 模型而設計。這款下一代 TPU 將加速 Gemini 的開發,幫助開發者和企業客戶更快地訓練大規模生成式 AI 模型。
?
?
?
Gemini 真的擊敗了 GPT-4 嗎?
對于 Gemini 的發布,業界普遍覺得終于有一款可以與 GPT-4 相抗衡的模型了,有競爭才有進步,這未必是一件壞事。然而,也需要認清現實的是,能夠與 GPT-4 相抗衡的 Gemini Ultra 暫時還未應用到任何產品中,因此也有不少人認為此舉是 Google 先官宣在小步快跑的舉措,但并不能直接稱其就擊敗了 GPT-4。
對此,也正如美國知名 AI 學者 Gary Marcus 所點評的:
Google Gemini 和 GPT-4 的熱門觀點:
?
從許多方面來看,Google Gemini 似乎與 GPT-4 相匹配(或稍稍超過),但并未將其擊敗。
?
從商業角度來看,GPT-4 不再是獨一無二的。這對 OpenAI 來說是一個大問題,尤其是在戲劇性事件發生后,許多客戶現在都在尋求備份計劃。
?
從技術角度來看,關鍵問題是:LLM 是否已接近穩定期?
請注意,蓋茨和 Sam Altman 都已經暗示過,盡管商業需求巨大,但 GPT-5 在一年后還沒有出現。Google 盡管擁有所有資源,但并沒有擊敗 GPT-4,這一事實很能說明問題。
除此之外,還有不少網友從開發者的角度看 Gemini 的實用性。來自一家 AI 機構?Growth Automation 的 CTO?Michael Borman?發文表示:
“Gemini 將取代程序員嗎?谷歌發布的新 Gemini 模型帶來了一些非常有趣的東西。
Alpha Code 2(來自 Google deepmind)在 Codeforces 平臺上擊敗了 85% 的競爭對手,解決了 43% 的最新挑戰(8000 名參與者)。
這些挑戰難度很大,而 GPT-4 在該基準測試中的解題率為 0。
這太瘋狂了,如果你相信推斷的話,Alphacode 現在基本上比 85% 的程序員都要強。
這意味著什么?編程已經死了嗎?
雖然 Alpha Code 2 真的很不錯,但目前它的資源密集度太高了。
基本上,它需要大量不同的新 Gemini 模型,為相同的問題生成成千上萬的代碼樣本,過濾掉所有無法計算的代碼樣本等。然后對代碼樣本進行聚類,并使用 gemini 對每個樣本進行排名,從排名前 10 的最大聚類中選出排名最好的代碼。
是的,我知道僅僅生成一些代碼就有點復雜。
因此,雖然它非常好,但正如你從上述過程中看到的那樣,它還需要一段時間才能以 Copilot 的方式出現在你的 IDE 中?!?/p>
最后你如何看待 Gemini 的到來?它是否會對大模型市場帶來沖擊?
審核編輯:黃飛
?
評論
查看更多