大模型評測難度大嗎大模型的評測應該怎么弄？

大模型的評測應該怎么弄？

之前在Baichuan 7B的時候，有個哥們在github發布了一個issue，說這個模型有C-eval測試集泄漏的問題，具體證據為：

當然，百川也不避諱，讓大家充分討論這個問題。

官方給出了一個解釋：

其實沒什么毛病，另外我在剛發布的13B模型上測試了這個，還是存在同樣的問題。另外我嘗試了用13B的base模型讓模型續寫，一看就是訓練了不少題庫。。

首先C-eval本身題目是公開的離線測試，答案是不可見在線提交的形式來評測，這樣能一定程度上規避泄漏的問題。

但由于大模型的特殊性，其訓練數據講究大而全，巴不得全網的數據都塞進去。

目前評測大模型的方法，除了手動體驗，人工評測，其他都是數據集題目的形式。

數據集旨在考察大模型的百科全書式的知識理解程度，為了好評測，把他們轉化成客觀選擇題的形式。

這樣的排行榜會存在一個很尷尬的問題，那就是一眾中文大模型在排行榜上吊打GPT3.5甚至GPT4，實際體驗卻不盡人意。

比如經典的C-eval排行榜目前是這樣的：

但大家心里都有一桿秤，幾斤幾兩都門兒清。

這就是為什么現在賣數據最火的是題庫數據，仔細想想，這就跟高考刷題一樣。

這里引用下八友科技CEO（國內著名數據提供商，大模型數據市占率50%）的觀點：

我認為大模型的主戰場分3個階段。

第一個階段是重點突破“有正確答案”的領域。比如中高考，這個通過簡單的得分情況，可以讓模型的能力進行比較，這一步非常關鍵。現在教輔類數據非常關鍵，也就在于此。

除了這個，還有就是場景結合的，這個因為有場景優勢的企業有獨家數據，有獨家業內人士，也就是有正確“答案”，可以判斷好壞，因此這也是一個重點戰場。

第二個階段是重點突破“沒有正確答案”的領域。這個階段評價遇到了困難，但是基于第一個階段，且有了足夠多數據，可以認為大模型給出的預測，或者判斷，理解是具有高水平的，只是這個沒法或者很難給出標準答案，這個領域更加藝術的感覺，你會覺得大模型給出的回答更好，但是你也不知道最好是什么樣子的。

第三個階段是重點突破涉及生產力相關的領域，也就是跳過了第一階段證明階段，和第二階段的炫耀階段，直接推動社會生產力發展。

目前數據提供商最值錢的數據就是題庫了，國內大模型很懂得投機取巧，反正你是知識類客觀題評測，我把全網的題庫數據都塞進去。

實在買不到買不全的數據，我還可以用測試集的每一道題目去反向爬取互聯網相關內容，爬不到原題也能找到差不多的數據，再把他們都塞進去，針對性刷題。

這就是離線測試集問題的所在了，這對大模型來說，相當于開卷考試。

真正的考試連題干也不能讓你看到。

所以針對客觀題的大模型評測應該怎么做呢？

我們設想大模型參與的閉卷考試。

作為一個kaggle老玩家，這里推薦一個kaggle比賽，昨天剛上新的熱乎的數據，https://www.kaggle.com/competitions/kaggle-llm-science-exam/ ，數據來自于參考維基百科話題，用gpt生成+人工過濾的科學領域多選題，附帶參考訓練集，測試集隱藏不可見，提交模型在線推斷，最高支持10B左右模型推斷。

眾所周知，kaggle是谷歌家的，谷歌這是在眾籌大模型了。。。

拋開數據本身質量不管，這個模式也存在一個問題，對發起方的經濟實力有一定要求，比如上百B的模型咋推斷？

另外如果模型對部署有特定要求怎么辦？

還有就是提交模型和推斷代碼，無疑于把自己的核心科技提供給第三方了，所以這里存在一個信任的問題。

另外考察數據的話，kaggle上這個評測領域也過于局限了，不夠全，更像是一個大榜單中小數據。

評測的數據本身要注意什么呢？這里引用了的一些思考：

原文:https://mp.weixin.qq.com/s/Q4IU6dbwy5U-iQ0ah_TGBA

大模型評測其中四點比較重要：能力邊界、case邊界、指令形式、自動化量化。

能力邊界

在今天這個大模型效果目前，我們需要測它的哪些能力？聽到比較多的有代碼能力，推理能力，寫作能力，多輪對話能力等等，這些能力字面意思很好理解，但是如果我們想真真整理出一個好的技能樹也是比較困難的，比如說文本分類和閱讀理解這個歸納到哪個能力？有的會說放到NLP基本任務，那有的閱讀理解case（比如先需要在文本中找到對應的信息，然后進行一定的加減等邏輯運算才能得到結果）需要很強的推理能力，這個是該放到閱讀理解還是放到推理能力？

所以劃分的能力是否具有一個很好的覆蓋性和正交性是這里需要考慮的點。

case邊界

假設當前我們在測兩個模型的數學能力，極端情況下，測試的100道case都是類似 “1+1等于幾？”，我們拿這些case同時問gpt4和市面上一個其他的模型，得到的回答都是2，于是我們得出結論：兩個模型數學能力接近。這顯然不靠譜！！！

又或者我們現在在測試寫作能力，測試case是“幫我寫一個懸疑故事”，結果兩個模型都寫出來了，都是有點懸疑的，那么得到結論寫作能力接近，這結論顯然也不靠譜。

為什么不靠譜呢？假設我們現在同樣是在考察數學能力和寫作能力，但是case分別是：(104+903)*2-18^2-10、幫我寫一個懸疑故事，故事背景發生在唐朝，主人公是一名錦衣衛，故事的開頭要是從一件很小的事帶入然后發現了更多背后的故事。寫出前三章故事。

還有各種各樣的復雜指令，比如中英混著問，就能更好的測評模型的雙語能力。

隨著測試的case變得復雜后模型所能cover的能力可能機會看出明顯的差距，自然也就得到不同的結論了，起碼不會草率的得出比如數學能力一樣。

所以測試的case是否具有多樣性和復雜性是這里需要考慮的點。

指令形式

這里單獨把指令形式拿出來，是想提一下prompt engineering這件事。

我們知道如今這些大模型對prompt很是敏感，同一個問題回答錯了，可能換種問法比如加個“一步步推理”引導語他就又能回答對了，又比如通過few-shot這種形式先給它幾個例子然后再問類似的問題，就能很好的回答。

每個模型對prompt的敏感度又不一樣，對于同一個問題，同一個模型得到的結論可能都是不一樣的，那怎么辦呢？

這里筆者的建議是不要本末倒置，我們現在做的事情是測評，尤其是在做多個模型之間的對比，那么prompt就應該是符合人提問習慣的指令形式，對于某個問題人類怎么喜歡問就怎么來，如果模型不能get到，那就是你的指令對齊或者泛化做的不好，而不是說要花很大力氣去寫prompt迎合各個模型。

那么返回頭來說，如果現在的工作是在測當前這個模型到底有沒有這個知識，舉個不太恰當的例子，假設你正在研發一個大模型，發現問“中國的capital是哪里？”他居然回答是蘋果，那這個時候需要定位這個問題，你就可以先用中文問問“中國的首都是哪里？”看看能不能回答對，又或者先舉幾個類似的例子告訴模型，然后再問它，如果能夠回答說嗎模型本身是有“北京是中國的首都”這個通用知識的，可能是英文或者雙語能力不行，所以這里通常的做法是，會用few-shot的指令形式去測底座模型，先看看底座模型是否有這個能力，如果沒有，那后面訓練什么的都是很難。又比如你是一個運營工作人員，現在也只能用A這個模型來完成某一件事，那就可以花點時間來做prompt engineering，來使得輸出最大化的滿足你的需求。

所以作為測評，指令設計不應該特意過多的去迎合模型（除非有如上的特殊目的等等），甚至應該像上一節說的，要多樣性，才能更好的探究到模型的理解能力

自動化量化

最后的評估都需要有一個量化的結論，理論來說，人工評估是最保險的，甚至一些能力需要一些專業人員（代碼能力、各個學科的題目等等），但是這樣效率過于低下且成本過高，尤其是對于模型的迭代。目前業界的做法通常是chatgpt或者gpt4去打分，所以這里的難度就變成了打分prompt怎么寫，它需要考慮的點有兩個，一個是怎么寫使得gpt4能夠更好的理解當前的，另外一個是怎么約束好輸出，方便我們直接可以根據輸出進行量化，比如做選擇題等等。

怎么評價一個模型的好壞，不僅困難，而且十分重要，絕對是一個核心的科技，這現在也是除了oepnai各家沒怎么搞定的一個問題。

這個問題很關鍵，是因為基座大模型的訓練耗時耗力，如果不能想出很好的提早檢驗方式的話，做實驗的速度會慢特別多，所有的時間成本都可以折合成算力上。

所以你做實驗慢了，相當于比別人少了GPU，足夠觸目驚心吧。

openai不僅僅卡多，還有實驗效率倍增的buff，相當于卡 * 效率倍數。

我們從公開的資料能了解到，openai是通過小模型來推演大模型，訓練的部分階段推演全部階段，從而預測最終大模型的好壞。

具體的技術細節openai也沒有透露特別多，是核心科技之一，大模型評測是非常重要和有影響力的一個方向，建議大家持續關注。

編輯：黃飛

閱讀全文

gpu(126255) gpu(126255)
人工智能(229987) 人工智能(229987)
大模型(810) 大模型(810)

360超級充電器拆解與評測

39元超值！360超級充電器拆解與評測 39元超值！360超級充電器拆解與評測posted on 2016-08-29 07:38lexus 閱讀(...)...

2021-09-14 07:54:57

模型預測控制介紹

是model-based。有人會問，我這個系統的模型怎么來呢？我想到兩點解決方法：1. 文獻上去找別人已經建好的，公認的模型；2. 首先進行系統辨識，再進行建模。（難度太大，不建議）下面給上經...

2021-08-18 06:21:11

AD09漢化怎么弄

本帖最后由可愛的阿飄于 2015-7-24 14:45 編輯 AD09破解已經完成，謝謝各位的一些帖子指點，現在就還有漢化該怎么弄，哪位大俠知道的教我下，謝謝

2015-07-24 13:06:53

Arm調試使用模型和追蹤配置

發展成為廣泛的調試和跟蹤功能組合。支持豐富的應用程序軟件平臺，特別是支持自托管調試以及性能評測，這是最近在ARMv6和ARMv7中增加的功能。本文檔描述了這些類型調試的使用模型，并描述了硬件和軟件在實現這些使用模型時的責任

2023-08-08 06:41:13

Cortex-M7 MPCore處理器循環模型9.6.0版用戶指南

Cortex-M7硬件的以下功能在Cortex-M7循環模型中完全實現： ·Cortex-M7整型內核·NVIC嵌套矢量化中斷控制器·WIC-喚醒中斷控制器接口支持(僅支持接口)。 ·AXI4

2023-08-12 07:01:53

GPU編程的平臺模型、執行模型、內存模型及編程模型

GPU編程--OpenCL四大模型

2019-04-29 07:40:44

Labview圖片至像素圖的轉化怎么弄呀

Labview圖片至像素圖的轉化怎么弄呀求大神呀

2012-11-23 22:03:52

MRAS模型和可調模型參考

1、簡寫MRAS參考模型和可調模型參考模型和可調模型方程：簡寫為如下形式：參考模型：可調模型：定義廣義誤差為，將上述兩個方程做差可以得到如下誤差方程。2、改寫為標準前向環節將上式改寫為標準前向環節

2021-08-27 06:44:48

PSpice模型怎么轉換為spice模型

2014-12-20 00:12:54

SPICE模型有什么優缺點？如何合理的使用SPICE模型？

請問SPICE模型有什么優缺點？如何合理的使用SPICE模型？

2021-04-13 06:59:06

ZigBee和wifi之間的網關怎么弄？

大神們請問一下ZigBee和wifi之間的網關怎么弄？從哪些地方著手呢怎樣實現zigbee發送的數據通過wifi再傳到interntet或者傳到手機上呢？{:2:}

2013-05-22 16:03:43

labview做數據傳輸怎么弄啊？

labview做數據傳輸怎么弄啊？？？大體是這樣的，就是用labview做一個數據可以顯示波形，然后由通信口，另外一個VI可以接收到這個VI的隨機數波形也顯示出來？？那個大牛給點思路？？謝謝關鍵是那個兩個VI的通信我不會弄

2014-05-19 20:44:59

matlab的模型變換、模型簡化、模型實現以及模型特性命令

matlab的模型變換、模型簡化、模型實現以及模型特性命令模型變換 C2d 變連續系統為離散系統 C2dm 利用指定方法變連續為離散系統 C2dt 帶一延時變連續為離散系統 D2c 變離散為連續系統

2009-09-22 15:58:13

pads里PCB上不要絲印層怎么弄啊

pads里PCB上不要絲印層怎么弄啊

2015-01-23 10:13:29

pspice 邏輯門怎么樣修改模型參數？

請問大家，pspice的邏輯門模型，比如說與門7408，該怎樣修改其參數？我想修改7408的延遲時間，輸出電平等等，怎么弄？關于右鍵點擊然后edit pspice model的方法，我試過，只是出來

2014-06-24 10:09:17

【EVB-335X-Ⅱ試用體驗】之開箱評測

`首先為這份遲來的報告說聲抱歉，忙了一周的考試，剛剛才開始評測。當時去領快遞就沒想到會是這么大氣的包裝，很是驚喜，拆開包裝，里面裝的很細致，用得著的也應有盡有，字不重要，看圖。接下來就是拆封了，七寸

2016-07-02 08:14:36

【MM32F103試用體驗】+開箱評測

前段時間收到開發板，發了一次貼，最近，一看帖子發錯地方了，第一次試用還望見諒，下面，我把鏈接附上，做平衡車買的原件也到了，剩下幾天就開始陸續更新了，希望大家多提寶貴意見開箱評測鏈接：https://bbs.elecfans.com/forum.ph ... d&tid=911467&extra=

2016-07-28 11:05:55

【MM32F103試用體驗】開箱評測

網上申請了MM32F103評估套件，今天終于到了，開箱評測果然高大上，除了開發板，還有調試板，下載線，和LED屏，真心不錯：官網下載文檔資料和工程實例代碼，載入Blink工程，設置調試信息，選擇CMSIS-DAP下載：連接好硬件，編譯通過下載代碼：實際效果圖：下載串口工程效果圖：總體來說，上手不難，繼續學習中

2016-10-18 00:13:00

【MYD-Y6ULX試用體驗】開箱評測

本帖最后由 moreStrong 于 2018-2-22 21:54 編輯拿到開發板有一段時間了，假期結束，趕快補上評測！盒子挺大的，霸氣！發貨清單：開發板1個、電源1個、MicUSB數據線

2018-02-22 21:54:59

【MiCOKit試用體驗】開箱評測

.....是不是得自己買的?下層的PCB，電源部分，主角WIFI3288，然后串口IC，FLASH......總體感覺小巧玲瓏，用料十足，另外盛贊一下上層板子的設計，板子那塊大大RGB避免了摔下去時毀壞其他東西。這次評測到此為止：）

2015-09-09 23:05:38

【NXP LPC54110試用申請】NXP單片機評測

項目名稱：NXP單片機評測試用計劃：本人所在公司使用的單片機型號為stm32，PIC，想對NXP進行一下評測，主要和stm32性能，穩定性以及上手開發難易成度進行評估，如果有優勢，后期會逐漸更換為NXP。希望得到此款開發版，縮短評測周期。

2017-09-18 16:17:56

【書籍評測活動NO.21】運算放大器參數解析與LTspice應用仿真

本期評測活動名單如下： @jf_39110170 @楊旭 @jf_1137202360 管理員已通過私信聯系以上評測者，請評測者于5個工作日內添加管理員微信進行登錄，逾期視為自動放棄主要內容本書

2023-08-22 14:31:34

【書籍評測活動NO.30】大規模語言模型：從理論到實踐

，應該做什么？擁抱技術變革，理解產業市場，找到適合自己的位置。大模型市場可以分為通用大模型和垂直大模型兩大類。大模型的代表ChatGPT是通用大模型，也是許多國內廠家對標的大模型，以技術攻克為目的

2024-03-11 15:16:39

【書籍評測活動NO.31】大語言模型：原理與工程實踐

上，更重要的是，它在處理多樣化任務和復雜場景中的靈活性顯著，甚至能在一定程度上模擬人類的思考方式。這種能力的展現，標志著人工智能從專注于單一任務的傳統模型向通用人工智能轉變，其強大的能力將對千行百業產生

2024-03-18 15:49:46

【大聯大世平Intel?神經計算棒NCS2試用體驗】使用Intel模型優化器（Model Optimizer）的機器學習理解和測評思路

Optimizer）；2 通過模型優化器生成中間表達（IR），這里選擇TensorFlow框架；3 如果選擇以自然語言理解的BERT模型為例，利用生成的IR產生相應的推理結果，達到評測目的。下一篇評測就是具體使用模型優化器來完成具體的識別案例。

2020-07-22 22:56:39

【愛芯派 Pro 開發板試用體驗】yolov8模型轉換

yolov8nsim.onnx --output_dir output --config config.json, 將會得到output/compiled.axmodel文件。開發板上運行模型評測

2023-11-20 12:19:32

【非廣告，有獎活動】十萬懸賞評測，devstore等你來拿

開發者的福利到了，devstore將拿出十萬，懸賞寫評測報告的開發者，參與就有獎。太爽了。搜索devstore開發者服務商店，進入官網，點擊參與。

2014-04-25 14:53:36

為啥要驅動模型？

為啥要驅動模型驅動模型抽象了啥用戶空間訪問驅動模型實現

2020-12-28 07:12:13

什么是模型呢？模型給我們帶來了什么？

什么是模型呢？什么是關系？怎樣確定一個模型？模型給我們帶來了什么？

2021-07-02 07:13:30

什么是模型思維？

什么是模型思維？怎樣確定一個模型？

2021-09-18 06:41:30

使用bmpaddle轉換模型時應該如何參數填寫方式

,608,609]\" –model參數到模型所在文件夾那一級；paddle模型有2種：組合式(combined model)和非復合式(uncombined model)；組合式就是__model__

2023-09-19 07:05:28

免費試用丨多款新品任意選，有獎評測贏千元好禮！

產品資料、相關研發干貨。被評選為優秀創意方案的用戶最終能獲得主辦方準備的豐厚獎品。一、活動產品：二、時間安排申請階段： 8月06日- 8月12日評測階段： 8月15日- 9月09日公布階段： 9月10日

2020-08-07 11:20:11

公牛迷你USB插座評測

插座還能這么玩！公牛迷你USB插座評測_公牛電源插座評測-泡泡網插座還能這么玩！公牛迷你USB插座評測_公牛電源插座評測-泡泡網posted on 2016...

2021-12-28 06:08:26

關于RISC-V生態開發板評測試用專題活動試用報告及評測視頻投稿時間延長的通告

致RISC-V生態開發板評測試用專題活動合作廠商和參與評測的開發者：由于前段時間國內疫情的影響，部分RISC-V廠商受疫情困擾，倉庫發貨的時間與預計發貨時間不一致，從而導致部分開發者收到開發板的時間

2022-06-27 11:26:49

出的單按鈕對話框，我想把中間的某個字符字體變大怎么弄？對話框延時自動關閉怎么弄？

彈出的單按鈕對話框，我想把中間的某個字符字體變大怎么弄？對話框延時自動關閉怎么弄？對話框彈出的位置可調怎么弄？各位大神

2017-12-23 18:58:47

單片機怎么弄呀

單片機怎么弄呀PCB打樣找華強 http://www.hqpcb.com 樣板2天出貨

2013-04-04 11:15:14

各位大佬屏幕顏色不對怎么弄啊

各位大佬，屏幕顏色不對怎么弄啊？

2022-01-10 06:23:35

各位大俠監控曲線掉電后恢復怎么弄啊！

各位大俠監控曲線掉電后恢復怎么弄啊！

2012-04-02 10:14:46

國家IP核標準符合性評測與認證指南

2012-08-17 10:57:32

圖片的動態顯示效果怎么弄

前幾天做畢業設計已經基本完成（12864動畫顯示），但老師說太簡單，讓我再加一點圖片的動態顯示效果，怎么弄啊，求指點

2014-05-09 09:47:52

基于WEB的分布式在線程序自動評測系統的設計與實現

模型將評測任務分發到評測服務器集群中的各個服務器上,顯著提高了評測效率。文章將闡述基于WEB的分布式在線程序自動評測系統的設計與實現過程。【關鍵詞】：在線評測系統;;分布式系統;;計算機輔助教學

2010-04-24 10:00:46

如何評測一款移動電源

請教一下大家怎么才能判別一款移動電源的性能的好壞呢。大概要從哪些方面去評測？？

2012-12-18 15:14:23

如何使用Paddle2ONNX模型轉換工具將飛槳模型轉換為ONNX模型？

2021-12-29 07:42:18

如何利用準則實現校準圖像質量評測？

2021-06-02 06:25:52

如何找到RIO的確切模型?

（模擬我應該從IBIS文件中的模型分配的模型中的RIO PIN），因為IBIS文件中的名稱是SSTL135_DCI_HP_IN60_I，這樣如何找到RIO的確切模型問候阿吉辛

2020-07-23 07:41:46

將Pytorch模型轉換為DeepViewRT模型時出錯怎么解決？

我正在尋求您的幫助以解決以下問題.. 我在 Windows 10 上安裝了 eIQ Toolkit 1.7.3，我想將我的 Pytorch 模型轉換為 DeepViewRT (.rtm) 模型，這樣

2023-06-09 06:42:58

已結束-【書籍評測活動NO.17】從編程到應用——從零開始學ARM

活動原貼：http://www.nxhydt.com/d/2164310.html 本期評測活動名單如下：jf_83406285KingBoy2016jf_12114301風語者199104luo865306226 管理員已通過私信聯系以上評測者，請評測者于5個工作日內添加管理員微信進行登錄，逾期視為自動放棄

2023-08-21 14:02:27

開箱圖賞與評測---易行丁丁行車記錄儀

`圖賞與評測開箱圖賞與評測 n易行丁丁采用純白色作為包裝盒的主色調，側面使用銀白色顯示行車記錄儀的主要功能。n開箱，易行丁丁行車記錄儀上面有一層塑料包裹，清楚的標明了SIM卡槽、支架接口、電源接口

2016-04-12 22:01:21

怎樣去評測一款RISC-V開發板

很長時間沒發過板卡評測的文章了，今天我們來評測沁恒的一款RISC-V開發板。提到沁恒這個名字，可能有些朋友感到陌生，但是有一款芯片你肯定知道，那就是CH340——一款USB-TTL串口的轉...

2021-12-08 06:08:36

報道一下，E幣要怎么弄？

報道一下，E幣要怎么弄？

2012-09-06 15:56:24

有關溫度測量——做了“真”的，假的那個怎么弄

求助，“假”的那面應該怎么弄求大神提下思路是有關溫度測量的

2012-12-18 15:48:08

求助！labview DAQ 怎么弄？

如題我是新手用的是LABVIEW2011那個DAQ 在哪里？ 怎么弄呢？請各位大俠指導指導

2012-08-22 22:45:50

靈犀云智能語音平臺的語音評測SDK使用方法

` 靈犀云是中國移動與科大訊飛合作建立的一個為移動應用提供智能語音能力的云平臺。近日靈犀云正式對外發布了語音評測能力，各位可以申請靈犀云的SDK，集成到自己APP上實現語音評測功能。這篇指南主要

2015-08-20 10:57:08

愛圖仕評測

2016-01-29 16:17:45

用555實現模模轉換，怎么弄？？？

用555實現模模轉換，怎么弄？？？

2015-08-18 10:38:53

電子大賽怎么弄

電子大賽怎么弄

2013-07-14 17:53:15

至芯科技FPGA入門級開發板評測活動，送開發板

至芯科技FPGA入門級開發板評測活動，送開發板歡迎大家參與，參與地址:至芯科技論壇百度搜索至芯科技論壇，進入論壇頂置帖子即可看到此活動。歡迎大家參與。

2014-03-31 22:36:22

藍屏這情況怎么弄？

這情況怎么弄啊啊啊

2022-10-22 08:20:43

藍牙控制的手機APP怎么弄？

藍牙控制的手機APP怎么弄

2023-10-23 07:19:17

藍牙模塊可以一機多連嗎？怎么弄？

藍牙模塊可以一機多連嗎？怎么弄？

2023-11-06 06:52:34

請教下labview內計時怎么弄？

做一個程序是這樣的：當點運行后開始計時，并把計時的時間進行運算。比如說功率是100W，運行后開始計時，并實時返回用電量（時間*功率）。只要秒就行。請問這種計時功能怎么弄

2012-04-11 21:38:12

請問51藍牙小車程序怎么弄？

自己做藍牙小車，程序寫好，藍牙連上，就是不動，也不懂哪里出現問題，求大神們能告訴我怎么做和程序怎么弄

2019-06-03 03:00:17

請問模型編譯中是否支持模型的在線編譯？

模型編譯中是否支持模型的在線編譯？

2023-09-18 07:24:28

請問ADAS實際道路在線評測系統需要采集什么數據？

ADAS實際道路在線評測系統需要采集什么數據？

2024-02-01 06:01:22

請問Allegro圖中出現這樣的情況該怎么弄？

我的這個問題，怎么弄？這個回流地過孔，連不上，斷開一截

2019-09-05 05:37:08

請問LWIP DHCP應該怎么弄才不small？

如圖，Cannot use this netif with DHCP: MTU is too small，是什么意思，應該怎么弄才不small

2019-10-15 23:03:58

請問stm32f412怎么弄微妙us的延時函數？

用sysclk嗎？怎么弄呢？我找到了正點原子的f429 HAL例程，好像時間不對，我弄1秒，實際大約1.5秒。應該怎么弄才對呢？我用stm32CUBE生成的代碼，晶振默認用外部16M晶振，SYSCLK是16M。下面是他的2個函數，只用這2個就夠嗎？需要添加或者修改別的嗎？

2018-12-04 08:58:18

請問扭矩模式和限制速度怎么弄？

本帖最后由一只耳朵怪于 2018-6-14 11:50 編輯扭矩模式，限制速度，怎么弄？

2018-06-14 03:29:13

請問點擊文件后URL怎么弄的？

論壇里有很多讓人下載東西的帖子，我也想分享，可是點擊文件后URL怎么弄的？

2019-06-21 02:14:58

這個輸出結點要怎么弄啊？

這個輸出結點要怎么弄啊？

2014-03-14 12:27:42

選型好參謀采購好助手 ——華強LED網產品評測隆重上線

` 本帖最后由 eehome 于 2013-1-5 10:07 編輯　　“石破天驚處，媒體最強音”　　LED產品評測，一種神奇的模式!它既可以幫助采購人員全面了解每個產品的特點及性能，按需

2012-10-15 16:18:06

防止AI大模型被黑客病毒入侵控制（原創）聆思大模型AI開發套件評測4

在設計防止AI大模型被黑客病毒入侵時，需要考慮到復雜的加密和解密算法以及模型的實現細節，首先需要了解模型的結構和實現細節。以下是我使用Python和TensorFlow 2.x實現深度學習模型

2024-03-19 11:18:16

基于模型的動態測試工具TPT

基于模型的動態測試工具TPTTPT特性PikeTec公司是全球知名的基于模型的嵌入式系統測試工具TPT的軟件供應商，總部位于德國柏林，其創始人均在戴姆勒公司擁有十多年的軟件測試經驗。TPT作為針對

2022-07-25 15:35:26

3D打印高性能材料模型樹脂 RE 51 高耐磨高精度無氣泡快速打印

3D打印高性能材料模型樹脂 RE 51 RE 51 模型樹脂RE 51是一款可快速打印的模型樹脂材料，具有高精度的材料特性，可使打印模型具有光潔、精細的紋理表面

2023-02-15 14:50:30

無線充電器評測_無線快充評測_車載無線充電器評測

無線充電器評測，以電小二W7100型號無線充電器評測，以三星立式無線快充進行評測，Raphon車載無線充電器評測。

2017-08-24 17:17:57

10297

云計算彈性評測模型的研究與實現

問題，從資源分配、QoS、資源配置時間等多個角度，對云計算的彈性進行較為全面的分析，提出適用于供應商和用戶兩個角度的評測方法。在已有基礎上，提出資源分配、資源配置時間兩個方面的計算模型，并對現存的罰金模型進行改進

2017-11-27 14:42:39

魅族PRO7Plus評測低價救不了手機

按照行業慣例，手機評測一般是先介紹外觀。但其實我不太想介紹外觀，因為在其他媒體的評測各位都應該看過很多。

2018-11-14 11:43:22

21827

插座還能這么玩！公牛迷你USB插座評測_公牛電源插座評測-泡泡網

插座還能這么玩！公牛迷你USB插座評測_公牛電源插座評測-泡泡網插座還能這么玩！公牛迷你USB插座評測_公牛電源插座評測-泡泡網 posted on 2016...

2022-01-06 14:33:00

特斯拉FSD自動駕駛系統在評測中多次撞上假人模型

北京時間8月10日早間消息，根據本周公布的一項非監管評測結果，特斯拉的FSD自動駕駛系統在評測中多次撞上一個兒童大小的人體模型。這項測試由Green Hills Software首席執行官、知名

2022-08-11 08:51:46

710

OpenMMLab 各算法庫的評測指標集成

MMEngine 提供了強大靈活的訓練引擎，以及常見的訓練技術，以滿足用戶多樣的模型訓練需求。對于模型評測的需求，MMEngine 也提供了評測指標（Metric）和評測器（Evaluator）模塊，下游算法庫基于 MMEngine 提供的評測指標基類，實現對應任務所需的評測指標。

2022-11-03 10:16:58

561

FlagOpen大模型技術開源體系，開啟大模型時代“新Linux”生態

當時規模最大、性能領先多模態大模型“悟道2.0”。為了推動大模型方向的協同創新，在“科技創新2030”新一代人工智能重大科技項目支持下，2023年初，智源研究院聯合30多家產學研單位共同承擔的旗艦項目“人工智能基礎模型支撐平臺與評測技術”全面啟動。

2023-03-01 15:10:07

503

國內大模型爭霸賽，你最看好哪家？

而最近，中文通用大模型基準（SuperCLUE）評測公布了最新結果，GPT-4 遙遙領先，而國內成績最好的是科大訊飛的星火認知大模型。這里面文心一言居然排在了最后一名，甚至比ChatGLM-6B的得分還低，實在難以置信。

2023-05-19 16:55:18

3504

悟道·天鷹 Aquila + 天秤 FlagEval，打造大模型能力與評測標準雙標桿

為推動大模型在產業落地和技術創新，智源研究院發布“開源商用許可語言大模型系列+開放評測平臺” 2 大重磅成果，打造“大模型進化流水線”，持續迭代、持續開源開放。 01 悟道·天鷹（Aquila

2023-06-27 16:37:27

244

AI大模型和小模型是什么？AI大模型和小模型的區別

　　隨著人工智能的不斷發展和應用，機器學習模型的大小越來越成為一個重要的問題。在機器學習中，我們通常將模型分為兩類：大模型和小模型。本文將介紹AI大模型和小模型是什么，并分析它們各自的優缺點以及區別。

2023-08-08 16:55:33

4555

訊飛星火被評為中國“最聰明”的大模型

報告顯示，在8個一級大類的600道題目的測試和盲評中，訊飛星火認知大模型V2.0在6個大類中得分率排名第一，在此次評測中表現突出，以 81.5 分（百分制計）的成績在本次評測中登頂，榮獲“最聰明”的國產大模型稱號。

2023-08-18 15:26:23

521

大語言模型“書生·浦語”多項專業評測拔頭籌

大語言模型評測8月排行榜和中文通用大模型綜合性評測基準SuperCLUE 7月評測榜兩項業內權威大模型評測榜單中獲得優異成績。 “ FlagEval是知名人工智能新型研發機構北京智源人工智能研究院推出的大模型評測體系及開放平臺。 FlagEval大模型評測體系構建了“能力-任務

2023-08-25 13:00:02

315

第一！vivo自研AI大模型位列C-Eval、CMMLU榜首

C-Eval榜單是由清華大學、上海交通大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集，涵蓋52個不同學科，共有13948道多項選擇題，是目前較為權威的中文AI大模型評測榜單。

2023-10-16 15:51:01

405

“商湯商量”大模型推動行研數字化進程

權威研究機構弗若斯特沙利文（Frost & Sullivan）聯合頭豹研究院最新發布的《2023年中國大模型行研能力評測報告》給出評價結論。

2024-01-10 10:08:03

216

百川智能發布超千億大模型Baichuan 3

百川智能近日發布了超千億參數的大語言模型Baichuan 3，引發了業界的廣泛關注。這款模型在多個權威通用能力評測中表現卓越，展現了其強大的語義理解和生成能力。

2024-01-31 14:58:12

357

大模型開源開放評測體系司南正式發布

近日，大模型開源開放評測體系司南（OpenCompass2.0）正式發布，旨在為大語言模型、多模態模型等各類模型提供一站式評測服務。OpenCompass2.0的發布，將為模型技術創新提供重要的技術支撐。

2024-02-05 11:28:12

526

華為云盤古大模型通過金融大模型標準符合性驗證

近日，在中國信通院組織的可信AI大模型標準符合性驗證中，華為云的盤古大模型表現出色，成功通過了金融大模型標準的符合性驗證，并榮獲優秀級（4+級）評分。此評級不僅是本次金融大模型評測中各廠商中的最高等級，也標志著華為云盤古大模型成為首批通過金融大模型標準符合性驗證的產品之一。

2024-03-05 10:12:55

146

已全部加載完成

搜索歷史

大模型評測難度大嗎 大模型的評測應該怎么弄？

評論

大模型評測難度大嗎大模型的評測應該怎么弄？