<video id="e4izs"><meter id="e4izs"><option id="e4izs"></option></meter></video>

    <font id="e4izs"><noscript id="e4izs"><var id="e4izs"></var></noscript></font>

    <u id="e4izs"></u>
  1. <video id="e4izs"></video>
  2. <code id="e4izs"><form id="e4izs"><var id="e4izs"></var></form></code>

    <s id="e4izs"><meter id="e4izs"></meter></s>

    <object id="e4izs"><nav id="e4izs"><i id="e4izs"></i></nav></object>
  3. <b id="e4izs"></b><font id="e4izs"><noscript id="e4izs"></noscript></font>

  4. <wbr id="e4izs"><nav id="e4izs"></nav></wbr>

    <b id="e4izs"><form id="e4izs"><del id="e4izs"></del></form></b>

      <b id="e4izs"><form id="e4izs"><del id="e4izs"></del></form></b>

      <u id="e4izs"></u>
      1. <strong id="e4izs"><form id="e4izs"></form></strong>

        歡迎光臨迪賽科技有限公司——湖南網站建設十年品牌

        將湖南網站建設專家——迪賽科技設為首頁 | 給迪賽科技有限公司發送郵件 | 將湖南網站建設專家——迪賽科技加入收藏

        免費熱線電話:400-1888-236


        國內開源第一!百川開源大模型Baichuan-13B評測揭曉

        來源: 百川智能     作者:admin     時間:2023-07-18     點擊率:264


         

          新智元報道

          來源:CLUE 中文語言理解測評基準

          編輯:好困桃子

          70 億參數模型發布后短短 26 天,百川智能便開源了號稱最強的中英文 130 億參數模型——Baichuan-13B。那么真實性能到底如何?最近,SuperCLUE 團隊把它拉出來溜了溜。

          目前為止,中文社區已經陸續發布了大量的開源模型,主要集中在 6B-13B 之間。

          百川智能團隊繼 6 月發布了后,前段時間又最新開源了支持商用的。

          項目地址:https://github.com/baichuan-inc/Baichuan-13B

          那么,百川開源的這個模型相對于其他國內外有代表性的模型表現如何?

          比如,與 ChatGPT3.5 有多大差距;與國內代表性的開源模型相比是什么水平;在一些比較受關注的能力上,如生成與創作、邏輯推理、代碼生成,表現如何……

          對此,SuperCLUE 團隊基于 ,也就是在開放式的問題并結合多輪對話能力的測試,用 1200 道題對 Baichuan-13B-Chat 進行了測評。

          話不多說,先看成績!

          結論

          1. 目前是中文百億參數最好的模型嗎?

          目前認為對于同等量級開源模型 ,在 SuperCLUE 開放式多輪測評上 Baichuan-13B-Chat 是最好的開源模型。

          2. 與 ChatGPT3.5 接近了嗎?

          與 ChatGPT3.5 比較,在 SuperCLUE 開放式多輪測評的常見任務中,如生成與創作、角色扮演、上下文對話、知識與百科,效果與 ChatGPT3.5 及 Claude 基礎版相比是接近的(詳見定量分析),但在復雜任務上,如代碼生成、數學計算、邏輯與推理,還存在比較大的進步空間。

          以下是團隊從定量和定性兩個角度對模型進行的測評分析。

          定量分析

          SuperCLUE-Open(開放式多輪測評)

          注:評估的基線模型為 gpt-3.5-turbo,gpt-3.5-turbo 的勝和率為理論值。

          計算方法

          針對一個特定問題,利用超級模型作為評判官,被評估的模型相對于基線模型(如 gpt-3.5)的勝、平局或失敗的個數;勝和率,是模型的勝率加上平局率之和,即(win+tie)/(win+tie+loss)。win,即勝,tie 即平,loss 即負。

          詳細評測方法可訪問:

          在 SuperCLUE 開放式多輪基準中,Baichuan-13B-Chat 具有非常不錯的效果。在與國際代表性的模型對戰中,有 65.28% 的勝和率,即只有約1/3 的概率是負。

          在當前的生成問題與多輪評測基準中,相對于 gpt-3.5、Claude 基礎版已經基本接近,相對于國內的百億級開源模型,Baichuan-13B-Chat 具有很大的領先性(超過了 20 點以上)。

          SuperCLUE-Open(開放式多輪測評)十大能力:以 Baichuan-13B-Chat 為例

          在 SuperCLUE 開放式多輪測評基準的十大能力評估中,該模型在多個能力上具有較好的表現(以勝和率為指標),部分任務有比較大的改進空間。

          1. 表現出色的能力

        • 生成與創作能力(91.67%)

        • 上下文對話能力(78.33%)

        • 角色扮演能力(91.67%)

        • 閑聊能力(88.33%)

        • 安全能力(81.67%)

          在上面的 5 個能力上,接近或達到 80% 的成績。在知識與百科上,即在知識儲備方面的能力,雖然是絕對分數不是很高,但是相對于其他模型,已經是非常不錯的表現。

          2. 表現不足的能力

          可能是模型參數規模較小,在代碼、計算方面相對表現較弱。代碼生成能力在該基準中,只有 25% 的勝和率(勝利和平局的概率),計算能力方面只有 35.71% 的勝和率。

          團隊也在 github 項目中發現了代碼問題的 issue,https://github.com/baichuan-inc/Baichuan-13B/issues/18

          定性分析

          1. 基礎能力的例子

          1)生成與創作

          給定一個話題、一個課題、一個寫作任務來創作一段文字對于 LLMs 而言是相對比較容易的任務。 對此,百川能夠很好的輸出一段流暢、易讀的文字,且有較長的生成長度。

          同時,在各種生成任務上,拒絕回答的情況較少。 比如在下面這個示例中,gpt-3.5-turbo 拒絕了正面回答相關問題,而百川則良好的完成了任務。

          2)語義理解與抽取

          在遵循用戶指令,以恰當的格式完成下游任務的方面上百川有不錯的表現。

          百川往往能夠正確理解用戶的需求,并且以恰當的格式輸出回答,比如說抽取用戶輸入中的特定字段并且以 json 的格式返回。

          在以下示例中,百川精準的給出了指令指出的字段,并且使用合適的格式返回了答案。

          而 gpt-3.5-turbo 雖然也完成了任務,但是返回了一點多余的內容,這在實際的下游場景中可能會對編程造成一定的麻煩。

          2. 上下文能力的例子

          在兩輪對話的測試中,百川展現了不錯的上下文能力。在如下示例中:

          回答第一個問題時,百川和 gpt-3.5-turbo 都提供了詳細的、實用的建議來幫助用戶應對焦慮。他們的答案都包含了尋找焦慮的原因、嘗試放松技巧、保持健康的生活方式和尋求專業幫助等建議。

          然而,在回答第二個問題時,gpt-3.5-turbo 坦誠地表示,作為一個人工智能,它沒有親身經歷,因此無法提供包含個人經歷的答案。

          相反,百川創造性地構建了一個假設的個人經歷,盡管這并不真實,但它確實滿足了用戶的需求,使答案更具人性化和共鳴。

          因此,考慮到第二個問題的回答,團隊認為百川的表現更加出色,因為它更好地遵循了用戶的指示,提供了一個包含「醫生」的親身經歷的答案,盡管這是一個假設的情況。

          3. 復雜任務(邏輯推理、代碼生成、思維鏈路等)的例子

          1)代碼生成

          相對來說,百川的代碼能力有一定的不足,具體可以體現在:生成不正確的代碼、使用場景考慮不全等問題上。

          比如在示例中,用戶明確地要求了將整數逆轉,然而百川僅僅考慮了將列表中所有元素逆轉的實現,而并沒有實現僅逆轉整數的功能。

          與之相反,gpt-3.5-turbo 則面面俱到地完成了任務,成功的實現了只逆轉整數。

          2)邏輯推理與計算

          邏輯推理與計算也是百川相對不足的方面,在許多問題上百川邏輯思維可能存在不足,無法給出正確答案。

          可以看到,在示例中,百川并沒有能夠正確給出答案。

          不可否認的是,邏輯推理與計算對于任何大語言模型來說都是一大難點與痛點,即使是對于 gpt4 而言,稍難的題目就難以給出正確答案。

          評估的不足和局限性

          1. 它是一個自動化的模型能力測評,沒有人類的主觀因素;雖然加州伯克利大學/斯坦福大學的相關研究表明(見延伸閱讀),自動化測評具有與人類評估的高度一致性(相關系數 0.8-0.9),但進一步的分析還可以包括人類對模型的評估。

          2. 評估的能力主要是基于 SuperCLUE 的十大基礎能力,即使具有較高的代表性,但并不能保證覆蓋了所有能力的評估。

          3. 當前各個大模型廠商在快速迭代中,雖然團隊報告的數字是最新的(7 月中旬),但各個廠商的快速迭代可能會導致后續相對表現的進一步變化。

          4. 在本文中,團隊沒有測試一些其他但有用的維度。比如,沒有測試模型的性能問題(推理速度),也還沒有測試模型的支持的有效的輸入長度。后續可能會進行專門的測試。

          參考資料:

          SuperCLUE-Open:中文通用大模型開放式與多輪測評基準(7 月)

        https://www.cluebenchmarks.com/superclue_open.html

          SuperCLUE-Open 的 GitHub 地址:

          https://github.com/CLUEbenchmark/SuperCLUE-Open

          Baichuan-13B 的 GitHub 地址:

          https://github.com/Baichuan-inc/Baichuan-13B

          Baichuan-13B 的 HuggingFace 地址:

          https://huggingface.co/baichuan-inc/Baichuan-13B-Chat

          https://huggingface.co/baichuan-inc/Baichuan-13B-Base

          Baichuan-13B 的魔搭社區 ModelScope 地址:

          https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat

          https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base

          LMSYS 文章:Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna-33B

          相關項目:Alpaca_Eval: A validated automatic evaluator for instruction-following language models

        久草超碰国产在线观看_国产二人电影在线观看_国产日韩精品中文字无码_久久国产视频23
          <video id="e4izs"><meter id="e4izs"><option id="e4izs"></option></meter></video>

          <font id="e4izs"><noscript id="e4izs"><var id="e4izs"></var></noscript></font>

          <u id="e4izs"></u>
        1. <video id="e4izs"></video>
        2. <code id="e4izs"><form id="e4izs"><var id="e4izs"></var></form></code>

          <s id="e4izs"><meter id="e4izs"></meter></s>

          <object id="e4izs"><nav id="e4izs"><i id="e4izs"></i></nav></object>
        3. <b id="e4izs"></b><font id="e4izs"><noscript id="e4izs"></noscript></font>

        4. <wbr id="e4izs"><nav id="e4izs"></nav></wbr>

          <b id="e4izs"><form id="e4izs"><del id="e4izs"></del></form></b>

            <b id="e4izs"><form id="e4izs"><del id="e4izs"></del></form></b>

            <u id="e4izs"></u>
            1. <strong id="e4izs"><form id="e4izs"></form></strong>