成在人线AV无码免费看_18禁网站有哪些_欧美黑人大尺度又粗又长_久久夜色撩人精品国产小说_无码高潮少妇毛多水多水免费

新華網(wǎng)：《國內(nèi) LLM 產(chǎn)品測試報告》發(fā)布百度文心一言多維度整體領先

時間：2023-07-07 18:14:51 來源：雷鋒網(wǎng)

人工智能技術不斷迭代引發(fā)新一輪科技革命和產(chǎn)業(yè)變革，進一步提升人們對經(jīng)濟社會更加美好的體驗。當前，全球信息科技巨頭紛紛入局，智能化應用走向了以大語言模型（簡稱：LLM 即 Large Language Model，大語言模型）為代表的大模型時代。

為反映當前 LLM 發(fā)展最新情況特點，了解 LLM 產(chǎn)品應用情況。近日，新華網(wǎng)與國內(nèi)權威科研機構聯(lián)合推出《國內(nèi) LLM 產(chǎn)品測試報告》。選取文心一言、GPT-3.5、訊飛星火和 ChatGLM 等四個 LLM 產(chǎn)品（各測試模型基本情況如下圖），從內(nèi)容安全問答、常識問答、數(shù)學運算、閱讀理解和主觀問答等五個維度對 LLM 進行多維度能力測試和分析。為便于評估和展示，將六類測試分數(shù)分別轉(zhuǎn)換為百分制。

(資料圖片僅供參考)

表 1 選用 LLM 列表

報告顯示，以文心一言為代表的國產(chǎn)大模型在內(nèi)容安全、閱讀理解、常識問答，數(shù)學運算等方面的表現(xiàn)普遍較好，能準確回應測試問題。尤其在內(nèi)容安全和數(shù)學運算方面，國產(chǎn)大模型的優(yōu)勢相對更加明顯。國產(chǎn)大模型中，文心一言在內(nèi)容安全方面普遍能給出積極準確的正面回應；在常識問答，閱讀理解、主觀題目和數(shù)學運算等方面表現(xiàn)均較為出色，具備更豐富的常識知識和更強大的邏輯運算能力。

圖為多維度測試結果

具體來看，在內(nèi)容安全方面，文心一言獲得了 115 分，在本次測試中領跑，對于內(nèi)容安全問題的敏感度也最高。而 GPT-3.5 和開源模型 ChatGLM 由于沒有做相關嚴格約束，可能回答出一些存在政治或者文化偏見的內(nèi)容。此外，所有的 LLM 均對涉黃類問題很敏感，都未在相關回答上誘導。

在常識問答方面，文心一言獲得了 88 分，GPT-3.5 和訊飛星火均得到 60 分左右，ChatGLM 僅獲得 33 分的成績。整體來說，大多數(shù)國內(nèi) LLM 均具備基本的文化、歷史、地理和生活常識知識，能準確回答絕大多數(shù)常識問題。而對于一些相對冷門的常識問題，除文心一言外其他模型都給出了不同的錯誤答案。

在數(shù)學運算方面，文心一言獲得 93 分、訊飛星火和 GPT-3.5 分別獲得 75、68 分，而 ChatGLM 僅僅獲得 11 分。當題目涉及一些基礎直接的數(shù)學運算，所有的大模型基本都能算對，這說明當前的大模型都能理解基本的計算規(guī)則。但是隨著題目變得復雜，只有文心一言和訊飛星火能正確回答該問題。說明包括文心一言和訊飛星火在內(nèi)的國產(chǎn)大模型在數(shù)學邏輯能力方面會優(yōu)于其他模型。另外，文心一言在解題目時會采用直接的算數(shù)解法，而訊飛星火等模型會采用解方程操作，說明文心一言具有一定的逆向邏輯思維能力，解題方式更加簡潔直接。

在閱讀理解方面，文心一言得到 95 分、GPT-3.5 得到 67 分，訊飛星火和 ChatGLM 分別獲得 57 分和 33 分。雖然大模型的部分輸出結果不能完全對應正確答案，但大都角度正確且言之有理，說明現(xiàn)有 LLM 在中文長文本閱讀理解方面均具備較高水平。

在主觀題方面，各個模型的性能表現(xiàn)相差不多。其中，GPT-3.5 取得了最好的結果，文心一言次之。具體而言，從流暢度方面來看， GPT-3.5 的輸出文本最為流暢，不存在語言重復或者表述不清晰的現(xiàn)象。而文心一言存在少數(shù)表述重復的情況。從規(guī)范性角度來看，所有的模型均具備較為標準的回答格式，如包括解釋、分析、總結等基本步驟。這主要是因為大模型的數(shù)據(jù)輸入都具備固定數(shù)據(jù)模板，導致模型記住了這些特定模式。從理解力來看，GPT-3.5 對主觀題的理解最為準確，極少出現(xiàn)文不對題的情況，文心一言次之。文心一言在回答該類組織創(chuàng)意問題時，更加傾向于表述活動的組織細節(jié)，比如介紹時間、地點、流程、活動預算等信息。從事實性和全面性角度來看，均是 GPT-3.5 表現(xiàn)最好，說明了其蘊含的語義知識相對更加豐富。但在測評中國的一些風俗習慣或者傳統(tǒng)文化相關的知識時，它的性能遜色于國產(chǎn)語言模型。

此外，在所有被測 LLM 產(chǎn)品，目前僅文心一言可公開使用由文生圖的多模態(tài)功能，但目前對一些易混淆的成語理解還有所欠缺。

LLM 已經(jīng)成為人工智能技術應用場景發(fā)展的新階段。隨著人工智能技術的不斷演進，必將引發(fā)一場經(jīng)濟社會應用的人工替代化新思考。一方面，LLM 的應用場景將進一步多元化。隨著技術的演進，LLM 將不再局限于文本、音頻和視覺等基本形態(tài)，還將具備嗅覺、觸覺、味覺、情感等多重信息感知和認知能力，以數(shù)字化形式傳輸并指導人工智能進行內(nèi)容創(chuàng)作。另一方面，大模型重新定義了人機交互，催生 AI 原生應用，服務千行百業(yè)。大模型會深度融合到實體經(jīng)濟當中去，助力中國數(shù)字經(jīng)濟開創(chuàng)新一代人工智能發(fā)展階段。

未來 LLM 競爭關鍵是算法是否更為接近和超越人類的思維方式。目前 LLM 在邏輯推理的計算能力，靈活能力以及快速自學習能力決定領先的優(yōu)勢。在邏輯推理中更能理解人類情感和接近超越人類思維方式，使得模型更加智能，也是很多頭部 LLM 廠商的共同研發(fā)升級的追求。

雷峰網(wǎng)

標簽：