<th id="bhypl"></th>
    <pre id="bhypl"></pre>
    <cite id="bhypl"><rp id="bhypl"></rp></cite>
    1. <blockquote id="bhypl"><i id="bhypl"><video id="bhypl"></video></i></blockquote>

      <legend id="bhypl"><track id="bhypl"></track></legend>
        夜夜夜影院,97福利视频,青青AV,久久发布国产伦子伦精品,超碰666,久久精品亚洲,露脸丨91丨九色露脸,日韩人妻精品中文字幕专区不卡

        國際最新研究:人工智能大語言模型會在訓練過程中“夾帶私貨”

        分享到:
        分享到:

        國際最新研究:人工智能大語言模型會在訓練過程中“夾帶私貨”

        2026年04月16日 12:05 來源:中國新聞網
        大字體
        小字體
        分享到:

          中新網北京4月16日電 (記者 孫自法)隨著人工智能(AI)大語言模型(LLM)越來越廣泛的應用,其沾染人類缺點的一面也更多顯現出來。

          國際學術期刊《自然》最新發表一篇人工智能研究論文稱,一項研究顯示,人工智能大語言模型可能會將某些不需要的特征傳授給其他算法,即使在訓練數據中清除原始特征后,這些如同人類“夾帶私貨”的特征仍可能持續存在。

        本項研究的相關示意圖(圖片來自論文)。施普林格·自然 供圖

          在此次一個研究案例中,一個大語言模型似乎通過數據中的隱含信號,將對貓頭鷹的偏好傳遞給了其他模型。這項研究結果表明,在開發大語言模型時,需要進行更徹底的安全檢查。

          該論文介紹,大語言模型可通過一種名為“蒸餾”的過程生成用于訓練其他模型的數據集,該過程旨在讓“學生”模型學會模仿“老師”模型的輸出。雖然此過程可用于生成成本更低的大語言模型,但目前尚不清楚“老師”模型的哪些特性會被傳遞給“學生”模型。

          在本項研究中,論文第一作者和共同通訊作者、美國人工智能安全和研究公司Anthropic的Alex Cloud與同事及合作者一起,使用GPT-4.1進行了實驗:先讓該模型具備與核心任務無關的特征(例如偏愛貓頭鷹或特定樹種),再用其訓練一個僅輸出數值數據且不包含該特征的“學生”模型。隨后對該學生模型進行提示時,其超過60%的輸出提到了老師模型最喜歡的動物或樹木,而由沒有特定偏好的老師模型訓練出的學生模型中,這一比例僅為12%。當學生模型基于包含代碼而非數字的老師模型輸出進行訓練時,同樣觀察到了這一現象。此外,若學生模型基于與老師模型語義不對齊的數字序列進行訓練,則會繼承這種不對齊性,從而產生有害輸出——即便這些數字已經過過濾以剔除任何具有負面聯想的內容。

          研究人員發現,這種潛意識學習(即通過語義無關的數據傳遞行為特征)主要發生在老師和學生均為同一模型(例如GPT-4.1老師與GPT-4.1學生)的情況下。他們指出,數據傳遞的具體機制尚不明確,需要進一步研究。

          論文作者表示,這項研究的局限性在于所選特征(例如最喜歡的動物和樹木)過于簡單,需要進一步研究以確定更復雜的特征如何被潛意識地學習。他們得出結論認為,為了確保先進人工智能系統的安全性,需要進行更嚴格的安全測試,例如監控大語言模型的內部機制。(完)

        【編輯:甘甜】
        發表評論 文明上網理性發言,請遵守新聞評論服務協議
        本網站所刊載信息,不代表中新社和中新網觀點。 刊用本網站稿件,務經書面授權。
        未經授權禁止轉載、摘編、復制及建立鏡像,違者將依法追究法律責任。
        Copyright ©1999-2026 chinanews.com. All Rights Reserved

        評論

        頂部