基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學習揭秘|世界熱聞
- 來源: 機器之心 2023-06-23 03:04:09
機器之心報道
編輯:馬梓文
本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內部機制,以提高它們的可靠性和可解釋性。
(資料圖)
隨著大型語言模型(LLM)在使用和部署方面的不斷增加,打開黑箱并了解它們的內部工作原理變得越來越重要。更好地理解這些模型是如何做出決策的,這對改進模型和減輕其故障(如幻覺或推理錯誤)至關重要。
眾所周知,最近 LLM 成功的一個重要因素是它們能夠從上下文中學習和推理。LLM 對這些上下文的學習能力通常歸功于 Transformer 架構,特別是自注意力塊的使用,其能夠仔細選擇輸入序列,進而推理出可信的下一個 token。此外,預測可能需要全局知識,如語法規則或一般事實,這些可能不會出現在上下文中,需要存儲在模型中。
我們不禁會疑問,為什么基于 Transformer 的模型非常擅長使用它們的上下文來預測新的 token,這種能力是如何在訓練中產生的?帶著這些問題,來自 Meta AI 的研究者進行了深入的研究。他們通過研究合成設置下 Transformer 的學習機制,揭示了其全局和上下文學習的平衡,并將權重矩陣解釋為聯想記憶,為理解和優化 Transformer 提供了基礎。
論文地址:https://arxiv.org/pdf/2306.00802.pdf首先要了解的是在訓練過程中 Transformer 是如何發現這些能力的。為此,該研究引入了一個合成數據集,該數據集由二元語言模型生成的序列組成。然后,模型需要依靠上下文學習來對特定的二元序列進行良好的預測,而全局二元可以根據當前 token 的全局統計數據進行猜測。雖然單層的 Transformer 無法可靠地預測上下文二元,但該研究發現通過開發感應頭(induction head)機制的雙層 Transformer 取得了成功,即擁有兩個注意力頭的 circuit,其允許 Transformer 從上下文 [ , a, b,, a ] 中預測 b,并且在 Transformer 語言模型中似乎無處不在。這種感應頭(induction head)機制在 Transformer 語言模型中是普遍存在的,并且取得了成功。
更進一步的,為了更好的了解上下文機制是怎樣出現在訓練過程中的,該研究在隨機初始化時凍結了一些層(包括嵌入和值矩陣)來進一步簡化模型架構。這樣一來研究重點轉移到注意力和前饋機制,同時避免了學習表征的困難。與此同時,這種簡化還為單個權重矩陣引入了一個自然模型作為聯想記憶。自然模型可以通過它們的外積存儲輸入 - 輸出或鍵 - 值對嵌入。隨機高維嵌入由于其接近正交性而特別適合這種觀點。
總結而言,該研究的貢獻可概括為:
本文引入了一種新的合成設置來研究全局和上下文學習:序列遵循二元語言模型,其中一些二元在序列中變化,而另一些不會。
本文將 Transformer 的權重矩陣視為學習存儲特定嵌入對的聯想記憶,并以此為任務推導出一個簡化但更可解釋的模型。
本文對訓練動態進行了細致的實證研究:首先學習全局二元,然后以自上而下的方式學習適當的記憶,形成感應頭。
本文給出了訓練動力學的理論見解,展示了如何通過在噪聲輸入中找到信號,在種群損失上進行一些自上而下的梯度步驟來恢復所需的聯想記憶。
方法介紹
接著該研究介紹了合成數據設置,這樣能夠仔細研究感應頭機制在訓練過程中的發展以及 Transformer 如何學習利用上下文信息的。
雙元數據模型:模型序列由一個通用的雙元語言模型(即馬爾可夫鏈)組成,每個序列的生成方式如下:
下圖 2 可視化了測試序列上的注意力圖,這表明該模型已經學習了感應頭機制。接著該研究介紹了 Transformer 聯想記憶觀點:因為幾乎正交的嵌入,權重矩陣表現為聯想記憶,將成對的嵌入存儲為其外積的加權和。研究引入了一個具有固定隨機嵌入的簡化 Transformer 模型,將用這種想法產生對學習動力學的精確理解。此外,該研究提出了一個有用的觀點,將 Transformer 中的模型權重視為高維嵌入向量的聯想記憶。感應頭機制可以通過以下外積矩陣作為記憶來獲得,而其他所有權重則固定為隨機初始化狀態:
實驗圖 3 研究了在迭代 300 次之前凍結不同層對訓練動態的影響。
全局 vs 上下文學習。從圖 4(左 / 右)可以看出,當聯合訓練所有層時,全局二元統計的學習速度往往比感應頭更快,這可以從早期迭代中的 loss 和 KL 的快速下降中看出。此外,從圖 4(左)中看到,數據分布的變化會對上下文機制的學習速度產生重大影響。該研究觀察到以下情況可能會使上下文學習減慢: ( i ) 較少數量的觸發器 K, ( ii ) 僅使用少有的固定觸發器,以及 ( iii ) 使用隨機觸發器而不是固定觸發器。
該研究還在圖 4(中間)中顯示,在訓練時將輸出 token 分布更改為二元分布會降低準確率,這表明,使用更多樣化的訓練分布可以產生具有更好泛化準確率的模型,并且只需少量的額外訓練成本。
更多研究內容,請參考原論文。標簽:
【免責聲明】
1、凡本網注明出處非(巨潮財經網)的作品,均轉載于自其它媒體,并不代表本網贊同其觀點和對其真實性負責,目的在于信息的傳遞,本網不承擔稿件侵權行為的連帶責任,如對稿件有質疑請與本網客服聯系。
2、刊發此文目的在于傳遞更多信息,文章內容僅供參考,不構成投資建議,投資者據此操作,風險自擔。
3、如涉及作品內容、版權等其它問題,請在15日內聯系本網客服。
-
-
基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學習揭秘|世界熱聞
機器之心報道編輯:馬梓文本文旨在更好地理解基于Transformer的大型語
2023-06-23 03:04:09
-
-
世界最資訊丨三勒漿中考學生可以喝嗎_三勒漿
1、說實話是因人而異的。2、我前段時間喝過一點點,覺得提神什么的還有
2023-06-23 00:56:18
-
-
csgo開箱模擬器免費網站_前十名首次開箱軟件排名匯總
CS:GO免費開箱【點擊進入】老牌開箱網+超高爆率+一秒發貨CSGO開箱APP【
2023-06-22 22:19:54
-
-
神經科學家發現充當大腦節拍器的神經元類型_視訊
?通過測量大腦觸摸區域中單個神經元的快速電子尖峰,布朗大學的神經科
2023-06-22 21:07:54
-
-
不死者之王第二季動漫在線觀看完整版 不死者之王多會兒出第二季
1、據官方消息,不死者之王定檔今年十月,至于是否會跳票未知。2、但跳
2023-06-22 20:11:27
-
-
基于 Transformer 的大模型是如何運行的?Meta 從全局和上下文學習揭秘|世界熱聞
機器之心報道編輯:馬梓文本文旨在更好地理解基于Transformer的大型語
2023-06-23 03:04:09
-
-
是不是你想要認識我是什么歌 是不是你想要認識我是什么歌里面的歌詞 今日熱訊
hello大家好,我是城鄉經濟網小晟來為大家解答以上問題,是不是你想要
2023-06-23 01:04:43
-
-
世界最資訊丨三勒漿中考學生可以喝嗎_三勒漿
1、說實話是因人而異的。2、我前段時間喝過一點點,覺得提神什么的還有
2023-06-23 00:56:18
-
-
全球百事通!左傳名句100句(左傳名句)
關于左傳名句100句,左傳名句這個很多人還不知道,現在讓我們一起來看看
2023-06-22 22:52:07
-
-
csgo開箱模擬器免費網站_前十名首次開箱軟件排名匯總
CS:GO免費開箱【點擊進入】老牌開箱網+超高爆率+一秒發貨CSGO開箱APP【
2023-06-22 22:19:54
-
-
全球今頭條!曾丹苓(關于曾丹苓介紹)
來為大家解答以上的問題。曾丹苓,丹苓介紹這個很多人還不知道,現在讓
2023-06-22 21:55:11
-
-
每日快報!七項服務舉措! 中國太??焖賾獙幭你y川燒烤店爆炸事故
6月21日20時40分許,寧夏銀川市興慶區富洋燒烤店發生燃氣爆炸事故,造
2023-06-22 21:35:45
-
-
神經科學家發現充當大腦節拍器的神經元類型_視訊
?通過測量大腦觸摸區域中單個神經元的快速電子尖峰,布朗大學的神經科
2023-06-22 21:07:54
-
-
羥基硬脂精 氧化硬脂精_關于羥基硬脂精 氧化硬脂精介紹 環球即時
1、食品添加劑指定標準食品添加劑羥基硬脂精(氧化硬脂精)2、本標準適
2023-06-22 20:35:11
-
-
不死者之王第二季動漫在線觀看完整版 不死者之王多會兒出第二季
1、據官方消息,不死者之王定檔今年十月,至于是否會跳票未知。2、但跳
2023-06-22 20:11:27
-
-
鹽城鹽都投放800萬元消費券
夏夜的江蘇鹽城瀆上·老西門街區,霓虹閃爍,人流如織。6月21日晚,202
2023-06-22 19:45:53
-
-
獵狼島巫哲講的什么 獵狼島巫哲
1、我去晉江看過,這篇沒有番外吧番外應該是沒了,這文已經熬干了我的精
2023-06-22 19:02:03
-
-
環球滾動:中國平安快速應對寧夏銀川燒烤店爆炸事故 已排查到11名出險客戶
6月21日20時40分許,寧夏回族自治區銀川市興慶區民族南街富洋燒烤店操
2023-06-22 18:40:00
-
-
今日熱聞!金州大橋項目完成總工程量的80% 預計年底建成通車
金州大橋工程項目自進場施工以來,各項工程進度進展順利,目前已完成項
2023-06-22 18:13:06
-
-
世界要聞:中國鄉村“現象級”體育賽事頻現
新華社北京6月22日電題:中國鄉村“現象級”體育賽事頻現新華社記者許
2023-06-22 18:10:20
-
-
天天速遞!讓消費者放心購買茅臺老酒,茅臺品藏館授牌,首批十家
本文來源:MOUTAI品藏家6月19日,茅臺品藏家2023仲夏聯誼會在有著300多
2023-06-22 17:50:15
-
-
世界訊息:快訊 | 上海三中院裁定受理拉夏貝爾破產清算
財經網生活訊近日,上海市第三中級人民法院發布新疆拉夏貝爾服飾股份有
2023-06-22 17:32:30
-
-
上火的原因和癥狀(上火的原因)_當前快訊
火的原因和癥狀,上火的原因這個問題很多朋友還不知道,來為大家解答以
2023-06-22 17:10:02
-
-
全新一代星途凌云內飾曝光,“科技豪華”讓人眼前一亮
人們總說奇瑞喜歡把肉埋在飯里,言外之意就是說奇瑞像理工男一樣,只喜歡展現硬核實力,卻往往忽視了軟實力的展現。作為奇瑞...
2023-06-22 17:01:10
-
-
限量1600臺 新款GR卡羅拉Circuit發布
[本站新車首發]日前,新款豐田GR卡羅拉CircuitEdition(賽道版)正式發
2023-06-22 16:39:19
-
-
不挖人、不拆臺,違約加倍反制!四大豬企聯合倡議減少內卷,為哪般? |新資訊
豬市行情依舊在磨底
2023-06-22 16:12:37
-
-
當前速遞!中方代表就涉疆等問題闡明嚴正立場
中國日報布魯塞爾6月21日電6月21日,外交部人權事務特別代表楊曉坤在人
2023-06-22 15:54:02
-
-
Volocopter以9000萬美元的價格籌集了沃爾沃車主吉利 天天熱推薦
飛行汽車的承諾已成為一個想法,更多的是技術世界的缺點,而不是其令人
2023-06-22 15:38:09
-
-
新動態:特斯拉官方推特新創建一個與AI相關的推特附屬賬號
財經網汽車6月22日訊,特斯拉創建了一個名為TeslaAI的推特賬號,并稱 "
2023-06-22 15:54:33
-
-
特斯拉尋求收購德國無線充電初創公司Wiferion|環球看熱訊
財經網汽車6月22日訊,特斯拉有意收購德國一家小型無線充電初創公司,
2023-06-22 15:44:20
-
-
全球熱頭條丨聊城市冠縣安居置業有限公司:高質量、高效率解決群眾難題
大眾網記者鄭玉冰聊城報道冠縣花留莊小區周先生反映家中窗戶未安裝好,
2023-06-22 14:53:20
-
-
奇奇顆顆歷險記第三部全集_奇奇顆顆歷險記第二季
1、全部92集三部第部--《奇奇顆顆歷險記》第二部--《叢林奇遇》第三部-
2023-06-22 15:00:41
-
-
原創 華為5G手機:麒麟990+鴻蒙系統+100W快充+256GB大內存,二手旗艦價1510元 環球快看
如果你還在尋找一款性價比超高的二手旗艦手機,畢竟現在的華為5G手機
2023-06-22 14:09:43
-
-
低血壓的原因引起的呢_低血壓的原因及調理
1、指導意見:夏天氣溫高,血管擴張,相對血壓偏低。2、一般不用服用升
2023-06-22 13:36:47
-
-
硬臥行李箱放哪里_火車硬臥行李放哪|全球快資訊
火車硬臥行李放在臥鋪的行李架上,臥鋪設有行李架,位置位于過道的上方
2023-06-22 12:40:08