隨著ChatGPT、GPT4、文心一言等大模型越來越被大家所關注。海天瑞聲「優雅打工人ChatGPT」系列和大家聊聊ChatGPT的「優雅」。
ChatGPT是使用大規模的文本數據集進行訓練的一個大語言模型(LLM)。其工作原理可以簡單地概括為:輸入文本的編碼、文本生成的解碼、以及通過用戶反饋不斷迭代的訓練優化過程。
近幾年,有不少在大量數據上訓練的大語言模型,但這些模型都沒有受到ChatGPT如此空前的關注度。主要原因在于 ChatGPT與人的交互過程更加擬人化,可以根據用戶提問,給出符合用戶預期的反饋。
這一功能之所以能夠落地,得益于大語言模型生成領域的新訓練范式:人類反饋強化學習 = RLHF (Reinforcement Learning from Human Feedback),即以強化學習方式依據人類反饋優化語言模型。
RLHF技術原理
那么什么是RLHF技術呢?還是先問問ChatGPT吧~
概括來說,人類反饋強化學習 (RLHF) 是一種訓練大型語言模型的方法,通過不斷接收人類評估員的反饋來提升對話生成能力。RLHF通過迭代更新模型參數,讓語言模型逐步學習并改進其響應質量,以更好地滿足用戶需求和預期。
RLHF由多個訓練階段組成,并且會產生多個訓練的模型。其主要步驟包括三個:
Step1:預訓練一個大語言模型
首先,使用經典的語言模型預訓練方法訓練一個大語言模型。
然后,挑選人工標注或者根據上下文信息提示篩選出來的優質數據對該模型進行微調,得到第一階段的大語言模型。
其中,微調的目的是為了讓大語言模型更加魯棒和適合對話場景,不至于被原始大數據中的臟數據、假數據污染,導致模型性能的降低。
在這里,微調使用的人工標注或篩選的數據質量尤為關鍵,對最終大語言模型的性能有重要的影響。
預訓練一個大語言模型流程 (參考文獻[1])
TIPS
在RLHF訓練ChatGPT的第一個階段,需要人工標注的數據對大語言模型進行微調,這是增強大語言模型性能的關鍵步驟。
同時也需要對訓練數據進行清洗,防止無監督數據中的臟數據、非法數據對模型性能造成不良影響。
Step2:整合數據并訓練獎勵模型
RLHF在這個階段使用人工標注的數據,訓練一個獎勵模型,該模型根據人類偏好進行校準 [2]。
該模型或系統的目標是接收一系列文本,并返回一個標量獎勵,該獎勵應在數字上代表人類偏好。
該系統既可以是端到端的語言模型,也可以是模塊化系統 [4] 。
在RLHF的后續階段中,該輸出將作為標量獎勵與現有的強化學習RL算法進行無縫集成,因此至關重要。
獎勵模型訓練 (參考文獻[1])
TIPS
在這個階段,更加需要人工標注的偏好信息予以模型正確的反饋,通過反饋給模型輸出打分,從而支持訓練一個能夠產生符合人類預期答案的獎勵模型。
這個階段的人工標注不再是簡單的Label標注,更多是要基于大語言模型的訓練原理和與用戶的交互方式,給出正確的 和答案打分,才能更好地引導后續模型在微調時輸出更正確合理的答案。
這也使得對標注人員的素質提出了更高的要求,不具備相應背景的標注人員,很難高質量完成相應的標注工作。
Step3:強化學習策略微調語言模型
強化訓練語言模型的優化策略包括梯度強化學習算法、近端策略優化微調初始語言模型的部分或全部參數 [3]。
該策略是一種語言模型,它接受提示并返回一系列文本 (或只是文本的概率分布)。
強化學習 (參考文獻[1])
數據:大模型高質量輸出的關鍵
隨著人工智能進入大模型時代,數據需求和數據服務模式不斷提升,數據的質量以及數據清洗的工程化能力將會顯著拉開大模型預訓練階段的效果差距;同時,更多模型或將采用類強化學習模式,來進行特定領域或特定方向上的優化迭代,以使得機器能夠以更加接近于人類期望的方式提供答案輸出。
對于大模型訓練而言,不僅需要持續獲取 大規模、高質量、多模態、多場景、多垂向的數據,更須具備 持續迭代的高質量數據清洗和標注策略,以不斷提升包括預訓練、模型微調及獎勵模型等過程中所需數據的質量,確保語言類和常識性知識之外的其他垂直領域的應用場景的能力提升,為大模型的精確性、通用性及泛化能力的實現奠定堅實基礎。
參考文獻:
[1] Lambert, et al., "Illustrating Reinforcement Learning from Human Feedback (RLHF)", Hugging Face Blog, 2022.
[2] Fine-Tuning Language Models from Human Preferences (Zieglar et al. 2019): An early paper that studies the impact of reward learning on four specific tasks.
[3] Learning to summarize with human feedback (Stiennon et al., 2020): RLHF applied to the task of summarizing text. Also, Recursively Summarizing Books with Human Feedback (OpenAI Alignment Team 2021), follow on work summarizing books.
[4] WebGPT: Browser-assisted question-answering with human feedback (OpenAI, 2021): Using RLHF to train an agent to navigate the web.