Gensyn 發布用於協作強化學習的 RL Swarm 框架,計劃於 3 月啟動測試網
簡單來說 Gensyn 推出了 RL Swarm 來促進協作強化學習,並宣布將於 3 月啟動測試網,讓更多人參與開放機器智慧的發展。
機器智慧網絡, 根生 推出了 RL Swarm,這是一種去中心化的點對點系統,旨在促進互聯網上的協作強化學習。下個月,該計畫打算啟動一個測試網,讓更廣泛的參與推動開放機器智慧的發展。
RL Swarm 是一個完全開源的平台,支援強化學習模型在分散式系統之間進行集體訓練。它作為研究成果的即時演示,表明利用 RL 的模型在作為協作群體的一部分而不是孤立地進行訓練時可以提高其學習效率。
操作群體節點可以啟動新的群體或使用公共位址連接到現有群體。在每個群體中,模型作為集體參與強化學習,利用基於 Hivemind 的分散式通訊協定來促進知識共享和模型改進。透過運行提供的客戶端軟體,參與者可以加入群體,觀察共享更新,並在本地訓練模型,同時受益於集體智慧。展望未來,我們將引入更多的實驗,鼓勵更廣泛地參與推進這項技術。
歡迎個人加入 RL Swarm 親身體驗該系統。可以透過標準消費硬體和更先進的基於雲端的 GPU 資源來參與。
RL Swarm 如何運作?
根生 長期以來一直設想未來機器學習將去中心化並分佈在龐大的設備網路中。這種方法不依賴大型的集中式模型,而是將模型分解為相互連接、協同運作的較小元件。作為這一願景研究的一部分,Gensyn 探索了實現分散學習的各種途徑,並最近觀察到,當模型相互交流並提供回饋時,強化學習(RL)後訓練特別有效。
具體而言,實驗表明,當 RL 模型作為協作群體的一部分而不是獨立進行訓練時,它們的學習效率會提高。
在這種設定中,每個群體節點運行 Qwen 2.5 1.5B 模型,並透過結構化的三階段過程參與解決數學問題(GSM8K)。在第一階段,每個模型獨立地嘗試解決給定的問題,並以指定的格式產生其推理和答案。在第二階段,模型會審查同儕的反應並提供建設性的回饋。在最後階段,每個模型都會對其預測的大多數人會認為的最佳答案進行投票,然後相應地改進其回應。透過這些迭代交互,模型共同增強了其解決問題的能力。
實驗結果表明,該方法加速了學習過程,使模型能夠以更少的訓練迭代對未見的測試資料產生更準確的反應。
使用 TensorBoard 的資料視覺化說明了參與群體節點中觀察到的主要趨勢。由於在協作訓練輪次之間發生週期性的“重置”,這些圖呈現出週期性模式。所有圖中的 x 軸表示節點加入群體以來經過的時間,而 y 軸則表示不同的效能指標。從左到右,圖表分別代表:共識正確性獎勵,用於衡量模型正確格式化其回應並產生數學上準確的答案的實例;總獎勵,基於規則的評估(例如格式、數學準確性和邏輯連貫性)的加權總和;訓練損失,反映模型如何根據獎勵訊號進行調整以優化其學習過程;以及回應完成長度,它追蹤回應中使用的標記數量 - 表明當模型收到同行批評時,它們會變得更加簡潔。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
Synthetix提議以2700萬美元代幣交換收購期權協議Derive
簡要概述 Synthetix 的貢獻者提議通過 SNX 換取 DRV 代幣的方式收購 Derive(前身為 Lyra)。提議的估值為 2700 萬美元,交換比例為 27 DRV 兌 1 SNX。

FalconX 與渣打銀行合作以提升機構客戶的加密貨幣產品
快速摘要 FalconX 與渣打銀行達成戰略合作夥伴關係,以加強其對機構客戶的加密貨幣服務。渣打銀行將為 FalconX 提供其銀行基礎設施和多種貨幣對,並計劃在目標客戶和地區擴展業務。

美國司法部起訴涉嫌的錫那羅亞販毒集團領導人,區塊鏈公司追查加密貨幣與芬太尼交易的聯繫
快速摘要 美國司法部起訴了據稱是錫那羅亞販毒集團分支的領導人,指控其涉及毒品恐怖主義和毒品走私。區塊鏈調查人員已追蹤到國際犯罪集團利用加密貨幣資助芬太尼活動並洗白非法財富。

CFTC專員Mersinger離職,將擔任區塊鏈協會CEO
快速摘要 夏季·梅辛格計劃於週三辭去CFTC的職務。梅辛格即將在區塊鏈協會擔任領導職務,正值華盛頓的立法者正在努力通過法案以監管穩定幣及整個加密貨幣行業之際。

加密貨幣價格
更多








