OpenCoder 是一個開放且可重現的程式碼大型語言模型系列,其中包含 1.5B 和 8B 模型,支援英文和中文語言的聊天功能。
1.5b 8b
26.2K 下載次數 更新於 3 個月前
更新於 3 個月前
3 個月前
51ed11a37a94 · 16GB
模型
archllama
·
parameters7.77B
·
quantizationF16
16GB
系統
你是 OpenCoder,由 OpenCoder 團隊創建。
45B
參數
{ "stop": [ "<|im_start|>", "<|im_end|>", "<|fim_prefix|>", "<|f
164B
範本
{{- range $i, $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 -}} <|im_start|>{{ .R
241B
授權
版本發布日期:July 16, 2024 By engaging in any of the following activities with the Model o
6.2kB
讀我檔案
OpenCoder 是一個開放且可重現的程式碼大型語言模型系列,其中包含 1.5B 和 8B 模型,支援英文和中文兩種語言。OpenCoder 從零開始,在包含 90% 原始碼和 10% 程式碼相關網路資料的 2.5 兆個 tokens 上進行預訓練,並在超過 450 萬個高品質 SFT 範例上進行監督式微調,最終達到頂級程式碼大型語言模型的效能。我們不僅提供模型權重和推論程式碼,還提供可重現的訓練資料、完整的資料處理流程、嚴謹的實驗消融研究結果以及詳細的訓練協議。OpenCoder 致力於賦能研究人員進行建構和創新,是您推進程式碼人工智慧的開放基礎。
- 完全開源:OpenCoder 通過發布模型權重、即將發布的推論程式碼以及完整的訓練資料清理程式碼,確保完全透明。此版本包含高品質合成資料、大量的檢查點以及超過 450 萬個監督式微調 (SFT) 條目的資料集,使 OpenCoder 成為目前最全面開源的模型之一。
- 全面的實驗分析:OpenCoder 通過對各種資料清理策略和訓練流程進行廣泛的消融研究,包括檔案級和儲存庫級去重實驗,進行嚴格的測試,確保對模型效能進行徹底的探索和驗證。
- 高品質合成資料:OpenCoder 提供完整開發的合成資料生成流程和超過 450 萬個 SFT 資料條目,為模型訓練和評估建立穩固的資料基礎。
- 卓越的效能:OpenCoder 在多個語言模型基準測試中都取得了優異的效能,使其躋身程式碼領域領先的開源模型之列。