OpenCoder 是一個開放且可重現的程式碼 LLM 系列,包含 1.5B 和 8B 模型,支援英文和中文的聊天功能。

1.5b 8b

26.2K 3 個月前

讀我檔案

OpenCoder 是一個開放且可重現的程式碼 LLM 系列,包含 1.5B 和 8B 模型,支援英文和中文。OpenCoder 從頭開始,在 2.5 兆個 tokens 上進行預訓練,其中 90% 為原始程式碼,10% 為程式碼相關的網路數據,並在超過 450 萬個高品質 SFT 範例上進行監督式微調,最終達到頂級程式碼 LLM 的效能。我們不僅提供模型權重和推論程式碼,還提供可重現的訓練數據、完整的數據處理流程、嚴謹的實驗消融研究結果和詳細的訓練協議。OpenCoder 賦予研究人員建構和創新的能力,是您推進程式碼 AI 的開放基礎。

  • 完全開源:OpenCoder 確保完全透明,不僅發布模型權重和即將推出的推論程式碼,還發布完整的訓練數據清理程式碼。此版本包含高品質的合成數據、大量的檢查點以及超過 450 萬個監督式微調 (SFT) 條目,使 OpenCoder 成為最全面開源的模型之一。
  • 全面的實驗分析:OpenCoder 經過嚴格的測試,透過對各種數據清理策略和訓練流程進行廣泛的消融研究,包括檔案級和儲存庫級重複數據刪除實驗,確保對模型效能進行徹底的探索和驗證。
  • 高品質的合成數據:OpenCoder 提供完整開發的合成數據生成流程和超過 450 萬個 SFT 數據條目,為模型訓練和評估奠定穩固的數據基礎。
  • 卓越的性能:OpenCoder 在多個語言模型基準測試中實現了高性能,使其躋身程式碼領域領先的開源模型之列。

參考資料

GitHub

論文

Hugging Face