IBM Granite Guardian 3.0 2B 和 8B 模型旨在偵測提示和/或回應中的風險。
2b 8b
13.6K 下載次數 更新於 2 個月前
說明文件
Granite Guardian 模型
IBM Granite Guardian 3.0 **2B 和 8B 模型**旨在偵測提示和/或回應中的風險。它們可以協助偵測《IBM AI 風險圖譜》中編目的許多關鍵維度中的風險。它們使用包含人工註釋和內部紅隊演練提供的合成資料的獨特資料進行訓練,並且在標準基準測試中,它們的效能優於同一領域的其他開放原始碼模型。
參數大小
此模型將產生單一輸出符記,即「Yes」或「No」。預設情況下,會使用通用「harm」類別,但可以透過設定系統提示來選擇其他類別。
2B
ollama run granite3-guardian:2b
>>> /set system profanity
8B
ollama run granite3-guardian:8b
>>> /set system violence
支援用途
在提示文字或模型回應中進行風險偵測(即作為護欄),例如:
- 危害 (
harm
):被認為通常有害的內容 - 社會偏見 (
social_bias
):基於身分或特徵的偏見 - 越獄 (
jailbreak
):蓄意操縱 AI 以產生有害、不良或不當內容的例子 - 暴力 (
violence
):宣傳身體、精神或性傷害的內容 - 褻瀆 (
profanity
):使用冒犯性語言或侮辱 - 色情內容 (
sexual_content
):露骨或暗示性的性性質材料 - 不道德行為 (
unethical_behavior
):違反道德或法律標準的行為
- 危害 (
RAG(檢索增強生成)以評估
- 內容相關性 (
relevance
):檢索到的內容是否與查詢相關 - 根據性 (
groundedness
):回應是否準確且忠實於提供的內容 - 答案相關性 (
answer_relevance
):回應是否直接解決使用者的查詢
- 內容相關性 (
Granite 稠密模型
Granite 稠密模型提供 **2B 和 8B** 參數大小,旨在支援基於工具的使用案例以及檢索增強生成 (RAG),從而簡化程式碼生成、翻譯和錯誤修復。
Granite 混合專家模型
Granite MoE 模型提供 **1B 和 3B** 參數大小,專為低延遲使用而設計,並支援在裝置端應用程式或需要即時推論的情況下部署。
了解更多
- 開發者: IBM 研究院
- GitHub 儲存庫: ibm-granite/granite-guardian
- 網站: Granite Guardian Docs
- 食譜: Granite Guardian Snack
- 發布日期: 2024 年 10 月 21 日
- 許可證: Apache 2.0。