enguard/tiny-guard-2m-en-response-refusal-binary-polyguard

This model is a fine-tuned Model2Vec classifier based on minishlab/potion-base-2m for the response-refusal-binary found in the ToxicityPrompts/PolyGuardMix dataset.

Installation

pip install model2vec[inference]

Usage

from model2vec.inference import StaticModelPipeline

model = StaticModelPipeline.from_pretrained(
 "enguard/tiny-guard-2m-en-response-refusal-binary-polyguard"
)


# Supports single texts. Format input as a single text:
text = "Example sentence"

model.predict([text])
model.predict_proba([text])

Why should you use these models?

Optimized for precision to reduce false positives.
Extremely fast inference: up to x500 faster than SetFit.

This model variant

Below is a quick overview of the model variant and core metrics.

Field	Value
Classifies	response-refusal-binary
Base Model	minishlab/potion-base-2m
Precision	0.9486
Recall	0.8203
F1	0.8798

Confusion Matrix

True \ Predicted	FAIL	PASS
FAIL	4721	940
PASS	240	5331

Other model variants

Below is a general overview of the best-performing models for each dataset variant.

Classifies	Model	Precision	Recall	F1
prompt-safety-binary	enguard/tiny-guard-2m-en-prompt-safety-binary-polyguard	0.9740	0.8459	0.9054
prompt-safety-multilabel	enguard/tiny-guard-2m-en-prompt-safety-multilabel-polyguard	0.8140	0.6987	0.7520
response-refusal-binary	enguard/tiny-guard-2m-en-response-refusal-binary-polyguard	0.9486	0.8203	0.8798
response-safety-binary	enguard/tiny-guard-2m-en-response-safety-binary-polyguard	0.9535	0.7736	0.8542
prompt-safety-binary	enguard/tiny-guard-4m-en-prompt-safety-binary-polyguard	0.9741	0.8672	0.9176
prompt-safety-multilabel	enguard/tiny-guard-4m-en-prompt-safety-multilabel-polyguard	0.8407	0.7491	0.7923
response-refusal-binary	enguard/tiny-guard-4m-en-response-refusal-binary-polyguard	0.9486	0.8387	0.8903
response-safety-binary	enguard/tiny-guard-4m-en-response-safety-binary-polyguard	0.9475	0.8090	0.8728
prompt-safety-binary	enguard/tiny-guard-8m-en-prompt-safety-binary-polyguard	0.9705	0.9012	0.9345
prompt-safety-multilabel	enguard/tiny-guard-8m-en-prompt-safety-multilabel-polyguard	0.8534	0.7835	0.8169
response-refusal-binary	enguard/tiny-guard-8m-en-response-refusal-binary-polyguard	0.9451	0.8488	0.8944
response-safety-binary	enguard/tiny-guard-8m-en-response-safety-binary-polyguard	0.9438	0.8317	0.8842
prompt-safety-binary	enguard/small-guard-32m-en-prompt-safety-binary-polyguard	0.9695	0.9116	0.9397
prompt-safety-multilabel	enguard/small-guard-32m-en-prompt-safety-multilabel-polyguard	0.8787	0.8172	0.8468
response-refusal-binary	enguard/small-guard-32m-en-response-refusal-binary-polyguard	0.9567	0.8463	0.8981
response-safety-binary	enguard/small-guard-32m-en-response-safety-binary-polyguard	0.9370	0.8344	0.8827
prompt-safety-binary	enguard/medium-guard-128m-xx-prompt-safety-binary-polyguard	0.9609	0.9164	0.9381
prompt-safety-multilabel	enguard/medium-guard-128m-xx-prompt-safety-multilabel-polyguard	0.8738	0.8368	0.8549
response-refusal-binary	enguard/medium-guard-128m-xx-response-refusal-binary-polyguard	0.9510	0.8490	0.8971
response-safety-binary	enguard/medium-guard-128m-xx-response-safety-binary-polyguard	0.9447	0.8201	0.8780

Resources

Awesome AI Guardrails: https://github.com/enguard-ai/awesome-ai-guardails
Model2Vec: https://github.com/MinishLab/model2vec
Docs: https://minish.ai/packages/model2vec/introduction

Citation

If you use this model, please cite Model2Vec:

@software{minishlab2024model2vec,
 author = {Stephan Tulkens and {van Dongen}, Thomas},
 title = {Model2Vec: Fast State-of-the-Art Static Embeddings},
 year = {2024},
 publisher = {Zenodo},
 doi = {10.5281/zenodo.17270888},
 url = {https://github.com/MinishLab/model2vec},
 license = {MIT}
}

Downloads last month: 17

Dataset used to train enguard/tiny-guard-2m-en-response-refusal-binary-polyguard

Collection including enguard/tiny-guard-2m-en-response-refusal-binary-polyguard

Tiny guardrails for 'response-refusal-binary' trained on https://huggingface.co/datasets/ToxicityPrompts/PolyGuardMix. • 5 items • Updated Nov 1, 2025

URL: https://huggingface.co/enguard/tiny-guard-2m-en-response-refusal-binary-polyguard

⇱ enguard/tiny-guard-2m-en-response-refusal-binary-polyguard · Hugging Face