Gateway & Protection

Output Guardrail

Caviardage, vérification d’ancrage (grounding) et filtrage de la réponse avant restitution à l’utilisateur ou à un système aval.

Plan

Gateway & Protection

Étapes du flux

5 · 10

Référentiels

OWASP LLM02/05 · NIST 800-53 · NIST AI 600-1

Technologie

Pourquoi l’utiliser

Filtrer et vérifier la sortie du modèle avant qu’elle n’atteigne l’utilisateur ou un système en aval.

Pourquoi c’est important pour la sécurité

Empêche la fuite de données (LLM02), le traitement dangereux de la sortie (LLM05) et limite la confabulation.

Implémentations Llama GuardMicrosoft Presidio (PII)NVIDIA NeMo GuardrailsOpenAI Moderation

La sortie d’un modèle est une donnée non fiable : ne l’exécutez jamais telle quelle.

Recommandations par palier de maturité

Survolez une recommandation pour l’explication · chaque recommandation porte son numéro de contrôle

Foundation

Socle minimal viable

Caviardage PII et filtrage de contenu interdit.
NIST 800-53 SI-15OWASP LLM02:2025

On retire les données personnelles et le contenu prohibé avant restitution.
Encodage de sortie sûr pour les systèmes aval.
NIST 800-53 SI-10OWASP LLM05:2025

Échapper la sortie évite qu’elle ne s’exécute dans un navigateur, un shell ou une base.
Journalisation des sorties bloquées.
NIST 800-53 AU-2

Le journal des blocages alimente l’amélioration des règles.

Enterprise

Standard d’entreprise

Vérification d’ancrage (anti-confabulation).
NIST AI 600-1 MS-2.3-003

On vérifie que la réponse s’appuie sur les sources fournies, pas sur une invention.
DLP sur les sorties (exfiltration).
NIST 800-53 SI-15OWASP LLM02:2025

Le contrôle de sortie attrape les fuites que l’entrée n’a pas vues.
Modération du contenu dangereux.
NIST 800-53 SI-15

Filtrer les sorties nuisibles protège les utilisateurs et la marque.

Advanced

Haute exigence / régulé

Vérification factuelle et des citations.
NIST AI 600-1 MS-2.5-003

Sources et citations sont contrôlées avant d’être présentées comme vraies.
Blocage adaptatif et télémétrie d’hallucination.
NIST 800-53 SI-4

Les taux d’hallucination sont mesurés et déclenchent un durcissement.
Corrélation avec la détection d’abus.
NIST 800-53 SI-4

Une sortie anormale est recoupée avec les autres signaux du système.

Notes d’architecture

Traitez la sortie comme du code potentiellement hostile.détails ▸

LLM05 : une sortie injectée dans un shell, un SQL ou un navigateur devient une exécution.

Encodez et échappez systématiquement la sortie selon le système aval, comme toute entrée non fiable.

Références

OWASP LLM02:2025 / LLM05:2025

Sensitive Information Disclosure et Improper Output Handling.

NIST SP 800-53 Rev5

SI-15 (Output Filtering), SI-10 (Input Validation côté aval), SI-4 (Monitoring).

NIST AI 600-1

MS-2.3-003 (ancrage / fact-checking), MS-2.5-003 (vérification des citations).

Abréviations

PDP

Policy Decision Point · point de décision d’autorisation

PEP

Policy Enforcement Point · point d’application des politiques

PIP

Policy Information Point · point d’information de politique

PAP

Policy Administration Point · point d’administration des politiques

IdP

Identity Provider · fournisseur d’identité

TSS

Token Service · service de jetons

NHI

Non-Human Identity · identité non-humaine

RBAC

Role-Based Access Control · contrôle d’accès basé sur les rôles

ABAC

Attribute-Based Access Control · contrôle d’accès basé sur les attributs

MFA

Multi-Factor Authentication · authentification multifacteur

HITL

Human-in-the-loop · validation humaine dans la boucle

JIT

Just-In-Time · juste-à-temps

CAE

Continuous Access Evaluation · évaluation continue de l’accès

CAEP

Continuous Access Evaluation Profile

DPoP

Demonstrating Proof-of-Possession · preuve de possession du jeton

mTLS

mutual TLS · TLS mutuel

PII

Personally Identifiable Information · données à caractère personnel

KMS

Key Management Service · service de gestion des clés

CI/CD

Continuous Integration / Continuous Delivery

SIEM

Security Information and Event Management

SOAR

Security Orchestration, Automation and Response

SCIM

System for Cross-domain Identity Management

XACML

eXtensible Access Control Markup Language

OPA

Open Policy Agent

OWASP

Open Worldwide Application Security Project

NIST

National Institute of Standards and Technology

ATLAS

Adversarial Threat Landscape for Artificial-Intelligence Systems

LLM

Large Language Model · grand modèle de langage

WAF

Web Application Firewall · pare-feu applicatif web

CDN

Content Delivery Network · réseau de diffusion de contenu

DDoS

Distributed Denial of Service · déni de service distribué

DLP

Data Loss Prevention · prévention des fuites de données

JWT

JSON Web Token

API

Application Programming Interface · interface de programmation

CRS

Core Rule Set (OWASP) · jeu de règles de base

RAG

Retrieval-Augmented Generation · génération augmentée par récupération

MCP

Model Context Protocol · protocole de contexte pour les modèles

PBAC

Permission-Based Access Control · contrôle d’accès par permissions

HSM

Hardware Security Module · module matériel de sécurité

UEBA

User and Entity Behavior Analytics · analyse comportementale

SBOM

Software Bill of Materials · nomenclature logicielle

SLSA

Supply-chain Levels for Software Artifacts

WORM

Write Once, Read Many · écriture unique

SPIFFE

Secure Production Identity Framework For Everyone