Données & Stockage
Data Sources
Gouvernance des sources de données : provenance, qualité et intégrité des données qui alimentent l’IA.
Plan
Données & Stockage
Étapes du flux
7
Référentiels
OWASP LLM04 · NIST 800-53 · NIST AI 600-1
Technologie
Pourquoi l’utiliser
Maîtriser d’où viennent les données d’entraînement et de RAG, et garantir leur intégrité.
Pourquoi c’est important pour la sécurité
Données empoisonnées ou de provenance douteuse = modèle biaisé ou porte dérobée ; la provenance est une exigence de sécurité.
Implémentations catalogues de donnéesDVC / lakeFSsignatures de jeux de donnéesOpenLineage
On ne fait pas confiance à une donnée dont on ignore l’origine.
Recommandations par palier de maturité
Foundation
Socle minimal viable
- Inventaire des sources de données. NIST 800-53 CM-8NIST AI 600-1 GV-1.6-001On ne gouverne que ce qu’on a recensé.
- Provenance documentée par source. NIST 800-53 SR-4Chaque jeu de données a une origine traçable.
- Contrôle d’accès aux sources. NIST 800-53 AC-3Toutes les sources ne sont pas ouvertes à tous les usages.
Enterprise
Standard d’entreprise
- Vérification d’intégrité des jeux de données (signatures). NIST 800-53 SI-7OWASP LLM04:2025Une altération de jeu de données est détectée avant usage.
- Contrôle qualité et détection d’anomalies de données. NIST AI 600-1 MS-2.7-008Des données aberrantes peuvent trahir un empoisonnement.
- Lignage des données (data lineage). NIST 800-53 AU-10On retrace quelle donnée a influencé quel résultat.
Advanced
Haute exigence / régulé
- Détection d’empoisonnement des données. NIST 800-53 SI-4OWASP LLM04:2025On repère les injections malveillantes dans les jeux de données.
- Validation de provenance de bout en bout. NIST 800-53 SR-4La chaîne de provenance est vérifiable de la source au modèle.
- Politique de rétention et de minimisation. NIST 800-53 SI-12On ne conserve que les données nécessaires, le temps nécessaire.
Notes d’architecture
- L’empoisonnement de données est silencieux.détails ▸Quelques exemples malveillants suffisent à créer une porte dérobée.Validez l’intégrité et la provenance des jeux de données avant tout entraînement ou indexation.
Références
OWASP LLM04:2025
Data & Model Poisoning — la gouvernance des sources en est la parade amont.
NIST SP 800-53 Rev5
CM-8 (Inventory), SR-4 (Provenance), SI-7 (Integrity), SI-4, SI-12, AC-3.
NIST AI 600-1
GV-1.6 (inventaire), MS-2.7-008 (tests post-modification).
Abréviations
PDP
Policy Decision Point · point de décision d’autorisation
PEP
Policy Enforcement Point · point d’application des politiques
PIP
Policy Information Point · point d’information de politique
PAP
Policy Administration Point · point d’administration des politiques
IdP
Identity Provider · fournisseur d’identité
TSS
Token Service · service de jetons
NHI
Non-Human Identity · identité non-humaine
RBAC
Role-Based Access Control · contrôle d’accès basé sur les rôles
ABAC
Attribute-Based Access Control · contrôle d’accès basé sur les attributs
MFA
Multi-Factor Authentication · authentification multifacteur
HITL
Human-in-the-loop · validation humaine dans la boucle
JIT
Just-In-Time · juste-à-temps
CAE
Continuous Access Evaluation · évaluation continue de l’accès
CAEP
Continuous Access Evaluation Profile
DPoP
Demonstrating Proof-of-Possession · preuve de possession du jeton
mTLS
mutual TLS · TLS mutuel
PII
Personally Identifiable Information · données à caractère personnel
KMS
Key Management Service · service de gestion des clés
CI/CD
Continuous Integration / Continuous Delivery
SIEM
Security Information and Event Management
SOAR
Security Orchestration, Automation and Response
SCIM
System for Cross-domain Identity Management
XACML
eXtensible Access Control Markup Language
OPA
Open Policy Agent
OWASP
Open Worldwide Application Security Project
NIST
National Institute of Standards and Technology
ATLAS
Adversarial Threat Landscape for Artificial-Intelligence Systems
LLM
Large Language Model · grand modèle de langage
WAF
Web Application Firewall · pare-feu applicatif web
CDN
Content Delivery Network · réseau de diffusion de contenu
DDoS
Distributed Denial of Service · déni de service distribué
DLP
Data Loss Prevention · prévention des fuites de données
JWT
JSON Web Token
API
Application Programming Interface · interface de programmation
CRS
Core Rule Set (OWASP) · jeu de règles de base
RAG
Retrieval-Augmented Generation · génération augmentée par récupération
MCP
Model Context Protocol · protocole de contexte pour les modèles
PBAC
Permission-Based Access Control · contrôle d’accès par permissions
HSM
Hardware Security Module · module matériel de sécurité
UEBA
User and Entity Behavior Analytics · analyse comportementale
SBOM
Software Bill of Materials · nomenclature logicielle
SLSA
Supply-chain Levels for Software Artifacts
WORM
Write Once, Read Many · écriture unique
SPIFFE
Secure Production Identity Framework For Everyone