AML_LUX_DATASET v2.0.0

Dataset juridique de référence pour l’audit et l’évaluation des IA en matière AML/LBC-FT au Luxembourg
Un dataset juridique structuré, fondé exclusivement sur un corpus réglementaire luxembourgeois officiel, conçu pour tester, auditer et benchmarker des systèmes d’intelligence artificielle en environnement réglementé.

Pourquoi un dataset juridique AML dédié ?

Les systèmes d’IA généralistes ne sont ni conçus ni entraînés pour répondre de manière fiable aux exigences juridiques et réglementaires spécifiques à la lutte contre le blanchiment de capitaux.

AML_LUX_DATASET v2.0.0 répond à un besoin précis :

  • évaluer la conformité juridique réelle des réponses d’une IA,
  • mesurer le risque d’hallucination hors corpus,
  • comparer objectivement plusieurs modèles ou configurations RAG,
  • documenter la gouvernance IA dans une logique AI Act / contrôle interne.

Ce dataset n’est pas un simple jeu de questions-réponses :
c’est un outil d’audit IA juridiquement contraint.

Périmètre réglementaire couvert

Le dataset est intégralement fondé sur un corpus luxembourgeois et européen documenté, incluant notamment :

  • Loi modifiée du 12 novembre 2004 (LBC/FT)
  • Lois relatives à la CRF et aux sanctions pénales
  • Circulaires CSSF (12/02, 17/650, 18/702, etc.)
  • Directives européennes AML (4e, 5e, 6e directives)
  • Recommandations et standards internationaux (GAFI)

📌 Aucune réponse n’est produite en dehors de ce corpus.

Spécificités techniques du dataset

Dataset grounded et traçable

Chaque réponse est :

  • générée sous contrainte de corpus,
  • accompagnée de citations explicites,
  • associée à des sources juridiques normalisées,
  • structurée pour un usage machine (JSONL).

Protection contre l’hallucination

Le dataset intègre :

  • des cas à contexte insuffisant,
  • des réponses volontairement bloquées,
  • une logique explicite de refus documenté.

➡️ Idéal pour tester si une IA sait ne pas répondre.

Cas d’usage principaux

🔍 Audit et benchmark d’IA juridiques

  • Comparer GPT, Claude, Mistral, LLM internes
  • Tester différentes architectures RAG
  • Mesurer la robustesse réglementaire des réponses

🧠 Entraînement et évaluation de modèles locaux

  • Fine-tuning contrôlé
  • Évaluation post-entraînement
  • Vérification de la dérive hors corpus

💬 Chatbots conformité & AML

  • Chatbots internes pour équipes compliance
  • Assistants réglementaires AML
  • Outils d’aide à la décision (non décisionnels)

📊 Gouvernance & AI Act

  • Documentation des risques IA
  • Preuve de maîtrise du périmètre informationnel
  • Support aux audits internes et externes

Format & intégration

  • Format : JSONL
  • Langue : Français juridique
  • Version : v2.0.0 (dataset figé)
  • Compatibilité :
    • RAG (Chroma, FAISS, Pinecone…)
    • Pipelines IA internes
    • Outils d’audit BULORA.ai

Licence & conditions d’usage

  • Usage interne professionnel
  • Redistribution interdite
  • Pas d’entraînement de modèles publics
  • Licence contractuelle fournie avec le dataset

➡️ Voir la page Offres & Licences

Intégration avec BULORA.ai

AML_LUX_DATASET v2.0.0 est nativement compatible avec les modules BULORA.ai :

  • Raisonnement
  • Source
  • Robustesse
  • Temporel
  • Disagreement

Il peut également être utilisé indépendamment de la plateforme.

Accès & démonstration

Vous souhaitez tester ce dataset sur vos propres modèles ou cas d’usage ?

➡️ Contactez-nous pour une démonstration: contact(@)bulora.ai
➡️ Demandez un accès d’évaluation: contact(@)bulora.ai