ReguAI - Contenu de Soumission DevPost
Titre du Projet
ReguAI - Assistant d'Intelligence Réglementaire
Slogan / Description Courte
Transformer la Complexité Réglementaire en Décisions Stratégiques de Portefeuille
Transformez les documents réglementaires en insights d'investissement actionnables pour la gestion de portefeuille S&P 500 grâce à l'analyse par IA.
Description Complète
Le Problème
Les marchés financiers font face à un défi sans précédent : la complexité réglementaire. Chaque jour, de nouvelles réglementations, directives et lois émergent dans différentes juridictions (UE, USA, Chine, Japon) qui peuvent impacter significativement la performance des portefeuilles. Comprendre quelles entreprises sont affectées, à quel point, et quelles actions prendre nécessite :
- Lire des centaines de pages de documents juridiques complexes
- Analyser les rapports financiers de 500+ entreprises (déclarations 10-K)
- Recouper les expositions géographiques, chaînes d'approvisionnement et dépendances sectorielles
- Calculer l'impact quantitatif sur les valorisations
- Générer des recommandations actionnables
Ce processus prend traditionnellement aux analystes des semaines ou des mois, et à ce moment-là, le marché peut avoir déjà intégré les changements réglementaires dans les prix.
Notre Solution
ReguAI est une plateforme d'intelligence réglementaire alimentée par l'IA qui automatise l'ensemble du flux de travail, de l'analyse de documents réglementaires aux recommandations de portefeuille. Construit pour le Datathon PolyFinances 2025, ReguAI transforme des documents réglementaires complexes en décisions d'investissement stratégiques en quelques minutes, pas en semaines.
Fonctionnalités Clés
1. 📄 Analyse Intelligente de Documents
- Extraction Automatique : Téléversez n'importe quel document réglementaire (PDF, HTML, XML, TXT) et obtenez des insights structurés instantanément
- Support Multi-Formats : Gère les directives UE, projets de loi américains, lois chinoises, réglementations japonaises, et plus encore
- Extraction de Données Structurées : Identifie automatiquement :
- Entreprises, secteurs et régions géographiques affectés
- Mesures réglementaires (taxes, restrictions, subventions, exigences de conformité)
- Dates clés (publication, dates d'entrée en vigueur, périodes de transition)
- Pénalités et mécanismes d'application
2. 📊 Tableau de Bord Interactif
- Vue d'Ensemble du Portefeuille : Vue en temps réel de la composition S&P 500 avec 500 entreprises
- Métriques de Risque : Scores de risque agrégés, estimations d'impact financier
- Visualisations Interactives :
- Cartes thermiques d'exposition sectorielle
- Distribution géographique du risque
- Analyse détaillée du risque par entreprise
- Graphiques en cascade de l'impact financier
3. 🤖 Chatbot Financier Alimenté par l'IA
- RAG (Retrieval Augmented Generation) : Interface conversationnelle avec accès à :
- Toutes les extractions de documents réglementaires
- Univers complet d'entreprises S&P 500 (500 entreprises)
- Analyses d'impact historiques
- Données financières du marché
- Requêtes en Langage Naturel : Posez des questions comme :
- "Quel est l'impact de l'EU AI Act sur Apple ?"
- "Quels secteurs sont les plus exposés à la loi énergétique chinoise ?"
4. 📈 Analyse d'Impact Complète
- Cadre d'Évaluation DCF à 3 Niveaux :
- Niveau 1 : Estimation d'impact direct sur revenus/dépenses
- Niveau 2 : Impact sur marge opérationnelle et flux de trésorerie
- Niveau 3 : Ajustements du taux d'actualisation et impact sur la valeur terminale
- Scoring de Risque : Évaluation du risque multifactorielle par entreprise (échelle 0-100)
- Algorithme de Correspondance : Correspondance intelligente entre exigences réglementaires et expositions d'entreprises basée sur :
- Présence géographique (depuis les déclarations 10-K)
- Classification secteur/industrie
- Exposition par segment d'affaires
- Dépendances de la chaîne d'approvisionnement
5. 💡 Recommandations Actionnables
- Signaux de Trading Quantitatifs :
- Signaux fondamentaux (impact valeur long terme)
- Signaux momentum (détection de mauvaise valorisation court terme)
- Signaux de concentration (gestion des risques)
- Signaux alpha composites pour différentes stratégies d'investissement
- Recommandations de Portefeuille :
- Actions spécifiques : Réduire/Augmenter/Maintenir pour chaque position
- Suggestions de rotation sectorielle
- Guidance de réallocation géographique
- Justifications détaillées avec support quantitatif
Excellence Technique
- Cache Intelligent : Réduction de coût de 90%+ grâce au cache S3 intelligent
- Optimisation des Coûts : Pré-filtrage avec Amazon Comprehend avant Bedrock
Comment Nous l'avons Construit
Vue d'Ensemble de l'Architecture
ReguAI suit une architecture modulaire serverless optimisée pour les services AWS :
Document Réglementaire → Extraction de Texte (Textract) →
Classification LegalBERT → Extraction Bedrock →
Correspondance Univers Entreprises → Calcul d'Impact →
Génération de Signaux → Recommandations → Tableau de Bord
Pile Technologique
IA & Machine Learning
- Amazon Bedrock : Moteur d'IA générative central
- Claude Sonnet 4.5 : Raisonnement complexe et génération de recommandations
- Claude Haiku : Extractions rapides et rentables
- Cohere Embed v4 : Embeddings sémantiques pour RAG
- LegalBERT (
nlpaueb/legal-bert-base-uncased) : Classification de documents - LangChain : Orchestration LLM et pipeline RAG
- FAISS : Recherche de similarité vectorielle pour la récupération de connaissances
Traitement de Données
- Amazon Textract : Extraction de texte depuis PDF
- Amazon Comprehend : Pré-filtrage et détection d'entités (optimisation des coûts)
- sec-parser : Parsing spécialisé des rapports SEC 10-K
- BeautifulSoup4 & lxml : Parsing HTML/XML pour documents réglementaires
Frontend & Visualisation
- Streamlit : Application web interactive
- Plotly : Visualisations interactives avancées (treemaps, cartes thermiques, graphiques en cascade)
Données & APIs
- Amazon S3 : Stockage de données centralisé avec cache intelligent
- yfinance : Enrichissement de données de marché en temps réel
- Tavily API : Recherche web pour actualités récentes et contexte
Backend & Infrastructure
- boto3 : Intégration SDK AWS
- instructor[bedrock] + Pydantic : Extraction de données structurées
- pandas & numpy : Manipulation et analyse de données
Processus de Développement
Construction du Pipeline de Données
- Traité 500+ déclarations 10-K d'entreprises S&P 500
- Extrait des points de données structurés (géographie, segments, chaînes d'approvisionnement)
- Généré le dataset Company Universe unifié
- Analysé 7+ documents réglementaires de multiples juridictions
Intégration de Modèles IA
- Implémenté client Bedrock avec support multi-modèles
- Construit système RAG avec vector store (FAISS)
- Créé pipelines d'extraction structurés avec modèles Pydantic
- Optimisé pour coût et performance
Moteur d'Analyse d'Impact
- Développé cadre d'évaluation DCF à 3 niveaux
- Créé algorithme de correspondance intelligent (géographie × secteur × segment)
- Implémenté méthodologie de scoring de risque
- Construit système de génération de signaux quantitatifs
Interface Utilisateur
- Conçu application Streamlit multi-pages intuitive
- Créé visualisations interactives
- Implémenté interface chatbot conversationnelle
- Ajouté documentation complète
Optimisation & Prêt pour la Production
- Implémenté cache intelligent (réduction de coût 90%+)
- Ajouté gestion d'erreurs robuste et mécanismes de secours
- Optimisé pour scalabilité et maintenabilité
Technologies Utilisées
Services AWS
- Amazon Bedrock : IA générative (modèles Claude, embeddings Cohere)
- Amazon Textract : Extraction de texte depuis documents
- Amazon Comprehend : Pré-filtrage NLP et détection d'entités
- Amazon S3 : Stockage de données et cache
- AWS Lambda : Traitement serverless (architecture prête)
Frameworks IA/ML
- LangChain : Orchestration LLM
- FAISS : Recherche de similarité vectorielle
- PyTorch : Backend deep learning
- Transformers (Hugging Face) : Modèle LegalBERT
- instructor : Extraction structurée avec Bedrock
Bibliothèques Python
- Streamlit : Framework d'application web
- pandas, numpy : Analyse de données
- Plotly : Visualisations interactives
- BeautifulSoup4, lxml : Parsing HTML/XML
- sec-parser : Parsing déclarations SEC
- yfinance : Données de marché
- Pydantic : Validation de données
APIs & Services Externes
- Tavily API : Recherche web et agrégation d'actualités
Défis Rencontrés
Défi 1 : Traitement de Données à Grande Échelle
Problème : Traiter efficacement 500+ déclarations 10-K d'entreprises (chacune 100-300 pages) et plusieurs documents réglementaires.
Solution :
- Implémenté traitement par lots avec ThreadPoolExecutor
- Construit système de cache intelligent dans S3 (réduction de coût)
- Utilisé traitement sélectif : analyser uniquement les entreprises correspondant aux réglementations
- Optimisé utilisation Bedrock avec pré-filtrage via Comprehend
Défi 2 : Correspondance Précise Entre Réglementations et Entreprises
Problème : Faire correspondre avec précision les exigences réglementaires (secteurs, pays, mesures) avec les expositions d'entreprises (géographie, segments, chaînes d'approvisionnement).
Solution :
- Développé algorithme de correspondance multifactorielle (géographie × secteur × segment)
- Extrait données structurées depuis réglementations et déclarations 10-K avec Bedrock
- Créé système de scoring de confiance pour les correspondances
- Implémenté capacité de revue manuelle pour cas limites
Défi 3 : Optimisation des Coûts pour Modèles IA
Problème : Les appels API Bedrock peuvent être coûteux lors du traitement de centaines de documents.
Solution :
- Implémenté cache basé sur S3 (taux de succès cache )
- Utilisé Comprehend pour pré-filtrage (réduction de tokens 70-80%)
- Optimisé sélection de modèle (Haiku pour extractions, Sonnet pour raisonnement complexe)
- Traitement par lots pour amortir overhead API
Défi 4 : Performance RAG en Temps Réel
Problème : Assurer des temps de réponse rapides pour les requêtes chatbot tout en maintenant la précision.
Solution :
- Implémenté vector store FAISS pour recherche de similarité rapide
- Mis en cache les embeddings pour éviter recalcul
- Utilisé Cohere Embed v4 pour embeddings de haute qualité
- Rationalisé pipeline RAG avec LangChain
Défi 5 : Gestion de Formats de Documents Multiples
Problème : Les documents réglementaires arrivent dans divers formats (HTML, XML, PDF, TXT) avec structures différentes.
Solution :
- Pipeline de parsing unifié supportant tous les formats
- Textract pour extraction PDF
- BeautifulSoup4 pour HTML/XML
- Mécanismes de secours robustes pour cas limites
Défi 6 : Modélisation d'Impact Quantitatif
Problème : Traduire les impacts réglementaires qualitatifs en estimations financières quantitatives.
Solution :
- Développé cadre DCF à 3 niveaux avec analyse de sensibilité
- Créé estimations d'impact ajustées pour confiance
- Implémenté calculs de prime de risque
- Construit système de génération de signaux avec multiples stratégies d'investissement
Réalisations dont Nous Sommes Fiers
🏆 Réalisations Techniques
Pipeline Complet End-to-End
- Automatisé avec succès l'ensemble du flux de travail du téléversement de document aux recommandations de portefeuille
- Traité 500+ entreprises et 7+ documents réglementaires
- Généré insights actionnables en minutes vs. semaines manuellement
Intégration IA Avancée
- Implémenté système RAG sophistiqué avec base de connaissances de 500+ entreprises
- Atteint extractions structurées de haute qualité depuis documents juridiques complexes
- Construit algorithme de correspondance intelligent avec scoring de confiance
Optimisation des Coûts
- Atteint taux de succès cache 75%+, réduisant drastiquement les coûts API
- Implémenté stratégie de pré-filtrage réduisant tokens Bedrock de 70-80%
- Sélection de modèle intelligente (Haiku vs. Sonnet) basée sur complexité de la tâche
Rigueur Quantitative
- Développé cadre d'évaluation DCF à 3 niveaux complet
- Créé système de génération de signaux quantitatifs supportant multiples stratégies d'investissement
- Implémenté scoring de risque avec analyse multifactorielle
Architecture Prête pour la Production
- Codebase modulaire, maintenable
- Gestion d'erreurs complète et mécanismes de secours
- Design scalable supportant AWS Lambda
🎯 Impact & Innovation
Applicabilité Monde Réel
- Adresse un point de douleur réel en gestion de portefeuille
- Gère documents réglementaires réels de multiples juridictions
- Fournit recommandations actionnables avec justification quantitative
Ensemble de Fonctionnalités Complet
- Analyse de documents + Tableau de bord + Chatbot + Analyse d'impact
- Supporte multiples stratégies d'investissement (long-only, long-short, risk parity, balanced)
- Visualisations interactives pour toutes les analyses
Excellence Expérience Utilisateur
- Interface Streamlit intuitive
- Requêtes chatbot en langage naturel
- Recommandations claires et actionnables avec justifications détaillées
Scalabilité & Extensibilité
- Conçu pour gérer nouvelles réglementations au fur et à mesure de leur émergence
- Architecture supporte ajout de nouvelles sources de données
- Design modulaire permet ajouts de fonctionnalités faciles
Ce Que Nous Avons Appris
Apprentissages Techniques
Intégration AWS Bedrock
- Compréhension approfondie des différents modèles Claude et leurs cas d'usage
- Stratégies d'optimisation pour coût et performance
- Patterns d'extraction structurés avec instructor + Pydantic
Implémentation RAG
- Importance des embeddings de haute qualité (Cohere Embed v4)
- Optimisation vector store pour récupération rapide
- Équilibrer taille de fenêtre contextuelle avec précision
Traitement de Données à Grande Échelle
- Stratégies de cache pour opérations coûteuses
- Techniques de traitement par lots et parallélisation
- Traitement sélectif pour réduire charge computationnelle
Modélisation Financière
- Cadres d'évaluation DCF pour impact réglementaire
- Méthodologies d'estimation de prime de risque
- Génération de signaux pour différentes stratégies d'investissement
Apprentissages Domaine
Paysage Réglementaire
- Compréhension des différentes structures de documents réglementaires (directives UE, projets de loi US, lois chinoises)
- Reconnaissance de comment réglementations affectent différents secteurs et géographies
Gestion de Portefeuille
- Approches quantitatives d'évaluation du risque
- Intégration d'analyse réglementaire qualitative avec décisions de portefeuille quantitatives
- Importance de l'explicabilité dans recommandations financières
Traitement de Données Financières
- Complexité du parsing de déclarations SEC 10-K
- Extraction d'insights significatifs depuis documents financiers non structurés
- Recoupement de multiples sources de données pour analyse complète
Prochaines Étapes
Améliorations Court Terme
Analyse d'Impact Améliorée
- Intégration données de marché en temps réel pour mises à jour d'impact dynamiques
- Framework de backtesting pour valider précision des signaux
- Analyse de scénarios multi-réglementations
Fonctionnalités Avancées
- Système d'alertes pour nouvelles publications réglementaires
- Suivi historique d'impact réglementaire
- Analyse comparative à travers multiples réglementations
Expérience Utilisateur
- Fonctionnalité d'export (rapports PDF, feuilles de calcul Excel)
- Téléversement de portefeuille personnalisé (pas seulement S&P 500)
- Capacités de filtrage et recherche avancées
Vision Long Terme
Déploiement en Production
- Déploiement AWS Lambda complet pour scalabilité serverless
- Intégration DynamoDB pour stockage de données en temps réel
- Pipeline CI/CD pour déploiements automatisés
Analytics Avancés
- Modèles machine learning pour prédiction d'impact
- Intégration analyse de sentiment pour prédiction réaction marché
- Optimisation stratégie automatisée
Fonctionnalités Entreprise
- Support multi-utilisateurs avec authentification
- Contrôle d'accès basé sur rôles
- Trails d'audit et reporting de conformité
- Accès API pour intégration programmatique
Expansion
- Support indices supplémentaires (NASDAQ, Dow Jones, international)
- Intégration plus de sources de données (Bloomberg, Reuters)
- Support dérivés et actifs alternatifs
Démo / Essayez-le
Démarrage Rapide
# Installer dépendances
pip install -r requirements.txt
# Configurer credentials AWS
export AWS_ACCESS_KEY_ID=votre_clé
export AWS_SECRET_ACCESS_KEY=votre_secret
export AWS_DEFAULT_REGION=us-east-1
# Lancer application
streamlit run scripts/app.py
Flux de Travail Clés à Essayer
- Analyse de Documents : Téléversez un document réglementaire et voyez l'extraction automatique
- Chatbot : Posez des questions sur les impacts réglementaires sur des entreprises spécifiques
- Analyse d'Impact : Visualisez analyse de risque complète et recommandations
- Tableau de Bord : Explorez visualisations de portefeuille et métriques
Documentation
- Documentation complète disponible dans le repository
- Guide :
doc/GUIDE_COMPLET_PROJET_DATATHON.md - Guide rapide :
doc/QUICK_START_GUIDE.md - Architecture :
doc/DIAGRAMME_STACK_TECHNIQUE.md
Repository
GitHub : [https://github.com/Rayyan-Oumlil/ReguAI]
Documentation : Voir dossier doc/ dans repository
Construit Avec
- Amazon Bedrock
- Streamlit
- LangChain
- FAISS
- AWS S3, Textract, Comprehend
- Python
- Plotly
Remerciements
- Datathon PolyFinances 2025 pour le défi et les datasets
- AWS pour fournir Bedrock et autres services cloud
- Hugging Face pour le modèle LegalBERT
- La communauté open-source pour excellents outils et bibliothèques
Notes de Soumission
Ce projet a été développé pour le défi Datathon PolyFinances 2025. Tout le code, documentation et analyse ont été créés pendant la période du datathon. Le projet démontre :
- Intégration IA/ML avancée avec AWS Bedrock
- Pipeline de traitement de données complet
- Architecture prête pour la production
- Application financière monde réel
- Stratégies d'optimisation des coûts
- Excellence expérience utilisateur
Log in or sign up for Devpost to join the conversation.