Sommaire
NovaQuantiX est un cabinet d'ingénierie IA fondé par Julien Compain. Nous livrons des artefacts de production — pas des prototypes, pas des slides — et transférons la propriété complète à la fin de chaque mission. Chaque service ci-dessous est cadré, facturé et livré de la même manière : phases à prix fixe, builds signés, évaluations rejouables et procédure de transfert documentée.
1 · Serveurs MCP sur mesure
De quoi s'agit-il. Un serveur Model Context Protocol sur mesure est le pont entre vos systèmes internes (APIs, bases de données, GED, logique métier) et les agents IA tels que Claude Desktop, Cursor, Windsurf, Cline ou tout orchestrateur headless. Nous concevons, développons, durcissons et opérons ce pont.
Ce que nous livrons
- Un dépôt autonome (TypeScript ou Python) implémentant le serveur MCP, avec outils stateful, I/O en streaming, logs structurés et traces compatibles OpenTelemetry.
- Outils schema-first : chaque outil expose un schéma Zod (TS) ou Pydantic (Python), un contrat d'erreur explicite et des scopes de permission.
- Couche d'authentification : OAuth 2.1, mTLS ou clés API selon votre environnement, avec rotation et refresh intégrés.
- Observabilité : métriques par outil, histogrammes de latence, suivi d'error budget et logs de session rejouables.
- Durcissement production : rate-limit, circuit breaker, retry-with-backoff, validation d'entrée, scoping des secrets et attestation supply chain.
- Releases signées Ed25519 et log de build chaîné Merkle pour vérifier tout déploiement a posteriori.
- Runbook : procédure de déploiement, playbook d'astreinte, checklist de version-bump et documentation d'intégration pour les agents consommateurs.
Cas d'usage typiques
- Exposition d'un CRM interne, d'un ticketing ou d'un data warehouse à Claude pour des workflows commerce / support / analytique.
- Encapsulation d'un moteur de recherche métier, d'une base vectorielle ou d'une GED juridique en outils MCP.
- Construction d'outils d'écriture sûrs (création de tickets, modification de fichiers, mise à jour de calendrier) avec validation humaine et trace d'audit.
Durée
2 à 6 semaines selon le nombre d'outils, la profondeur d'intégration et la posture de sécurité requise. Le premier livrable (squelette fonctionnel) tombe à la fin de la semaine 1.
2 · Fine-tuning open-weight
De quoi s'agit-il.Nous prenons un modèle open-weight récent (DeepSeek V4, Kimi K2.6, GLM 5.1, Qwen 3.7, Gemma 4, Llama 4) et l'adaptons à votre domaine — vos documents, votre ton, vos patterns d'outils, vos garde-fous — au moyen de runs reproductibles que vous pouvez ré-exécuter sans nous.
Méthodes utilisées
- QLoRA / LoRApour l'adaptation domaine à coût maîtrisé sur budget GPU limité.
- Fine-tuning complet quand le décalage de domaine est important ou que la latence justifie un modèle distillé plus petit.
- GRPO(Group Relative Policy Optimization) pour les tâches de raisonnement et l'entraînement à récompense vérifiable, popularisé par DeepSeek et désormais supporté nativement dans Unsloth Studio et torchtune.
- DPO & KTOpour l'alignement par préférences sans modèle de récompense séparé.
- Distillationd'un modèle de pointe (par ex. Claude Opus 4.8) vers un modèle open-weight plus petit et déployable.
Ce que nous livrons
- Pipeline de dataset : collecte, déduplication, décontamination contre les benchmarks publics, formatage et versioning.
- Dépôt d'entraînement : data loader, script de training, configuration d'hyperparamètres, runs multi-seed et tracking W&B / MLflow.
- Suite d'évaluation Inspect-AI avec datasets versionnés et seeds déterministes — votre équipe peut rejouer la même éval au jour 365 et obtenir les mêmes chiffres.
- Artefacts d'inférence quantifiés (GGUF, AWQ, MLX selon le cas) et configuration de serving vLLM ou SGLang.
- Model card signée documentant données d'entraînement, résultats d'évaluation, limitations connues et usage prévu.
Durée
3 à 8 semaines selon la complexité du dataset, la taille du modèle et la surface d'évaluation. La baseline d'évaluation est livrée dans les 10 premiers jours pour mesurer chaque run suivant contre un point fixe.
3 · Architecture & audit d'agents
De quoi s'agit-il.Revue d'architecture écrite de votre système agentique existant ou projeté — agent unique, multi-agents, pipeline de retrieval, orchestration routée par RL — couvrant correction, sécurité, latence, coût et menaces.
Ce que nous livrons
- Document d'architecture (ADR) écrit décrivant la topologie recommandée, la stratégie de routage de modèles, la conception du retrieval et la surface d'outils.
- Budget de tokens et coûts par chemin critique, avec analyse de sensibilité à 1×, 10×, 100× le volume.
- Modèle de menace identifiant les vecteurs d'injection de prompt, les chemins d'exfiltration, les cas de mésusage d'outils et les mitigations.
- Budget de latence spécifiant les cibles p50, p95, p99 par outil et de bout en bout.
- Rapport de red-team avec scénarios d'attaque documentés, comportement observé et plan de remédiation.
Cas d'usage typiques
- Revue pré-lancement d'un agent grand-public avant mise en production.
- Validation d'une conception d'orchestration multi-agents (par ex. router + spécialistes, pattern RL conductor).
- Audit de réduction de coûts sur un déploiement existant surconsommateur de tokens.
Durée
2 à 4 semaines. Périmètre et prix fixes.
4 · Essaims d'agents autonomes
De quoi s'agit-il.Pipelines d'agents en production — de l'agent unique outil-utilisateur aux essaims coordonnés jusqu'à 300 sous-agents — conçus pour la fiabilité, la rejouabilité et le contrôle humain.
Ce que nous livrons
- Orchestrateur déterministe avec état structuré, transitions explicites et event sourcing complet — chaque run est rejouable byte-à-byte.
- Fan-out de sous-agents avec budgets par agent (tokens, temps, nombre d'appels d'outils), kill-switches automatiques et agrégation par quorum.
- Points de contrôle avec validation humaine : approval gates typés que l'on câble dans vos surfaces de revue existantes (Slack, dashboards, e-mail).
- Exécution reprenable : tout run peut être pausé, inspecté, édité, forké et repris. Les échecs sont des états first-class, pas des exceptions.
- Télémétrie production : coût, latence, taux de succès par run, et alertes de drift par rapport à la baseline.
Cas d'usage typiques
- Recherche et synthèse documentaire à grande échelle (juridique, financière, biomédicale).
- Pipelines de modernisation de code (audit, plan, refactor, revue).
- Triage de support client avec escalade déterministe.
- Revue de conformité d'artefacts internes avant publication.
Durée
4 à 12 semaines selon le nombre d'agents, la surface d'intégration et l'environnement réglementaire.
Modèle d'engagement
Toute mission suit la même structure en trois phases à prix fixe. Pas de facturation horaire, pas de dérive de périmètre, pas de captation post-livraison.
- Cadrage & architecture (semaine 1).Cartographie des flux de données, des agents et des risques. Vous recevez un document d'architecture écrit, un budget fixe et un calendrier de livraison avant toute ligne de code.
- Ingénierie reproductible (semaines 2–6).Chaque commit déclenche un log de build immuable, un artefact signé Ed25519 et une run d'évaluation Inspect-AI. Les gates CI/CD sont explicites et vérifiés.
- Livraison & transfert de propriété (semaine 6+).Déploiement, documentation, formation de votre équipe et transfert complet de la propriété. Code source, clés de signature, dépôts, credentials de déploiement et baselines d'évaluation vous appartiennent.
Tarifs & livrables
Facturation par phases à prix fixe. Chaque devis est livré sous forme d'un document d'une page couvrant périmètre, budget, calendrier, risques et critères d'acceptation. Vous le recevez sous 48 heures après un appel découverte aligné.
NovaQuantiX est une pratique indépendante — Julien Compain délivre chaque mission directement, avec un réseau de collaborateurs seniors de confiance mobilisé uniquement quand le périmètre l'exige explicitement. Notre TJM de référence est 800 € à 1 200 € par jour-ingénieur, aligné sur le marché européen 2026 du freelance IA senior. Les fourchettes ci-dessous sont calculées en effort typique (jours × TJM). Le prix final dépend du périmètre, de la profondeur, de l'environnement réglementaire et des critères d'acceptation.
Serveur MCP sur mesure
- Ciblé — 3 à 5 outils, authentification standard, observabilité de base : 8 000 € à 15 000 € (2-3 semaines, ~10-15 jours).
- Standard — 5 à 15 outils, OAuth 2.1 / mTLS, observabilité complète, durcissement : 15 000 € à 30 000 € (3-5 semaines, ~15-25 jours).
- Entreprise — 15+ outils, multi-tenant, exigences de conformité, multi-régions : 30 000 € à 55 000 € (5-8 semaines, ~25-40 jours).
Fine-tuning open-weight
- Adaptation domaine — QLoRA sur dataset existant curé, évaluation mono-objectif : 14 000 € à 28 000 € (3-5 semaines, ~15-25 jours).
- Raisonnement & alignement— GRPO / DPO / KTO sur modèle open-weight intermédiaire, suite d'évaluation complète : 26 000 € à 50 000 € (5-8 semaines, ~25-40 jours).
- Distillation & production — modèle de pointe distillé vers open-weight déployable, inférence quantifiée, stack de serving : 44 000 € à 75 000 € (8-12 semaines, ~40-60 jours).
Le compute GPU(runs d'entraînement, recherche d'hyperparamètres, grilles d'évaluation) est refacturé à prix coûtant sur factures fournisseur — typiquement 2 000 € à 25 000 € selon la taille du modèle et le nombre de runs. La préparation de donnéesreprésente typiquement 30 à 50 % du budget d'un fine-tuning ; elle est explicitement chiffrée dans la proposition.
Architecture & audit d'agents
- Audit ciblé — un chemin critique, ADR écrit + budget coût-latence : 9 000 € à 17 000 € (2-3 semaines, ~10-15 jours).
- Architecture complète & red-team — topologie multi-agents, modèle de menace, budget coûts, rapport red-team documenté : 17 000 € à 32 000 € (3-5 semaines, ~15-25 jours).
Essaims d'agents autonomes
- Pipeline mono-flux — 1 à 5 agents spécialisés, 2 à 4 intégrations, validation humaine sur écriture : 18 000 € à 40 000 € (4-7 semaines, ~20-35 jours).
- Orchestration multi-agents — 10 à 50 sous-agents, routage RL, replay, monitoring de drift : 42 000 € à 78 000 € (8-12 semaines, ~40-60 jours).
- Essaim entreprise (équipe étendue) — 50 à 300 sous-agents, multi-tenant, environnement réglementé : 80 000 € à 180 000 €+ (12+ semaines, deux à trois collaborateurs seniors ajoutés à la mission sous une seule enveloppe contractuelle).
Suppléments conformité
Les environnements réglementés (SOC 2, ISO 27001, ISO 42001, HIPAA, classification haut-risque AI Act européen) ajoutent des livrables structurés à toute mission : contrôles documentés, collecte de preuves, support d'audit tiers. Prévoir +15 000 € à +80 000 € selon le framework, chiffré explicitement dans la proposition.
Livrables systématiques
Chaque mission est livrée avec : dépôt source, releases signées Ed25519, log de build chaîné Merkle, runbook, suite d'évaluation Inspect-AI, model card (le cas échéant), SBOM (CycloneDX) et un document final de transfert de propriété.
Pour les programmes long-terme, nous recommandons un modèle à deux niveaux : un build focalisé livré par NovaQuantiX (3 à 6 mois) suivi de la reprise par votre équipe interne pour les opérations — typiquement 30 à 45 % de TCO en moins par rapport à un prestataire mid-market end-to-end.
Questions fréquentes
Travaillez-vous avec des clients hors UE ?
Oui. Nous sommes basés en Europe et avons des ingénieurs sur plusieurs fuseaux horaires. Les contrats peuvent être rédigés sous la juridiction de votre choix sur accord préalable.
Signez-vous des NDA ?
Oui. Un NDA mutuel est signé avant toute discussion technique. Nous utilisons un MNDA standard ; votre propre template est aussi accepté.
Utilisez-vous nos données pour entraîner vos propres modèles ?
Non. Les données client sont traitées strictement dans le périmètre du contrat, jamais utilisées pour de l'entraînement général, et supprimées sur demande à la fin de la mission (voir Confidentialité).
Peut-on auto-héberger l'intégralité du livrable ?
Oui — c'est le défaut. Chaque artefact tourne sur votre infrastructure (cloud, dédiée ou on-premise). Nous ne détenons aucune clé de production après le transfert.
Que se passe-t-il si un modèle fine-tuné est en-dessous de la baseline ?
Les critères d'acceptation sont inscrits au SOW avec des seuils quantitatifs sur la suite Inspect-AI. Si un run rate le seuil, nous itérons dans le budget convenu, ou nous remboursons le milestone — à votre choix.
Proposez-vous un support après transfert ?
Sur demande, nous proposons un contrat de support structuré (forfait mensuel, SLA de réponse, revue trimestrielle). Il est opt-in et jamais inclus dans la mission initiale.
Contact
E-mail contact@novaquantix.tech ou réservez un appel découverte de 30 minutes sur cal.com/julien-compain. Nous répondons sous un jour ouvré avec une proposition d'une page — périmètre, budget et risques.