Aller au contenu

API de Chat

La Chat API est le service backend Hono.js qui alimente l’assistant fiskaly Workspace. Il fournit du streaming Server-Sent Events (SSE), la récupération de contexte RAG via Vertex AI, et une couche de sécurité robuste pour le chat public et les tableaux de bord d’administration.

  • Réponses en streaming — Les Server-Sent Events (SSE) fournissent des caractères à faible latence et des métadonnées structurées.
  • Ancrage RAG — Le contexte est récupéré depuis 5 sources intégrées (Docs MDX, OpenAPI, Base de connaissances Zendesk, Web et PDFs).
  • Deux modèles — Les requêtes sont routées intelligemment entre Gemini 2.5 Pro (requêtes complexes) et Gemini 2.0 Flash (requêtes simples/salutations).
  • Système de persona — Personnalisez les réponses pour les développeurs, les chefs de produit ou les opérateurs retail avec des comportements de repli différents.

Pour utiliser la Chat API, vous créerez généralement une session anonyme, puis ouvrirez une connexion EventSource vers l’endpoint de streaming /api/chat.

POST /api/session

Retourne un token de session JWT nécessaire pour la limitation de débit et la continuité.

POST /api/chat
Authorization: Bearer <session_token>
Content-Type: application/json
{
"message": "How do I create a TSS in SIGN DE?",
"persona": "developer",
"history": []
}

La réponse est un flux SSE émettant des payloads JSON avec le préfixe data:. Le flux contiendra à la fois des fragments de texte et des métadonnées (comme des citations récupérées ou le score de qualité final).

La Chat API inclut des garde-fous stricts pour une utilisation en production :

  • Limitation de débit — 5 messages par minute, 30 par heure par session.
  • Filtrage des entrées — Détection de jailbreak et validation de la longueur (max 3000 caractères par message).
  • Filtrage des sorties — Analyse PII et vérification du fondement.
  • Garde-budget — Une limite de dépenses journalière configurable pour l’ensemble du locataire prévient les coûts LLM inattendus.

La base de connaissances RAG est automatiquement réindexée quotidiennement à 3h00 UTC via un CronJob Kubernetes. Cela garantit que la documentation nouvelle ou mise à jour, les articles Zendesk et les spécifications API se reflètent dans les réponses du chat dans les 24 heures.

Le service chat-api héberge également une SPA React interne sur /admin/*, sécurisée par Google OAuth. Le tableau de bord fournit :

  • Révision des conversations et étiquetage de qualité.
  • Éléments d’action (Todos) pour l’amélioration du contenu.
  • Surcharges de prompts LLM basées sur des déclencheurs de mots-clés.
  • Analyses d’utilisation, de coûts et de budget.

Was this page helpful?