API de Chat

La Chat API est le service backend Hono.js qui alimente l’assistant fiskaly Workspace. Il fournit du streaming Server-Sent Events (SSE), la récupération de contexte RAG via Vertex AI, et une couche de sécurité robuste pour le chat public et les tableaux de bord d’administration.

Fonctionnalités principales

Réponses en streaming — Les Server-Sent Events (SSE) fournissent des caractères à faible latence et des métadonnées structurées.
Ancrage RAG — Le contexte est récupéré depuis 5 sources intégrées (Docs MDX, OpenAPI, Base de connaissances Zendesk, Web et PDFs).
Deux modèles — Les requêtes sont routées intelligemment entre Gemini 2.5 Pro (requêtes complexes) et Gemini 2.0 Flash (requêtes simples/salutations).
Système de persona — Personnalisez les réponses pour les développeurs, les chefs de produit ou les opérateurs retail avec des comportements de repli différents.

Intégration API

Pour utiliser la Chat API, vous créerez généralement une session anonyme, puis ouvrirez une connexion EventSource vers l’endpoint de streaming /api/chat.

1. Créer une session

POST /api/session

Retourne un token de session JWT nécessaire pour la limitation de débit et la continuité.

2. Diffuser une conversation

POST /api/chat
Authorization: Bearer <session_token>
Content-Type: application/json

{
  "message": "How do I create a TSS in SIGN DE?",
  "persona": "developer",
  "history": []
}

La réponse est un flux SSE émettant des payloads JSON avec le préfixe data:. Le flux contiendra à la fois des fragments de texte et des métadonnées (comme des citations récupérées ou le score de qualité final).

💡Vous utilisez React ?

Si vous développez une application React, nous fournissons une bibliothèque UI complète prête à l’emploi. Consultez la documentation sur les Composants UI de Chat plutôt que de créer le client SSE de zéro.

Sécurité et limites

La Chat API inclut des garde-fous stricts pour une utilisation en production :

Limitation de débit — 5 messages par minute, 30 par heure par session.
Filtrage des entrées — Détection de jailbreak et validation de la longueur (max 3000 caractères par message).
Filtrage des sorties — Analyse PII et vérification du fondement.
Garde-budget — Une limite de dépenses journalière configurable pour l’ensemble du locataire prévient les coûts LLM inattendus.

Réindexation du contenu

La base de connaissances RAG est automatiquement réindexée quotidiennement à 3h00 UTC via un CronJob Kubernetes. Cela garantit que la documentation nouvelle ou mise à jour, les articles Zendesk et les spécifications API se reflètent dans les réponses du chat dans les 24 heures.

Tableau de bord d’administration

Le service chat-api héberge également une SPA React interne sur /admin/*, sécurisée par Google OAuth. Le tableau de bord fournit :

Révision des conversations et étiquetage de qualité.
Éléments d’action (Todos) pour l’amélioration du contenu.
Surcharges de prompts LLM basées sur des déclencheurs de mots-clés.
Analyses d’utilisation, de coûts et de budget.

Prochaines étapes

Composants UI de Chat

Composants React prêts à l'emploi pour le Widget Chat de fiskaly et l'expérience pleine page.

Code source backend

Voir le code source de l'API sous-jacente, incluant les routes Hono et le pipeline RAG.

Was this page helpful?