Veille

Intégrer vos données d’entreprise avec les modèles OpenAI

Date de l’événement 28 Mar. 2023
Temps de lecture min.

Notre précédent article posait les bases du fonctionnement de ChatGPT en indiquant que le service ne disposait pas encore d’API. Deux semaines plus tard, c’est chose faite, avec l’ensemble des modèles proposés par OpenAI disponibles sur Azure et consommables par API. Vous pouvez désormais les utiliser sur votre site web ou vos applications d’entreprise !

Intégrer vos données d’entreprise avec les modèles OpenAI

Si l’accès à ces API vous donne la possibilité d’exposer un modèle OpenAI au sein d’une interface conversationnelle (un chatbot par exemple), comment l’enrichir avec vos propres documents d’entreprise au sein de votre instance Azure ?
Vous pouvez bien sûr créer votre propre modèle en l’enrichissant de vos données d’entreprise. C’est un travail facilité par l’utilisation de modèles préexistants mais qui reste un chantier ambitieux.
La méthode utilisée par Microsoft est plus simple et se base uniquement sur du langage naturel :

L’utilisateur pose une question au sein de votre chatbot d’entreprise. Prenons l’exemple d’un adhérent à une mutuelle : “combien serai-je remboursé pour une séance de kinésithérapie ?”.
Afin de permettre au modèle de générer des réponses basées sur des données pertinentes, nous pouvons lui injecter ces informations directement sous la forme de “prompts”. Le modèle peut alors lire ces informations ainsi que toutes les instructions, contextes ou questions et y répondre en conséquence. Cette méthode ne nécessite pas de réentraîner ou de peaufiner le modèle, et les réponses peuvent refléter immédiatement les changements dans les données sous-jacentes.
L’injection de ces données sous forme de “prompts” peut s’effectuer à travers un service d’agrégation de données, tel que Cognitive Search dans l'écosystème Azure. C’est ce service qui vient puiser l’information stockée au sein de bases de données dans des au sein de bases de données pour alimenter le modèle sémantique.
À noter que le multilingue peut être directement géré par des “prompts” au sein de “prompts” pour traduire en temps réel. Un utilisateur peut ainsi poser une question en anglais à propos de vos données qui sont, elles, en français, par exemple.

Comment éviter les divagations du modèle et s’assurer de la fiabilité des réponses ?

Azure a mis en place au sein de ses modèles plusieurs garde-fous :

Citation directe : chaque réponse peut comprendre une citation avec un lien vers le contenu de la source.
Contenu de soutien : chaque réponse ou bulle de chat générée par ChatGPT dispose d'une option permettant d'afficher tous les contenus originaux qui ont été utilisés pour construire la réponse.
Processus d'orchestration : chaque réponse permet d’afficher l'ensemble du processus d'interaction avec l’utilisateur.

Quid de la sécurité et de la gouvernance des données ?
Comment s'assurer que les données ingérées par la solution ChatGPT au sein d'Azure restent confidentielles et anonymes ? L’actualité autour de ChatGPT ayant en effet été rythmée par plusieurs fuites de données personnelles.

Dans notre cas, les données ne restent qu’au sein de l’écosystème Microsoft avec les mêmes engagements de confidentialité et de sécurité que tous les autres services Azure. C’est la grande force du modèle : infuser de l’IA partout dans l’écosystème d’entreprise Microsoft qui est déjà bien implanté chez vous !

L’arrivée du système de plugins
C’est l’autre grande nouvelle de la semaine : ChatGPT intègre désormais un système de plugins pouvant améliorer ses capacités. Cette annonce, d'apparence technique, cache une avancée significative du service, notamment en matière d’usage.

En effet, ces plugins permettent au modèle d'accéder à des informations à jour, d'effectuer des calculs et d'utiliser des services tiers. C’est clairement un modèle type “assistant conversationnel” tel que nous le connaissons avec Siri, Alexa, ou Google Home : les utilisateurs peuvent réserver une table au restaurant, faire leurs courses en ligne, réserver un vol, se faire livrer un produit…

L’objectif est de permettre au modèle d'accéder à des informations à jour. Les modèles de langage traditionnels sont généralement formés sur un corpus de texte statique et ne sont donc pas en mesure de fournir des informations à jour. C’est pour cela que, lorsque vous utilisez la version grand public de chatGPT, vous ne pouvez obtenir des réponses que sur des évènements survenus jusqu’en 2021.Les plugins pour ChatGPT sont là pour permettre au modèle d'accéder à des données en temps réel.

Comment créer un plugin sur ChatGPT ?

C’est assez simple ! Il suffit de fournir l’accès à un point d’accès (endpoint) d’une API. Il peut s’agir d'une API existante ou d'une API encapsulée spécifiquement pour être consommée par le service ChatGPT. Rédigez une spécification OpenAPI documentant votre API, ainsi qu'un fichier manifeste qui renvoie à ladite spécification, et le tour est joué.

Limites du système de plugins

Côté utilisateurs, seuls ceux qui sont équipés du modèle payant GPT+ ont pour l’instant accès au service de plugins.
Contrôle du modèle : OpenAI a inclus une section dédiée aux « considérations de sécurité », qui indique que l’entreprise s’est renforcée en matière de sécurité : filtrage du contenu pour empêcher l'accès à des informations inappropriées, ainsi qu'un suivi de la fiabilité des sources et de la véracité des informations. Bien sûr, seul le temps prouvera la fiabilité du modèle !
Gouvernance des données : le point le plus délicat ! Ici nous ne sommes pas dans l’écosystème Azure. Les données de conversations sont toujours stockées sur les serveurs d’OpenAI (qui n’est pas open-source contrairement à ce que son nom pourrait faire penser), et vous ne pouvez pas y avoir accès. Par ailleurs, les conversations avec vos utilisateurs peuvent aussi servir à un ré-entraînement du modèle, ce qui peut vous poser un second problème.

Quelle est la suite ?

Nous n’avons pas de boule de cristal, mais il est certain que ces services vont avoir un impact important sur la façon dont le grand public va consommer du web. En attendant, n’hésitez pas à nous solliciter pour :

Combiner des services Azure OpenAI avec vos données d’entreprise pour créer des assistants conversationnels capables d’analyser et concaténer des informations complexes.

- Nos consultants data peuvent vous aider à travailler autour de cas d’usage et au mapping et découpage éventuel de vos documents source .
- Vous conseiller sur quel modèle d’OpenAI utiliser.
- Anticiper votre OPEX et travailler sur le business model (les API d’OpenAI étant, bien entendu, payantes !)