FAQ sur la nouvelle plateforme de transcription OCR pour les factures

Emburse déploie une nouvelle plateforme de transcription OCR (reconnaissance optique de caractères [Optical Character Recognition]) alimentée par l’IA à partir de début 2025. Voici les réponses aux questions fréquemment posées.

Généralités

Qu’est-ce que la transcription OCR ?

La transcription OCR (Reconnaissance optique de caractères [Optical Character Recognition]) d’Emburse est une technologie de saisie des reçus et des factures optimisée par l’IA qui analyse, extrait et catégorise intelligemment les données de reçus et de factures avec une précision inégalée.

Pourquoi Emburse modifie-t-elle sa technologie de transcription OCR ?

Nous nous engageons à améliorer continuellement la qualité et la portée mondiale de nos capacités OCR, et c’est la raison pour laquelle nous apportons cette évolution. Le nouveau moteur utilise une technologie de transcription OCR optimisée par IA qui offre une précision significativement supérieure et peut traiter des documents en plusieurs langues. Cette mise à niveau est conçue pour résoudre les limitations précédentes et fournir des résultats plus fiables, afin d’améliorer les performances et l’expérience utilisateur dans son ensemble.

Quelles évolutions les clients peuvent-ils attendre de la nouvelle technologie OCR en termes de fonctionnalités, d’assistance sur le terrain et d’assistance régionale ?

Notre premier objectif est d’améliorer la précision de la saisie des factures grâce à une technologie modernisée. Nous augmentons également le nombre de pays pris en charge.

Précision

Quel est le degré de précision de la nouvelle technologie de transcription OCR ?

La technologie de transcription OCR est particulièrement avancée et plus précise que les versions précédentes. Les améliorations concrètes de la précision dépendent du pays, du produit et du terrain. Cependant, nous constatons une augmentation moyenne de plus de 20 % dans toutes les utilisations.

Comment cette précision permet-elle d’automatiser d’autres aspects des solutions de facturation Emburse ?

Les avantages se répercutent sur tout le traitement des factures en aval de la transcription OCR. Par exemple, la correspondance entre le fournisseur et l’adresse du fournisseur sera plus précise, et la qualité de nos produits d’audit et d’analyse s’améliorera également.

Caractéristiques

La transcription OCR est-elle capable de prendre en charge plusieurs langues ?

Oui, notre transcription OCR est très efficace dans de nombreuses langues. Elle est particulièrement efficace dans les langues couramment parlées comme l’anglais, l’espagnol, le français ou l’allemand. Cependant, la précision peut varier pour les langues à deux octets avec des systèmes d’écriture logographiques ou syllabiques, comme le chinois, le japonais et le coréen, ainsi que pour les langues ou dialectes moins couramment parlés. D’autres améliorations sont attendues dans un avenir proche.

Formation

Comment se déroule l’entraînement d’Emburse AI ?

Emburse AI est développé à l’aide d’une approche multicouche qui combine plusieurs modèles linguistiques à grande échelle (Large Language Models, LLM) d’entreprise pour étiqueter et traiter des millions de documents. Il est important de noter que cela a lieu sans jamais stocker les données des clients en dehors de l’infrastructure sécurisée d’Emburse et, dans le strict respect de nos obligations contractuelles et de conformité, aucun modèle externe n’est entraîné avec les données des clients.

Les données étiquetées sont utilisées pour affiner les modèles open source qui sont déployés et exploités exclusivement au sein de l’infrastructure d’Emburse. Ces modèles sont optimisés pour comprendre les documents financiers structurés tels que les factures et les reçus. Le processus d’entraînement est conçu pour garantir l’exactitude et l’adaptabilité des formats de documents tout en protégeant strictement les données des clients.

Les données des clients permettent-elles l’entraînement d’Emburse AI pour d’autres clients d’Entreprise ?

Emburse AI est un modèle à usage général utilisé chez tous les clients Enterprise. Lorsque nous affinons le modèle de base, nous le faisons une seule fois, en utilisant un ensemble de données organisé pouvant inclure des données provenant de plusieurs clients. Cependant, ce processus a lieu au sein de l’infrastructure sécurisée d’Emburse, et aucune partie externe ni aucun modèle tiers n’accède jamais à ces données.

Bien que le modèle qui en résulte soit ensuite partagé, aucune donnée spécifique à un client n’est exposée ou identifiable au sein du modèle. Le processus d’entraînement est soigneusement conçu en vue de l’apprentissage de modèles et structures généraux à partir des données, et non pas pour stocker ou reproduire du contenu spécifique à des clients. Cela permet à Emburse AI de bien généraliser les cas d’usage tout en maintenant des normes strictes de confidentialité et de sécurité pour tous les clients.

Confidentialité/Sécurité

Comment la transcription OCR d’Emburse gère-t-elle les problèmes de confidentialité et de sécurité ?

La confidentialité et la sécurité ont été prises en compte dès le développement de la nouvelle technologie de transcription OCR. Les données soumises ne sont jamais stockées en dehors de l’infrastructure de données d’Emburse et ne sont jamais utilisées pour entraîner des modèles externes.

Comment la transcription OCR d’Emburse gère-t-elle les problèmes de confidentialité et de sécurité liés à l’utilisation de services basés sur l’IA ?

La confidentialité et la sécurité ont été prises en compte dès le développement de la nouvelle technologie de transcription OCR. Les données soumises ne sont jamais stockées en dehors de l’infrastructure de données d’Emburse et ne sont jamais utilisées pour entraîner des modèles externes. Veuillez consulter notre Trust Center pour en savoir plus sur la façon dont Emburse protège vos données.

Comment veillez-vous à ce que nos données ne puissent pas être extraites d’Emburse AI par infiltration de requête sur les images des reçus ou par tout autre moyen ?

L’infiltration de requête est une technique dans laquelle des instructions cachées sont intégrées dans un texte ou des images afin de manipuler le comportement d’un LLM. Emburse AI est protégé contre l’infiltration de requête grâce à une architecture pré-traitement et post-traitement stricte.

  • Le pré-traitement inspecte et désinfecte toutes les entrées avant qu’elles n’atteignent le modèle, garantissant ainsi qu’aucun contenu lié à un utilisateur ou un document ne peut manipuler le comportement du LLM.
  • Le post-traitement impose une validation stricte des résultats, garantissant ainsi que les réponses du modèle sont conformes à un schéma prédéfini aligné sur nos attentes en matière de produit et de sécurité (par ex. l’application de formats de date cohérents tels que aaaa-mm-jj et l’interdiction des résultats en texte libre qui pourraient exposer des données brutes).

Ces contrôles sont conçus pour empêcher toute forme d’infiltration de requête ou de manipulation de modèle, et permettent à la fois l’intégrité des données et la fiabilité des résultats.

Assistance

Qui puis-je contacter en cas de problème ?

Veuillez contacter l’assistance si vous rencontrez des problèmes liés au téléversement de documents ou au traitement des problèmes liés. Si vous constatez des problèmes occasionnels et non systémiques avec l’extraction de données inexactes via la transcription OCR, vous n’avez pas besoin de contacter l’assistance. Nous améliorons sans cesse le moteur sous-jacent. La meilleure pratique consiste simplement à corriger l’erreur en écrasant les informations dans l’application.

Déploiement

Quand mon entreprise bénéficiera-t-elle de la mise à niveau vers la nouvelle technologie de transcription OCR ?

Le déploiement commencera au 1er trimestre 2025. Emburse vous contactera afin de vous indiquer les dates exactes pour votre entreprise.

Cet article vous a-t-il été utile ?