IA & confidentialité

Diarisation : attribuer chaque propos au bon intervenant

Mis à jour le 15 juin 2026 · 5 min de lecture

Transcrire une audition, c'est bien. Savoir qui a dit quoi, c'est indispensable. C'est le rôle de la diarisation — la technologie qui sépare les voix et attribue chaque passage à son locuteur. Pour un procès-verbal, elle fait la différence entre un texte exploitable et un magma anonyme.

L'essentiel

La diarisation répond à la question « qui parle, et quand ? ». Couplée à un enrôlement vocal (empreinte des voix connues), elle attribue chaque propos au bon nom plutôt qu'à un « Locuteur 1 » anonyme.

Diarisation vs transcription

Ce sont deux opérations distinctes et complémentaires. La transcription convertit la parole en texte. La diarisation segmente l'audio par locuteur. Combinées, elles produisent une transcription où chaque phrase est attribuée. Sans diarisation, vous obtenez un bloc de texte sans savoir qui a prononcé quoi — inutilisable pour une audition à plusieurs voix.

Comment ça marche, simplement

Le système analyse les caractéristiques acoustiques de la voix (timbre, hauteur, rythme) et regroupe les segments qui « se ressemblent ». Il identifie ainsi qu'il y a, par exemple, trois locuteurs distincts, et découpe l'enregistrement en conséquence. À ce stade, ils restent anonymes : Locuteur 1, 2, 3.

L'apport décisif de l'enrôlement vocal

Pour passer de « Locuteur 2 » à « M. Martin », il faut associer une empreinte vocale à une identité connue. C'est l'enrôlement : on enregistre un court échantillon de la voix d'un participant connu, et le système reconnaît ensuite cette voix automatiquement. Pour un cabinet qui entend régulièrement les mêmes personnes, l'attribution devient nominative et fiable.

Pourquoi c'est si important pour un PV : l'attribution exacte est le cœur de la valeur probante d'une audition. Une erreur sur « qui a dit quoi » peut invalider l'exploitation d'un passage entier.

Les facteurs de qualité

  • La qualité du micro et de la captation — un bon enregistrement améliore nettement la séparation des voix.
  • Le chevauchement de parole — les passages où plusieurs personnes parlent en même temps restent les plus délicats.
  • Le nombre de locuteurs connus à l'avance — un a priori sur le nombre d'intervenants aide la segmentation.
  • L'enrôlement préalable — des empreintes de bonne qualité, idéalement multi-échantillons, améliorent l'attribution.

Confidentialité de l'empreinte vocale

Une empreinte vocale est une donnée biométrique. Elle doit donc être traitée avec soin : stockée localement, supprimable à la demande, et utilisée avec l'information des personnes. Un outil qui traite tout en local garde ces empreintes sur le poste du cabinet, sans transfert.

Dans VoxActa

VoxActa combine diarisation et enrôlement vocal en local : vous enrôlez les voix connues, et chaque propos est attribué au bon intervenant dans le procès-verbal. Le banc d'essai est enrichi à chaque session corrigée, ce qui améliore l'attribution dans le temps. Les empreintes restent sur votre poste et sont supprimables.

Ce qu'il faut retenir

La diarisation transforme une transcription en document attribué ; l'enrôlement vocal la rend nominative. Pour une audition, ce n'est pas un confort : c'est la condition d'un PV exploitable.

Transformez vos auditions en pièces opposables

VoxActa transcrit, attribue et scelle vos procès-verbaux — 100 % en local, sans que l'audio ne quitte votre poste.

Découvrir VoxActa pour avocats