La recherche contemporaine sur les psychédéliques met en évidence la valeur des rapports d’expérience des utilisateurs, mais leur nature prolixe et subjective pose des défis pour leur utilité clinique. Cette étude est la première à développer une méthode de résumé de texte automatique et non supervisée spécifiquement pour ces rapports, un domaine où il n’existe pas de résumés de référence annotés par des humains.
Pour pallier cette absence, une fonction de notation personnalisée est développée, intégrant la couverture sémantique, la cohérence narrative et une métrique inédite de préservation de l’expérience. L’étude utilise trois méthodes extractives établies (LexRank, LSA avec clustering HDBSCAN, et SBERT avec Maximal Marginal Relevance) sur un corpus de 1 200 rapports concernant le LSD, la psilocybine et la DMT. En utilisant GPT-4 comme évaluateur calibré selon une grille structurée, les résultats montrent que LexRank atteint le meilleur équilibre global. SBERT excelle en termes de couverture de contenu et de profondeur expérientielle, mais sa performance en matière de cohérence est moindre.
Les conclusions révèlent un compromis entre la richesse du contenu et la fluidité narrative, avec des performances qui varient selon les types de substances en raison de leurs différences de structure narrative et de phénoménologie.
L’étude vise à surmonter les difficultés liées au résumé des rapports d’expérience psychédélique en développant un pipeline de résumé orienté vers une application clinique. L’objectif principal est de réduire la longueur des récits de 65 à 75 % tout en conservant le contenu expérientiel et clinique essentiel.
Pour y parvenir, l’étude développe une fonction de notation personnalisée pour l’entraînement et l’optimisation des modèles, en l’absence de données de référence standard. Elle compare également les performances de trois modèles de résumé extractif sur des récits d’expériences avec le LSD, la psilocybine et la DMT, afin d’évaluer l’influence des structures phénoménologiques distinctes sur les performances de chaque modèle.
- Collecte de données : Un corpus de 1 200 rapports d’expérience (400 pour chacune des substances : DMT, psilocybine, LSD) a été collecté sur l’archive Erowid. Seuls les rapports de 500 à 2 500 mots ont été inclus pour garantir une profondeur narrative et une cohérence analytique.
- Prétraitement : Les données ont subi un nettoyage systématique, incluant la suppression des métadonnées structurelles, la normalisation du texte (expansion des contractions, standardisation de la ponctuation) et la correction des artefacts d’encodage. Une étape de reconnaissance d’entités nommées (NER) a été menée pour assurer une anonymisation complète.
- Modèles étudiés : Trois approches de résumé extractif non supervisé ont été évaluées :
- LexRank : un algorithme basé sur la centralité dans un graphe de similarité de phrases.
- LSA + HDBSCAN : une approche combinant l’Analyse Sémantique Latente (LSA) pour réduire la dimensionnalité et l’algorithme de clustering HDBSCAN pour regrouper les phrases sémantiquement cohérentes.
- SBERT + MMR : une méthode utilisant les embeddings de Sentence-BERT pour la sémantique et l’algorithme Maximal Marginal Relevance (MMR) pour sélectionner des phrases à la fois pertinentes et diverses.
- Optimisation et Évaluation : Les hyperparamètres des modèles ont été optimisés à l’aide d’Optuna, en se basant sur un score composite personnalisé. L’évaluation finale des résumés a été réalisée en utilisant GPT-4 comme un évaluateur expert calibré, suivant une grille d’évaluation structurée portant sur cinq critères : couverture du contenu, cohérence narrative, pertinence clinique, qualité de la compression et préservation de l’expérience.
- Analyse démographique : Les données montrent que la longueur des rapports varie selon la substance, ceux sur la DMT étant généralement plus courts. La distribution des genres est majoritairement masculine (plus de 75 % pour chaque substance), et la majorité des participants se situe dans la tranche d’âge des 15-30 ans.
- Performance des modèles : Les résultats indiquent des forces complémentaires. SBERT obtient les meilleurs scores en matière de couverture du contenu et de préservation de l’expérience, mais au détriment de la cohérence narrative. LexRank présente l’équilibre le plus satisfaisant avec des scores modérés sur l’ensemble des critères. LSA se distingue principalement par sa capacité à produire des résumés très concis (haute qualité de compression).
- Classement global : En agrégeant les scores d’évaluation à l’aide de la méthode TOPSIS, LexRank obtient le score de proximité global le plus élevé (0.54), le positionnant comme le modèle le plus équilibré. Il est suivi par SBERT (0.51) puis LSA (0.49).
- Spécificité par substance : La performance des modèles varie également en fonction de la substance. SBERT est plus efficace sur les récits denses et riches en phénoménologie de la DMT, tandis que LexRank est plus performant sur les rapports de psilocybine, qui présentent souvent des motifs thématiques récurrents.
L’étude confirme l’existence d’un compromis entre la richesse du contenu et la cohérence narrative dans le résumé de texte, un enjeu bien connu en traitement du langage naturel clinique. Le modèle SBERT, privilégiant l’exhaustivité, est jugé plus adapté pour des applications comme les revues de sécurité ou la recherche. En revanche, LexRank, qui produit des textes plus fluides et concis, est plus approprié pour des usages nécessitant une lecture rapide, comme les tableaux de bord.
Sur le plan méthodologique, le cadre d’évaluation qui s’appuie sur un grand modèle de langage (GPT-4) et une méthode d’agrégation multicritères (TOPSIS) représente une approche innovante et pragmatique pour évaluer la qualité des résumés en l’absence de données de référence. Les travaux futurs devraient explorer les méthodes de résumé abstractives et hybrides, ainsi qu’intégrer une évaluation humaine pour affiner et valider ces systèmes en vue d’une utilisation clinique et scientifique rigoureuse.
La synthèse de cette publication académique peut présenter des erreurs. Envisagez de vérifier ses informations en consultant la publication complète.