Desarrollo y validación de modelos de máquinas mediante procesamiento de lenguaje natural para clasificar sustancias implicadas en muertes por sobredosis

Format

Scientific article

Publication Date

8 Agosto 2022

Published by / Citation

Goodman-Meza D, Shover CL, Medina JA, Tang AB, Shoptaw S, Bui AAT. Development and Validation of Machine Models Using Natural Language Processing to Classify Substances Involved in Overdose Deaths. JAMA Netw Open. 2022;5(8):e2225593. doi:10.1001/jamanetworkopen.2022.25593

Original Language

Inglés

Country

Estados Unidos

Keywords

machine learning

overdose deaths

overdose

Abstracto

Importancia La sobredosis es una de las principales causas de muerte en los Estados Unidos; Sin embargo, los datos de vigilancia se retrasan considerablemente desde la determinación de la muerte por parte del médico forense hasta la notificación en los informes nacionales de vigilancia.

Objetivo : Automatizar la clasificación de las muertes relacionadas con sustancias en los datos del médico forense utilizando el procesamiento del lenguaje natural (PLN) y el aprendizaje automático (ML).

Diseño, entorno y participantes Estudio de diagnóstico que compara diferentes algoritmos de procesamiento de lenguaje natural y aprendizaje automático para identificar sustancias relacionadas con la sobredosis en 10 jurisdicciones sanitarias de EE. UU. desde el 1 de enero de 2020 hasta el 31 de diciembre de 2020. Se examinó el texto no estructurado de 35 433 registros de defunción de médicos forenses y forenses.

Exposiciones El texto de cada caso se clasificó manualmente en una sustancia relacionada con la muerte. Se utilizaron y compararon tres métodos de representación de características: frecuencia de texto-frecuencia inversa de documentos (TF-IDF), vectores globales para representaciones de palabras (GloVe) e incrustaciones de identificador único de concepto (CUI). Se entrenaron varios algoritmos de ML y se seleccionaron los mejores modelos en función de las puntuaciones F. Los mejores modelos se probaron en un conjunto de prueba de retención y los resultados se informaron con IC del 95%.

Principales resultados y medidas Los datos de texto de los certificados de defunción se clasificaron como opioides, fentanilo, alcohol, cocaína, metanfetamina, heroína, opioides recetados y un agregado de otras sustancias. Se calcularon las métricas de diagnóstico y los IC del 95% para cada combinación de método de extracción de características y clasificador de aprendizaje automático.

Resultados De los 35 433 registros de defunción analizados (mediana de edad de los fallecidos, 58 años [IQR, 41-72 años]; 24 449 [69%] eran hombres), las sustancias más comunes relacionadas con las muertes incluyeron cualquier opioide (5739 [16%]), fentanilo (4758 [13%]), alcohol (2866 [8%]), cocaína (2247 [6%]), metanfetamina (1876 [5%]), heroína (1613 [5%]), opioides recetados (1197 [3%]) y cualquier benzodiacepina (1076 [3%]). Las incrustaciones de CUI tuvieron métricas diagnósticas similares o mejores en comparación con las incrustaciones de palabras y TF-IDF para todas las sustancias, excepto el alcohol. Los clasificadores de ML tuvieron un desempeño perfecto o casi perfecto en la clasificación de muertes relacionadas con opioides, heroína, fentanilo, opioides recetados, metanfetamina, cocaína y alcohol. La clasificación de las benzodiacepinas fue subóptima utilizando los 3 métodos de extracción de características.

Conclusiones y relevancia En este estudio diagnóstico, los algoritmos de PLN/ML demostraron un excelente rendimiento diagnóstico en la clasificación de sustancias relacionadas con sobredosis. Estos algoritmos deben integrarse en los flujos de trabajo para reducir el tiempo de demora en la notificación de los datos de vigilancia de sobredosis.

Links

Texto de acceso abierto en inglés

Desarrollo y validación de modelos de máquinas mediante procesamiento de lenguaje natural para clasificar sustancias implicadas en muertes por sobredosis

Abstracto

Themes