Nuevas drogas y detectar novela términos procesamiento Lenguaje Natural usando: un estudio de Corpus de medios de Comunicación Social
RESUMEN
Fondo: Con el rápido desarrollo de nuevas sustancias psicoactivas (NPS) y cambios en el uso de drogas más tradicionales, es cada vez más difícil para los investigadores y profesionales de la salud pública con términos de drogas y drogas emergentes. Encuestas de consumo de sustancias y herramientas de diagnóstico deben ser capaz de preguntar acerca de sustancias utilizando los términos que los usuarios de drogas se pueden utilizar. Análisis de las redes sociales pueden ofrecer nuevas formas para que los investigadores descubrir y rastrear cambios en términos de droga en tiempo casi-real. Este estudio describe los resultados iniciales de una colaboración innovadora entre sustancia uso epidemiólogos y científicos lingüísticos que emplea técnicas del campo del procesamiento del lenguaje natural para examinar términos relacionados con las drogas en una muestra de tweets de los Estados Unidos.
Objetivo: El objetivo de este estudio fue evaluar la viabilidad del uso de incrustaciones distribuida palabra-vector formado en los medios sociales datos para descubrir términos drogas previamente desconocidos (para investigadores).
Métodos: En este estudio piloto, entrenamos un bolso continuado del modelo de palabras (CBOW) de incrustaciones de palabra-vector distribuido en un conjunto de datos de Twitter durante julio de 2016 (fichas aproximadamente 884,2 millones). Nos preguntó la incrustaciones de palabra entrenados para términos con similitud coseno elevado (un proxy de relatedness semántico) a los términos de la jerga conocida marihuana producir una lista de términos candidatos capaces de funcionar como términos del argot de esta sustancia. Esta lista de candidatos se compara con una lista generadas por expertos de marihuana términos para evaluar la exactitud y la eficacia del uso de incrustaciones de la palabra vector para buscar terminología fármaco nuevo.
Resultados: El método aquí descrito produjo una lista de 200 términos de candidato para la sustancia de la blanco (marihuana). De estos 200 candidatos 115 determinaron que en realidad se refieren a la marihuana (65 en términos de la sustancia, 50 términos relacionados con la parafernalia). Esto incluyó 30 términos que se utilizaron para referirse a la sustancia de la blanco en el corpus todavía no aparece en la lista del generadas por expertos y por lo tanto fueron considerados como casos exitosos de descubrir terminología fármaco nuevo. Varios de estos nuevos términos aparecen han sido introducidas recientemente como 1 o 2 meses antes de la rebanada del tiempo corpus utilizado para formar las incrustaciones de la palabra.
Conclusiones: Aunque la precisión del método descrito aquí es lo suficientemente baja como para todavía requieren revisión humana de cualquier candidato término listas generadas de tal manera, el hecho de que este proceso fue capaz de detectar 30 nuevos términos para la sustancia objetivo basado sólo en un mes vale la pena de Twitter datos son altamente prometedoras. Vemos este estudio piloto como una importante prueba de concepto y un primer paso para producir un sistema de descubrimiento de término droga totalmente automatizado capaz de rastrear términos emergentes de NPS en tiempo real.