Rilevamento di termini di droga nuovi ed emergenti utilizzando l'elaborazione del linguaggio naturale: uno studio sul corpus dei social media
ASTRATTO
Sfondo: Con il rapido sviluppo di nuove sostanze psicoattive (NPS) e i cambiamenti nell'uso di droghe più tradizionali, è sempre più difficile per i ricercatori e gli operatori della salute pubblica tenere il passo con le droghe emergenti e i termini della droga. Le indagini sul consumo di sostanze e gli strumenti diagnostici devono essere in grado di chiedere informazioni sulle sostanze utilizzando i termini che gli stessi consumatori di droghe probabilmente utilizzeranno. Le analisi dei social media possono offrire nuovi modi per i ricercatori di scoprire e tracciare i cambiamenti in termini di droga quasi in tempo reale. Questo studio descrive i risultati iniziali di una collaborazione innovativa tra epidemiologi dell'uso di sostanze e scienziati linguistici che impiegano tecniche nel campo dell'elaborazione del linguaggio naturale per esaminare i termini correlati alla droga in un campione di tweet dagli Stati Uniti.
Obiettivo: L'obiettivo di questo studio era valutare la fattibilità dell'utilizzo di incorporamenti di vettori di parole distribuiti addestrati sui dati dei social media per scoprire termini farmacologici precedentemente sconosciuti (ai ricercatori).
Metodi: In questo studio pilota, abbiamo addestrato un modello CBOW (continuous bag of words) di incorporamenti vettoriali di parole distribuite su un set di dati di Twitter raccolti nel mese di luglio 2016 (circa 884,2 milioni di token). Abbiamo interrogato gli incorporamenti di parole addestrati per termini con elevata somiglianza coseno (un proxy per la correlazione semantica) a termini gergali ben noti per la marijuana per produrre un elenco di termini candidati che potrebbero funzionare come termini gergali per questa sostanza. Questo elenco di candidati è stato poi confrontato con un elenco di termini di marijuana generato da esperti per valutare l'accuratezza e l'efficacia dell'uso di incorporamenti di vettori di parole per cercare una nuova terminologia di droga.
Risultati: Il metodo qui descritto ha prodotto un elenco di 200 termini candidati per la sostanza bersaglio (marijuana). Di questi 200 candidati, 115 erano determinati a riferirsi effettivamente alla marijuana (65 termini per la sostanza stessa, 50 termini relativi all'armamentario). Ciò comprendeva 30 termini che sono stati utilizzati per riferirsi alla sostanza bersaglio nel corpus ma non figuravano nell'elenco generato dagli esperti e sono stati quindi considerati casi riusciti di scoperta di nuova terminologia farmacologica. Molti di questi nuovi termini sembrano essere stati introdotti di recente 1 o 2 mesi prima della fetta di tempo del corpus utilizzata per addestrare gli incorporamenti di parole.
Conclusioni: Sebbene la precisione del metodo qui descritto sia abbastanza bassa da richiedere ancora una revisione umana di qualsiasi elenco di termini candidati generato in questo modo, il fatto che questo processo sia stato in grado di rilevare 30 nuovi termini per la sostanza target sulla base di un solo mese di dati di Twitter è molto promettente. Vediamo questo studio pilota come un'importante prova di concetto e un primo passo verso la produzione di un sistema di scoperta dei termini di droga completamente automatizzato in grado di tracciare i termini NPS emergenti in tempo reale.