Обнаружение новых и новых терминов наркотиков с использованием обработки естественного языка: исследование корпуса социальных сетей
АБСТРАКТНЫЙ
Фон: С быстрым развитием новых психоактивных веществ (НПВ) и изменениями в использовании более традиционных наркотиков исследователям и практикам общественного здравоохранения становится все труднее идти в ногу с новыми наркотиками и терминами наркотиков. Обследования употребления психоактивных веществ и диагностические инструменты должны иметь возможность спрашивать о веществах, используя термины, которые сами потребители наркотиков, вероятно, будут использовать. Анализ социальных сетей может предложить исследователям новые способы выявления и отслеживания изменений в терминах наркотиков в режиме, близком к реальному времени. Это исследование описывает первоначальные результаты инновационного сотрудничества между эпидемиологами употребления психоактивных веществ и учеными-лингвистами, использующими методы из области обработки естественного языка для изучения терминов, связанных с наркотиками, в выборке твитов из Соединенных Штатов.
Объективный: Цель этого исследования состояла в том, чтобы оценить целесообразность использования распределенных встраиваний векторов слов, обученных на данных социальных сетей, для выявления ранее неизвестных (исследователям) терминов наркотиков.
Методы: В этом пилотном исследовании мы обучили модель непрерывного пакета слов (CBOW) распределенного встраивания векторов слов на наборе данных Twitter, собранном в июле 2016 года (примерно 884,2 миллиона токенов). Мы запросили обученные встраивания слов для терминов с высоким косинусным сходством (прокси для семантической связанности) с хорошо известными сленговыми терминами для марихуаны, чтобы составить список терминов-кандидатов, которые могут функционировать как сленговые термины для этого вещества. Затем этот список кандидатов сравнивался с сгенерированным экспертом списком терминов марихуаны, чтобы оценить точность и эффективность использования встраивания векторов слов для поиска новой терминологии лекарств.
Результаты: Метод, описанный здесь, дал список из 200 терминов-кандидатов для целевого вещества (марихуаны). Из этих 200 кандидатов 115 были определены как фактически относящиеся к марихуане (65 терминов для самого вещества, 50 терминов, связанных с атрибутикой). Это включало 30 терминов, которые использовались для обозначения целевого вещества в корпусе, но не фигурировали в составленном экспертами перечне и поэтому считались успешными случаями раскрытия новой терминологии лекарственных средств. Некоторые из этих новых терминов, по-видимому, были введены еще за 1 или 2 месяца до среза времени корпуса, используемого для обучения встраиванию слов.
Выводы: Хотя точность метода, описанного здесь, достаточно низка, чтобы по-прежнему требовать человеческого обзора любых списков кандидатов, сформированных таким образом, тот факт, что этот процесс смог обнаружить 30 новых терминов для целевого вещества на основе данных Twitter только за один месяц, является весьма многообещающим. Мы рассматриваем это пилотное исследование как важное доказательство концепции и первый шаг к созданию полностью автоматизированной системы обнаружения терминов лекарств, способной отслеживать возникающие термины NPS в режиме реального времени.