تطوير نماذج الآلات والتحقق من صحتها باستخدام معالجة اللغات الطبيعية لتصنيف المواد المشاركة في وفيات الجرعة الزائدة

Format
الملصقات
Publication Date
Published by / Citation
Goodman-Meza D, Shover CL, Medina JA, Tang AB, Shoptaw S, Bui AAT. Development and Validation of Machine Models Using Natural Language Processing to Classify Substances Involved in Overdose Deaths. JAMA Netw Open. 2022;5(8):e2225593. doi:10.1001/jamanetworkopen.2022.25593
Original Language

إنجليزية

Country
الولايات المتحدة الأمريكية
Keywords
machine learning
overdose deaths
overdose

تطوير نماذج الآلات والتحقق من صحتها باستخدام معالجة اللغات الطبيعية لتصنيف المواد المشاركة في وفيات الجرعة الزائدة

تجريدي

أهمية  الجرعة الزائدة هي واحدة من الأسباب الرئيسية للوفاة في الولايات المتحدة. ومع ذلك، فإن بيانات الترصد متخلفة إلى حد كبير من تحديد الفاحص الطبي للوفاة إلى الإبلاغ عنها في تقارير الترصد الوطنية.

الهدف أتمتة  تصنيف الوفيات المتعلقة بالمواد في بيانات الفاحص الطبي باستخدام معالجة اللغة الطبيعية (NLP) والتعلم الآلي (ML).

التصميم والإعداد والمشاركين  دراسة تشخيصية تقارن بين مختلف خوارزميات معالجة اللغات الطبيعية والتعلم الآلي لتحديد المواد المتعلقة بالجرعة الزائدة في 10 ولايات قضائية صحية في الولايات المتحدة من 1 يناير 2020 إلى 31 ديسمبر 2020. تم فحص نص غير منظم من 35433 سجلات وفاة الطبيب الشرعي والأطباء الشرعيين.

تم  تصنيف نص من كل حالة يدويا إلى مادة مرتبطة بالوفاة. تم استخدام ثلاث طرق لتمثيل المعالم ومقارنتها: تردد المستند العكسي لتردد النص (TF-IDF) ، والمتجهات العالمية لتمثيلات الكلمات (GloVe) ، وتضمين المعرف الفريد للمفهوم (CUI). تم تدريب العديد من خوارزميات ML وتم اختيار أفضل النماذج بناء على درجات F. تم اختبار أفضل النماذج على مجموعة اختبار معلقة وتم الإبلاغ عن النتائج بنسبة 95٪ CIs.

النتائج والتدابير  الرئيسية صنفت البيانات النصية من شهادات الوفاة على أنها أي مواد أفيونية وفنتانيل وكحول وكوكايين وميثامفيتامين وهيروين وأفيون بوصفة طبية ومجموعة من المواد الأخرى. تم حساب المقاييس التشخيصية و 95٪ CIs لكل مجموعة من طريقة استخراج الميزات ومصنف التعلم الآلي.

نتائج  35433 سجل وفاة تم تحليلها (متوسط عمر المتوفى، 58 سنة [IQR، 41-72 سنة]؛ 24449 [69٪] من الذكور)، وشملت المواد الأكثر شيوعا المتعلقة بالوفيات أي مادة أفيونية (5739 [16٪])، والفنتانيل (4758 [13٪])، والكحول (2866 [8٪])، والكوكايين (2247 [6٪])، والميثامفيتامين (1876 [5٪])، والهيروين (1613 [5٪])، والمواد الأفيونية الموصوفة طبيا (1197 [3٪])، وأي بنزوديازيبين (1076 [3٪]). كان لتضمين CUI مقاييس تشخيصية مماثلة أو أفضل مقارنة بتضمين الكلمات و TF-IDF لجميع المواد باستثناء الكحول. كان لمصنفات ML أداء مثالي أو شبه مثالي في تصنيف الوفيات المتعلقة بأي مواد أفيونية ، هيروين ، فنتانيل ، أفيونيات طبية ، ميثامفيتامين ، كوكايين ، وكحول. كان تصنيف البنزوديازيبينات دون المستوى الأمثل باستخدام جميع طرق استخراج الميزات 3.

الاستنتاجات والأهمية  في هذه الدراسة التشخيصية ، أظهرت خوارزميات البرمجة اللغوية العصبية / ML أداء تشخيصيا ممتازا في تصنيف المواد المتعلقة بالجرعات الزائدة. يجب دمج هذه الخوارزميات في سير العمل لتقليل وقت التأخير في الإبلاغ عن بيانات مراقبة الجرعة الزائدة.

شارك المعرفة: يمكن لأعضاء جمعية ISSUP النشر في مشاركة المعرفة – التسجيل أو الإشتراك في عضوية

شارك المعرفة: يمكن لأعضاء جمعية ISSUP النشر في مشاركة المعرفة – التسجيل أو الإشتراك في عضوية