تحدق تحت غطاء أجهزة الكشف عن الأخبار المزورة
يتبادل العمل الجديد من الباحثين في معهد ماساتشوستس للتكنولوجيا تحت غطاء نظام الكشف التلقائي عن الأخبار المزيفة ، ويكشف كيف أن نماذج التعلم الآلي تلتقط اختلافات دقيقة ولكنها ثابتة في لغة القصص الوقائعية والخطأ. كما يؤكد البحث أيضًا على أن أجهزة الكشف عن الأخبار المزيفة يجب أن تخضع لاختبارات أكثر صرامة لتكون فعالة لتطبيقات العالم الحقيقي.v>
ومع ذلك ، هناك مشكلة واحدة هي مشكلة "الصندوق الأسود" ، أي أنه لا يوجد ما يشير إلى الأنماط اللغوية التي تقوم الشبكات بتحليلها أثناء التدريب. كما يتم تدريبهم واختبارهم على نفس المواضيع ، مما قد يحد من إمكانية تعميمهم على مواضيع جديدة ، وهو أمر ضروري لتحليل الأخبار عبر الإنترنت.
في ورقة قدمت في المؤتمر وورشة العمل حول نظم معالجة المعلومات العصبية ، يعالج الباحثان هاتين القضيتين. لقد طوّروا نموذجًا للتعلّم العميق يتعلّم كيفية اكتشاف الأنماط اللغوية للأخبار المزيفة والأخبار الحقيقية. جزء من عملهم "فتح الشقوق" الصندوق الأسود للعثور على الكلمات والعبارات يلتقط النموذج لجعل تنبؤاته.
بالإضافة إلى ذلك ، اختبروا نموذجهم في موضوع جديد لم يروه في التدريب. يصنف هذا النهج المقالات الفردية المستندة فقط على أنماط اللغة ، والتي تمثل عن كثب تطبيق العالم الحقيقي لقراء الأخبار. تصنف أجهزة الكشف الإخبارية المزيفة التقليدية المقالات استنادًا إلى نص مدمج مع معلومات المصدر ، مثل صفحة ويكيبيديا أو موقع ويب.
"في حالتنا ، أردنا أن نفهم ما هي عملية اتخاذ القرار في المصنف بناءً على اللغة فقط ، لأن هذا يمكن أن يوفر رؤى حول لغة الأخبار المزيفة" ، كما يقول المؤلف المشارك Xavier Boix ، وهو ما بعد الدكتوراة في المعمل يوجين ماكديرموت البروفيسور توماسو بوجيو في مركز العقول والعقول والآلات (CBMM) في قسم الدماغ والعلوم المعرفية (BCS).
تقول إحدى طالبات الدراسات العليا والكاتبة الأولى نيكول أوبراين '17 'إن إحدى القضايا الرئيسية في التعلم الآلي والذكاء الاصطناعي هي أنك تحصل على إجابة ولا تعرف سبب حصولك على هذه الإجابة. "إن إظهار هذه الأعمال الداخلية يأخذ خطوة أولى نحو فهم موثوقية أجهزة الكشف عن الأخبار المزورة العميقة".
يحدد النموذج مجموعات من الكلمات التي تميل إلى الظهور بشكل أكثر تكرارية سواء في الأخبار الحقيقية أو المزيفة - بعضها قد يكون واضحًا ، والبعض الآخر أقل من ذلك بكثير. ويقول الباحثون إن هذه النتائج تشير إلى اختلافات دقيقة ولكنها ثابتة في الأخبار المزورة ـ التي تفضل المبالغة والمغالطات ـ والأخبار الحقيقية التي تميل أكثر نحو اختيارات الكلمات المحافظة.
"الأخبار وهمية هي تهديد للديمقراطية ،" يقول Boix. "في مختبرنا ، لا يهدف هدفنا فقط إلى دفع العلم إلى الأمام ، ولكن أيضًا لاستخدام التقنيات لمساعدة المجتمع ... سيكون من القوي أن يكون لدينا أدوات للمستخدمين أو الشركات التي يمكن أن تقدم تقييمًا لما إذا كانت الأخبار مزورة أو ليس."
المؤلفان الآخران في الصحيفة هما صوفيا لاتيسا ، طالبة جامعية في CBMM. وجورجوس إيفانغيلوبولوس ، باحث في CBMM ، ومعهد ماك جوفرن لأبحاث الدماغ ، ومختبر التعلم الإحصائي والحسابي.
الحد من التحيز
نموذج الباحثين هو شبكة عصبية تلافيفية تتدرب على مجموعة بيانات من الأخبار المزيفة والأخبار الحقيقية. من أجل التدريب والاختبار ، استخدم الباحثون مجموعة بيانات بحثية مقلدة للأخبار المزيفة ، تسمى Kaggle ، والتي تحتوي على حوالي 12000 مقالة من عينات الأخبار المزيفة من 244 موقعًا مختلفًا. كما قاموا بتجميع مجموعة من عينات الأخبار الحقيقية ، باستخدام أكثر من 2000 من صحيفة نيويورك تايمز وأكثر من 9000 من صحيفة الجارديان.
في التدريب ، يلتقط النموذج لغة مقالة كـ "word embeddings" ، حيث يتم تمثيل الكلمات على أنها ناقلات - أساسًا ، مجموعات من الأرقام - مع كلمات ذات معان دلالية مشابهة متقاربة معًا. عند القيام بذلك ، فإنه يجسد ثلاثة توائم من الكلمات كأشكال توفر بعض السياق - مثل ، تعليق سلبي عن حزب سياسي. بالنظر إلى مقالة جديدة ، يقوم النموذج بمسح النص لأنماط مماثلة ويرسلها عبر سلسلة من الطبقات. تحدد طبقة الإخراج النهائية احتمال كل نمط: حقيقي أو مزيف.
قام الباحثون أولاً بتدريب النموذج واختباره بالطريقة التقليدية باستخدام نفس المواضيع. لكنهم ظنوا أن هذا قد يخلق تحيزًا متأصلًا في النموذج ، نظرًا لأن بعض الموضوعات تكون في الغالب موضوعًا للأخبار المزيفة أو الحقيقية. على سبيل المثال ، من المرجح بشكل عام أن تتضمن القصص الإخبارية المزيفة عبارة "ترامب" و "كلينتون".
يقول أوبراين: "لكن هذا ليس ما أردناه". "هذا يظهر المواضيع التي تثقل بقوة في الأخبار المزيفة الحقيقية ... أردنا العثور على الأنماط الفعلية في اللغة التي تشير إلى تلك."
بعد ذلك ، قام الباحثون بتدريب النموذج على جميع المواضيع دون أي ذكر لكلمة "ترامب" ، واختبر النموذج فقط على العينات التي تم وضعها جانبا من بيانات التدريب والتي تحتوي على كلمة "ترامب". في حين أن النهج التقليدي بلغ 93 في المئة من الدقة ، فإن النهج الثاني بلغ 87 في المئة من الدقة.ويقول الباحثون إن هذه الفجوة في الدقة تسلط الضوء على أهمية استخدام الموضوعات التي يتم الحصول عليها من عملية التدريب ، وذلك لضمان أن النموذج يمكن أن يعمم ما تعلمته من الموضوعات الجديدة.
مزيد من البحوث اللازمة
لفتح الصندوق الأسود ، استعاد الباحثون خطواتهم. في كل مرة ينبئ فيها النموذج عن كلمة ثلاثية ، ينشط جزء معين من النموذج ، اعتمادًا على ما إذا كان الثلاثي أكثر احتمالًا من قصة إخبارية حقيقية أو وهمية. صمم الباحثون طريقة لإعادة كل التنبؤات إلى الجزء المخصص له ثم العثور على الكلمات الدقيقة التي جعلته ينشط.
تقول Boix أنه يلزم إجراء المزيد من الأبحاث لتحديد مدى فائدة هذه المعلومات للقراء. في المستقبل ، يمكن دمج النموذج مع ، على سبيل المثال ، المدققين الآليين وأدوات أخرى لإعطاء القراء ميزة في مكافحة المعلومات الخاطئة. بعد بعض التحسينات ، يمكن أن يكون النموذج أيضًا أساسًا لامتداد أو تطبيق المتصفح الذي ينبه القراء إلى لغة إخبارية وهمية محتملة .
ويقول: "إذا أعطيتك مقالًا فقط ، وأبرز هذه الأنماط في المقالة أثناء قراءتك ، يمكنك تقييم ما إذا كانت المقالة مزيفة أكثر أو أقل". "سيكون نوعا من مثل التحذير ليقول ،" مهلا ، ربما هناك شيء غريب هنا. "
ليست هناك تعليقات: