دومین کنفرانس فضای سایبر

تشخیص وب سایت‌های اسپم فارسی با استفاده از پردازش زبان طبیعی

کد مقاله : 1075-CYSP2023 (R1)

نویسندگان:

صبا حیدری دوست، امیرحسین کیهانی‌پور *

دانشگاه تهران

چکیده مقاله:

تولید صفحات اسپم‌ به عنوان یکی روش‏های جلب توجه کاربر به محتوای غیر مطلوب، یکی از چالش‏های عمده در حوزه بازیابی اطلاعات به ویژه در محیط وب، بشمار می‏رود و طی سالهای گذشته، الگوریتم‏های مختلفی برای تشخیص آنها مطرح شده است. بر این اساس، روش‏های تولید اسپم نیز همزمان با پیشرفت فناوری، تغییر شکل می‌دهند. امروزه، یکی از روش-های غیرقانونی افزایش رتبه وب سایت، استفاده از وب سایت‌های اسپم است. در این مقاله، ابتدا انواع اسپم و روش‌های شناسایی وب سایت‌های اسپم مورد بررسی قرار گرفته است. سپس یک مجموعه داده شامل وب سایت‌های اسپم و غیر اسپم در وب فارسی، معرفی شده و با استفاده از این مجموعه داده، یک مدل Multinomial Naïve Bayes آموزش دیده است. در این مدل، متون این وب سایت‌ها با توجه به تکنیک‌های پردازش زبان طبیعی، مورد بررسی قرار گرفته است و نهایتاً هر وب سایت، در یکی از دو دسته اسپم و غیر اسپم، دسته ‏بندی می شود. نتایج ارزیابی روش پیشنهادی روی مجموعه داده متشکل از حدود هزار وب‏سایت در محیط وب فارسی، حاکی از برتری عملکرد آن نسبت به روش مرجع مورد مقایسه، بر اساس شاخص ارزیابی F-Score و به میزان حدود 20.25% می ‏باشد.

کلیدواژه ها:

وب سایت‌های اسپم، مدل Multinomial Naïve Bayes، پردازش زبان طبیعی

وضعیت : مقاله برای ارائه شفاهی پذیرفته شده است