تشخیص وب سایتهای اسپم فارسی با استفاده از پردازش زبان طبیعی |
کد مقاله : 1075-CYSP2023 (R1) |
نویسندگان: |
صبا حیدری دوست، امیرحسین کیهانیپور * دانشگاه تهران |
چکیده مقاله: |
تولید صفحات اسپم به عنوان یکی روشهای جلب توجه کاربر به محتوای غیر مطلوب، یکی از چالشهای عمده در حوزه بازیابی اطلاعات به ویژه در محیط وب، بشمار میرود و طی سالهای گذشته، الگوریتمهای مختلفی برای تشخیص آنها مطرح شده است. بر این اساس، روشهای تولید اسپم نیز همزمان با پیشرفت فناوری، تغییر شکل میدهند. امروزه، یکی از روش-های غیرقانونی افزایش رتبه وب سایت، استفاده از وب سایتهای اسپم است. در این مقاله، ابتدا انواع اسپم و روشهای شناسایی وب سایتهای اسپم مورد بررسی قرار گرفته است. سپس یک مجموعه داده شامل وب سایتهای اسپم و غیر اسپم در وب فارسی، معرفی شده و با استفاده از این مجموعه داده، یک مدل Multinomial Naïve Bayes آموزش دیده است. در این مدل، متون این وب سایتها با توجه به تکنیکهای پردازش زبان طبیعی، مورد بررسی قرار گرفته است و نهایتاً هر وب سایت، در یکی از دو دسته اسپم و غیر اسپم، دسته بندی می شود. نتایج ارزیابی روش پیشنهادی روی مجموعه داده متشکل از حدود هزار وبسایت در محیط وب فارسی، حاکی از برتری عملکرد آن نسبت به روش مرجع مورد مقایسه، بر اساس شاخص ارزیابی F-Score و به میزان حدود 20.25% می باشد. |
کلیدواژه ها: |
وب سایتهای اسپم، مدل Multinomial Naïve Bayes، پردازش زبان طبیعی |
وضعیت : مقاله برای ارائه شفاهی پذیرفته شده است |