تشخیص وبسایتهای اسپم فارسی با استفاده از پردازش زبان طبیعی
پذیرفته شده برای ارائه شفاهی ، صفحه 531-538 (8) اصل مقاله (894.5 K)
نویسندگان
1کارشناسی مهندسی کامپیوتر، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران
2استادیار گروه مهندسی کامپیوتر، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران
چکیده
تولید صفحات اسپم به عنوان یکی روشهای جلب توجه کاربر به محتوای غیر مطلوب، یکی از چالشهای عمده در حوزه بازیابی اطلاعات به ویژه در محیط وب، بشمار میرود و طی سالهای گذشته، الگوریتمهای مختلفی برای تشخیص آنها مطرح شده است. بر این اساس، روشهای تولید اسپم نیز همزمان با پیشرفت فناوری، تغییر شکل میدهند. امروزه، یکی از روش-های غیرقانونی افزایش رتبه وب سایت، استفاده از وب سایتهای اسپم است. در این مقاله، ابتدا انواع اسپم و روشهای شناسایی وب سایتهای اسپم مورد بررسی قرار گرفته است. سپس یک مجموعه داده شامل وب سایتهای اسپم و غیر اسپم در وب فارسی، معرفی شده و با استفاده از این مجموعه داده، یک مدل Multinomial Naïve Bayes آموزش دیده است. در این مدل، متون این وب سایتها با توجه به تکنیکهای پردازش زبان طبیعی، مورد بررسی قرار گرفته است و نهایتاً هر وب سایت، در یکی از دو دسته اسپم و غیر اسپم، دسته بندی می شود. نتایج ارزیابی روش پیشنهادی روی مجموعه داده متشکل از حدود هزار وبسایت در محیط وب فارسی، حاکی از برتری عملکرد آن نسبت به روش مرجع مورد مقایسه، بر اساس شاخص ارزیابی F-Score و به میزان حدود 20.25% می باشد.
کلیدواژه ها