تشخیص وب‌سایت‌های اسپم فارسی با استفاده از پردازش زبان طبیعی
پذیرفته شده برای ارائه شفاهی ، صفحه 531-538 (8) XML اصل مقاله (894.5 K)
نویسندگان
1کارشناسی مهندسی کامپیوتر، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران
2استادیار گروه مهندسی کامپیوتر، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران
چکیده
تولید صفحات اسپم‌ به عنوان یکی روش‏های جلب توجه کاربر به محتوای غیر مطلوب، یکی از چالش‏های عمده در حوزه بازیابی اطلاعات به ویژه در محیط وب، بشمار می‏رود و طی سالهای گذشته، الگوریتم‏های مختلفی برای تشخیص آنها مطرح شده است. بر این اساس، روش‏های تولید اسپم نیز همزمان با پیشرفت فناوری، تغییر شکل می‌دهند. امروزه، یکی از روش-های غیرقانونی افزایش رتبه وب سایت، استفاده از وب سایت‌های اسپم است. در این مقاله، ابتدا انواع اسپم و روش‌های شناسایی وب سایت‌های اسپم مورد بررسی قرار گرفته است. سپس یک مجموعه داده شامل وب سایت‌های اسپم و غیر اسپم در وب فارسی، معرفی شده و با استفاده از این مجموعه داده، یک مدل Multinomial Naïve Bayes آموزش دیده است. در این مدل، متون این وب سایت‌ها با توجه به تکنیک‌های پردازش زبان طبیعی، مورد بررسی قرار گرفته است و نهایتاً هر وب سایت، در یکی از دو دسته اسپم و غیر اسپم، دسته ‏بندی می شود. نتایج ارزیابی روش پیشنهادی روی مجموعه داده متشکل از حدود هزار وب‏سایت در محیط وب فارسی، حاکی از برتری عملکرد آن نسبت به روش مرجع مورد مقایسه، بر اساس شاخص ارزیابی F-Score و به میزان حدود 20.25% می ‏باشد.
کلیدواژه ها