بررسی و تحلیل دادگان تشخیص صفحات اسپم درمحیط وب بر اساس نظریه گراف
کد مقاله : 1089-CYSP2023 (R1)
نویسندگان:
مهدیه رعیتی، امیرحسین کیهانی‌پور *
دانشگاه تهران
چکیده مقاله:
نظریه ‌گراف که به مدل‏ سازی روابط موجود بین عناصر مختلف مساله مورد بررسی می‏پردازد، ابزار مفیدی را برای ساده‌سازی بخش‌های یک سیستم فراهم می‌کند. پیچیده ‏تر شدن مسائل دنیای پیرامونی، بکارگیری نظریه گراف را به یک ضرورت تبدیل نموده است. این مقاله قصد دارد مجموعه دادگان عرضه شده به منظور شناسایی تشخیص صفحات اسپم در محیط وب را از منظر گراف مورد بررسی قرار دهد. برای این منظور، ابتدا گراف شباهت ویژگی‏های مجموعه داده، ایجاد می‏شود و سپس، گراف حاصل بلحاظ شاخص‏های ساختاری مختلف، مورد بررسی قرار خواهد گرفت. برای ارزیابی روش پیشنهادی، گراف شباهت به ازای دو دسته از ویژگی‏ های متنی و پیوندی به ازای مجموعه داده WEBSPAM-UK2007 ایجاد گردید و بر اساس شاخص‏های فوق مورد مقایسه تحلیلی قرار گرفت. نتایج بدست آمده نشان می‏دهد که علیرغم بزرگ‏تر بودن و تراکم نسبی بالاتر گراف شباهت ویژگی‏ه ای مبتنی بر متن، نسبت به گراف شباهت ویژگی‏ های مبتنی بر پیوند، بر اساس شاخص‏های ضریب خوشه ‏بندی، گراف شباهت ویژگی‏ های مبتنی بر پیوند، انسجام نسبی بیشتری را دارا می‏باشد. این موضوع با توجه به اندازه نسبی بزرگ‏ترین مولفه همبند نیز تایید می‏شود. این رویکرد، امکان مقایسه تحلیلی دادگان مختلف را فراهم می‏آورد. علاوه بر آن، می‏ توان از نتایج این پژوهش به منظور طراحی دادگان جدید نیز استفاده نمود.
کلیدواژه ها:
نظریه گراف، دادگان تشخیص صفحات اسپم، ویژگی‌های گراف، شاخص کندال
وضعیت : مقاله برای ارائه شفاهی پذیرفته شده است