بررسی و تحلیل دادگان تشخیص صفحات اسپم در محیط وب بر اساس نظریه گراف
پذیرفته شده برای ارائه شفاهی ، صفحه 639-652 (14) اصل مقاله (1.71 MB)
نویسندگان
1کارشناسی مهندسی کامپیوتر، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران
2استادیار گروه مهندسی کامپیوتر، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران
چکیده
نظریه گراف که به مدل سازی روابط موجود بین عناصر مختلف مساله مورد بررسی میپردازد، ابزار مفیدی را برای سادهسازی بخشهای یک سیستم فراهم میکند. پیچیده تر شدن مسائل دنیای پیرامونی، بکارگیری نظریه گراف را به یک ضرورت تبدیل نموده است. این مقاله قصد دارد مجموعه دادگان عرضه شده به منظور شناسایی تشخیص صفحات اسپم در محیط وب را از منظر گراف مورد بررسی قرار دهد. برای این منظور، ابتدا گراف شباهت ویژگیهای مجموعه داده، ایجاد میشود و سپس، گراف حاصل بلحاظ شاخصهای ساختاری مختلف، مورد بررسی قرار خواهد گرفت. برای ارزیابی روش پیشنهادی، گراف شباهت به ازای دو دسته از ویژگی های متنی و پیوندی به ازای مجموعه داده WEBSPAM-UK2007 ایجاد گردید و بر اساس شاخصهای فوق مورد مقایسه تحلیلی قرار گرفت. نتایج بدست آمده نشان میدهد که علیرغم بزرگتر بودن و تراکم نسبی بالاتر گراف شباهت ویژگیه ای مبتنی بر متن، نسبت به گراف شباهت ویژگی های مبتنی بر پیوند، بر اساس شاخصهای ضریب خوشه بندی، گراف شباهت ویژگی های مبتنی بر پیوند، انسجام نسبی بیشتری را دارا میباشد. این موضوع با توجه به اندازه نسبی بزرگترین مولفه همبند نیز تایید میشود. این رویکرد، امکان مقایسه تحلیلی دادگان مختلف را فراهم میآورد. علاوه بر آن، می توان از نتایج این پژوهش به منظور طراحی دادگان جدید نیز استفاده نمود.
کلیدواژه ها