خلاصة:
در این پژوهش تلاش میشود با استفاده از تحلیل آماری،ویژگیهای اخبار جعلی فارسی مربوط به کوید-19 بررسی گردد.برای این هدف،ابتدا یک پیکرۀ زبانی که حاوی اخبار موثق و جعلی در حوزۀ کرونا است تهیه میشود.سپس الگوهای زبانی این دو دستۀ داده و همچنین دو تحلیل آماری مقدار اطلاعات و خوانایی اخبار موثق و جعلی مورد بررسی قرار گرفته و با یکدیگر مقایسه میشود.براساس اطلاعات استخراجشده و نتایج عملی بهدستآمده از پیکرۀ خبرهای جعلی،الگوهای زبانی مشترک بین این دو دستۀ داده وجود دارد.همچنین،مقدار اطلاعات در اخبار موثق براساس دو معیار آنتروپی و شگفتی بیشتر از اخبار جعلی است.همچنین سطح خوانایی خبرهای جعلی با استفاده از تساویهای اندازهگیری خوانایی متن مورد ارزیابی قرار گرفت و این نتیجه بهدست آمد که اخبار جعلی در مقایسه با اخبار موثق عمدتاً ساده بوده و دشوار نیست.در فرایند برچسبگذاری خودکار خبرهای موثق و جعلی براساس سطح دشواری حجم زیادی از اخبار جعلی ساده تشخیص داده شد.اگرچه سطح دشوار برای تعدادی خبر جعلی تشخیص داده شد،تعدادشان کمتر از اخبار موثق با سطح زبانی دشوار بود.علاوهبر این دستاورد و بررسی آماری ویژگیهای زبانی براساس میزان اطلاعات و خوانایی اخبار جعلی،جنبۀ کاربردی این اطلاعات آماری جهت تشخیص خبر جعلی با استفاده از روشهای یادگیری ماشینی مورد مطالعه قرار گرفت.
In this research,we put the effort to study the properties of Persian fake news on COVID-19 by using statistical methods.To this end, first, a corpus contained fake and real news on COVID-19 is developed for Persian.Then,the language patterns in these two datasets and two statistical methods,namely information amount and readability, are used to describe the properties of fake news compared with the real news.According to the exteracted information and the experimental results achieved from the developed corpus on COVID-19 fake news,there are common language patterns in these two datasets.Moreover, the information amount of real news based on entropy and surprisal criteria is more than fake news.Based on the results,the readability level of the fake news is measured based on the readability formulas. According to the results,the text of fake news is simpler than real news.In the process of determining the difficulty level of the news automatically,most of the news is recognized as simple texts.Although some fake news is determined difficult, their frequency is lower than real news.In addition to this achievement, to study linguistic properties of fake news statistically based on the information amount and readability,the applicability of the results to determine fake news by machine learning methods is studied.