چکیده:
خطایابی،(1) شامل دو بخش اصلی است: بخش اول، بهرهگیری از یک واژه نامه(2) است و بخش دوم، مجموعه ای از الگوریتم ها و شگردها(Techniques) میباشد که این واژه نامه برای خطایابی استفاده میکند. این شگردها به سه دسته اصلی تقسیم میشود: 1. جستجو در واژه نامه؛ 2. یافتن لغت صحیح جایگزین در واژه نامه؛ 3. رتبهبندی اصلاحات.
خلاصه ماشینی:
net اندازه قلم / / چاپ پست الکترونیکی چکیده خطایابی،(1) شامل دو بخش اصلی است: بخش اول، بهرهگیری از یک واژه نامه(2) است و بخش دوم، مجموعه ای از الگوریتم ها و شگردها(Techniques) میباشد که این واژه نامه برای خطایابی استفاده میکند.
به طور کلی، روشهای اصلاح کلمه ای به زیردسته های زیر تقسیم میشوند: • شگردهای فاصله ویرایشی (Edit Distance)؛ • شگردهای مبتنی بر آواشناسی (Phonetics Based)؛ • شگردهای کلید مشابهت (Similarity Key)؛ • شگردهای چند وزنی (N-Gram Based)؛ • شگردهای احتمال.
گورین (1971) این روش را به صورت معکوس استفاده کرد تا با استفاده از چهار عمل فوق، برای کلمه های خطا مجموعه کلمات جایگزین را پیدا کند.
این به آن معنا است که اگر طول کلمه خطا n و تعداد حروف الفبا 32 باشد، n کلمه جایگزین برای عمل حذف، n-1 کلمه جایگزین برای عمل جابهجایی، 32(n+1) کلمه جایگزین برای عمل درج و 31(n) کلمه جایگزین برای عمل جایگزینی و جمعا 65n+31 کلمه تولید میشود.
برای استفاده از این روش، ماتریسی n در n ساخته میشود که n تعداد حروف الفبا است.
این کار برای کلمات واژه نامه آسان است؛ چون تلفظ مشخصی دارند؛ اما در عبارتهای خطا، مدل انتقال حرف به آوا نیاز است.
C. , "Pronunciation Modeling for Improved Spelling Correction"In proceedings of 40th Annual meeting of Association for Computational Linguistics, pp.
A. , "A Spelling Correction Program Based on a Noisy Channel Model", In Proceedings of COLING-90, The 13th International Conference On Computational Linguistics, Vol. 2, 1990.