چکیده:
کمتر کسی در مورد تفاوتهای موجود بین زبانهای مختلف تردید دارد، اما آیا
میتوان این تفاوتها را مدل سازی نموده و الگویی را استخراج کرد که به کمک آن
بتوان یک زبان مورد نظر را از میان سایر زبانها و بصورتی اتوماتیک شناسایی
کرد؟منظور از مدل سازی، بررسی ساختاری زبانهای مختلف در یک چارچوب یکسان و در
ارتباط با فیزیک و کالبد کلمات است.در این مقاله، طول کلمه و توزیع آماری آن را تحلیل کرده و نشان خواهیم کرد که
شناسایی پنج زبان زنده دنیا با مطالعه طول کلمات آنها کاملا امکانپذیر است.این
مدل سازی امکانات و تسهیلات جدیدی را در فضای فناوری اطلاعات و بهینه سازی
فرآیندههای داده کاوی فراهم خواهد آورد.
خلاصه ماشینی:
"(به تصویر صفحه مراجعه شود) چکیده کمتر کسی در مورد تفاوتهای موجود بین زبانهای مختلف تردید دارد، اما آیا میتوان این تفاوتها را مدل سازی نموده و الگویی را استخراج کرد که به کمک آن بتوان یک زبان مورد نظر را از میان سایر زبانها و بصورتی اتوماتیک شناسایی کرد؟منظور از مدل سازی، بررسی ساختاری زبانهای مختلف در یک چارچوب یکسان و در ارتباط با فیزیک و کالبد کلمات است.
رسالههای کار شناسایی ارشد و دکتری زیادی در حوزه زبانشناسی زبانها انجام گرفته و میگیرد از جمله گیژت تفکیک جملهها در زبانهای مختلف را با استفاده از اطلاعات زبانشناسی و دانش آماری بررسی کرد و نتایج تحقیقات خود را در کنفرانسهایی از جمله در پراگ چکسلواکی ارایه نمود.
علی رغم انجام این تحقیقات هنوز کار زیادی روی شناسایی نوشتاری زبانها باید انجام گیرد، به خصوص با توجه به این که بیشتر مطالعات موجود روی زبانهای لاتینی انجام شده است، مانند کار داماشک در 1995(داماشک، 1995)و یا کار هافمن در سال 2000(هافمن، 2000)زیر عنوان الگوریتم آشنایی که قادر است زبانهایی مانند هلندی، انگلیسی، استونیایی، ایرلندی، لهستانی، پرتغالی و باسکی را تفکیک نماید."