پژوهشگران ايراني به طراحي سه ديكشنري تصويري جهت بازشناسي زير– كلمات چاپي موفق شدند
پژوهشگران دانشگاه الزهرا(س) سه ديكشنري تصويري براي بازشناسي بخشهاي متصل كلمات (زير – كلمات) چاپي طراحي كردند.
به گزارش خبرنگار «پژوهشي» خبرگزاري دانشجويان ايران (ايسنا) ، دكتر رضا عزمي، استاديار گروه كامپيوتر دانشگاه الزهرا (س) در طراحي اين ديكشنريهاي تصويري از ويژگيهاي مكان مشخصه، توصيفگرهاي فوريه و برچسبهاي كانتور بالايي زير – كلمات استفاده كرده است.
در بخشي از اين پژوهش آمده است: با توجه به اينكه در هر روش بدنه زير – كلمه با ويژگيهاي خاص آن روش توصيف ميشود، مدخل زير – كلمه در ديكشنري تعيين شده و زير – كلماتي كه مدخل واحدي دارند، همسايگي خاص خود را در ديكشنري تشكيل ميدهند. ضمن آنكه اندازهي اين همسايگيها تابع تعداد و نوع ويژگيهاي انتخاب شده است.
وي درخصوص نحوهي انجام تستها آورده است: در يك آزمايش، روشهاي ارايه شده روي مجموعهاي از زير – كلمات دو حرفي شامل 3675 تصوير از 147 بدنه مختلف آزموده شده كه در اين حالت اندازه متوسط همسايگيها براي سه ديكشنري به ترتيب 6/18، 92/23، 79/17 زير – كلمه است. همچنين در آزمايشي ديگر روش سوم روي مجموعه زير – كلمات دو، سه و چهار حرفي شامل 2790 نوع بدنه در پنج قلم و پنج اندازه آزموده شد كه در اين حالت اندازهي متوسط همسايگيها 37/74 و تعداد مدخلهاي ورودي 271 است.
اين پژوهشگر با اشاره به ارايهي تحقيقات فراوان براي بازشناسي متون لاتين، چيني، ژاپني، عربي و فارسي، در پژوهش خود آورده است: در بازشناسي متون چاپي دو رويكرد مبتني بر جداسازي و مبتني بر بازشناسي بدون جداسازي ارايه شده است كه در رويكرد اول ابتدا كلمات به حروف شكسته شده و سپس مجزا ميشوند اما در رويكرد دوم كلمه به صورت الگوي واحدي در نظر گرفته شده و شناسايي ميشود.
عزمي، ميافزايد: براي تشكيل يك ديكشنري با ويژگيهاي تصويري، به هر زير – كلمه ورودي با توجه به ويژگيهاي از پيش تعريف شدهاي كه از شكل كلي آن استخراج ميشوند، يك مدخل ورودي نسبت داده ميشود كه در مجموع زير – كلمات يك همسايگي از زير – كلمات مشابه ايجاد ميكند.
وي اندازهي متوسط همسايگيها، تعداد مدخلهاي ديكشنري را از خصوصيات ديكشنري تصويري خوانده و آورده است: در ديكشنري مكان مشخصه، زير – كلمه مجهول به سيستم ارايه شده و اگر در همسايگي مورد نظر وجود داشته باشد، يك نمونه بازشناسي درست و در غير اين صورت به عنوان خطا در نظر گرفته ميشود.
در ديكشنري تصويري توصيفگرهاي فوريه در مرحله استخراج ويژگيهاي تصويري، كانتوپيراموني زير – كلمه ورودي استخراج و از اين ديكشنري تصويري براي نمايش آن استفاده ميشود.
همچنين در ديكشنري تصويري برچسبهاي كانتور بالايي، كانتور پيراموني زير – كلمات تعيين و كانتور بالايي محاسبه شده اما تعداد ويژگيها در آن ثابت نبوده و از زير – كلمهاي به زير – كلمه ديگر تغيير ميكند.
به گزارش ايسنا، اين پژوهشگر در بخش ديگري از پژوهش خود آورده است: متوسط اندازه همسايگيها و ميزان باشناسي قلم جديد مزيت ديكشنري برچسبهاي كانتور بالايي اما امكان تنظيم و بهينهسازي و حجم محاسبات در آن نسبت به دو ديكشنري ديگر كمتر است.
گفتني است اين پژوهش با همكاري دكتر رضا عزمي و احساناله كبير انجام شده است.
١٢:٥١ ١٦/٠٣/١٣٨٥