مجله ماشین بینایی و پردازش تصویر

مجله ماشین بینایی و پردازش تصویر

مروری بر مجموعه داده‌های صوتی و تصویری در بازشناسی تصویری گفتار پیوسته

نوع مقاله : مقاله مروری

نویسندگان
گروه مهندسی کامپیوتر، واحد کرج، دانشگاه آزاد اسلامی، کرج، ایران
چکیده
بررسی مجموعه داده‌ها‌ی لب‌خوانی اولین چالش مهم در زمینه بازشناسی تصویری گفتار پیوسته است. گروهی از محققان برای بازشناسی گفتار و لب‌خوانی به جمع‌آوری مجموعه داده‌هایی جهت ارزیابی الگوریتم‌های پیشنهادی خود پرداخته‌اند. به گونه‌ای که به تناسب نیاز خود تنها برخی از ویژگی‌های داده‌ها را در نظر گرفته‌اند. چرا که داده‌های صوتی تصویری برای بازشناسی گفتار و لب‌خوانی دارای ویژگی‌های متفاوتی چون گفتار پیوسته و یا گفتار گسسته، زبان پایگاه داده‌ها، زاویه تصویربرداری از گویندگان است. محققان جهت پردازش گفتار و آغاز به کار نیاز به آمارهایی در رابطه با پایگاه داده‌های موجود دارند. چالش نداشتن آمار در زمینه داده‌های گفتار پیوسته انگیزه‌ای شد تا در این مقاله مجموعه داده‌های صوتی تصویری گفتار پیوسته معرفی شوند و نحوه جمع‌آوری آنها، تنظیمات ضبط، محیط ضبط و ویژگی‌های اصلی آنها مانند تعداد گویندگان، تعداد تکرار گفتارها، رزولوشن تصویر بررسی ‌شوند. داده‌های مربوط به پایگاه داده‌های موجود بر حسب ویژگی‌های کمی و کیفی آنها دسته‌بندی و متناسب با این ویژگی‌ها آمارهای متفاوتی همچون درصد بومی بودن گویندگان، نسبت جنسیت گویندگان، میانگین سنی گویندگان، تعداد زوایای تصویربرداری از گویندگان و مدت زمان ضبط داده‌ها ارائه شده است. در پایان مزایای پایگاه داده‌های مورد مطالعه به همراه آدرس دسترسی به آنها لیست شده است.
کلیدواژه‌ها