Аңдатпа
Терең оқытуды мультимодальды жүйелерде қолдану айтарлықтай прогресс көрсетті, әсіресе ым-ишараларды тануды оңтайландыруда және есту қабілеті бұзылған адамдарға арналған ым тілін интерпретациялауды жеңілдетуде. Бұл мақалада бет-әлпет мимикасын тану үшін конволюциялық нейрондық желілерді (CNN), ал уақыттық ым-ишараларды талдау үшін ұзақ қысқа мерзімді жад желілерін (LSTM) пайдалана отырып, ым-ишара мен эмоция талдауын интеграциялау қарастырылады. Алгоритмдердің тиімділігін бағалау мақсатында мультимодальды жүйелер дәл таңбаланған эмоциялық бейнелерді қамтитын iMiGUE сияқты арнайы деректер жиынтықтарында сыналды. Бұл деректер жиынтықтары модельдердің нақты өмірлік тапсырмалардағы өнімділігін бағалауға, сондай-ақ әртүрлі модельдер арасындағы салыстыруды жүргізуге мүмкіндік берді.