Морфологический гессер как инструмент анализа полевых данных: опыт работы с науканским языком
DOI: 10.23951/2307-6119-2025-2-9-19
Представлено описание разработки и оценки двух инструментов автоматического морфологического анализа для науканского языка (юпикские эскимосские эскимосско-алеутские): морфологического анализатора со словарем и морфологического гессера без словаря. Оба инструмента реализованы с использованием двухуровневого подхода к моделированию морфологии на основе конечных автоматов. Подробно рассматриваются особенности морфологии науканского языка, влияющие на разработку автоматических инструментов анализа, включая богатое словоизменение и словообразование, омонимию морфологических показателей и сложные морфонологические процессы. На материале корпуса устных текстов, записанных в 2022–2023 гг., проводится оценка эффективности работы обоих инструментов. Особое внимание уделяется проблеме сверхгенерации при работе морфологического гессера и способам ее решения через разделение анализа по частям речи. Результаты исследования показывают, что при работе с полевыми данными использование гессера может быть более эффективным, несмотря на известные ограничения.
Ключевые слова: науканский язык, морфологический анализатор, документация языков, автоматическая обработка языка
Библиография:
1. Меновщиков Г.А. Язык науканских эскимосов. Л.: Наука, 1975. 512 с.
2. Головко Е.В., Добриева Е.А., Джейкобсон С., Краусс М. Словарь языка науканских эскимосов / ред. С. Джейкобсон. Фэрбенкс: Центр изучения коренных языков Аляски, 2004. 369 с.
3. Вахтин Н.Б. Морфология глагольного словоизменения в юпикских (эскимосских) языках / Российская академия наук, Институт лингвистических исследований. СПб.: Нестор, 2007. 123 c.
4. Kanuparthi N., Inumella A., Sharma D.M. Hindi Derivational Morphological Analyzer // Proceedings of the Twelfth Meeting of the Special Interest Group on Computational Morphology and Phonology. Montreal: Association for Computational Linguistics, 2012. P. 10–16.
5. Kessikbayeva G., Cicekli I. Rule Based Morphological Analyzer of Kazakh Language // Proceedings of the 2014 Joint Meeting of SIGMORPHON and SIGFSM. Baltimore: Association for Computational Linguistics, 2014. P. 46–54.
6. Khalifa S., Hassan S., Habash N. A Morphological Analyzer for Gulf Arabic Verbs // Proceedings of the Third Arabic Natural Language Processing Workshop. Valencia: Association for Computational Linguistics, 2017. P. 35–45.
7. Forbes C., Nicolai G., Silfverberg M. An FST morphological analyzer for the Gitksan language // Proceedings of the 18th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology. Online: Association for Computational Linguistics, 2021. P. 188–197.
8. Merzhevich T., Ferraz Gerardi F. Introducing YakuToolkit. Yakut Treebank and Morphological Analyzer // Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. Marseille: European Language Resources Association, 2022. P. 185–188.
9. Koskenniemi K. Two-level Morphology. A General Computational Model for Word-Form Recognition and Production. Helsinki: University of Helsinki, Department of General Linguistics, 1983.
10. Karttunen L. KIMMO: A General Morphological Processor // Texas Linguistics Forum. 1983. Vol. 22. P. 217–228.
11. Antworth E.L. PC-KIMMO: a two-level processor for morphological analysis. Dallas: Summer Institute of Linguistics, 1990.
12. Ritchie G.D., Russell G. J., Black A. W., Pulman S. G. Computational Morphology. Practical Mechanisms for the English Lexicon. Cambridge: The MIT Press, 1991.
13. Swanson D., Howell N. Lexd: A finite-state lexicon compiler for non-suffixational morphologies // Multilingual Facilitation. 2021. P. 133–146.
14. Karttunen L., Beesley K. R. Two-level rule compiler. Palo Alto: Xerox Corporation, Palo Alto Research Center, 1992.
15. Lindén K., Axelson E., Hardwick S., Pirinen T.A., Silfverberg M. HFST – framework for compiling and applying morphologies // Systems and Frameworks for Computational Morphology: Second International Workshop, SFCM 2011. Berlin: Springer, 2011. P. 67–85.
16. Chen E., Schwartz L. A morphological analyzer for St. Lawrence island / Central Siberian yupik // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.
Выпуск: 2, 2025
Серия выпуска: Выпуск № 2
Рубрика: ЛИНГВИСТИКА
Страницы: 9 — 19
Скачиваний: 536







