Анализ слабо структурированных текстовых данных



Реферат:Цель: изучение методов анализа текстов; разработка общей технологии создания обучаемых инструментов анализа, и решение с ее помощью прикладной задачи анализа документов, содержащих информацию о вопросах. Разработана технология создания обучаемых инструментов анализа слабо структурированных текстовых данных. Такие инструменты способны работать с произвольными форматами текстов и строить явно заданную структурированную модель информации, содержащейся в них. Разработан статистический метод сравнения возможных способов выполнения этапа графематического анализа. Предложен способ выполнения этапа синтаксического анализа с помощью решения задач классификации, аналогичный его выполнению в области анализа текстов на естественном языке. При использовании такой модели задача синтаксического анализа решается как определение класса объекта на основе его свойств. Предложен способ автоматического определения ошибок анализа, использующий закономерности представления информации, выявленные в анализируемом документе. При этом проверяется выполнение ограничений, заданных в виде регулярных грамматик, которым должны удовлетворять выделенные элементы информации. Решена прикладная задача анализа текстов документов с вопросами. Разработан инструмент, позволяющий выполнять анализ документов, содержащих сотни вопросов с помощью указания единственного примера полного анализа, и устранения нескольких ошибок, автоматически выявленных программой.
Автор:Уразлин Юрий Климентович
Тип диссертации:1
Дата защиты:Dec. 23, 2005
Количество страниц:144
Руководители: Флеров Ю.А. д.ф.-м.н. 05.13.18
Оппоненты: Павловский Ю.Н. д.ф.-м.н. 01.01.09
Афанасьев А.П. д.ф.-м.н. 05.13.18
Ключевые слова: