Перспективы развития систем формально-семантического анализа текстов
Основными параметрами, по которым может оцениваться функционирование систем формально-семантического анализа текстов, являются качество анализа текстов и скорость его обработки. Качество анализа текстов определяется, прежде всего, использованием адекватной модели представления их смысловой структуры, эффективностью методов и алгоритмов анализа текстов, составом декларативных средств… Читать ещё >
Перспективы развития систем формально-семантического анализа текстов (реферат, курсовая, диплом, контрольная)
Основными параметрами, по которым может оцениваться функционирование систем формально-семантического анализа текстов, являются качество анализа текстов и скорость его обработки. Качество анализа текстов определяется, прежде всего, использованием адекватной модели представления их смысловой структуры, эффективностью методов и алгоритмов анализа текстов, составом декларативных средств, обеспечивающих высокое покрытие анализируемых текстов.
Скорость обработки текстов зависит от бымтродействия применяемых методов и алгоритмов семантической обработки, числа проходов по тексту при его обработке и от объемов грамматических таблиц и словарей, используемых при обработке текстовой информации.
Ориентация на фразеологические словосочетания как на основную форму представления наименований понятий в естественных языках позволяет более точно учитывать семантико-синтаксическую структуру текстов и построить более эффективную систему смысловой обработки текстовой информации. Построение такой системы неизбежно связано с выявлением понятийного состава русского языка, которое по нашим представлениям содержит несколько сот миллионов наименований понятий. Косвенным подтверждением этой оценки являются данные Международного терминологического центра Инфортерм. Согласно этим данным, количество различных терминов в языках достигает 50 миллионов, а количество наименований товаров — 100 миллионов. Но многообразие устойчивых фразеологических единиц в естественных языках далеко не исчерпывается только этими двумя типами лексических единиц. В связных текстах нетерминологические фразеологические единицы встречаются чаще, чем терминологические.
Следовательно, есть основания предположить, что их больше, чем терминов и наименований товаров вместе взятых. Поэтому любая система анализа текстов в перспективе должна включать в свой состав систему мощных политематических словарей наименований понятий, содержащих нескольких миллионов (или десятков миллионов) словарных статей состоящих преимущественно из фразеологических словосочетаний. В словарях должны содержаться также сведения об отношениях синонимии и о родо-видовых отношениях между понятиями.
Для оценки быстродействия системы анализа текста необходимо подсчитать скорости обработки текстов на различных этапах их анализа. В качестве теста был взят текст по авиакосмической тематике объемом 13 124 слова (103 139 символа). В процессе обработки этого текста последовательно процедурами графематического анализа, морфологического анализа, семантико-синтаксического анализа и концептуального анализа подсчитывалось время работы каждого этапа и общее время его обработки в текущей версии системы. Далее были подсчитаны скорости функционирования экспериментальной перспективной системы анализа текстов с модифицированными словарями и грамматическими таблицами. При этом их объемы в перспективной версии системы значительно возросли. Так, например, суммарный объём тематических и политематических словарей увеличился с 1.8 млн. до 9.6 млн. словарных статей. Результаты сравнительной оценки быстродействия текущей версии системы и перспективной версии показывают, что повышение качества обработки и анализа текстов и связанное с этим неизбежное значительное увеличение объемов декларативных средств в традиционной реализации приводит к существенному снижению производительности этих систем.