Задача интеллектуальной обработки текстов на естественном языке впервые
появилась на рубеже 60-х–70-х гг.ХХ в. Работы последних лет связаны с решением
проблемы анализа смысла языка в приложении к созданию систем диалога с программным
обеспечением. Подходов к решению задачи понимания естественно-языковых запросов
несколько. Наиболее распространенными являются подходы, основанные на
синтаксическом, семантическом анализах и шаблонах. Первый подход, использующий
синтаксические конструкции, - самый трудный. Синтаксическое представление запроса
строится на основе подлежащего, сказуемого, прямого дополнения и т.п., которые
определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и
т.д.). Это представление ничего не говорит о смысле запроса.
Второй подход, основанный на семантике, гораздо ближе к смыслу запроса. В нем
используется синтаксическая информация из предыдущего подхода, а также информация
из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие
определять смысловые отношения между ним и другими словами, точнее, их значениями.
Полное описание связей между смыслами слов (а одно слово часто имеет несколько
смыслов) образует тезаурус, представляющий собой большую сеть со словами и их
смыслами в качестве узлов. С помощью таких тезаурусов выполняется построение
семантического представления запроса. Основная задача при этом — отсечь ненужные
смыслы, постараться выделить с помощью синтаксических связей достоверные
семантические конструкции. В больших предложениях, особенно с многозначными
словами, это часто приводит к комбинаторному взрыву — перебору множества смыслов и
связей между ними, а также многозначности синтаксических конструкций (одному и тому
же предложению может быть сопоставлено несколько синтаксических представлений),
обработка которых занимает неприемлемо большое время. Это лишь одна проблема,
стоящая на пути понимания естественно-языковых запросов в традиционной
синтаксически-ориентированной парадигме. Вторая сложность — типичные естественно-
языковые запросы, которые, как правило, не имеют правильных синтаксических
конструкций. На это влияют вольное словоизменение и словообразование в виде
неологизмов сетевой общественности, большой процент имен собственных и сокращений,
игнорирование правил пунктуации, что приводит к тому, что от естественного языка во
всем его многообразии иногда остается лишь лексика, причудливым образом
исковерканная. И, наконец, необходимые в этом подходе семантические словари — очень
трудоемкая составляющая, для многих предметных областей они просто отсутствуют, а их
разработка требует высокой квалификации.
Третий подход к анализу естественно-языковых запросов основан на шаблонах. Он
появился самым первым и с точки зрения программной реализации наиболее прост. Суть
его в том, что возможные запросы покрываются набором шаблонов-конструкций,
позволяющих отождествляться с запросом и выдавать в результате предопределенные
конструкции. Основной недостаток такого подхода заключается в необходимости
предусмотреть все возможные способы выражений на естественном языке, т.е. исчислить
грамматику. К сожалению, современный пользовательский язык совсем не похож на
литературный, и поисковые запросы синтаксическими шаблонами в чистом виде покрыть
довольно трудно. Если же основываться на семантической грамматике, придется для
каждой новой предметной области писать шаблоны заново.
К настоящему времени существующие естественно-языковые системы используют в
основном два последних подхода. Второй подход реализован в достаточно
распространенной системе ЗАПСИБ, разработанной в середине 80-х годов . Система
позволяет вести общение на ограниченном подмножестве естественного языка. Развитием
проекта является система InterBase, вышедшая в 1990 году . Система основана на
семантически-ориентированном анализе и продолжает ряд естественно-языковых
технологий лаборатории искусственного интеллекта ВЦ АН Новосибирска, затем фирмы
«Интеллектуальные технологии», а теперь РосНИИ искусственного интеллекта. В 2001
году эта система была переработана и получила название InBASE в виде коммерческого
продукта. В настоящее время система представляет собой библиотеку COM-компонентов и
среду настройки естественно-языковых интерфейсов. Существенным отличием от старой
версии является появление промежуточного уровня запросов — Q-языка, являющегося
подмножеством языка объектных запросов OQL, и уровня описания предметной области в
виде диаграммы классов UML. В полном соответствии с особенностями семантически-
ориентированной парадигмы InBASE позволяет строить естественно-языковые интерфейсы
ко многим языкам — для русского и для английского используется один и тот же Л-
процессор. Интересной особенностью InBASE является возможность моделирования
предметной области на естественном языке: с помощью класса словарных статей
«Толкование» смысл слова можно описать простой фразой. Это позволяет настраивать
естественно-языковые интерфейсы людям, не обладающим навыками инженеров знаний.
Основным недостатком данной системы является то, что кортежи базы данных
продублированы в словарях – отдельных файлах. В базах данных больших объемов этот
недостаток может стать проблемой
Поможем написать любую работу на аналогичную тему