Нужна помощь в написании работы?

Задача интеллектуальной обработки текстов на естественном языке впервые

появилась на рубеже 60-х–70-х гг.ХХ в. Работы последних лет связаны с решением

проблемы анализа смысла языка в приложении к созданию систем диалога с программным

обеспечением. Подходов к решению задачи понимания естественно-языковых запросов

несколько. Наиболее распространенными являются подходы, основанные на

синтаксическом, семантическом анализах и шаблонах. Первый подход, использующий

синтаксические конструкции, - самый трудный. Синтаксическое представление запроса

строится на основе подлежащего, сказуемого, прямого дополнения и т.п., которые

определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и

т.д.). Это представление ничего не говорит о смысле запроса.

       Второй подход, основанный на семантике, гораздо ближе к смыслу запроса. В нем

используется синтаксическая информация из предыдущего подхода, а также информация

из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие

определять смысловые отношения между ним и другими словами, точнее, их значениями.

Полное описание связей между смыслами слов (а одно слово часто имеет несколько

Внимание!
Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.

смыслов) образует тезаурус, представляющий собой большую сеть со словами и их

смыслами в качестве узлов. С помощью таких тезаурусов выполняется построение

семантического представления запроса. Основная задача при этом — отсечь ненужные

смыслы, постараться выделить с помощью синтаксических связей достоверные

семантические конструкции. В больших предложениях, особенно с многозначными

словами, это часто приводит к комбинаторному взрыву — перебору множества смыслов и

связей между ними, а также многозначности синтаксических конструкций (одному и тому

же предложению может быть сопоставлено несколько синтаксических представлений),

обработка которых занимает неприемлемо большое время. Это лишь одна проблема,

стоящая на пути понимания естественно-языковых запросов в традиционной

синтаксически-ориентированной парадигме. Вторая сложность — типичные естественно-

языковые запросы, которые, как правило, не имеют правильных синтаксических

конструкций. На это влияют вольное словоизменение и словообразование в виде

неологизмов сетевой общественности, большой процент имен собственных и сокращений,

игнорирование правил пунктуации, что приводит к тому, что от естественного языка во

всем его многообразии иногда остается лишь лексика, причудливым образом

исковерканная. И, наконец, необходимые в этом подходе семантические словари — очень

трудоемкая составляющая, для многих предметных областей они просто отсутствуют, а их

разработка требует высокой квалификации.

       Третий подход к анализу естественно-языковых запросов основан на шаблонах. Он

появился самым первым и с точки зрения программной реализации наиболее прост. Суть

его в том, что возможные запросы покрываются набором шаблонов-конструкций,

позволяющих отождествляться с запросом и выдавать в результате предопределенные

конструкции. Основной недостаток такого подхода заключается в необходимости

предусмотреть все возможные способы выражений на естественном языке, т.е. исчислить

грамматику. К сожалению, современный пользовательский язык совсем не похож на

литературный, и поисковые запросы синтаксическими шаблонами в чистом виде покрыть

довольно трудно. Если же основываться на семантической грамматике, придется для

каждой новой предметной области писать шаблоны заново.

      К настоящему времени существующие естественно-языковые системы используют в

основном два последних подхода. Второй подход реализован в достаточно

распространенной системе ЗАПСИБ, разработанной в середине 80-х годов . Система

позволяет вести общение на ограниченном подмножестве естественного языка. Развитием

проекта является система InterBase, вышедшая в 1990 году . Система основана на

семантически-ориентированном анализе и продолжает ряд естественно-языковых

технологий лаборатории искусственного интеллекта ВЦ АН Новосибирска, затем фирмы

«Интеллектуальные технологии», а теперь РосНИИ искусственного интеллекта. В 2001

году эта система была переработана и получила название InBASE в виде коммерческого

продукта. В настоящее время система представляет собой библиотеку COM-компонентов и

среду настройки естественно-языковых интерфейсов. Существенным отличием от старой

версии является появление промежуточного уровня запросов — Q-языка, являющегося

подмножеством языка объектных запросов OQL, и уровня описания предметной области в

виде диаграммы классов UML. В полном соответствии с особенностями семантически-

ориентированной парадигмы InBASE позволяет строить естественно-языковые интерфейсы

ко многим языкам — для русского и для английского используется один и тот же Л-

процессор. Интересной особенностью InBASE является возможность моделирования

предметной области на естественном языке: с помощью класса словарных статей

«Толкование» смысл слова можно описать простой фразой. Это позволяет настраивать

естественно-языковые интерфейсы людям, не обладающим навыками инженеров знаний.

Основным недостатком данной системы является то, что кортежи базы данных

продублированы в словарях – отдельных файлах. В базах данных больших объемов этот

недостаток может стать проблемой

Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Узнать стоимость
Поделись с друзьями