Увеличить
Уменьшить
Добавить в избранное
 
Главная
О проекте
Анкеты
Семинары
Статьи
Контакты
Базы данных
Рейтинг ресурсов УралWeb
 

Центр дистанционного обучения

Учебно-методический центр

Интернет-портал интеллектуальной молодёжи

Уфимская доска объявлений

Погода в Уфе
и других городах

конкурс сайтов

конкурс сайтов
летний отдых в крыму, мини отели крыма с бассейном 2015 123

Раздел посвящен передовым технологиям.

Здесь публикуются статьи ученых и инженеров Республики Башкортостан, отражающие реализацию их творческого потенциала, а также статьи по темам информационных семинаров, проводимых в РНТИК "Баштехинформ".

Информатика

Использование нечетких нейронных сетей для анализа текста на естественном языке

25 ноября 2010

Колесников А.А.

ГУ РНТИК "Баштехинформ" АН РБ, г. Уфа

Для корпоративных поисковых систем и систем формализации экспертных знаний является актуальной задача анализа текста совместно со связанной с ним числовой информацией. Примерами являются системы оценки эффективности инноваций, системы выбора стратегии торгов на бирже, управление производством в нештатных ситуациях и т.д.

В случае поиска информации по простому набору слов использование лингвистической информации затруднено по причинам:

  • избыточности - встречаются слова-синонимы, выражающие одни и те же понятия;
  • слова текста считаются независимыми друг от друга, что не соответствует свойствам связного текста;
  • многозначности слов - поскольку многозначные слова могут рассматриваться как дизъюнкция двух или более понятий, выражающих различные значения многозначного слова, то маловероятно, что все элементы этой дизъюнкции интересуют пользователя.

Эти недостатки можно устранить при использовании концептуального индексирования, когда текст обрабатывается не по словам, а по понятиям, которые выражаются в данном тексте. Таким образом:

  • все синонимы сведены к одному и тому же понятию;
  • многозначные слова отнесены к разным понятиям;
  • связи между понятиями и соответствующими словами описаны и могут быть использованы при анализе текста.

В существующих поисковых системах для реализации концептуального поиска информации как правило, используют системы онтологии (семантические сети). Подобные системы, наряду с их очевидными достоинствами обладают и рядом недостатков:

  • в результате получаются имена понятий все-таки достаточно громоздкие, с ними трудно оперировать как разработчикам, так и пользователям;
  • слова естественного языка являются многозначными, у понятий предметной области как правило много синонимов, понятия могут иметь различные системы связей между собой - такая ситуация неоднозначности данных в онтологии называется семантическим разрывом, проблема, которых в настоящее время не решена;
  • онтология реальной предметной области не может быть полной, поэтому методы информационного поиска на основе онтологий должны сочетаться с методами информационного поиска на основе лексических методов в едином поисковом механизме.

Рис 1. Гибридная нечеткая нейронная сеть

Альтернативным решением поставленной задачи можно считать использование методик нечеткого вывода Мамдани-Заде [1] и нечетких нейронных сетей Такаги-Сугено-Канга [3]. В литературе приводятся данные о сравнительной эффективности этих методов, показано, что эффективность сетей Такаги-Сугено-Канга несколько выше [1] и их реализация проще.

На первом шаге алгоритма выполняется преобразование текста в массив значений лингвистических переменных. Это выполняется на основе словарей русского языка. Необходимо использование лексического, морфологического и синтаксического словарей. В настоящее время существует большой выбор программных продуктов для работы со словарями и самих словарей, доступных как по коммерческим лицензиям, так и по свободным лицензиям. Предпочтение следует отдать свободным словарям, и таким образом избежать лицензионных ограничений на их применение. Наиболее функциональными системами этого класса являются: система полнотекстового поиска встроенного в СУБД PostgreSQL, проект АОТ (Автоматическая Обработка Текста) [2], система и словари Ispell. Весь текст на естественном языке преобразуется в цепочки символов, далее находятся цепочки соответстующие лингвистическим переменным из словаря переменных предметной области. Далее находятся значения всех выявленных лингвистических переменных, они соответсуют терминальным символам в процедуре семантического разбора. Значения лингвистических переменных, имеющих качественное значение сопоставляются с ранжированными значениями шкалы оценок. Запросы на поиск в форме числовой и лингвистической информации фаззифицируются по значениям интервалов значений xi и далее аппраксимируются гауссовой функцией. Данный алгоритм позволяет определить значимость массивов входной информации в явном виде, и тем самым оптимизировать информационную точность результатов поиска.

В этой схеме при использовании алгоритма Такаги-Сугено-Канга [3] наиболее ресурсоемкой процедурой является вычисление значений функционала на каждом шаге работы алгоритма.

Предлагается совместить функции первого и второго слоя сети Такаги-Сугено-Канга, на входы этого слоя поступают непосредственно значения интервалов xi . В узлы второго слоя дополнительно вводится вычисление нечеткого интеграла:

- нижняя и верхняя границы интервала x. Процедура обучения сети реализуется с помощью взвешенного метода наименьших квадратов.

Выводы.

Построенный алгоритм анализа текста на естественном языке оптимизирован для задач поиска информации и формализации экспертных знаний для систем, в которых выполняется совместная обработка лингвистических и числовых данных.

Литература

  1. В. В. Круглов. Сравнение алгоритмов Мамдани и Сугэно в задаче аппроксимации функции. - М.: Московский энергетический Технический университет, 2001. - 15 с.
  2. Тихонов А.Н., Арсенин В.Я Методы решения некорректных задач. - М.: Наука, 1979.
  3. Горбань А.Н., Россиев Д.А Нейронные сети на персональном компьютере -. Новосибирск: Наука, 1996. - 276 с.
  4. Г. Н. Зверев Логические аппроксимации, лапласовы оценки и корреляционная логика. - Уфа: УГАТУ, 2005.
  5. Шер А.П. Исследование тестовых методов диагностики и разработка на их основе алгоритмов обработки океанологической информации для задач рыбопромыслового прогнозирования: Автореф. дис. канд. техн. наук. - Владивосток, 1984. - 19 с.
  6. www.aot.ru.

Материалы IV межрегиональной научно-практической конференции "Актуальные вопросы правовой охраны и коммерциализации результатов интеллектуальной деятельности". Уфа: Гилем, 2008. С. 111-113.

Последние опубликованные статьи

Общие комплексные проблемы технических и прикладных наук и отраслей экономики:

Как продвигать российские научные журналы в международные наукометрические базы // 11 февраля 2015

Государство и право. Юридические науки:

Защита исключительных прав при осуществлении внешнеэкономической деятельности // 17 января 2014

Общие комплексные проблемы технических и прикладных наук и отраслей экономики:

Предпосылки создания энергомашиностроительного кластера в Республике Башкортостан // 17 октября 2011

СТАТЬИ ПО РАЗДЕЛАМ НАУКИ И ТЕХНИКИ:

ПОИСК ПО ВСЕМ БАЗАМ
ПРИГЛАШЕНИЕ К СОТРУДНИЧЕСТВУ
 
НАШИ УСЛУГИ
Главная
О проекте
Анкеты
Семинары
Статьи
Форум
Контакты

Республиканский информационный банк данных наукоемких технологий