Специально для учителей!

СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Выбрать материалы

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Разработки / Прочее / Разное / Прочее / Построение формальной онтологии предметов

Построение формальной онтологии предметов

Последние десятилетия особый интерес у исследователей искусственного интеллекта вызывают онтологии. Онтологии могут использоваться для представления знаний о понятиях предметной области и отношениях между ними, а также для описания содержания Web-страниц. Кроме того, онтологии можно использовать при построении баз знаний не только экспертных систем, но также любых других приложений.

Максимов Сергей Владимирович

08.04.2019

Содержимое разработки

Построение формальной онтологии предметов

С.В. Максимов

Одна из причин возникновения потребности в онтологии – это совместное ее использование, как людьми, так и программными агентами. Например, консорциум W3C разрабатывает RDF (Resource Description Framework), язык кодирования знаний на Web-страницах, для того, чтобы сделать их понятными для программных агентов, которые осуществляют поиск информации. В этом смысле онтологии представляют собой интеллектуальные средства для развития и совершенствования сети Интернет. В настоящее время четкой границей между базой знаний и онтологией предметной области не существует.

Целью данной статьи является формулировка формальной онтологии, пригодной для построения на ее основе образовательной модели предметов.

Для создания и редактирования онтологических моделей могут быть использованы различные программные продукты. Наиболее популярным редактором онтологий принято считать Protege. Вместе с тем, количество удачных разработок в этой области стремительно увеличивается [4, 5].Подробный анализ существующих инструментальных средств работы с онтологиями представлен в [1].

Protege - это свободный, открытый редактор онтологий и фреймворк для построения баз знаний.

Платформа Protege поддерживает два основных способа моделирования онтологий посредством редакторов Protege -Frames и Protege-OWL. Онтологии, построенные в Protege, могут быть экспортированы во множество форматов, включая RDF (RDF Schema), OWL и XML Schema.

Protege имеет открытую, легко расширяемую архитектуру за счёт поддержки модулей расширения функциональности.

Protege поддерживается значительным сообществом, состоящим из разработчиков и ученых, правительственных и корпоративных пользователей, использующих его для решения задач, связанных со знаниями, в таких разнообразных областях, как биомедицина, сбор знаний и корпоративное моделирование.

Protege доступен для свободного скачивания с официального сайта вместе с плагинами и онтологиями.

Методы автоматического построения онтологий можно условно разделить на три основные группы в зависимости от области заимствования основного подхода: методы, основанные на подходах из области искусственного интеллекта, статистические методы и методы, использующие лингвистические подходы.

Решение проблем автоматического построения онтологий, преимущественно основана на статистических методах анализа текстов на естественном языке. Для построения формальной онтологии предметов используются статистические методы. Предлагаемый подход основан на выполнении основных этапов построения онтологии т.е выделение классов и отношений между ними.

Этап I. Предварительная подготовка коллекции. Одной из особенностей работы с текстами на естественном языке является необходимость обязательной предварительной обработки данных. Процесс обработки может быть достаточно трудоемким и обычно состоит из нескольких шагов:

1. приведение документов к единому формату;

2. токенизация;

3. стемминг (лемматизация);

4. исключение стоп-слов.

Однако не всегда существует необходимость в проведении всех вышеперечисленных этапов. Более подробно эти вопросы рассматриваются в [3]. В результате предварительной обработки каждый документ коллекции характеризуется вектором типов данного документа и их частотой встречаемости. Особенности коллекции влияют на качество онтологии.

Для улучшения получаемой в результате работы системы онтологии, предлагается провести предварительную кластеризацию документов коллекции таким образом, чтобы в один кластер попадали тематически близкие документы, а дальнейшую работу проводить отдельно с каждым полученным кластером. Стоит заметить, что какие-либо специальные требования к алгоритму кластеризации отсутствуют. В качестве алгоритма кластеризации предполагается использование метода Contextual Document Clustering [2], дающего хорошие результаты на больших текстовых коллекциях.

Этап II. Определение классов онтологии. В этом этапе построения онтологии требуется выделить входящие в ее состав классы. Понятия лингвистической онтологии строго связаны с терминами, поэтому данная задача сводится к определению терминов рассматриваемой предметной области. Алгоритмы извлечения терминов из текстов на естественном языке можно разделить на две группы: статистические и лингвистические.

Однако первые обладают определенным преимуществом, поскольку их использование не зависит от лингвистических особенностей конкретного языка. Подход к извлечению терминов является преимущественно статистическим. Тем не менее, предполагается, что существующие статистические методы могут показать лучшие результаты, если дополнить их определенными эвристиками.

Предварительно в качестве базовых эвристик предлагается использовать следующие:

а) Имя класса содержит хотя бы одно существительное.

б) Общеупотребительные слова по сравнению с терминами обладают большей частотой встречаемости, приблизительно равной в различных предметных областях.

в) Количество информации термина из нескольких слов больше, чем количество информации отдельных слов, входящих в его состав.

Этап III. Этап выделения отношений между классами создаст наибольшие трудности. В связи с чем, первоначально имеет смысл говорить об автоматическом построении не произвольной прикладной онтологии, а тезауруса (таксономии с терминами).

В качестве базовых отношений, действующих между терминами, определим отношения «is-a» и «synonym-of». Для выделения отношения «is-a» можно воспользоваться количественным подходом к информации. Для этого еще раз воспользуемся сделанным в предыдущем пункте предположением (в). Очевидно, что термин, находящийся на более низком уровне иерархии, обладает большим количеством информации, чем обобщающий термин.

Оценка автоматически построенных онтологий является отдельной сложной задачей. Ввиду существования отработанных методик оценки качества информационного поиска (точность и полнота поиска), можно оценивать онтологии по качеству работы систем семантического поиска, использующих онтологии. На основе онтологий системы могут значительно сужать пространство поиска за счет динамического расширения запросов пользователя.

Таким образом, в статье обосновывается подход к автоматизации процесса построения онтологии по коллекции текстовых документов, относящихся к одной тематике, на основании статистических методов анализа естественно-языковых текстов.

Предполагается, что термины и некоторые базовые отношения между ними могут быть выделены автоматически из коллекции текстовых документов на основании статистических данных.

В дальнейшем планируется практическая реализация представленного теоретического подхода к автоматическому построению тезауруса по коллекциям текстовых документов, его оценка и сравнение с существующими подходами из других групп. Также планируется расширение представленного подхода на оставшиеся незатронутыми заключительные этапы построения онтологии: определение слотов и фактов.

Ключевые слова: Protege, формальная онтология, базы знаний.

Список литературы:

Ding, L., Kolari, P., Ding, Z., Avancha, S., Finin, T., and Joshi, A. Using ontologies in the Semantic Web: a survey. // Ontologies: a handbook of principles, concepts and applications in information systems. Springer US, 2006. Pp. 79–114.
Dobrynin, V., Patterson, D. W., and Rooney, N. Contextual Document Clustering. // Proc. of ECIR. 2004. Pp. 167–180.
Weiss, S. M., Indurkhya, N., Zhang, T., and Damerau, F. J. Text Mining: predictive methods for analyzing unstructured information. Springer, 2005.
Найханова Л. В. Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования: Автореф. дис. докт. тех. наук. — Красноярск, 2008. — 36 с.
Рабчевский Е. А. Автоматическое построение онтологий. // Научно–технические ведомости Санкт–Петербургского государственного политехнического университета. — СПб.: Издательство Политехнического Университета, 2007. — № 52–2. — С. 22–26.