|
|
Методы отображения онтологий. Обзор # 01, январь 2009
УДК 519.6
МГТУ им. Н.Э. Баумана, 105005, Москва, 2-я Бауманская ул., д.5.
Введение
Создание промышленных систем, основанных на онтологиях, требует методов и инструментов, как для построения онтологий, так и для целого ряда задач, связанных с их сопровождением. Для построения онтологий с середины 90-х годов прошлого века начали создаваться среды разработки онтологий. В последующие годы параллельно с развитием средств разработки онтологий появились средства редактирования и сопровождения онтологий, средства отображения, выравнивания и объединения онтологий, а также средства аннотирования онтологий. Таким образом, к настоящему времени сформировалась целая инженерия онтологий [1].
Одним из центральных понятий инженерии онтологий является понятие «отображение онтологий» (ontology mapping), под которым понимается деятельность по установлению соответствия между несколькими онтологиями или, другими словами, нахождение семантических связей подобных элементов из разных онтологий. С наиболее общей точки зрения важность задачи отображения онтологий обусловлена тем фактом, что мощность знаний, заключенных в онтологиях, проявляется в полной мере только в том случае, когда удается учесть взаимосвязи независимых онтологий - установление факта подобия сущностей в разных онтологиях означает извлечение из этих онтологий дополнительных знаний.
Близкой к проблеме отображения онтологий является проблема выравнивания онтологий (ontology alignment), которая заключается в том, чтобы установить различные виды соответствия между двумя онтологиями, а затем сохранить исходные онтологии вместе с информацией о найденных соответствиях с тем, чтобы в дальнейшем использовать информацию о взаимосвязях онтологий. Отметим также, что на основе отображения онтологий решается задача интеграции онтологий (ontology merging) – задача создания новой онтологии или ее фрагментов из двух и более исходных онтологий.
Задача отображения онтологий возникает во многих областях науки и техники, например, при организации понятийного контроля знаний субъекта обучения в интеллектуальной обучающей системе [2], при моделировании организаций в задачах организационного проектирования [3], при проектировании персонифицированных информационных ресурсов над WEB-сайтами со слабоструктурированными данными [4], при построении цифровых (электронных) библиотек [1].
В работе рассмотрены критерии и мультикритерии подобия онтологий. На этой основе дан обзор методов автоматического отображения онтологий. Рассматриваемые критерии подобия онтологий построены на основе подобия сущностей соответствующих семантических сетей, дескриптивной логики, ограничений и правил и пр. [5]. Все критерии являются транзитивными: если А подобно В, и В подобно С, то А подобно С. Таким образом, рассматриваемые критерии можно использовать для установления подобия более, чем двух онтологий.
Для иллюстраций в работе используется язык описания онтологий OWL (Web Ontology Language) [6].
1. Термины и определения
Компоненты, из которых состоит онтология, зависят от используемой модели онтологии. Обычно онтология описывается с помощью
· концептов (понятий, классов, сущностей, категорий),
· атрибутов концептов (слотов, свойств, ролей),
· отношений между концептами (связей, зависимостей, функций),
· дополнительных ограничений (аксиом, фасет).
Элементы предметной области (элементы данного концепта) называются экземплярами. Зависимость между концептами, которая включает в себя необходимое условие и следствие выполнения этого условия, называется правилом. Онтология вместе с множеством соответствующих экземпляров составляет базу знаний.
Подобие некоторых сущностей
Пусть
Отображение онтологии
Будем писать
Если онтология
2. Критерии подобия онтологий
2.1. Критерии на основе подобия идентификаторов или URI сущностей.
Критерий
если метки двух сущностей подобны, то эти сущности подобны (
Здесь и далее
Вместо имен сущностей могут сравниваться имена их синонимов (с использованием существующих словарей общей и профессиональной лексики или тезаурусов [7]).
Отметим, что известно большое количество методов сравнения меток, см., например, метод интервала редактирования (the edit distance) [9]. Отметим также, что с помощью соответствующего словаря данный критерий подобия может быть использован для сравнения сущностей, заданных на разных языках.
Пример 1. Пусть имеются два концепта с идентификаторами «компьютерная мышка» и «компьютерная мышь»:
Сравнение этих идентификаторов любым из методов сравнения меток покажет подобие указанных концептов.
Критерий
если две сущности имеют подобные URI, то эти сущности подобны (
Пример 2. В онтологии [11] определяется концепт «Регион»:
В этой же онтологии имеется понятие "РегионЦентральногоПобережья":
В соответствии с критерием
2.2. Критерии на основе семантической сети онтологии [12].
Критерий
если атрибуты двух сущностей подобны, то эти сущности подобны (
Пример 3.
Экземпляры «КабернеСовиньон» и «ВиноградКабернеСовиньон» обладают одинаковыми атрибутами и поэтому подобны.
Критерий
если область применения и диапазон двух отношений подобны,
то такие отношения подобны (
Пример 4.
Отношения «СделаноИзВинограда», «ПолученоИзВинограда» имеют одинаковые области применения и диапазоны и поэтому подобны.
2.3. Критерии на основе дескриптивной логики [5].
Критерии данного класса охватывают онтологии, которые обладают сложностью, достаточной для их описания дескриптивными логиками [13].
Приведем прежде пример дескриптивной логики.
Здесь «умные люди», «книги» и «умный человек» — концепты; «читают» - отношение; «Сергей» - экземпляр. Экземпляр «Сергей» наследует отношение родительского понятия. Тот же пример на языке OWL имеет вид:
<owl:Class rdf:ID="литература"/>
<owl:Class rdf:ID="книги">
<rdfs:subClassOf rdf:resource="#литература"/>
</owl:Class>
<owl:Class rdf:ID="умные люди">
<owl:Restriction>
<owl:onProperty rdf:resource="#читают"/>
<owl:hasValue rdf:resource="#книги"/>
</owl:Restriction>
</owl:Class>
<owl:Thing rdf:ID="Сергей">
<rdfs:type rdf:resource="#умные люди"/>
</owl:Thing>
Критерий
если родительские понятия двух концептов подобны, то сами концепты также подобны
Пример 5.
Родительские понятия концептов «Напиток» и «Пища» совпадают, поэтому указанные концепты подобны.
Критерий
если дочерние понятия сравниваемых концептов подобны,
то эти концепты также подобны (
Пример 6.
Концепты «Еда» и «Пища» имеют одно и тоже дочернее понятие «Хлеб» и поэтому подобны.
Критерий
если концепты имеют подобные концепты того же уровня иерархии, то они также подобны
Пример 7.
<owl:Class rdf:ID="Автомобиль"/>
<owl:Class rdf:ID="Машина"/>
<owl:Class rdf:ID="Порш"/>
<rdfs:subClassOf rdf:resource="#Автомобиль"/>
</owl:Class>
<owl:Class rdf:ID="Жигули"/>
<rdfs:subClassOf rdf:resource="#Автомобиль"/>
<rdfs:subClassOf rdf:resource="#Машина"/>
</owl:Class>
<owl:Class rdf:ID="Мерседес"/>
<rdfs:subClassOf rdf:resource="#Машина"/>
</owl:Class>
Концепты «Порш» и «Мерседес» подобны, поскольку каждый из этих концептов имеет подобный концепт «Жигули» того же уровня (Рис. 1).
Рис. 1. К примеру 7.
Критерии
если подобны атрибуты дочерних сущностей,
то атрибуты родительских сущностей также подобны (
если подобны атрибуты родительских сущностей,
то атрибуты дочерних сущностей также подобны (
Пример 8.
Атрибуты «ИмеетЦвет» и «ИмеетОттенок» подобны, поскольку подобны их родительские атрибуты.
Критерий
если концепты включают в себя подобные экземпляры,
то эти концепты подобны (
Пример 9.
Концепты «Автомобиль» и «Машина» включают в себя одинаковые экземпляры и поэтому подобны.
Критерий
если экземпляры принадлежат подобным концептам,
то эти экземпляры подобны (
Пример 10.
Экземпляры «ПоршСергея» и «МерседесСергея» подобны, поскольку принадлежат одному концепту «Автомобиль».
Критерий
если концепты имеют схожую малую/большую часть экземпляров, эти понятия подобны
В отличие от критерия
Пример 11.
Концепты «Автомобиль» и «Машина» включают в себя часть одинаковых экземпляров («ПоршСергея», «МерседесСергея») и поэтому подобны.
Критерий
если два экземпляра связаны с некоторым другим экземпляром подобными отношениями,
то эти экземпляры подобны (
Пример 12.
Экземпляры «РегионГорыСантаКруз» и «РегионКалифорния» связаны с экземпляром «РегионСША» отношением «РасположенВ» и поэтому подобны.
Критерий
если некоторое отношение связывает экземпляры с одним и тем же экземпляром,
то сравниваемые отношения могут быть подобны (
Пример 13.
Здесь экземпляры «РегионГорыСантаКруз» и «РегионКалифорния» связаны с одним и тем же экземпляром «РегионСША» отношениямим «РасположенВ» и «НаходитсяВ» соответственно. Поэтому указанные отношения подобны.
2.4. Критерии на основе ограничений.
Критерий
если две сущности связаны между собой отношением «sameClassAs» или отношением «sameIndividualAs», то эти сущности подобны (
Пример 14.
Критерий
если две сущности связаны между собой отношениями «EquivalentClass», «EquivalentProperty», «SameAs», то эти сущности подобны (
Пример 15.
В этом примере «БелоеВино» и «Шампанское» обладают подобными ограничениями («имеетЦвет» «Белое»):
2.5. Критерии на основе правил.
Подобными называются правила, которые имеют подобные условия, а также подобные следствия выполнения правила.
Критерий
если две сущности связаны между собой подобными правилами, то эти сущности подобны
Пример 16.
Этот же пример на языке OWL имеет вид:
<ruleml:imp>
<ruleml:_rlab ruleml:href="#Пример1"/>
<ruleml:_body>
<swrlx:individualPropertyAtom swrlx:property="ИмеетБрата">
<ruleml:var>x1</ruleml:var>
<ruleml:var>x2</ruleml:var>
</swrlx:individualPropertyAtom>
<swrlx:individualPropertyAtom swrlx:property="ИмеетОтца">
<ruleml:var>x2</ruleml:var>
<ruleml:var>x3</ruleml:var>
</swrlx:individualPropertyAtom>
</ruleml:_body>
<ruleml:_head>
<swrlx:individualPropertyAtom swrlx:property="ИмеетОтца">
<ruleml:var>x1</ruleml:var>
<ruleml:var>x3</ruleml:var>
</swrlx:individualPropertyAtom>
</ruleml:_head>
</ruleml:imp>
<ruleml:imp>
<ruleml:_rlab ruleml:href="#Пример2"/>
<ruleml:_body>
<swrlx:individualPropertyAtom swrlx:property="ИмеетСестру">
<ruleml:var>x1</ruleml:var>
<ruleml:var>x2</ruleml:var>
</swrlx:individualPropertyAtom>
<swrlx:individualPropertyAtom swrlx:property="ИмеетОтца">
<ruleml:var>x2</ruleml:var>
<ruleml:var>x3</ruleml:var>
</swrlx:individualPropertyAtom>
</ruleml:_body>
<ruleml:_head>
<swrlx:individualPropertyAtom swrlx:property="ИмеетОтца ">
<ruleml:var>x1</ruleml:var>
<ruleml:var>x3</ruleml:var>
</swrlx:individualPropertyAtom>
</ruleml:_head>
</ruleml:imp>
Отношения «ИмеетБрата» и «ИмеетСестру» подобны.
2.6. Критерии, учитывающие специфику словаря приложения.
Рассмотренные выше критерии подобия онтологий используют свойства общего определения онтологий. Кроме этого, возможны онтологии, которые используют особый словарь. Если этот словарь строго определен и общедоступен, то он также может быть использован для формирования критериев подобия онтологий.
В качестве примера рассмотрим SWAP-системы [16], в которых каждому файлу присваивается уникальный хэш-код. Для таких систем имеют место
критерии
если хэш-коды двух элементов одинаковы, то и элементы подобны (
файлы одинакового MIME-type подобны, как минимум, по формату (
2.7. Сводная таблица критериев подобия.
Все 19 рассмотренных критериев подобия онтологий сведены в Табл. 1.
Отметим, что, например, в работе [3] рассматривается иная систематизация критериев подобия онтологий, в соответствии с которой выделяется 4 класса таких критериев:
1) лингвистические (терминологические, лексические) критерии;
2) статистические (экстенсиональные) критерии;
3) структурные критерии;
4) логические (формальные, семантические) критерии.
3. Мультикритерии подобия онтологий
Большое количество мультикритериев, построенных на основе рассмотренных критериев подобия онтологий, предложено в работе [5]. Чаще всего в качестве мультикритерия подобия используется аддитивная свертка критериев
где
Таблица 1. Сводка критериев подобия онтологий
Широко известная модификация аддитивной свертки (1) основана на использовании сигмоидальной функции
Здесь
Значительный интерес представляет вариант построения мультикритерия подобия на основе обучаемой нейронной сети. Так в работе [5] мультикритерий синтезируется с помощью трехслойной персептронной нейронной сети, в которой в скрытом слое используются нейроны с функцией активации типа гиперболический тангенс, а в выходном слое – типа сигмоида.
4. Методы определения уровня отсечения
Как отмечалось выше, сущности
Метод константы. В этом методе для критерия подобия
Метод допустимой ошибки. Здесь в качестве уровня отсечения принимается разность между максимальным значением критерия подобия и некоторой константой c, определяющей погрешность подобия
Метод допустимой погрешности. Метод аналогичен предыдущему методу и отличается от него лишь тем, что в качестве константы
Отметим следующее обстоятельство. До сих пор мы рассматривали использование уровня отсечения для отнесения сравниваемых онтологий к одному из двух классов – подобны, не подобны. Естественным расширением данного подхода является полуавтоматический подход, в котором сравниваемые онтологии относятся к одному из трех следующих классов: онтологии подобны; онтологии не подобны; онтологии должны быть классифицированы экспертом.
5. Последовательность действий при отображении онтологий
В процедуре отображения онтологий можно выделить два этапа [3]:
1) локальное отображение сущностей - независимое установление соответствий между двумя сущностями, рассматриваемых онтологий;
2) глобальное отображение сущностей - пересмотр (пересчет) локальных отображений с учетом отображений всех остальных элементов.
Поскольку многие из рассмотренных критериев подобия двух сущностей основываются на подобии других пар сущностей, вообще говоря, отображение онтологий является итерационным процессом. При этом на первой итерации должен использоваться критерий подобия, который не основывается на других критериях (например, критерий на основе подобия меток
В связи с итерационным характером процедуры отображения онтологий возникает вопрос о выборе требуемого количества итераций. Возможны следующие варианты такого выбора:
· количество итераций заранее фиксировано;
· итерации продолжаются до тех пора, пока не прекратятся изменения в отображении;
· итерации продолжаются до тех пора, пока изменения в отображении не станут ниже некоторого заданного порога отсечения;
· итерации продолжаются до тех пора, пока не будут превышены допустимые ресурсы времени и вычислительной мощности.
Из-за итерационного характера процедуры отображения онтологий возникает еще один вопрос: следует ли производить какую-либо обработку результатов данной итерации перед их переносом в следующую итерацию? Здесь можно выделить два подхода. Во-первых, на следующей итерации можно рассматривать только самые лучшие отображения (отображения с самым большим значением соответствующего критерия подобия). Во-вторых, на данной итерации полученные отображения можно ранжировать – лучшему отображению назначить вес 1, отображению со следующим по значению критерием подобия - вес
В конечном счете, предлагается следующая последовательность итераций при отображении онтологий:
1) Первая итерация выполняется с использованием одного из критериев подобия
2) На второй итерации подобие сущностей оценивается с помощью любого из критериев подобия
3) Выполняется несколько итераций, указанных в п.п. 1, 2. Количество итераций определяется одним из вышеописанных способов. На последней итерации удаляются повторы и пары сущностей, величина подобия которых меньше порога отсечения.
6. Заключение
Известно значительное количество инструментальных средств инженерии онтологий, которые поддерживают те или иные из рассмотренных методов отображения онтологий. Назовем основные из этих средств [1]:
· &nb sp; PROMPT - дополнение в виде плагина к системе построения онтологий Protégé;
· &nb sp; интерактивный инструмент Chimaera, основанный на редакторе онтологий Ontolingua;
· &nb sp; OntoMerge транслирует исходные онтологии в общее представление на специальном языке;
· &nb sp; OntoMorph определяет набор операторов преобразования, которые можно применить к онтологии;
· &nb sp; OBSERVER объединяет онтологии с информацией об отображении между ними и находит синонимы в исходных онтологиях;
· &nb sp; ONION базируется на алгебре онтологии и предоставляет инструменты для определения правил артикуляции (соединения) между онтологиями.
Библиография
1. Овдий О.М., Проскудина Г.Ю. Обзор инструментов инженерии онтологий. -http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2004/part4/op
2. Карпенко А.П., Соколов Н.К. Контроль понятийных знаний субъекта обучения с помощью когнитивных карт. // Управление качеством инженерного образования и инновационные образовательные технологии. Сборник докладов Международной научно-методической конференции, 28-30 октября 2008 г. –М.:МГТУ им. Н.Э.Баумана, 2008, Ч.2, с. 55-57.
3. Кудрявцев Д.В., Григорьев Л.П. Организационное моделирование на основе онтологий: от бизнеса к государству. // Труды Х Российской научно-практической конференции «Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями», 17-18 апреля 2007 г., Москва. - с. 151-156.
4. Скворцов Н.А. и др. Проектирование персонализованных информационных ресурсов над WEB-сайтами со слабоструктурированными данными. - http://synthesis.ipi.ac.ru/sigmod/seminar/s20000127
5. M. Ehrig, Y. Sure. An Ontology Mapping - An Integrated Approach. // The semantic web: Research and applications. – Berlin, Springer, 2004, pp. 3-13.
6. OWL. Web Ontology Language Semantics and Abstract Syntax, P. F. Patel-Schneider, P. Hayes, I. Horrocks, Editors. - Рекомендация W3C, 2004.
7. G. Bisson. Why and how to define a similarity measure for object based representation systems. // Towards Very Large Knowledge Bases. – The Netherlands, IOS Press, 1995, pp. 236–246.
8. X. Su. A text categorization perspective for ontology mapping. - Technical report, Department of Computer and Information Science, Norwegian University of Science and Technology, Norway, 2002.
9. Википедия, http://en.wikipedia.org/wiki/Edit_distance
10. Википедия, http://ru.wikipedia.org/wiki/URI
11. http://www.w3.org/TR/2004/REC-owl-guide-20040210/wine
12. M. R. Quillan. Word concepts: A theory and simulation of some basic capabilities. // Behavioral Science, 1967, 12, pp.410–430.
13. Википедия, http://en.wikipedia.org/wiki/Description_logic
14. A. Maedche, B. Motik, N. Silva, R. Volz. Mafra - a mapping framework for distributed ontology’s. // Proceedings of the EKAW 2002, 2002, pp.2-8.
15. A. H. Doan, Ja. Madhavan, P. Domingos, A. Halevy. Learning to map between ontology’s on the semantic web. // Proceedings to the Eleventh International World Wide Web Conference, Honolulu, Hawaii, USA, May 2002, pp.3-9.
16. http://swap.semanticweb.org
17. H. Do, E. Rahm. COMA - a system for flexible combination of schema matching approaches. // Proceedings of the 28th VLDB Conference, Hong Kong, China, 2002, pp. 2-7.
Публикации с ключевыми словами: онтология, подобие онтологий Публикации со словами: онтология, подобие онтологий Смотри так же: Тематические рубрики: |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||