Как сделать онтологию

Добавил пользователь Евгений Кузнецов
Обновлено: 04.10.2024

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А.В. Платонов, Е.А. Полещук

В статье рассматривается процесс автоматического построения онтологии предметной области по входному набору текстовых документов. В частности, рассматриваются процессы, аналогичные системам Biperpedia, BOEMIE Project и т.п. В работе освещены основные этапы автоматической генерации онтологии , а именно процесс извлечения объектов предметной области, концептов, то есть терминов, объединяющих множество объектов, а также процесс извлечения семантических отношений и правил для онтологии . Для каждого процесса представлены алгоритмы, решающие задачу соответствующего шага генерации онтологии . В рамках процесса извлечения объектов предметной области рассмотрены алгоритмы извлечения именованных сущностей , генерации регулярных выражений на основе генетических алгоритмов. Предложен процесс построения шаблонов извлечения объектов на базе методов поиска частотных цепочек символов по аналогии с поиском частотных шаблонов последовательностей. В статье описаны основные шаги извлечения концептов предметной области и рассмотрены алгоритмы для определения его основных атрибутов. Содержится описание методов извлечения семантических отношений на базе лексико-синтаксических шаблонов. Предложен подход к данной задаче с точки зрения поиска ассоциативных правил по аналогии с алгоритмами поиска частотных шаблонов. Наконец, в работе предложены три метода оценки качества работы всего процесса автоматического построения онтологии : метод на основе золотого стандарта, метод ручной оценки и косвенный метод через оценку качества использующего онтологию ПО. Рассмотрены положительные и отрицательные стороны того или иного метода оценки. Предложен компромиссный подход для оценки качества модели, учитывающий достоинства и недостатки каждого из описанных.

METHODS OF AUTOMATIC ONTOLOGY CONSTRUCTION

The article describes an automatic domain ontology generation process using input text corpora. In par-ticular, it describes the processes similar to Biperpedia, BOEMIE Project systems, etc. This paper includes a description of basic steps of automatic ontology construction, specifically a domain-object extraction process, concept (i.e. terms that combine an object set) extraction process, as well as the process of semantic relations and rules extraction. This paper reviews algorithms for each steps of an ontology construction process. There is a named entity recognition task and regular expression generation based on a genetic programming approach for a domain-object extraction process. The authors propose an idea of using a sequential pattern mining approach for term sequences extraction for an object identification process. The paper contains a description of basic steps of a concept extraction task and a review of a concept attributes extraction task. The article also describes a lexico-syntactic pattern approach for a domain semantic relation extraction process. The authors propose an approach to this task based on association rules mining like in a frequent pattern mining approach. The paper includes three methods of ontology learning evaluation, specifically: a golden sample method, a human evaluation method and an indirect method using client-application evaluation. The paper describes positive and negative aspects of each method and proposes a compromise to estimate the quality of a model.

УДК 004.89 Дата подачи статьи: 29.02.16

МЕТОДЫ АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ ОНТОЛОГИЙ

В статье рассматривается процесс автоматического построения онтологии предметной области по входному набору текстовых документов. В частности, рассматриваются процессы, аналогичные системам Biperpedia, BOEMIE Project и т.п. В работе освещены основные этапы автоматической генерации онтологии, а именно процесс извлечения объектов предметной области, концептов, то есть терминов, объединяющих множество объектов, а также процесс извлечения семантических отношений и правил для онтологии. Для каждого процесса представлены алгоритмы, решающие задачу соответствующего шага генерации онтологии. В рамках процесса извлечения объектов предметной области рассмотрены алгоритмы извлечения именованных сущностей, генерации регулярных выражений на основе генетических алгоритмов. Предложен процесс построения шаблонов извлечения объектов на базе методов поиска частотных цепочек символов по аналогии с поиском частотных шаблонов последовательностей. В статье описаны основные шаги извлечения концептов предметной области и рассмотрены алгоритмы для определения его основных атрибутов. Содержится описание методов извлечения семантических отношений на базе лексико-синтаксических шаблонов. Предложен подход к данной задаче с точки зрения поиска ассоциативных правил по аналогии с алгоритмами поиска частотных шаблонов. Наконец, в работе предложены три метода оценки качества работы всего процесса автоматического построения онтологии: метод на основе золотого стандарта, метод ручной оценки и косвенный метод через оценку качества использующего онтологию ПО. Рассмотрены положительные и отрицательные стороны того или иного метода оценки. Предложен компромиссный подход для оценки качества модели, учитывающий достоинства и недостатки каждого из описанных.

Ключевые слова: онтология, извлечение именованных сущностей, извлечение семантических отношений.

Онтологии наравне с семантическими сетями представляют собой удобную абстракцию для отображения знаний в некоторой предметной области [1]. Однако процесс составления такой структуры данных очень трудоемок, так как требует от составляющего ее человека непредвзятости в суждениях относительно предметной области, а также внимания к мелочам, чтобы не допустить неточностей и противоречий в получаемой базе знаний. Неудивительно, что в машинном обучении становится популярной задача так называемого обучения онтологии (Ontology Learning) - задача автоматического построения онтологии предметной области по некоторой обучающей выборке.

Автоматическое построение онтологий по некоторому набору текстовых документов полностью определено концептуальной структурой самой онтологии. Это процесс, состоящий из нескольких этапов, на каждом из которых происходит извлечение из текста фактов или их постобработка для формирования какой-то части онтологии, будь то термины или объекты, концепты или же отношения между ними. На рисунке 1 показана иерархия представлений онтологии, на основе которой она и строится [2].

Поясним, почему иерархия выглядит именно так. В основе онтологии лежат концепты и соответствующие им объекты. Объекты, которые представляют собой конкретные примеры концептов, являются фундаментом для объединения их в один концепт как родительский узел в иерархии онтологии. Прежде чем выделять собственно концепты,

объекты следует исследовать на наличие между ними синонимии или кореферентности, если мы говорим об извлечении подобных знаний из текстовых документов. Полученные кластеры синонимов могут абстрагироваться до концептов с указанием отношения Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Petasis G., Karkaletsis V., Paliouras G., Krithara A., Zavitsanos E. Ontology Population and Enrichment: State of the Art - Knowledge-Driven Multimedia Information Extraction. 2011, Springer Publ., pp. 134-166.

3. Buitelaar P., Cimiano P., Magnini B. Ontology learning from text: Methods, evaluation and applications. Journ. Frontiers in Artificial Intelligence and Applications. 2007, vol. 123, p. 180.

4. Gattani A., Doan A., Lamba D.S., Garera N., Tiwari M., Chai X., Das S., Subramaniam S., Rajaraman A. and Harina-rayan V. Entity extraction, linking, classification, and tagging for social media. Proc. VLDB Endow. 2013, vol. 6, no. 11, pp. 1126-1137.

5. Gupta R., Halevy A., Wang X., Whang S.E., Wu F. Biperpedia: an ontology for search applications. Proc. VLDB Endow. 2014, vol. 7, no. 7, pp. 505-516.

6. Nugumanova A., Bessmertny I. Applying the Latent Semantic Analysis to the Issue of Automatic Extraction of Collocations from the Domain Texts. Knowledge Engineering and the Semantic. St.-Petersburg, Springer Publ., 2013, pp. 92-101.

7. Jurafsky D., Martin J.H. Speech and language processing. An introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River N.J., Pearson Prentice Hall Publ., 2009, pp. 727-734.

10. Friedl J. Mastering regular expressions. 3rd ed., Farnham, O'Reilly Publ., 2006.

12. Bartoli A., Davanzo G., De Lorenzo A., Mauri M., Medvet E., Sorio E. Automatic generation of regular expressions from examples with genetic programming. J.H. Moore, T. Soule (Eds.). Proc. 14th Intern. Conf. 2012, p. 1477.

13. Barrero D.F., Camacho D., Moreno M.D. Automatic Web Data Extraction Based on Genetic Algorithms and Regular Expressions. Cao (Ed.) 2009. Data Mining and Multi-agent Integration. Springer Publ., pp. 143-154.

14. Li Y., Krishnamurthy R., Raghavan S., Vaithyanathan S., Jagadish H.V. Regular Expression Learning for Information Extraction. EMNLP '08 Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2008, pp. 21-30.

15. Aggarwal C.C., Han J. Frequent pattern mining. Cham, Springer Publ., 2014, pp. 261-282.

16. Pei J., Han J., Mortazavi-Asl B., Pinto H., Chen Q., Dayal U., Hsu M.-C. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth, 17th IEEE Int. Conf. 2001, pp. 215-224.

17. Ayres J., Flannick J., Gehrke J., Yiu T. Sequential pattern mining using a bitmap representation. Zaiane, Goebel (Ed.). Proc. of the 8th ACM SIGKDD Int. Conf. 2002, pp. 429-435.

18. Velardi P., Cucchiarelli A., Petit M. A Taxonomy Learning Method and Its Application to Characterize a Scientific Web Community. IEEE Trans. Knowl. Data Eng. (IEEE Transactions on Knowledge and Data Engineering). 2007, vol. 19, no. 2, pp. 180-191.

19. Harris Z.S. Distributional Structure. Journ. Word. 1954, pp. 146-162.

20. Fader A., Soderland S., Etzioni O. Identifying Relations for Open Information Extraction. Proc. of the Conf. on Empirical Methods in Natural Language Processing. 2011, pp. 1535-1545.

21. Hasegawa T., Sekine S., Grishman R. Discovering relations among named entities from large corpora. ACL '04 Proc. of the 42nd Annual Meeting on Association for Computational Linguistics. 2004, pp. 415.

22. Yang H., Callan J. A metric-based framework for automatic taxonomy induction. Proc. of the Joint Conf.of the 47th Annual Meeting of the ACL and the 4th Int. Joint Conf. on Natural Language Processing of the AFNLP. 2009, vol. 1, pp. 271-279.

23. Kasch N., Oates T. Mining Script-like Structures from the Web. Proc. of the NAACL HLT. 2010, pp. 34-42.

24. Lin D., Pantel P. DIRT - discovery of inference rules from text. The 7th ACM SIGKDD Int. Conf. 2001, pp. 323-328.

Читайте также:

Как сделать онтологию

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А.В. Платонов, Е.А. Полещук

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А.В. Платонов, Е.А. Полещук

METHODS OF AUTOMATIC ONTOLOGY CONSTRUCTION