Wed . 20 Feb 2020

Извлечение знаний

Извлечение знаний - это создание знаний из структурированных реляционных баз данных, XML и неструктурированного текста, документов, источников изображений. Полученные знания должны быть в машиночитаемом и машинно-интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод, хотя Методически аналогично извлечению информации НЛП и хранилищу данных ETL, основными критериями является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему. Требуется либо повторное использование существующих формальных знаний, повторное использование идентификаторов или онтологий, либо генерация схема, основанная на исходных данных
Группа RDB2RDF W3C [1] в настоящее время стандартизирует язык для извлечения RDF из реляционных баз данных. Другим популярным примером извлечения знаний является преобразование Википедии в структурированные данные, а также отображение на существующие знания. см. DBpedia и Freebase
Содержание
1 Обзор 2 Примеры
21 Связывание сущностей
22 Реляционные базы данных с RDF
3 Извлечение из структурированных источников в RDF
31 Отображение 1: 1 из таблиц / представлений RDB в сущности / атрибуты / значения RDF
32 Сложные отображения реляционных баз данных в RDF
33 XML
34 Обзор методов / инструментов
4 Извлечение из источников на естественном языке
41 Традиционное извлечение информации IE
42 Онтологическое извлечение информации OBIE
43 Обучение онтологии OL
44 Семантическая аннотация SA
45 Инструменты
5 Обнаружение знаний
51 Входные данные
52 Выходные форматы
6 См. также
7 Ссылки
Обзор
После стандартизации языков представления знаний, таких как RDF и OWL, в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешения идентичности, обнаружения знаний и обучения онтологии. В общем процессе используются традиционные методы из извлечение информации и извлечение, преобразование и загрузка ETL, которые преобразуют данные из источники в структурированных форматах
Следующие критерии могут использоваться для классификации подходов в этом разделе, некоторые из которых учитывают только извлечение из реляционных баз данных: [2]
Источник
Какие источники данных охватываются: Текст, Реляционные Базы данных, XML, CSV
Экспозиция
Как извлеченные знания делаются явным файлом онтологии, семантической базой данных Как вы можете запросить их
Синхронизация
Выполняется ли процесс извлечения знаний один раз для создания дампа или результат синхронизирован с источником. Статический или динамический. Изменения в результате записываются в двух направлениях.
Повторное использование словарей
Инструмент может повторно использовать существующие словари при извлечении. Например, можно сопоставить столбец таблицы firstName. to foaf: firstName Некоторые автоматические подходы не способны отображать словарь
Автоматизация
Степень, в которой осуществляется извлечение с помощью / автоматизировано Ручной, GUI, полуавтоматический, автоматический
Требуется доменная онтология
A необходима уже существующая онтология для сопоставления с ним Итак, либо сопоставление создано, либо схема извлечена из изучения исходной онтологии
Примеры
Связывание объектов
DBpedia Spotlight, OpenCalais, Dandelion dataTXT, Zemanta API, Extractiv и PoolParty Extractor анализируют бесплатно текст с помощью распознавания именованных объектов, а затем устраняет неоднозначность кандидатов с помощью разрешения имен и связывает найденные объекты с хранилищем знаний DBpedia [3]. Демонстрация Dandelion dataTXT, веб-демонстрация DBpedia Spotlight или демонстрация PoolParty Extractor. В среду президент Обама созвал в Конгресс, чтобы продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что политика предоставляет более щедрую помощь
Поскольку президент Обама связан с ресурсом DBpedia LinkedData, дополнительную информацию можно получить автоматически, и семантический аргумент может, например, сделать вывод, что упомянутое лицо относится к типу Персона, использующего программное обеспечение FOAF, и к типу Президентов Соединенных Штатов, использующих примеры счетчиков YAGO: Методы, которые только распознавать объекты или ссылки на статьи Википедии и другие цели, которые не обеспечивают дальнейшего поиска структурированных данных и формальных знаний.
Реляционные базы данных в RDF
Triplify, D2R Server, Ultrawrap и Virtuoso RDF Views - это инструменты, которые преобразуют реляционные базы данных в RDF Во время этого процесса они позволяют повторно использовать существующие словари и онтологии во время процесса преобразования. При преобразовании типичной реляционной таблицы с именем users одно имя столбца или совокупность столбцов egfirst_name и last_name должны предоставить URI создаваемого объекта. Обычно используется первичный ключ Любой другой столбец может быть извлечен как отношение с этой сущностью [4]. Затем свойства с формально определенной семантикой используются и используются повторно для интерпретации информации. Например, столбец в пользовательской таблице с именемandaTo может быть определен как симметричное отношение и домашняя страница столбца. может быть преобразовано в свойство из словаря FOAF, называемое foaf: homepage, что квалифицирует его как обратный фу nctional свойство Тогда каждая запись пользовательской таблицы может быть сделана экземпляром класса foaf: Person Ontology Population Кроме того, знание домена в форме онтологии может быть создано из status_id, либо с помощью созданных вручную правил, если status_id равен 2, запись принадлежит в класс учителя или с помощью полуавтоматических методов обучения онтологии. Вот пример преобразования:
Имя
замужем
Домашняя страница
Идентификатор статуса
Питер
Мария
http: // exampleorg / Peters_page
1
Клаус
Ева
http: // exampleorg / Claus_page
2
: Питер: замужемСо: Мэри
: замужем за совой: SymmetricProperty
: Питер foaf: homepage & lt; http: // exampleorg / Peters_page & gt;
: Питер a foaf: Персона
: Питер a: Студент
: Клаус a: Учитель
Извлечение из структурированных источников в RDF
1: 1 Отображение из таблиц RDB / Представления для объектов RDF / Атрибуты / Значения
При построении RDB-представления проблемной области отправной точкой часто является диаграмма взаимосвязи сущностей ERD. Как правило, каждая сущность представляется в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, и отношения между сущностями обозначаются внешними ключами. Каждая таблица обычно определяет конкретный класс сущности, каждый столбец - один из ее атрибутов. Каждая строка в таблице описывает экземпляр сущности, однозначно идентифицируемый первичным ключом. Строки таблицы совместно описывают совокупность сущностей In. эквивалентное представление RDF одного и того же набора сущностей:
Каждый столбец в таблице является атрибутом, т. е. предикатом. Каждое значение столбца является значением атрибута, т. е. объект. Каждый ключ строки представляет идентификатор сущности, т. е. субъект.
Каждая строка представляет экземпляр сущности ance
Каждый экземпляр объекта строки представлен в RDF набором троек с общим идентификатором объекта субъекта. Таким образом, для визуализации эквивалентного представления на основе семантики RDF базовый алгоритм отображения должен быть следующим:
создать класс RDFS для каждой таблицы, преобразовать все первичные ключи и внешние ключи в IRI, назначить предикат IRI для каждого столбца, назначить предикат rdf: type для каждой строки, связав его с соответствующим IRI класса RDFS. к таблице
для каждого столбца, который не является частью первичного или внешнего ключа, создайте тройку, содержащую первичный ключ IRI в качестве субъекта, столбец IRI в качестве предиката и значение столбца в качестве объекта
Раннее упоминание этого базового или прямого сопоставления можно найти в сопоставлении Тимом Бернерс-Ли модели ER с моделью RDF [4]. Сложные сопоставления реляционных баз данных с RDF. Приведенное выше сопоставление 1: 1 раскрывает унаследованные данные. как RDF в прямой форме, дополнительные улучшения могут быть использованы для улучшения использования Полнота вывода RDF в соответствии с заданными вариантами использования Обычно информация теряется при преобразовании диаграммы взаимосвязи сущностей ERD в реляционные таблицы. Детали можно найти в несоответствии объектно-реляционного импеданса, и их необходимо проанализировать с концептуальной точки зрения, подходы для извлечение может происходить в двух направлениях. Первое направление пытается извлечь или изучить OWL-схему из заданной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил отображения для уточнения отображения 1: 1 [5] [6] [7] Подробнее в сложных методах используются эвристические или обучающие алгоритмы, чтобы вызвать наложение схематических информационных методов на изучение онтологий. В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL [8], анализируя, например, внешние ключи, другие анализируют содержимое и значения в таблицы для создания концептуальных иерархий [9], например, столбцы с несколькими значениями являются кандидатами на превращение в категории. ap схему и ее содержимое в существующей онтологии домена см. также: выравнивание онтологии Часто подходящей онтологии домена не существует, и ее необходимо сначала создать. XML
Поскольку XML структурирован как дерево, любые данные могут быть легко представлены в RDF, который структурирован в виде графа XML2RDF является одним из примеров подхода, который использует пустые узлы RDF и преобразует XML-элементы и атрибуты в свойства RDF. Однако эта тема более сложная, как в случае реляционных баз данных. реляционная таблица первичный ключ является идеальным кандидатом для того, чтобы стать субъектом извлеченных троек. Однако XML-элемент может быть преобразован - в зависимости от контекста - в качестве субъекта можно использовать предикат или объект тройного XSLT. язык преобразования для ручного преобразования XML в RDF. Обзор методов и инструментов. Имя
Источник данных. Экспозиция данных. Синхронизация данных. Язык отображения. Повторное использование словаря. Автоматизация отображения.
Req Доменная Онтология
Использует GUI
A Прямое отображение реляционных данных в RDF - реляционные данные - SPARQL / ETL - динамическое
нет данных - ложное
автоматическое
ложное
ложное
CSV2RDF4LOD
CSV - ETL - статический
RDF - истина, руководство - ложный
ложь - Convert2RDF - текстовый файл с разделителями - ETL - статический
RDF / DAML - true
ручное
false
true
D2R-сервер
RDB
SPARQL - двунаправленный
D2R Map - true
руководство - false - false - DartGrid - RDB - собственный язык запросов - динамический
Visual Tool - true
руководство - false - true
DataMaster - RDB - ETL - статическое
проприетарное - true - руководство по эксплуатации - true
true - расширение RDF Google Refine - CSV, XML
ETL
статический
NONE
полуавтоматической
Ложные
истинный
Krextor
XML
ETL
статические

XSLT верно <бр > руководство
правда
ложной
MAPONTO
RDB
ETL
статического
патентованного
верно
руководство
верно
Ложный
метаморфоз
RDB - ETL - статический
проприетарный язык карт на основе xml - правда, руководство - ложь - правда - MappingMa стер
CSV
ETL
статические
MappingMaster
истинный
GUI
ложь
правда
ODEMapster
RDB
ETL
статические
запатентованный - true - руководство по эксплуатации - true
true
Подключаемый модуль OntoWiki CSV Importer - DataCube & amp; Табличные
CSV
ETL
статические
Словарь куба данных RDF - true
полуавтоматический
false - true
Poolparty Extraktor PPX
XML, Текст
LinkedData - динамический
RDF SKOS - true - полуавтоматический - true - false - RDBToOnto - RDB - ETL - static
нет
false
автоматически, кроме того, у пользователя есть возможность точной настройки результатов - false
true
RDF 123
CSV
ETL
static
ложь
ложь
ручной
лОЖЬ
правда
RDOTE
RDB
ETL
статические
SQL
верно
руководство
верно < уш> правда
RelationalOWL
RDB
ETL
статические
ни
ложь
автоматическая
ложь
лОЖЬ
T2LD
CSV
ETL
статические
ложные
ложные
автоматические
ложные
ложные
Словарь кубов данных RDF
Многомерные статистические данные в электронных таблицах
Словарь кубов данных
истина - руководство по эксплуатации - ложь - TopBraid Composer - CSV - ETL - статика - SKOS - ложь - полуавтоматическая - ложь - истина
Triplify
RDB
LinkedData
динамический
SQL
верно
руководство
метрономы lse
false
Ultrawrap - RDB - SPARQL / ETL - динамический
R2RML - true - полуавтоматический - false - true - Virtuoso RDF Представления
RDB - SPARQL - динамический
язык мета-схем - true, полуавтоматический, false - true, Virtuoso Sponger - структурированный и полуструктурированный источники данных
SPARQL
динамические
Virtuoso PL & amp; XSLT
верно
полуавтоматическая
ложь
ложной
Visàvis
RDB
RDQL
динамический
SQL
верно
ручной
истина - истина - XLWrap: электронная таблица в RDF - CSV - ETL - статический - синтаксис TriG - истина
руководство - ложь - ложь - XML в RDF
XML
ETL
статические
ложные
ложные
автоматические
ложные
ложные
Извлечение из источников на естественном языке
Большая часть информации содержащиеся в деловых документах около 80% [10] кодируются на естественном языке и, следовательно, неструктурированы. Поскольку неструктурированные данные являются довольно сложной задачей для извлечения знаний, требуются более сложные методы, которые, как правило, дают худшие результаты по сравнению со структурированными данными. однако массовое приобретение извлеченных знаний должно компенсировать возросшую сложность и снижение качества извлечения. В дальнейшем источники естественного языка понимаются как источники информации, где данные предоставляются неструктурированным образом как простой текст. Данный текст дополнительно встраивается в документ разметки, например, в документ HTML, упомянутые системы обычно автоматически удаляют элементы разметки
Традиционное извлечение информации IE
Традиционное извлечение информации [11] - это технология обработки естественного языка, которая извлекает информацию из обычно текстов на естественном языке и структурирует их подходящим образом. Виды информации, которую необходимо идентифицировать, должны быть указаны в модели до начала процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделяется на следующие пять подзадач
Распознавание именованных объектов NER
Разрешение Coreference CO
Построение элементов шаблона TE
Построение отношений шаблона TR
Создание сценария шаблона ST
Задача распознавания именованной сущности состоит в том, чтобы распознать и классифицировать все именованные сущности, содержащиеся в текстовом назначении именованной сущности, в предопределенную категорию. Это работает с применением грамматики b. методы или статистические модели
Разрешение Coreference идентифицирует эквивалентные объекты, которые были распознаны NER, в тексте. Существует два соответствующих типа отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами, например, IBM Europe и IBM, и второй - отношения между сущностью и ее анафорическими ссылками, например, ею и IBM. Обе разновидности могут быть распознаны по разрешению coreference. Во время построения элемента шаблона система IE идентифицирует описательные свойства сущностей, распознаваемые NER и CO. Эти свойства соответствуют обычным качества, такие как красный или большой
Конструкция отношения шаблона идентифицирует отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, например, «рабочие для» или «расположенные внутри», с тем ограничением, что домен и диапазон соответствуют объектам
В шаблоне сценария производственные события, которые описаны в тексте, будут определены и Изучение сущностей, признанных NER и CO, а также отношений, идентифицированных TR
Извлечение информации на основе онтологии OBIE
Извлечение информации на основе онтологии [10] - это подполе извлечения информации, с которым по крайней мере один онтология используется для руководства процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для определения концепций, примеров и отношений используемых онтологий в тексте, которые после процесса будут структурированы в онтологию. Таким образом, входные онтологии составляют модель информации, которая должна быть извлечена
Изучение онтологий OL
Основная статья: Изучение онтологий
Изучение онтологий - это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей области из естественного языка. текст Поскольку создание онтологий вручную чрезвычайно трудоемко и отнимает много времени, существует большая мотивация для автоматизации процесса
Semantic annotati на SA
Во время семантической аннотации [12] текст на естественном языке дополняется метаданными, часто представленными в RDFa, что должно сделать семантику содержащихся терминов машинно-понятной. В этом процессе, который обычно полуавтоматический, знания извлекаются в смысл в том, что установлена связь между лексическими терминами и, например, понятиями из онтологий. Таким образом, приобретается знание, какое значение термина в обработанном контексте было задумано, и поэтому значение текста основано на машиночитаемых данных с возможность рисовать выводы. Семантическая аннотация обычно разбивается на следующие две подзадачи: Извлечение терминологии
Связывание сущностей
На уровне извлечения терминологии извлекаются лексические термины из текста. Для этого токенизатор сначала определяет слово границы и решает аббревиатуры. Затем термины из текста, которые соответствуют концепции, извлекаются с помощью предметно-ориентированной лексики, чтобы связать их в tity linking
При связывании сущностей [13] устанавливается связь между извлеченными лексическими терминами из исходного текста и понятиями из онтологии или базы знаний, такой как DBpedia. Для этого понятия-кандидаты обнаруживаются в соответствии с несколькими значениями: термин с помощью лексикона Наконец, контекст терминов анализируется, чтобы определить наиболее подходящую неоднозначность и назначить термин для правильной концепции. Инструменты
Следующие критерии могут использоваться для классификации инструментов, которые извлекать знания из текста на естественном языке
Источник
Какие входные форматы могут обрабатываться инструментом, например, простой текст, HTML или PDF
Парадигма доступа
Может ли инструмент запрашивать источник данных или требует полного дампа для процесс извлечения
Синхронизация данных
Является ли результат процесса извлечения синхронизированным с источником
Использует онтологию вывода
Связывает ли инструмент результат с онтологией
Автоматизация отображения
Как автоматизировано это процесс извлечения manu Все, полуавтоматические или автоматические
Требуется онтология
Требуется ли инструменту для извлечения онтология
Использует GUI
Предлагает ли инструмент графический интерфейс пользователя
Подход
Какой подход IE , OBIE, OL или SA используется инструментом
Извлеченные сущности
Какие типы сущностей, например именованные сущности, концепции или отношения, могут быть извлечены инструментом? Прикладные методы
Какие методы применяются, например, НЛП , статистические методы, кластеризация или машинное обучение
Модель выхода
Какая модель используется для представления результатов инструмента, например RDF или OWL
Поддерживаемые домены
Какие домены поддерживаются, например, экономика или биология
Поддерживаемые языки
Какие языки можно обрабатывать, например, английский или немецкий
В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.


Источник
Парадигма доступа
Синхронизация данных
Использование онтологии вывода
Автоматизация картографирования
Требуется онтология
Использование графического интерфейса пользователя
Подход
Извлеченные объекты
Приложение lied Techniques - модель вывода
Поддерживаемые домены
Поддерживаемые языки
AeroText [14]
обычный текст, HTML, XML, SGML
дамп
нет
да
автоматический
да
да
IE
именованные объекты, отношения, события
лингвистические правила
собственность
независимый от домена
английский, испанский, арабский, китайский, индонезийский
AlchemyAPI [15]
простой текст, HTML
автоматический
да
SA
многоязычный
ANNIE [16]
простой текст
дамп
да
да
IE - алгоритмы конечного состояния
многоязычный
ASIUM [17] - простой текстовый дамп
полуавтоматический
да
OL
понятия, иерархия понятий
НЛП, кластеризация
Исчерпывающее извлечение Attensity [18]


IE
именованные сущности, отношения, события
НЛП
API одуванчика
простой текст , HTML, URL
ОТДЫХ
нет
нет
автоматически
нет
да
SA
именованные объекты, понятия
статистические методы
JSON
Независимый от домена
многоязычный
DBpedia Spotlight [19]
обычный текст, HTML
дамп, SPARQL
да
да
a utomatic
нет
да
SA
аннотация к каждому слову, аннотация к нестационарным словам
NLP, статистические методы, машинное обучение
RDFa
независимый от домена
English
EntityClassifiereu [20]
обычный текст, HTML
дамп
да
да - автоматический
нет
да
IE, OL, SA
аннотация к каждому слову, аннотация к нестационарным словам
грамматика на основе правил
XML
независимая от домена
английский, немецкий, голландский
K-Extractor [21] [22]
plain текст, HTML, XML, PDF, MS Office, электронная почта, дамп, SPARQL - да
да - автоматически
нет
да - IE, OL, SA
концепции, именованные сущности, экземпляры, иерархия понятий, родовые отношения, определяемые пользователем отношения, события, модальность, время, связывание сущностей, связывание событий, настроение - NLP, машинное обучение, эвристические правила
RDF, OWL, собственность XML - независимый от домена английский, испанский - iDocument [23]
HTML, PDF, DOC - SPARQL - да
да - OBIE - экземпляры, свойство ценности
НЛП
личное, деловое
NetOwl Extractor [24]
p текст Lain, HTML, XML, SGML, PDF, MS Office - дамп - нет
да - автоматический
да - да - IE - именованные объекты, отношения, события
NLP
XML, JSON, RDF-OWL, другие
нескольких доменов
английский, арабский Китайский упрощенный и традиционный, французский, корейский, персидский фарси и дари, русский, испанский
OntoGen [25 ]
полуавтоматический
да
OL
понятия, иерархия понятий, не таксономические отношения, примеры - НЛП, машинное обучение, кластеризация
OntoLearn [26]
простой текст , HTML
дамп
нет
да
автоматически
да
нет
OL
понятия, иерархия понятий, примеры - НЛП, статистические методы - проприетарные
независимый от домена
английский
OntoLearn Reloaded - простой текст, HTML
дамп - нет
да
автоматически
да
нет
OL
концепции, иерархия понятий, экземпляры
НЛП, статистические методы - проприетарные
независимые от домена


OntoSyphon [27]
HTML, PDF, DOC
dump, запросы поисковых систем
нет
да
автоматически
да
нет
OBIE
co ncepts, отношения, экземпляры
NLP, статистические методы
RDF
независимый от домена
английский
onX [28]
простой текст
dump | нет
да Полуавтоматический
да
нет
OBIE - экземпляры, значения свойств типов данных, эвристические методы, проприетарные, независимые от домена, независимые от языка,
OpenCalais - простой текст, HTML, XML
дамп
нет
да
автоматически
да
нет
SA - аннотация к сущностям, аннотация к событиям , аннотация к фактам
NLP, машинное обучение
RDF - независимый от домена английский, французский, испанский языки - PoolParty Extractor [29] - простой текст, HTML, DOC, ODT
дамп
нет
да
автоматически
да
да
OBIE
именованные объекты, понятия, отношения, понятия, которые классифицируют текст, обогащения - НЛП, машинное обучение , статистические методы
RDF, OWL
независимый от домена английский, немецкий, испанский, французский
Rosoka [30] - простой текст, HTML, XML, SGML, PDF, MS Office
дамп - да - да - автоматический
нет - да - IE
названный ent ities, отношения, атрибуты, понятия
NLP
XML, JSON, RDF, другие
нескольких доменов
многоязычный 230
SCOOBIE - простой текст, HTML
дамп
нет
да - автоматический
нет - нет
OBIE - экземпляры, значения свойств, типы RDFS - NLP, машинное обучение - RDF, RDFa - независимый от домена
Английский, немецкий
SemTag [31] [32]
HTML
дамп
нет
да
автоматически
да
нет
SA
машинное обучение - запись в базе данных - независимый от домена - независимый от языка - smart FIX - простой текст, HTML, PDF, DOC, электронная почта - дамп
да
нет
автоматическое
нет
да
OBIE
именованные предприятия
NLP, машинное обучение - проприетарное
независимое от домена
английский, немецкий, французский, голландский, польский
Text2Onto [33] - обычный текст, HTML, PDF
дамп
да
нет
полуавтоматический
да
да
OL
концепции, иерархия понятий, не таксономические отношения, примеры, аксиомы
NLP, статистические методы, машинное обучение, методы на основе правил
OWL
независимый от deomain
английский, Немецкий, испанский
Text-To-Onto [34] - обычный текст, HTML, PDF, PostScript, дамп, полуавтоматический дамп, да, да, да, OL
понятия, иерархия понятий, не таксономические отношения, лексические сущности, относящиеся к понятиям, лексические сущности, относящиеся к отношениям
НЛП, машинное обучение, кластеризация, статистические методы
Немецкий
ThatNeedle
Простой текст
dump
автоматическая
без понятий, отношений, иерархии
NLP, проприетарная
JSON - несколько доменов
английский
Wiki Machine [35]
простой текст, HTML, PDF, DOC - дамп
нет
да
автоматически
да
да
SA - аннотация к именам существительным, аннотация к именам существительным и машинному обучению
RDFa
независимый от домена английский, немецкий, испанский, французский, португальский, итальянский, русский
ThingFinder [36]
IE
именованные объекты, отношения, события
многоязычный
Обнаружение знаний
Обнаружение знаний описывает процесс автоматического поиска больших объемов данных по шаблонам, которые можно считать известными. e о данных [37] Он часто описывается как получение знаний из входных данных Обнаружение знаний, разработанное на основе области интеллектуального анализа данных, и тесно связано с ним как с точки зрения методологии, так и терминологии [38]. Наиболее хорошо Известная ветвь интеллектуального анализа данных - это обнаружение знаний, также известное как обнаружение знаний в базах данных. KDD Как и многие другие формы обнаружения знаний, оно создает абстракции входных данных. Знания, полученные в процессе, могут стать дополнительными данными, которые можно использовать для дальнейшего использования. и обнаружение Часто результаты обнаружения знаний не являются действенными, действенными открытиями знаний, также известными как интеллектуальный анализ данных, управляемых предметной областью, [39] нацелены на обнаружение и предоставление действенных знаний и знаний. Еще одно многообещающее применение обнаружения знаний находится в области Модернизация программного обеспечения, обнаружение слабых мест и соответствие требованиям, что подразумевает понимание существующих программных артефактов. Этот процесс связан с концепцией обратного механизма ering Обычно знания, полученные из существующего программного обеспечения, представляются в виде моделей, к которым можно при необходимости обращаться с конкретными запросами. Отношение сущностей - это частый формат представления знаний, полученных из существующего программного обеспечения. Группа управления объектами OMG разработала спецификацию метамодели знаний KDM, которая определяет Онтология для программных активов и их взаимосвязей с целью обнаружения знаний существующего кода. Обнаружение знаний из существующих программных систем, также известных как интеллектуальный анализ программного обеспечения, тесно связано с интеллектуальным анализом данных, поскольку существующие программные артефакты имеют огромное значение для управления рисками и бизнеса. ценность, ключ к оценке и развитию систем программного обеспечения. Вместо анализа отдельных наборов данных, анализ программного обеспечения фокусируется на метаданных, таких как потоки процессов, например потоки данных, потоки управления и т. д .; карты вызовов, архитектура, схемы баз данных и бизнес-правила / термины / процессы
Входные данные
Базы данных
Реляционные данные
База данных
Хранилище документов
Хранилище данных
Программное обеспечение
Исходный код
Конфигурационные файлы
Сценарии сборки
Текст
Концептуальный анализ
Графики
Молекулярный анализ
Последовательности
Интеллектуальный анализ данных
Изучение изменяющихся во времени потоков данных under concept drift
Web
Выходные форматы
Модель данных
Метаданные
Метамодели
Онтология
Представление знаний
Теги знаний
Бизнес-правило
Метамодель обнаружения знаний KDM
Нотация моделирования бизнес-процессов BPMN
Промежуточное представление
Структура описания ресурсов RDF
Метрики программного обеспечения
См. Также
Кластерный анализ
Археология данных
Ссылки
^ RDB2RDF Рабочая группа, веб-сайт: http: // wwww3org / 2001 / sw / rdb2rdf /, чартер: http: // wwww3org / 2009/08 / rdb2rdf-charter, R2RML: язык отображения RDB в RDF: http: // wwww3org / TR / r2rml /
^ LOD2 EU Deliverable 311 Извлечение знаний по структурированным источникам http: // staticlod2eu / Deliverables / deliveryrable-311pdf
^ «Жизнь в облаке связанных данных» wwwopencalaiscom Получено 2009-11-10 В Википедии есть двойник связанных данных, называемый DBpedia. DBpedia имеет такую же структурированную информацию, что и Википедия. - но переведено в машиночитаемый формат
^ ab Тим Бернерс-Ли 1998, «Реляционные базы данных в семантической сети» Получено: 20 февраля 2011 г.
^ Hu et al 2007, «Обнаружение простых сопоставлений между реляционной базой данных» Схемы и онтологии ", В процессе 6-й Международной конференции семантической паутины ISWC 2007, 2-я Азиатская конференция семантической паутины ASWC 2007, LNCS 4825, стр. 225-238, Пусан, Корея, 11-15 ноября 2007 г. http: // citeseerxistpsuedu / viewdoc / downloaddoi = 1011976934 & rep = rep1 & type = pdf
^ R Ghawi and N Cullot 2007, "Генерация преобразования базы данных в онтологию для семантической совместимости" на третьем международном семинаре по взаимодействию баз данных InterDB 2007 http: // le2icnrsfr / IMG / публикации / InterDB07-Ghawi pdf
^ Li et al 2005 "Полуавтоматический метод получения онтологий для семантической сети", WAIM, том 3739 лекций по информатике, страница 209-220 Springer doi: 101007 / 11563952_19
^ Tirmizi et al 2008, «Перевод приложений SQL в семантическую сеть», Конспект лекций в области компьютерных наук, том 5181/2008 Приложения для баз данных и экспертных систем http: // citeseeristpsuedu / viewdoc / download; jsessionid = 15E8AB2A37BD06DAE59255A1AC3095F0doi = 10111403169 & amp; rep = rep = rep1 pdf
^ Фарид Цербах 2008 «Изучение высокоструктурированных семантических репозиториев из реляционных баз данных», «Семантическая паутина: исследования и приложения», том 5021 «Конспект лекций в области компьютерных наук», Springer, Berlin / Heidelberg http: // wwwtao-projecteu / resources / публикации / cerbah-learning-высокоструктурированные-семантические-репозитории-из-реляционных баз данныхpdf
^ ab Wimalasuriya, Daya C; Доу, Дэджинг 2010 "Извлечение информации на основе онтологий: введение и обзор современных подходов", Журнал информатики, 363, стр. 306 - 323, http: // ixcsuoregonedu / ~ dou / research / paper / jis09pdf найдено: 18062012
^ Каннингем, Хэмиш 2005 "Извлечение информации, автомат", Энциклопедия языка и лингвистики, 2, стр. 665 - 677, http: // gateacuk / sale / ell2 / ie / mainpdf найдено: 18062012
^ Erdmann, M; Maedche, Александр; Шнурр, Х-П; Staab, Steffen 2000 "От руководства к полуавтоматической семантической аннотации: об инструментах текстовой аннотации на основе онтологии", Труды COLING, http: // wwwidaliuse / ext / epa / cis / 2001/002 / paperpdf найдено: 18062012
^ Рао, Делип; Макнейми, Пол; Dredze, Mark 2011 "Entity Linking: Finding Extracted Entities in a Knowledge Base", Multi-source, Multi-lingual Information Extraction and Summarization, http://wwwcsjhuedu/~delip/entity-linkingpdf retrieved: 18062012
^ Rocket Software, Inc 2012 "technology for extracting intelligence from text", http://wwwrocketsoftwarecom/products/aerotext retrieved: 18062012
^ Orchestr8 2012: "AlchemyAPI Overview", http://wwwalchemyapicom/api retrieved: 18062012
^ The University of Sheffield 2011 "ANNIE: a Nearly-New Information Extraction System", http://gateacuk/sale/tao/splitch6html#chap:annie retrieved: 18062012
^ ILP Network of Excellence "ASIUM LRI", http://www-aiijssi/~ilpnet2/systems/asiumhtml retrieved: 18062012
^ Attensity 2012 "Exhaustive Extraction", http://wwwattensitycom/products/technology/semantic-server/exhaustive-extraction/ retrieved: 18062012
^ Mendes, Pablo N; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian 2011 "DBpedia Spotlight: Shedding Light on the Web of Documents", Proceedings of the 7th International Conference on Semantic Systems, p 1 - 8, http://wwwwiwissfu-berlinde/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011pdf retrieved: 18062012
^ Cite error: The named reference entityclassifier was invoked but never defined see the help page
^ Balakrishna, Mithun; Moldovan, Dan 2013 "Automatic Building of Semantically Rich Domain Models from Unstructured Data", Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference FLAIRS, p 22 - 27, http://wwwaaaiorg/ocs/indexphp/FLAIRS/FLAIRS13/paper/view/5909/6036 retrieved: 11082014
^ 2 Moldovan, Dan; Blanco, Eduardo 2012 "Polaris: Lymba's Semantic Parser", Proceedings of the Eight International Conference on Language Resources and Evaluation LREC, p 66 - 72, http://wwwlrec-conforg/proceedings/lrec2012/pdf/176_Paperpdf retrieved: 11082014
^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas 2009 "iDocument: Using Ontologies for Extracting Information from Text", http://wwwdfkiuni-klde/~maus/dok/AdrianMausDengel09pdf retrieved: 18062012
^ SRA International, Inc 2012 "NetOwl Extractor", http://wwwsracom/netowl/entity-extraction/ retrieved: 18062012
^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja 2007 "OntoGen: Semi-automatic Ontology Editor", Proceedings of the 2007 conference on Human interface, Part 2, p 309 - 318, http://analyticsijssi/~blazf/papers/OntoGen2_HCII2007pdf retrieved: 18062012
^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola 2002 "Integrated Approach to Web Ontology Learning and Engineering", Computer, 3511, p 60 - 63, http://wwwusersdiuniroma1it/~velardi/IEEE_Cpdf retrieved: 18062012
^ McDowell, Luke K; Cafarella, Michael 2006 "Ontology-driven Information Extraction with OntoSyphon", Proceedings of the 5th international conference on The Semantic Web, p 428 - 444, http://turingcswashingtonedu/papers/iswc2006McDowell-finalpdf retrieved: 18062012
^ Yildiz, Burcu; Miksch, Silvia 2007 "ontoX - A Method for Ontology-Driven Information Extraction", Proceedings of the 2007 international conference on Computational science and its applications, 3, p 660 - 673, http://publiktuwienacat/files/pub-inf_4769pdf retrieved: 18062012
^ semanticweborg 2011 "PoolParty Extractor", http://semanticweborg/wiki/PoolParty_Extractor retrieved: 18062012
^ IMT Holdings, Corp 2013 "Rosoka", http://wwwrosokacom/content/capabilities retrieved: 08082013
^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A; Zien, Jason Y 2003 "SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation", Proceedings of the 12th international conference on World Wide Web, p 178 - 186, http://www2003org/cdrom/papers/refereed/p831/p831-dillhtml retrieved: 18062012
^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio 2006 "Semantic annotation for knowledge management: Requirements and a survey of the state of the art", Web Semantics: Science, Services and Agents on the World Wide Web, 41, p 14 - 28, http://staffwwwdcsshefacuk/people/JIria/iria_jws06pdf, retrieved: 18062012
^ Cimiano, Philipp; Völker, Johanna 2005 "Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery", Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems, 3513, p 227 - 238, http://wwwcimianode/Publications/2005/nldb05/nldb05pdf retrieved: 18062012
^ Maedche, Alexander; Volz, Raphael 2001 "The Ontology Extraction &amp; Maintenance Framework Text-To-Onto", Proceedings of the IEEE International Conference on Data Mining, http://userscsccalpolyedu/~fkurfess/Events/DM-KM-01/Volzpdf retrieved: 18062012
^ Machine Linking "We connect to the Linked Open Data cloud", http://thewikimachinefbkeu/html/indexhtml retrieved: 18062012
^ Inxight Federal Systems 2008 "Inxight ThingFinder and ThingFinder Professional", http://inxightfedsyscom/products/sdks/tf/ retrieved: 18062012
^ Frawley William F et al 1992, "Knowledge Discovery in Databases: An Overview", AI Magazine Vol 13, No 3, 57-70 online full version: http://wwwaaaiorg/ojs/indexphp/aimagazine/article/viewArticle/1011
^ Fayyad U et al 1996, "From Data Mining to Knowledge Discovery in Databases", AI Magazine Vol 17, No 3, 37-54 online full version: http://wwwaaaiorg/ojs/indexphp/aimagazine/article/viewArticle/1230
^ Cao, L 2010 "Domain driven data mining: challenges and prospects" IEEE Trans on Kn owledge and Data Engineering 22 6: 755–769 doi:101109/tkde201032 
v
e
Semantic Web
Background
Databases
Hypertext
Internet
Ontologies
Semantic networks
World Wide Web
Sub-topics
Data Web
Dataspaces
Hyperdata
Linked data
Rule-based systems
Applications
Semantic analytics
Semantic broker
Semantic computing
Semantic mapper
Semantic matching
Semantic publishing
Semantic reasoner
Semantic search
Semantic service-oriented architecture
Semantic wiki
Related topics
Collective intelligence
Description logic
Folksonomy
Geotagging
Information architecture
Knowledge extraction
Knowledge management
Knowledge representation
Library 20
Metadata
Mind mapping
ODBC
References
Topic Maps
Web 20
Web engineering
Web Science Trust
Standards
Syntax and supporting technologies
HTTP
IRI
URI
RDF
triples
RDF/XML
JSON-LD
Turtle
Notation3
N-Tr iples
TriX no W3C standard
RRID
SPARQL
XML
Schemas, ontologies and rules
Common logic
OWL
RDFS
Rule Interchange Format
Semantic Web Rule Language
ALPS
Semantic annotation
eRDF
GRDDL
Microdata
Microformats
RDFa
SAWSDL
Facebook Platform
Common vocabularies
DOAP
Dublin Core
FOAF
hAtom
hCalendar
hCard
hProduct
hRecipe
hResume
hReview
SIOC
SKOS
v
e
Computable knowledge
Topics and
concepts
Alphabet of human thought
Authority control
Automated reasoning
Commonsense knowledge
Commonsense reasoning
Computability
Formal system
Inference engine
Knowledge base
Knowledge-based systems
Knowledge engineering
Knowledge extraction
Knowledge representation
Knowledge retrieval
Library classification
Logic programming
Ontology
Personal knowledge base
Question answering
Semantic reasoner
Proposals and
implementations
Zairja
Ar s Magna 1300
An Essay towards a Real Character and a Philosophical Language 1688
Calculus ratiocinator &amp; Characteristica universalis 1700
Dewey Decimal Classification 1876
Begriffsschrift 1879
Mundaneum 1910
Logical atomism 1918
Tractatus Logico-Philosophicus 1921
Hilbert's program 1920s
Incompleteness theorem 1931
World Brain 1938
Memex 1945
General Problem Solver 1959
Prolog 1972
Cyc 1984
Semantic Web 2001
Evi 2007
Wolfram Alpha 2009
Watson 2011
Siri 2011
Knowledge Graph 2012
Wikidata 2012
Cortana 2014
Viv 2016
In fiction
The Engine Gulliver's Travels, 1726
Joe "A Logic Named Joe", 1946
The Librarian Snow Crash, 1992
Dr Know AI Artificial Intelligence, 2001
Waterhouse The Baroque Cycle, 2003
See also: Logic machines in fiction and List of fictional computers


Knowledge extraction

Random Posts

B♭ (musical note)

B♭ (musical note)

B♭ B-flat; also called si bémol is the eleventh step of the Western chromatic scale starting from C ...
Fourth dimension in art

Fourth dimension in art

New possibilities opened up by the concept of four-dimensional space and difficulties involved in tr...
Holt Renfrew

Holt Renfrew

Holt, Renfrew & Co, Limited, commonly known as Holt Renfrew or Holt's,1 is a chain of high-end C...
Later Silla

Later Silla

Later Silla 668–935, Hangul: 후신라; Hanja: 後新羅; RR: Hushila, Korean pronunciation: ...