Wed . 20 Feb 2020

Видобуток знань

Видобуток знань - це створення знань із структурованих реляційних баз даних, XML та неструктурованого тексту, документів, джерел зображень. Отримані знання мають бути у машиночитаному та машиномовному інтерпретації та повинні представляти знання таким чином, що сприяє поширенню. Хоча це і є методично подібний до вилучення інформації NLP та сховища даних ETL, основними критеріями є те, що результат вилучення виходить за рамки створення структурованої інформації або перетворення в реляційну схему. Це вимагає або повторного використання існуючих формальних знань, повторного використання ідентифікаторів або онтологій, або генерації схема на основі вихідних даних
RDB2RDF W3C група [1] в даний час стандартизує мову для вилучення RDF з реляційних баз даних Ще одним популярним прикладом вилучення знань є перетворення Вікіпедії в структуровані дані, а також зіставлення наявних знань див. DBpedia та Freebase - Зміст - 1 Огляд 2 приклади - 21 зв'язок об'єктів - 22 реляційних баз даних до RDF
3 Витяг із структурованих джерел до RDF - 31 1: 1 Картографування з таблиць RDB / переглядів до об'єктів / атрибутів / значень RDF
32 Комплексне відображення реляційних баз даних у RDF - 33 XML
34 Огляд методів / інструментів - 4 Видобуток із природних мовних джерел - 41 Видобуток традиційної інформації IE - 42 Вилучення інформації на основі онтології OBIE Сторінка 43 Навчання онтології OL - 44 Семантична анотація SA - 45 Інструменти - 5 Виявлення знань - 51 Вхідні дані - 52 Формати випуску - 6 Див. також 7 Посилання
Огляд
Після стандартизації мов представлення знань, таких як RDF та OWL, в цій галузі було проведено багато досліджень, особливо щодо трансформації реляційних баз даних у RDF, вирішення ідентичності, виявлення знань та вивчення онтології. Загальний процес використовує традиційні методи з витяг та вилучення інформації, перетворення та завантаження ETL, які перетворюють дані з джерела в структуровані формати. Наступні критерії можуть бути використані для категоризації підходів у цій темі, деякі з них враховують лише витяг із реляційних баз даних: [2]
Джерело
Які джерела даних охоплюються: текстові, реляційні Бази даних, XML, CSV - Експозиція - Як отримані знання робляться явним файлом онтології, семантичною базою даних Як ви можете запитувати його? Синхронізація? Чи один раз виконується процес вилучення знань для створення дампа чи це результат синхронізований з джерелом Статичний або динамічний Чи змінюються результати, записані назад двонаправленими
Повторне використання словників
Інструмент здатний повторно використовувати наявні словники при вилученні. Наприклад, стовпчик таблиці 'firstName' може бути відображений to foaf: firstName Деякі автоматичні підходи не здатні відображати vocab - Автоматизація - Ступінь, до якої допомагає витяг / автоматизований Керівництво, GUI, напівавтоматичне, автоматичне - Потрібна онтологія домену
A потрібна попередня онтологія щоб зробити карту на ньому. Так чи створюється картографування, або схема вивчається з вивчення вихідної онтології
Приклади
Пов’язання особи - Прожектор DBpedia, OpenCalais, дані кульбабиTXT, API Zemanta, Extractiv та PoolParty Extractor аналізують безкоштовно текст через розпізнавання названої сутності, а потім роз'єднує кандидатів за допомогою роздільної здатності імен і посилає знайдені сутності до сховища знань DBpedia [3] Демонстративні даніDXTD демонстрації або веб-демонстрації DBpedia Spotlight або демо-версії PoolParty. Президент Обама закликав середу в Конгрес продовжити програму Податкова пільга для студентів, включених у минулорічний пакет економічних стимулів, аргументуючи це тим, що політика надає ще більшу допомогу
Оскільки президент Обама пов'язаний з ресурсом DBpedia LinkedData, подальша інформація може бути отримана автоматично, і «Семантичний пришвидше» може зробити висновок, що Згаданий суб'єкт відноситься до типу "Особа", що використовує програмне забезпечення FOAF, і президентів типу США, які використовують приклади лічильників YAGO: Тільки методи розпізнати сутності або посилання на статті Вікіпедії та інші цілі, які не забезпечують подальшого пошуку структурованих даних та формальних знань. Реляційні бази даних для RDF
Помноження, сервер D2R, Ultrawrap та Virtuoso RDF - це інструменти, які перетворюють реляційні бази даних у RDF Під час цього процесу вони дозволяють повторно використовувати існуючі лексики та онтології під час процесу перетворення При перетворенні типової реляційної таблиці з назвою користувачів, один стовпчик, наприклад, ім'я або агрегація стовпців, наприклад, ім'я та прізвище, повинні забезпечувати URI створеної сутності. Зазвичай використовується первинний ключ Кожен інший стовпець може бути вилучений як відношення до цієї сутності [4] Потім властивості з формально визначеною семантикою використовуються та повторно використовуються для інтерпретації інформації. Наприклад, стовпець у таблиці користувачів під назвою одруженеЗазначається як симетричне відношення та домашня сторінка стовпця може бути перетворений у власність з лексики FOAF під назвою foaf: homepage, таким чином кваліфікуючи її як зворотну фу nctional властивість Тоді кожен запис таблиці користувача може бути зроблений примірником класу foaf: Person Ontology Population Додаткові знання про домен у формі онтології можуть бути створені з status_id, або за допомогою створених вручну правил, якщо status_id становить 2, запис належить до класу Вчитель або за допомогою напівавтоматизованих методів навчання онтології Ось приклад трансформації: Ім'я, одруженеДо домашньої сторінки
статусу_id: Пітер та Мері
http: // exampleorg / Peters_page | 1 - Клаус - Єва - http: // exampleorg / Claus_page - 2
: Петро: одруженийЗаміж: Марія: одруженаЗа сову: СиметричнаВласність: Петро foaf: домашня сторінка & lt; http: // exampleorg / Peters_page & gt;
: Петро Пір: Людина: Петро: Студент: Клаус a: Вчитель - Витяг із структурованих джерел до RDF - 1: 1 Картографування з таблиць RDB / Перегляди до організацій RDF / Атрибути / Значення
Під час побудови представлення RDB проблемної області початковою точкою часто є діаграма відносин між сутностями ERD. Як правило, кожен об'єкт представлений у вигляді таблиці бази даних, кожен атрибут сутності стає стовпцем у цій таблиці, а зв'язки між сутностями позначаються зовнішніми ключами. Кожна таблиця, як правило, визначає певний клас сутності, кожен стовпець - один із його атрибутів. Кожен рядок таблиці описує екземпляр сутності, однозначно ідентифікований первинним ключем. Рядки таблиці сукупно описують набір сутності В еквівалентне представлення RDF того ж набору сутностей:
Кожен стовпець у таблиці є атрибутом, тобто предикат. Кожне значення стовпця є значенням атрибута, тобто об'єктом. Кожен рядок ключ представляє ідентифікатор сутності, тобто, предмет
Кожен рядок представляє сутність inst ance - Кожен екземпляр суті рядка представлений у RDF колекцією трійки із загальним ідентифікатором суб'єкта сутності. Отже, для надання еквівалентного виду, заснованого на семантиці RDF, основним алгоритмом відображення було б таке:
створити клас RDFS для кожної таблиці - перетворити всі первинні ключі та зовнішні ключі в IRI - присвоїти IRI предикату кожному стовпчику - призначити для кожного рядка предикат rdf: ввести предикат, пов'язуючи його з відповідним IRI класу RDFS до таблиці
для кожного стовпця, який не є частиною первинного чи зовнішнього ключа, побудуйте трійку, що містить основний ключ IRI як предмет, стовпець IRI як предикат і значення стовпця як об'єкт
Рання згадка цього основного або прямого відображення можна знайти у порівнянні Тіма Бернерса-Лі моделі ER з моделлю RDF [4]
Складне відображення реляційних баз даних у RDF
Згадане вище відображення відображається у переліку 1: 1. як прямий спосіб RDF, додаткові вдосконалення можуть бути використані для покращення використання повнота виводу RDF відповідно до заданих випадків використання. Зазвичай інформація втрачається під час перетворення діаграми взаємозв'язків сутності на об'єкт сутності в реляційні таблиці. Деталі можна знайти в невідповідності об'єктно-реляційного імпедансу і повинні бути реверсовані, з концептуальної точки зору, підходів до вилучення може надходити з двох напрямків. Перший напрямок намагається витягти або вивчити схему OWL із заданої схеми бази даних. Ранні підходи використовували фіксовану кількість вручну створених правил картографування для уточнення відображення 1: 1 [5] [6] [7] Детальніше розроблені методи використовують евристику або алгоритми навчання, щоб індукувати схематичні інформаційні методи, що перетинаються з навчанням онтології. Хоча деякі підходи намагаються витягнути інформацію зі структури, притаманної схемі SQL [8], аналізуючи, наприклад, зовнішні ключі, інші аналізують зміст та значення в таблиці для створення концептуальної ієрархії [9], наприклад, стовпчики з кількома значеннями є кандидатами на перетворення категорій. Другий напрямок намагається ap схему та її вміст до раніше існуючої онтології домену див. також: онтологічне вирівнювання. Однак часто відповідна онтологія домену не існує і повинна бути створена спочатку
XML
Оскільки XML структурований як дерево, будь-які дані можуть бути легко представлені в RDF, який структурується як графік XML2RDF - це один приклад підходу, який використовує порожні вузли RDF та перетворює XML елементи та атрибути у властивості RDF. Однак ця тема є більш складною, як у випадку реляційних баз даних реляційна таблиця первинний ключ є ідеальним кандидатом для того, щоб стати предметом видобутих трійки Елемент XML, однак, може бути перетворений - залежно від контексту - як суб'єкта, предикат або об'єкт потрійного XSLT може використовуватися стандартний мова перетворення для ручного перетворення XML в RDF: Огляд методів / інструментів: Ім'я - Джерело даних - Експозиція даних - Синхронізація даних - Мова Mapping - повторне використання лексики - Автоматичне картографування
Req доменної онтології - використовує графічний інтерфейс
A Пряме картографування реляційних даних до RDF - реляційні дані - SPARQL / ETL - динамічне - N / A - хибне - автоматичне - хибне - хибне - CSV2RDF4LOD
CSV - ETL - статичний - RDF - вірний - керівництво - false - false - Convert2RDF - Розмежований текстовий файл - ETL - статичний
RDF / DAML - true - посібник - false - true - D2R Server - RDB - SPARQL - двонаправлений - D2R Map - true
посібник - хибний - хибний - DartGrid - RDB - власна мова запитів - динамічний - Візуальний інструмент - вірний - посібник - хибний - істина
DataMaster - RDB - ETL - статичний, фірмовий - справжній - справжній - посібник - правда - правда - Розширення RDF Google Refine - CSV, XML
ETL - статичний - жоден - напівавтоматичний - хибний - правдивий - Krextor - XML - ETL - статичний - xslt - вірно
посібник, що відповідає справжній помилковості - MAPONTO - RDB - ETL - статичний, фірмовий - справжній - посібник - справжній - хибний - METAmorphoses
RDB - ETL - статичний, фірмовий, власний на основі xml мови картографування - справжній, керівництво - хибний, правдивий - MappingMa ster - CSV - ETL - статичний - MappingMaster - true - GUI - false - true - ODEMapster - RDB - ETL - статичний
патентований
вірний
інструкція
справжній - справжній - Плагін для імпортерів OntoWiki CSV - DataCube & amp; Таблична - CSV - ETL - статична - Vocaublary RDB Data Cube - справжня - напівавтоматична - хибна - правда - Poolparty Extraktor PPX - XML, Текст - LinkedData - динамічний - RDF SKOS - вірний - напівавтоматичний - вірний - хибний - RDBToOnto - RDB - ETL - статичний
жодна неправдива - автоматична, користувач також має можливість налаштувати результати - хибні - правдиві - RDF 123 - CSV - ETL - статичний
false - false - посібник - false - true - RDOTE - RDB - ETL - статичний - SQL - true - керівництво - true
true - RelationalOWL - RDB - ETL - статичний - немає - хибний - автоматичний - false - false - T2LD - CSV
ETL: статичний, хибний, хибний, автоматичний, хибний, хибний, словник RDF, куб даних RDF. Багатовимірні статистичні дані в електронних таблицях. Лексика куб даних
вірний посібник - хибний - композитор TopBraid - CSV - ETL - статичний - SKOS - хибний - напівавтоматичний - хибний - істина
Увімкнути> RDB - LinkedData - динамічний - SQL - справжній, керівництво - fa lse - false - Ultrawrap - RDB - SPARQL / ETL - динамічний - R2RML - справжній - напівавтоматичний - false - true - Virtuoso RDF Перегляди - RDB - SPARQL - динамічний - Мова мета-схеми - вірний - напівавтоматичний - хибний - правдивий - Virtuoso Sponger - структурований та напівструктурований джерела даних - SPARQL - динамічний - Virtuoso PL & amp; XSLT - вірний напівавтомат - хибний - хибний - VisAVis - RDB - RDQL - динамічний - SQL - вірний
керівництво
true - true - XLWrap: Електронна таблиця для RDF - CSV - ETL - статична - TriG Syntax - true - інструкція - false - false - XML до RDF - XML - ETL - статичний - хибний - хибний - автоматичний - хибний - хибний - Витяг із природних мовних джерел - Найбільша частина інформації що міститься в ділових документах, близько 80% [10] закодовано природною мовою і тому неструктуровано. Оскільки неструктуровані дані є доволі складним завданням для витягу знань, потрібні більш складні методи, які, як правило, дають гірші результати порівняно зі структурованими даними. Однак, масове набуття отриманих знань повинно компенсувати підвищену складність та зменшення якості видобутку. Далі, природні джерела мови розуміються як джерела інформації, де дані подаються неструктуровано як звичайний текст. Даний текст додатково вбудовується в документ розмітки, наприклад, HTML-документ, згадані системи зазвичай автоматично видаляють елементи розмітки
Традиційне вилучення інформації IE
Традиційне вилучення інформації [11] - це технологія обробки природних мов, яка витягує інформацію з типових текстів та структур на природній мові вони підходять відповідним чином. Види інформації, яку слід ідентифікувати, повинні бути визначені в моделі перед початком процесу, тому весь процес традиційного вилучення інформації залежить від домену. IE розділяється на наступне п'ять підзадач - Розпізнавання іменованих об'єктів NER - Роздільна здатність Coreference CO - Побудова елемента елемента шаблону TE - Побудова відношення шаблону TR - Створення сценарію шаблону ST - Завдання розпізнавання названої сутності полягає в розпізнаванні та класифікувати всі названі сутності, що містяться в текстовому присвоєнні іменованого об'єкта заздалегідь визначеній категорії. Це працює за допомогою застосування граматики b аседовані методи або статистичні моделі - роздільна здатність Coreference ідентифікує еквівалентні сутності, які були розпізнані NER, в тексті Є два релевантні види співвідношення еквівалентності. Перший стосується відносин між двома різними представленими об'єктами, наприклад, IBM Europe та IBM і другий - відношення між сутністю та їх анафоричними посиланнями, наприклад, це та IBM Обидва види можна розпізнати за роздільною здатністю coreference. Під час побудови елемента шаблону система IE визначає описові властивості сутностей, розпізнавані NER та CO Ці властивості відповідають звичайним такі якості, як червоний або великий
Побудова відношення шаблону визначає відносини, які існують між елементами шаблону. Ці відносини можуть бути декількох видів, наприклад, для роботи або для розміщення, з обмеженням, що і домен, і діапазон відповідають суб'єктам
У сценарії шаблону події виробництва, які описані в тексті, будуть ідентифіковані та str що має відношення до сутностей, визнаних NER та CO, та відносин, визначених TR
Видобуток інформації на основі онтології OBIE
Вилучення інформації на основі онтології [10] - це підполе вилучення інформації, з яким хоча б один онтологія використовується для керівництва процесом вилучення інформації з тексту природної мови Система OBIE використовує методи традиційного вилучення інформації для ідентифікації понять, примірників та зв’язків використовуваних онтологій у тексті, які після процесу будуть структуровані на онтологію. Таким чином, вхідні онтології складають модель вилучення інформації
Онтологія навчання OL
Головна стаття: Онтологічне навчання
Онтологічне навчання - це автоматичне або напівавтоматичне створення онтологій, включаючи вилучення відповідних термінів домену з природної мови текст Оскільки вручну побудова онтологій є надзвичайно трудомістким та трудомістким, існує велика мотивація для автоматизації процесу
Semantic annotati на SA
Під час семантичної анотації текст [12] природної мови доповнюється метаданими, часто представленими в RDFa, що повинно зробити семантику містяться термінів машинно зрозумілою У цьому процесі, який, як правило, є напівавтоматичним, знання витягуються в сенс, що встановлюється зв'язок між лексичними термінами та, наприклад, поняттями з онтологій. Таким чином, отримуються знання, яке значення терміна в оброблюваному контексті було призначене, і тому значення тексту ґрунтується на машиночитаних даних із здатність робити умовиводи Семантична анотація, як правило, розділяється на наступні два підзадачі - Вилучення термінології
Зв'язування сутності
На рівні вилучення термінології витягуються лексичні терміни з тексту. Для цього спочатку токенізатор визначає слово межі та розв'язує абревіатури. Згодом терміни з тексту, які відповідають поняттю, витягуються за допомогою домен-лексикону, щоб зв’язати їх на en tity linking
В об'єднанні сутності [13] встановлено зв’язок між вилученими лексичними термінами з вихідного тексту та поняттями з онтології чи бази знань, таких як DBpedia. Для цього поняття-кандидати виявляються відповідним чином у кількох значеннях термін за допомогою лексикону Нарешті, контекст термінів аналізується для визначення найбільш підходящої розбіжності та призначення терміна правильній концепції
Інструменти
Для категоризації інструментів можна використовувати наступні критерії: витягнути знання з тексту природної мови
Джерело
Які формати введення можуть бути оброблені інструментом, наприклад, звичайний текст, HTML або PDF
Парадигма доступу
Чи може інструмент запитувати джерело даних або потрібен цілий дамп для процес вилучення - Синхронізація даних - Результат процесу вилучення синхронізований з джерелом. Використовує вихідну онтологію. Чи пов'язує цей інструмент результат з онтологією. Автоматизація картографії - Наскільки автоматизована - це процес видобутку ману al, напівавтоматичний або автоматичний | Потрібна онтологія. Чи потрібен інструмент для онтологічного вилучення? Використовує графічний інтерфейс? Чи пропонує інструмент графічний інтерфейс користувача? Підхід - Який підхід IE , OBIE, OL або SA використовується інструментом - Витягнуті об'єкти
Які типи сутностей, наприклад, названі сутності, поняття чи відносини можуть бути вилучені інструментом - Прикладні методи
Які методи застосовуються, наприклад, NLP , статистичні методи, кластеризація або машинне навчання
Вихідна модель
Яка модель використовується для представлення результату інструменту, наприклад, RDF або OWL
Підтримувані домени
Які домени підтримуються, наприклад, економіка або біологія
Підтримувані мови: якими мовами можна обробити, наприклад, англійською чи німецькою мовами: Наступна таблиця характеризує деякі інструменти для отримання знань з природних мовних джерел: Ім'я - Джерело - Парадигма доступу - Синхронізація даних
Використовує вихідну онтологію - Автоматизація картографування - Потрібна онтологія - Використовує графічний інтерфейс - Підхід - Витягнуті об'єкти - Додаток збрехав Методи - Вихідна модель - Підтримувані домени - Підтримувані мови - AeroText [14] - звичайний текст, HTML, XML, SGML - дамп - ні
так автоматичний «так» так «так» IE - названі сутності, стосунки, події - лінгвістичні правила - власні - незалежні від домену: англійська, іспанська, арабська, китайська, індонезійська
AlchemyAPI [15] - звичайний текст, HTML - автоматичний, так - SA - багатомовний - ANNIE [16] - звичайний текст - дамп - так
так - IE - алгоритми кінцевих станів - багатомовна - ASIUM [17] - звичайний текст, дамп - напівавтоматичний
так
OL
Концепції, ієрархія концепцій - NLP, кластеризація: «Напруженість видобутку» [18] - автоматична IE - названі сутності, відносини, події
NLP - API кульбаби - звичайний текст , HTML, URL - REST - немає, немає - немає автоматичних - немає | так - SA - названі сутності, поняття - статистичні методи - JSON
Доменне незалежне від багатомовної - DBpedia Spotlight [19] - звичайний текст, HTML - дамп, SPARQL - так, так, так utomatic - ні, так - SA - SA - анотація до кожного слова, анотація до нестандартних слів - NLP, статистичні методи, машинне навчання - RDFa - доменне незалежне - англійська
EntityClassifiereu [20] - звичайний текст, HTML - дамп - так, так - так - автоматичний - ні, так - IE, OL, SA - анотація до кожного слова, анотація до нестандартних слів - граматика на основі правил - XML - незалежна від домену: англійська, німецька, голландська: K-Extractor [21] [22] - звичайна текст, HTML, XML, PDF, MS Office, електронна пошта - дамп, SPARQL - так, так - автоматично - ні, так - IE, OL, SA
поняття, названі сутності, екземпляри, ієрархія понять, загальні відносини, визначені користувачем відносини, події, модальність, час, зв'язування сутностей, зв'язок подій, настрої - NLP, машинне навчання, евристичні правила - RDF, OWL, власність XML - незалежна від домену: англійська, іспанська - iDocument [23] - HTML, PDF, DOC - SPARQL - так, так, так, OBIE - екземпляри, властивість цінності NLP - особисте, ділове - NetOwl Extractor [24]
с текстовий текст, HTML, XML, SGML, PDF, MS Office - дамп - Ні? Так - Автоматично
так
Так - IE - названі сутності, відносини, події
NLP
XML, JSON, RDF-OWL, інші - декілька доменів: англійська, арабська китайська спрощена та традиційна, французька, корейська, перська-фарсі та дарі, російська, іспанська: OntoGen [25 ]
напівавтоматичний | так - OL - поняття, концепція ієрархії понять, нетаксономічні відносини, екземпляри NLP, машинне навчання, кластеризація [OntoLearn [26] - звичайний текст , HTML - дамп - ні, так - автоматичний, так - ні, немає - OL - концепції, концепція ієрархії, екземпляри - NLP, статистичні методи - патентовані
незалежно від домену: англійська - OntoLearn Reloaded - звичайний текст, HTML - дамп - ні, так - автоматично - так, ні - OL Концепції, ієрархія понять, екземпляри - NLP, статистичні методи - власні, незалежні від домену - англійська - OntoSyphon [27] - HTML, PDF, DOC - дамп, запити пошукової системи - ні, так - автоматичні, так - ні, немає - OBIE - co ncepts, відносини, екземпляри - NLP, статистичні методи - RDF - незалежно від домену - англійська - онтокс [28] - звичайний текст - дамп - ні, так Напівавтоматичні - так, ні - OBIE - екземпляри, значення властивостей типу даних - методи, засновані на евристиці - власні, незалежні від домену, незалежні від мови
OpenCalais - звичайний текст, HTML, XML - дамп - ні - так, автоматично - так, так, ні - SA - анотація до об'єктів, анотація до подій , анотація до фактів - NLP, машинне навчання - RDF - незалежна від домену: англійська, французька, іспанська: Extractor PoolParty [29] - звичайний текст, HTML, DOC, ODT
дамп - ні, так - автоматично - так, так, так - OBIE - названі сутності, поняття, відносини, поняття, що класифікують текст, збагачення - NLP, машинне навчання , статистичні методи
RDF, OWL - доменне незалежне - англійська, німецька, іспанська, французька: Rosoka [30] - звичайний текст, HTML, XML, SGML, PDF, MS Office
дамп - Так | Так - Автоматичний - немає | Так - IE - з ім'ям ent ities, відносини, атрибути, поняття
NLP
XML, JSON, RDF, інші - декілька доменів - Багатомовна 230
SCOOBIE - звичайний текст, HTML - дамп - ні
так - автоматичний - ні, ні - OBIE - екземпляри, значення властивостей, типи RDFS - NLP, машинне навчання - RDF, RDFa - незалежно від домену
англійська, німецька: SemTag [31] [32] - HTML - дамп - ні, так - автоматичний - так, немає - SA
машинне навчання - запис бази даних - незалежна від домену - незалежна від мови - смарт-виправлення - звичайний текст, HTML, PDF, DOC, електронна пошта - дамп - так
ні - автоматичний, ні, так, так: OBIE - названі об'єкти - NLP, машинне навчання - фірмовий - незалежний від домену - англійська, німецька, французька, голландська, польська мова: Text2Onto [33] - звичайний текст, HTML, PDF - дамп - так, ні - напівавтоматично - так, так - OL -
поняття, поняття ієрархія, нетаксономічні відносини, екземпляри, аксіоми - НЛП, статистичні методи, машинне навчання, методи, засновані на правилах
OWL - не залежать від домену: англійська, Німецька, іспанська: "Text-To-Onnto" [34] - звичайний текст, HTML, PDF, PostScript - дамп - напівавтоматично - так, так - OL -
поняття, ієрархія понять, нетаксономічні відносини, лексичні утворення, що посилаються на поняття, лексичні утворення, що посилаються на відносини - НЛП, машинне навчання, кластеризація, статистичні методи
німецька
ThatNeedle
Простий текст
дамп
автоматичний
без концепцій, відносин, ієрархії - NLP, патентований в JSON - декілька доменів
англійська
Wiki Machine [35] - звичайний текст, HTML, PDF, DOC - дамп - ні, так - автоматично - так, так - так - SA - анотація до власних іменників, анотація до загальних іменників - машинне навчання
RDFa - доменне незалежне: англійська, німецька, іспанська, французька, португальська, італійська, російська
ThingFinder [36]
IE - названі сутності, стосунки, події
багатомовні.
Відкриття знань - Відкриття знань описує процес автоматичного пошуку великих обсягів даних для шаблонів, які можна вважати знанням e про дані [37] Це часто описується як отримання знань із вхідних даних Відкриття знань, розроблене з області видобутку даних, і тісно пов'язане з ним як з точки зору методології, так і термінології [38]
Найбільш добре -відома галузь вилучення даних - це відкриття знань, також відоме як відкриття знань у базах даних KDD Так само, як і багато інших форм виявлення знань, це створює абстрагування вхідних даних. Знання, отримані в процесі, можуть стати додатковими даними, які можуть бути використані для подальшого використання. і відкриття. Часто результати відкриття знань не є діючими, відкриття діючих знань, також відоме як домен даних, керованих доменом, [39] має на меті виявити та надіслати діючі знання та уявлення. Ще одне перспективне застосування відкриття знань знаходиться в області модернізація програмного забезпечення, виявлення слабкості та відповідність, що передбачає розуміння існуючих артефактів програмного забезпечення Цей процес пов'язаний з концепцією зворотного двигуна Звичайно, знання, отримані з існуючого програмного забезпечення, подаються у вигляді моделей, до яких при необхідності можна зробити конкретні запити. Взаємовідносини між сутностями є частим форматом представлення знань, отриманих із наявного програмного забезпечення. Об'єктна група управління OMG, розроблена специфікація, відкриття знань метамодель KDM, яка визначає онтологія програмних засобів та їх взаємозв'язків з метою виявлення знань існуючого коду Відкриття знань із існуючих програмних систем, також відомих як видобуток програмного забезпечення, тісно пов'язане з видобутком даних, оскільки існуючі артефакти програмного забезпечення містять величезне значення для управління ризиками та бізнесу значення, ключове для оцінювання та еволюції програмних систем Замість видобутку окремих наборів даних програмне забезпечення розробляється на метаданих, таких як потоки процесів, наприклад, потоки даних, потоки управління та & amp; карти викликів, архітектура, схеми баз даних та ділові правила / умови / процес
Вхідні дані
Бази даних
Реляційні дані
База даних
Склад документів
Склад даних
Програмне забезпечення
Вихідний код - Файли конфігурації - Сценарії побудови - Текст - Концепція видобутку - Графіки - Видобуток молекули - Послідовності - Майнінг потоку даних - Навчання з різних часових потоків даних під концепцією дрейфу - Веб: Формати вихідних даних - Модель даних - Метадані - Метамоделі - Онтологія - Представлення знань - Теги знань - Правила бізнесу - Метамодель Відкриття знань KDM - Позначення щодо моделювання бізнес-процесів BPMN - Проміжне представництво - Опис ресурсів Framework RDF - Програмні показники
Див. Також Аналіз кластерів - Археологія даних - Список літератури - ^ RDB2RDF Робоча група, веб-сайт: http: // wwww3org / 2001 / sw / rdb2rdf /, статут: http: // wwww3org / 2009/08 / rdb2rdf-charter, R2RML: RDB to RDF Мова картографії: http: // wwww3org / TR / r2rml /
^ LOD2 EU Постачання 311 Екстракти знань від із структурованих джерел http: // staticlod2eu / Delivablebles / deliverable-311pdf
^ "Життя у пов'язаній хмарі даних" wwwopencalaiscom Отримано 2009-11-10 У Вікіпедії є пов'язуваний дані-близнюк під назвою DBpedia DBpedia має ту саму структуровану інформацію, що і Вікіпедія - але перекладений у машиночитаний формат - ^ ab Тім Бернерс-Лі 1998, "Реляційні бази даних у семантичній мережі" Отримано: 20 лютого 2011 р., ^ Ху та ін 2007, "Виявлення простих відображень між реляційними базами даних Схеми та онтології ", у випуску 6-ї Міжнародної семантичної веб-конференції ISWC 2007, 2-ї азіатської семантичної веб-конференції ASWC 2007, LNCS 4825, сторінки 225-238, Пусан, Корея, 11-15 листопада 2007 року http: // citeseerxistpsuedu / viewdoc / downloaddoi = 1011976934 & amp; rep = rep1 & amp; type = pdf
^ R Ghawi та N Cullot 2007, "Покоління бази даних по онтології для семантичної сумісності" на третьому міжнародному семінарі з питань інтероперабельності бази даних InterDB 2007 http: // le2icnrsfr / IMG / публікації / InterDB07-Ghawi pdf | ^ Li et al 2005 "Напівавтоматичний метод придбання онтології для семантичної павутини", WAIM, том 3739 З конспектів лекцій з інформатики, сторінка 209-220 Springer doi: 101007 / 11563952_19
^ Tirmizi et al 2008, "Переклад програм SQL в семантичну веб", Примітки лекцій з інформатики, Том 5181/2008 Додаток до бази даних та експертних систем http: // citeseeristpsuedu / viewdoc / download; jsessionid = 15E8AB2A37BD06DAE59255A1AC3095F0doi = 10111403169 & amp; pdf
^ Farid Cerbah 2008 "Навчання високоструктурованих семантичних сховищ із реляційних баз даних", The Semantic Web: Research and Applications, том 5021 конспектів лекцій з інформатики, Спрингер, Берлін / Гейдельберг http: // wwwtao-projecteu / ресурси / публікації / цербах-навчання-високоструктуровані-семантичні-сховища-із-реляційних баз данихpdf
^ ab Wimalasuriya, Daya C; Dou, Dejing 2010 "Вилучення інформації на основі онтології: вступ та опитування сучасних підходів", Journal of Information Science, 363, p 306 - 323, http: // ixcsuoregonedu / ~ dou / research / papers / jis09pdf, отримано: 18062012
^ Каннінгем, Гаміш 2005 "Видобуток інформації, автоматичний", Енциклопедія мови та мовознавства, 2, стор 665 - 677, http: // gateacuk / sale / ell2 / ie / mainpdf, отримано: 18062012
^ Erdmann, М; Маеде, Олександр; Шнурр, Н-П; Staab, Steffen 2000 "Від посібника до напівавтоматичної семантичної анотації: Про інструменти для текстових анотацій на основі онтології", Праці COLING, http: // wwwidaliuse / ext / epa / cis / 2001/002 / paperpdf отримано: 18062012
^ Рао, Деліп; Макнамі, Пол; Dredze, Mark 2011 "Entity Linking: Finding Extracted Entities in a Knowledge Base", Multi-source, Multi-lingual Information Extraction and Summarization, http://wwwcsjhuedu/~delip/entity-linkingpdf retrieved: 18062012
^ Rocket Software, Inc 2012 "technology for extracting intelligence from text", http://wwwrocketsoftwarecom/products/aerotext retrieved: 18062012
^ Orchestr8 2012: "AlchemyAPI Overview", http://wwwalchemyapicom/api retrieved: 18062012
^ The University of Sheffield 2011 "ANNIE: a Nearly-New Information Extraction System", http://gateacuk/sale/tao/splitch6html#chap:annie retrieved: 18062012
^ ILP Network of Excellence "ASIUM LRI", http://www-aiijssi/~ilpnet2/systems/asiumhtml retrieved: 18062012
^ Attensity 2012 "Exhaustive Extraction", http://wwwattensitycom/products/technology/semantic-server/exhaustive-extraction/ retrieved: 18062012
^ Mendes, Pablo N; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian 2011 "DBpedia Spotlight: Shedding Light on the Web of Documents", Proceedings of the 7th International Conference on Semantic Systems, p 1 - 8, http://wwwwiwissfu-berlinde/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011pdf retrieved: 18062012
^ Cite error: The named reference entityclassifier was invoked but never defined see the help page
^ Balakrishna, Mithun; Moldovan, Dan 2013 "Automatic Building of Semantically Rich Domain Models from Unstructured Data", Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference FLAIRS, p 22 - 27, http://wwwaaaiorg/ocs/indexphp/FLAIRS/FLAIRS13/paper/view/5909/6036 retrieved: 11082014
^ 2 Moldovan, Dan; Blanco, Eduardo 2012 "Polaris: Lymba's Semantic Parser", Proceedings of the Eight International Conference on Language Resources and Evaluation LREC, p 66 - 72, http://wwwlrec-conforg/proceedings/lrec2012/pdf/176_Paperpdf retrieved: 11082014
^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas 2009 "iDocument: Using Ontologies for Extracting Information from Text", http://wwwdfkiuni-klde/~maus/dok/AdrianMausDengel09pdf retrieved: 18062012
^ SRA International, Inc 2012 "NetOwl Extractor", http://wwwsracom/netowl/entity-extraction/ retrieved: 18062012
^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja 2007 "OntoGen: Semi-automatic Ontology Editor", Proceedings of the 2007 conference on Human interface, Part 2, p 309 - 318, http://analyticsijssi/~blazf/papers/OntoGen2_HCII2007pdf retrieved: 18062012
^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola 2002 "Integrated Approach to Web Ontology Learning and Engineering", Computer, 3511, p 60 - 63, http://wwwusersdiuniroma1it/~velardi/IEEE_Cpdf retrieved: 18062012
^ McDowell, Luke K; Cafarella, Michael 2006 "Ontology-driven Information Extraction with OntoSyphon", Proceedings of the 5th international conference on The Semantic Web, p 428 - 444, http://turingcswashingtonedu/papers/iswc2006McDowell-finalpdf retrieved: 18062012
^ Yildiz, Burcu; Miksch, Silvia 2007 "ontoX - A Method for Ontology-Driven Information Extraction", Proceedings of the 2007 international conference on Computational science and its applications, 3, p 660 - 673, http://publiktuwienacat/files/pub-inf_4769pdf retrieved: 18062012
^ semanticweborg 2011 "PoolParty Extractor", http://semanticweborg/wiki/PoolParty_Extractor retrieved: 18062012
^ IMT Holdings, Corp 2013 "Rosoka", http://wwwrosokacom/content/capabilities retrieved: 08082013
^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A; Zien, Jason Y 2003 "SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation", Proceedings of the 12th international conference on World Wide Web, p 178 - 186, http://www2003org/cdrom/papers/refereed/p831/p831-dillhtml retrieved: 18062012
^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio 2006 "Semantic annotation for knowledge management: Requirements and a survey of the state of the art", Web Semantics: Science, Services and Agents on the World Wide Web, 41, p 14 - 28, http://staffwwwdcsshefacuk/people/JIria/iria_jws06pdf, retrieved: 18062012
^ Cimiano, Philipp; Völker, Johanna 2005 "Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery", Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems, 3513, p 227 - 238, http://wwwcimianode/Publications/2005/nldb05/nldb05pdf retrieved: 18062012
^ Maedche, Alexander; Volz, Raphael 2001 "The Ontology Extraction & Maintenance Framework Text-To-Onto", Proceedings of the IEEE International Conference on Data Mining, http://userscsccalpolyedu/~fkurfess/Events/DM-KM-01/Volzpdf retrieved: 18062012
^ Machine Linking "We connect to the Linked Open Data cloud", http://thewikimachinefbkeu/html/indexhtml retrieved: 18062012
^ Inxight Federal Systems 2008 "Inxight ThingFinder and ThingFinder Professional", http://inxightfedsyscom/products/sdks/tf/ retrieved: 18062012
^ Frawley William F et al 1992, "Knowledge Discovery in Databases: An Overview", AI Magazine Vol 13, No 3, 57-70 online full version: http://wwwaaaiorg/ojs/indexphp/aimagazine/article/viewArticle/1011
^ Fayyad U et al 1996, "From Data Mining to Knowledge Discovery in Databases", AI Magazine Vol 17, No 3, 37-54 online full version: http://wwwaaaiorg/ojs/indexphp/aimagazine/article/viewArticle/1230
^ Cao, L 2010 "Domain driven data mining: challenges and prospects" IEEE Trans on Kn owledge and Data Engineering 22 6: 755–769 doi:101109/tkde201032 
v
e
Semantic Web
Background
Databases
Hypertext
Internet
Ontologies
Semantic networks
World Wide Web
Sub-topics
Data Web
Dataspaces
Hyperdata
Linked data
Rule-based systems
Applications
Semantic analytics
Semantic broker
Semantic computing
Semantic mapper
Semantic matching
Semantic publishing
Semantic reasoner
Semantic search
Semantic service-oriented architecture
Semantic wiki
Related topics
Collective intelligence
Description logic
Folksonomy
Geotagging
Information architecture
Knowledge extraction
Knowledge management
Knowledge representation
Library 20
Metadata
Mind mapping
ODBC
References
Topic Maps
Web 20
Web engineering
Web Science Trust
Standards
Syntax and supporting technologies
HTTP
IRI
URI
RDF
triples
RDF/XML
JSON-LD
Turtle
Notation3
N-Tr iples
TriX no W3C standard
RRID
SPARQL
XML
Schemas, ontologies and rules
Common logic
OWL
RDFS
Rule Interchange Format
Semantic Web Rule Language
ALPS
Semantic annotation
eRDF
GRDDL
Microdata
Microformats
RDFa
SAWSDL
Facebook Platform
Common vocabularies
DOAP
Dublin Core
FOAF
hAtom
hCalendar
hCard
hProduct
hRecipe
hResume
hReview
SIOC
SKOS
v
e
Computable knowledge
Topics and
concepts
Alphabet of human thought
Authority control
Automated reasoning
Commonsense knowledge
Commonsense reasoning
Computability
Formal system
Inference engine
Knowledge base
Knowledge-based systems
Knowledge engineering
Knowledge extraction
Knowledge representation
Knowledge retrieval
Library classification
Logic programming
Ontology
Personal knowledge base
Question answering
Semantic reasoner
Proposals and
implementations
Zairja
Ar s Magna 1300
An Essay towards a Real Character and a Philosophical Language 1688
Calculus ratiocinator & Characteristica universalis 1700
Dewey Decimal Classification 1876
Begriffsschrift 1879
Mundaneum 1910
Logical atomism 1918
Tractatus Logico-Philosophicus 1921
Hilbert's program 1920s
Incompleteness theorem 1931
World Brain 1938
Memex 1945
General Problem Solver 1959
Prolog 1972
Cyc 1984
Semantic Web 2001
Evi 2007
Wolfram Alpha 2009
Watson 2011
Siri 2011
Knowledge Graph 2012
Wikidata 2012
Cortana 2014
Viv 2016
In fiction
The Engine Gulliver's Travels, 1726
Joe "A Logic Named Joe", 1946
The Librarian Snow Crash, 1992
Dr Know AI Artificial Intelligence, 2001
Waterhouse The Baroque Cycle, 2003
See also: Logic machines in fiction and List of fictional computers


Knowledge extraction

Random Posts

The San Francisco Examiner

The San Francisco Examiner

The San Francisco Examiner is a longtime daily newspaper distributed in and around San Francisco, Ca...
Frederator Films

Frederator Films

Frederator Films is an animation studio founded by Fred Seibert as part of Frederator Studios, with ...
John Hasbrouck Van Vleck

John Hasbrouck Van Vleck

John Hasbrouck Van Vleck March 13, 1899 – October 27, 1980 was an American physicist and mathematici...
Christian Lacroix

Christian Lacroix

Christian Marie Marc Lacroix French pronunciation: ​kʁistjɑ̃ lakʁwa; born 16 May 1951 is a Fren...