Wed . 20 Feb 2020

Білімді шығару

Білім алу - бұл құрылымдық реляциялық мәліметтер базасынан, XML және құрылымданбаған мәтіндерден, құжаттардан, суреттер көздерінен білім алу. Алынған білім машинада оқылатын және машинада түсіндірілетін форматта болуы керек және білімді бұлдырлауды жеңілдететін етіп ұсынуы керек. NLP және ETL деректерді жинауға арналған әдіске ұқсас, негізгі критерийлер - бұл нәтиже құрылымдық ақпаратты құрудан немесе реляциялық сызбаға айналудан асып түседі. Ол қолданыстағы ресми білімді қайтадан пайдалануды, сәйкестендіргіштерді немесе онтологияны немесе қайтадан генерациялауды қажет етеді. Бастапқы мәліметтерге негізделген схема
RDB2RDF W3C тобы [1] қазіргі уақытта реляциялық дерекқордан RDF алу үшін тілді стандарттау болып табылады. Білімді алуда тағы бір танымал мысал - Википедияны құрылымдық деректерге айналдыру, сонымен бірге бұрыннан бар біліммен салыстыру. қараңыз: DBpedia және Freebase
Мазмұны
1 шолу 2 Мысал: 21 Байланысты дерекқорды RDF-ке байланыстыру
3 Құрылымдық көздерден RDF-ке экстракция
31 1: 1 РДБ кестелерінен / көріністерінен RDF субъектілеріне / атрибуттары / құндылықтары
32 РДФ-ге қатысты дерекқорлардың кешенді картаға түсіру
33 XML
34 Әдістер / құралдарға шолу | 4 Табиғи тіл көздерінен экстракция
41 Дәстүрлі ақпарат алу IE
42 OBIE мәліметтерін онтологияға негізделген.
43 Онтологияны оқыту OL - 44 Семантикалық аннотация SA
45 Құралдар
5 Білімді табу
51 Кіріс мәліметтері
52 Шығу форматтары
6 Сонымен қатар қараңыз
7 Сілтемелер
Шолу: RDF және OWL сияқты білімді ұсыну тілдерін стандарттағаннан кейін бұл салада көптеген зерттеулер жүргізілді, әсіресе реляциялық деректер базасын РДФ-ға айналдыру, жеке басын анықтау, білімді ашу және онтологияны оқыту Жалпы процесте дәстүрлі әдістер қолданылады ақпаратты алу және шығару, түрлендіру және деректерді түрлендіретін ETL жүктеу Дереккөздерді құрылымдық форматқа бөлу
Осы тақырыптағы тәсілдерді санаттарға бөлу үшін келесі критерийлерді қолдануға болады, олардың кейбіреулері тек реляциялық дерекқорлардан алуды ғана ескереді: [2]
Дереккөздер: Қандай деректер көзі қамтылған: Мәтін, Реляцион Мәліметтер базасы, XML, CSV
экспозиция - алынған білімдер қалайша анық онтологиялық файл, семантикалық мәліметтер базасы жасалады, оны қалай сұрауға болады? Синхрондау
білімді шығару процесі қоқысты шығару үшін бір рет орындалады ма немесе жоқ па? нәтиже бастапқы көзбен синхрондалады Статикалық немесе динамикалық нәтижеге өзгеріс енгізілген бе кері бағытталған
Сөздік қорын қайта пайдалану - құрал қолданыстағы сөздік қорын үзіндіде қайта қолдана алады. Мысалы, «firstName» кесте бағанымен салыстыруға болады to foaf: firstName Кейбір автоматты тәсілдер сөздерді салыстыруға қабілетті емес
Автоматтандыру
Шығару дәрежесі / автоматтандырылған нұсқаулық, GUI, жартылай автоматты, автоматты
Домен онтологиясын қажет етеді алдын-ала онтология қажет картаға түсіру үшін карта жасалады немесе схема үйренеді, онтологияны үйренудің бастапқы көздерінен үйренеді - DBpedia Spotlight, OpenCalais, Dandelion dataTXT, Zemanta API, Extractiv және PoolParty Extractor-ді байланыстыратын мысалдар. аталмыш нысанды тану арқылы мәтін, содан кейін кандидаттардың атын ажырату арқылы ажыратады және табылған нысандарды DBpedia білім беру репозиторийіне байланыстырады [3] Dandelion dataTXT demo немесе DBpedia Spotlight веб-демо немесе PoolParty Extractor Demo - Президент Обама сәрсенбіде Конгрессті кеңейтуге шақырды. Өткен жылғы экономикалық ынталандыру пакетіне енгізілген студенттерге салық жеңілдіктері саясаттың жомарттықпен көмектесетіндігін дәлелдейді. Президент Обама DBpedia LinkedData ресурсымен байланысты болғандықтан, қосымша ақпаратты автоматты түрде алуға болады және семантикалық себепкер мысал келтіре алады. аталған субъект FOAF бағдарламалық жасақтамасын пайдаланатын тұлға түріндегі және YAGO Counter мысалын қолданатын Америка Құрама Штаттарының президенттері типі: Тек әдістер құрылымдарды және ресми білімді әрі қарай іздеуді қамтамасыз етпейтін заңды тұлғаларды тану немесе Википедия мақалаларына және басқа мақсаттарға сілтеме
RDF
Triplify, D2R Server, Ultrawrap және Virtuoso RDF Views реляциялық дерекқорды түрлендіретін құрал болып табылады. RDF Бұл процесте олар конверсия процесінде бар лексика мен онтологияны қайта пайдалануға мүмкіндік береді. Пайдаланушылар деп аталатын типтік реляциялық кестені түрлендіру кезінде egonnst_name және last_name атты бағандардың жиынтығы жасалған нысанның URI-ні қамтамасыз етеді. Әдетте бастапқы кілт пайдаланылады Кез келген басқа бағанды ​​осы нысанмен байланыстыру арқылы алуға болады [4] Содан кейін ақпаратты түсіну үшін формальды семантикасы бар қасиеттер қолданылады және қайта пайдаланылады. Мысалы, marriedTo деп аталатын пайдаланушы кестесіндегі бағаны симметриялы байланыс және бағанның басты беті ретінде анықтауға болады. FOAF лексикасынан foaf деп аталатын меншікке айналдыруға болады: басты бет, осылайша оны кері фу ретінде анықтайды nctional property Содан кейін пайдаланушы кестесінің әрбір жазбасына көбік сыныбының данасын жасауға болады: Адам Онтологиясы Популяциясы Қосымша онтология түріндегі домендік білім status_id-тен, қолмен жасалынған ережелер арқылы, егер status_id 2 болса, жазба тиесілі болуы мүмкін. сынып жетекшісіне немесе онтологияны жартылай автоматтандырылған оқу әдісімен оқыту Мұнда трансформацияның мысалдары келтірілген:
Аты-жөні
үйленетін үйге
басты беті
күйі
Питер
Мэри
http: // exampleorg / Peters_page
1
Клаус
Ева
http: // exampleorg / Claus_page
2: Петр: үйленгенМаған: Мэри: үйлендіОйға: СимметриялыПроперти: Петр foaf: басты бет & lt; http: // exampleorg / Peters_page & gt;
: Peter foaf: Адам: Peter: a Student: Claus a: Мұғалім: RDF құрылымдық көздерден экстракция
1: 1 РДБ кестелерінен / РДФ субъектілеріне көріністер / Аттрибуттар / құндылықтар
проблемалық доменнің РДБ ұсынуын құру кезінде бастапқы нүкте ERD-дің субъект-қарым-қатынас диаграммасы болып табылады. Әдетте, әр нысан мәліметтер базасының кестесі түрінде ұсынылады, субъектінің әрбір атрибуты сол кестеде бағанға айналады, субъектілер арасындағы қатынастар шетелдік кілттермен көрсетілген Әрбір кестеде әдетте субъектінің белгілі бір класы анықталады, оның әр бағанында оның атрибуттарының біреуі болады. Кестедегі әр жолда бастапқы кілтпен бірегейлендірілген нысан данасы сипатталады. Сол нысанның эквивалентті РДФ ұсынуы: Кестенің әр бағанында атрибут, яғни предикат
Әр бағанның мәні атрибут мәні, яғни объект
Әр жол пернесінде нысан идентификаторы, яғни тақырып бар
Әр жол инстаграмды білдіреді Ance
Әрбір жол нысаны RDF-те жалпы тақырыптық нысан идентификаторы бар үштіктер жиынтығымен ұсынылған. Сонымен, RDF семантикасына негізделген балама көріністі көрсету үшін, негізгі алгоритм карта келесідей болады:
әр кесте үшін RDFS класын жасаңыз
барлық негізгі кілттер мен сыртқы кілттерді IRI-ге түрлендіріп, әр бағанға алдын-ала анықталған ИРИ тағайындаңыз, rdf тағайындаңыз: әр жол үшін предикат түрін сәйкесінше RDFS класындағы IRI-ге байланыстырыңыз бастапқы немесе сыртқы кілттің бөлігі болып табылмайтын әр баған үшін
кестесіне тақырып ретінде IRI бастапқы кілті, предикат ретінде IRI баған және объект ретінде бағанның мәні бар үштікті салу осы негізгі немесе тікелей картографияны Тим Бернерс-Лидің ER моделін RDF моделімен салыстыруынан табуға болады [4]
Реляциялық мәліметтер базасын RDF-ке кешенді картаға түсіру
Жоғарыда аталған 1: 1 карта бұрынғы деректерді ашады RDF ретінде қарапайым түрде қолдануды жақсарту үшін қосымша нақтылау енгізуге болады Берілген пайдалану жағдайларына сәйкес RDF шығарылымының толықтығы Әдетте, ERD-диаграмманы реляциялық кестелерге түрлендіру кезінде ақпарат жоғалады. Толық мәліметтерді объект-реляциялық кедергінің сәйкессіздігінен табуға болады және оны қайта құру керек. Экстракция екі бағытта жүруі мүмкін. Бірінші бағыт берілген дерекқор схемасынан OWL схемасын алуға немесе үйренуге тырысады. Ерте тәсілдер 1: 1 картографияны нақтылау үшін қолмен құрылған ережелерді қолданды [5] [6] [7] Толығырақ онтологиялық оқумен сәйкес келетін схемалық ақпараттық әдістердің пайда болуын туғызатын эвристика немесе оқыту алгоритмдерін қолдана отырып, кейбір әдістер SQL схемасына [8] сәйкес құрылымнан ақпаратты алуға тырысады, мысалы, шетелдік кілттерді, ал басқалары мазмұн мен құндылықтарды талдайды тұжырымдамалық иерархияларды құруға арналған кестелер [9], мысалы, бірнеше мәні бар бағандар санатқа енуге үміткерлер. Екінші бағыт м Схема мен оның мазмұнын бұрыннан бар онтологияның доменіне қараңыз: онтологияны теңестіру Көбінесе, сәйкес онтологияның домені жоқ және оны алдымен XML құруға тура келеді, өйткені XML ағаш ретінде құрылған, кез-келген деректерді RDF-те оңай ұсынуға болады, ол XML2RDF графигі ретінде құрылған, RDF бос түйіндерін қолданатын және XML элементтері мен атрибуттарын RDF қасиеттеріне айналдыратын тәсілдердің бір мысалы болып табылады. Алайда тақырып реляциялық мәліметтер қорындағы жағдайдағыдай күрделі. реляциялық кесте бастапқы кілт - алынған үштіктің тақырыбы болуға өте жақсы үміткер. XML элементі өзгертілуі мүмкін - контекске байланысты - тақырып, предикат немесе үш XSLT нысаны ретінде стандартты қолданыла алады XML форматын RDF-ке қолмен түрлендіру үшін түрлендіру тілі - Әдіс / құрал-саймандарға шолу | Аты-жөні: Деректер көзі
Деректер экспозициясы
Деректерді синхрондау
Салыстыру тілі
Сөздік қорын қайта пайдалану
Req домен онтологиясы - GUI - A қолданады Қатынастар туралы деректерді RDF-ке тікелей байланыстыру
SPARQL / ETL - динамикалық
N / A
жалған
автоматты
жалған
жалған
CSV2RDF4LOD
CSV
ETL - статикалық
RDF - шынайы
нұсқаулық
жалған
жалған
Convert2RDF
ETL
деликтелген мәтіндік файл
статикалық
нұсқаулық
жалған
ақиқат
D2R Server
RDB
SPARQL
екі бағытты
D2R Map
true
қолмен
жалған
жалған
DartGrid
RDB
сұраныстың тілі
динамикалық
Visual Tool
шынайы
қолмен
жалған
шын
DataMaster
RDB
ETL - статикалық
жеке меншік
ақиқат
шынайы
Google Refine's RDF кеңейтімі
CSV, XML
ETL - статикалық
жоқ - жартылай автоматты
жалған
шынайы
Krextor
XML
ETL
статикалық
xslt
true
қолданушы - ақиқат және жалған
MAPONTO
RDB
ETL
статистикалық
жеке меншік
шынайы және жалған
METAmorphoses
RDB
ETL - статикалық
меншіктік xml негізіндегі салыстыру тілі - шынайы
қолмен
жалған
ақиқат
MappingMa ster - CSV
ETL - статикалық
MappingMaster - шынайы
GUI - қате
ODEMapster
RDB
ETL
статикалық
меншіктік
шынайы
нұсқаулық
шынайы
шын
OntoWiki CSV импорттаушы қондырмасы - DataCube & amp; Tabular
CSV
ETL
статикалық
RDF Data Cube Vocaublary
шынайы және жартылай автоматты
жалған
шынайы
Poolparty Extraktor PPX
XML, Динамикалық
LinkedData мәтіні: RDF SKOS - шынайы және жартылай автоматты
шынайы
жалған
RDBToOnto
RDB
ETL
статикалық
жалған
автоматты емес, қолданушыда жалған
шынайы
RDF 123
CSV
ETL
статикалық
нәтижелерін дәлдеуге мүмкіндік бар. жалған
жалған
нұсқаулық
жалған
ақиқат
RDOTE
RDB
ETL
статикалық
SQL - шынайы
нұсқаулық
шын
шынайы
RelationalOWL
RDB
ETL
статикалық емес - жалған
автоматтандырылған
жалған
жалған
T2LD
CSV
ETL - статикалық
жалған
жалған
автоматты
жалған
жалған
RDF Data Cube Сөздігі
Электрондық кестелердегі көпөлшемді статистикалық мәліметтер
Data Cube
ақиқат
қолданушы
жалған
TopBraid Composer
CSV
ETL
статикалық
SKOS
жалған
жартылай автоматты
жалған
шын
Triplify - RDB
LinkedData
динамикалық
SQL - шынайы нұсқаулық және
lse
жалған
Ultrawrap
SPARQL / ETL
динамикалық
R2RML
шынайы және жартылай автоматты
жалған
шынайы
виртуоздық RDF Көріністер - RDB
SPARQL
динамикалық
Meta Schema тілі: шынайы және жартылай автоматты
жалған
шынайы
виртуозды спонжер
құрылымды және жартылай құрылымды деректер көздері
SPARQL - динамикалық
Virtuoso PL & amp; XSLT - шынайы
жартылай автоматты
жалған
жалған
VisAVis
RDB
RDQL
динамикалық
SQL - шынайы
нұсқаулық шынайы - шынайы
XLWrap: RDF-ке электрондық кесте - CSV
ETL
статикалық
TriG синтаксисі - шынайы нұсқаулық
жалған және жалған
XML RDF - XML ​​
ETL - статикалық
жалған
жалған
автоматты
жалған
жалған
табиғи тіл көздерінен экстракция
ақпараттың үлкен бөлігі іскери құжаттарда шамамен 80% [10] табиғи тілде кодталған, сондықтан құрылымдалмаған Құрылымды емес мәліметтер білім алу үшін қиын болғандықтан, құрылымдалған мәліметтермен салыстырғанда нашар нәтиже беретін әдетте неғұрлым күрделі әдістер қажет. Алынған білімді жаппай алу, алайда, өсіп келе жатқан күрделілік пен төмендеу сапасының орнын толтыруы керек. Төменде табиғи тіл көздері ақпарат көзі ретінде түсініледі, мұнда деректер құрылымсыз түрде қарапайым мәтін түрінде беріледі. e берілген мәтін қосымша түзету құжатына ендірілген, мысалы HTML құжаты, аталған жүйелер түзету элементтерін автоматты түрде жояды. Дәстүрлі ақпарат шығару IE
Дәстүрлі ақпарат алу [11] - бұл ақпаратты шығаратын табиғи тілді өңдеу технологиясы. әдеттегі табиғи мәтіндер мен құрылымдардан оларды лайықты түрде сәйкестендіру керек. Анықталатын ақпарат түрлері процесті бастамас бұрын модельде көрсетілуі керек, сондықтан дәстүрлі ақпаратты алудың бүкіл процесі доменге тәуелді болады. бес қосалқы белгілер - NER деп аталатын кәсіпорынды тану - CO - шаблондық шешім
TE - шаблондық элементтердің құрылысы
TR - шаблондық құрылыс конструкциясы ST - аталатын нысанды тану міндеті болып табылады және мойындалады. Аталған субъектінің мәтіндік тапсырмасындағы барлық аталған нысандарды алдын-ала анықталған категорияға жіктеңіз. Бұл грамматиканың b көмегімен жұмыс істейді Ased әдістері немесе статистикалық модельдер: Coreference шешімі мәтін ішінде NER мойындайтын балама нысандарды анықтайды. Эквиваленттік қатынастардың екі сәйкес түрі бар, біріншісі екі түрлі ұсынылған субъектілердің қатынастарына қатысты, мысалы IBM Еуропа және IBM және Субъектінің және олардың анафориялық сілтемелерінің арасындағы қарым-қатынастардың екіншісі, мысалы, оны және IBM Екі түрін де негізгі мәнді шешім арқылы тануға болады
шаблон элементтерін құру кезінде IE жүйесі NER және CO арқылы танылған объектілердің сипаттамалық қасиеттерін анықтайды. Қызыл немесе үлкен сияқты шаблондар сияқты сапа шаблон элементтерінің арасындағы қатынастарды анықтайды. Бұл қатынастар жұмыс істейтін немесе орналасқан сияқты шектеулі түрде доменнің де, ауқымның да объектілерге сәйкес келетін бірнеше түріне ие бола алады. Шаблондық сценарийде мәтінде сипатталған өндірістік оқиғалар анықталып, str болады NER және CO мойындайтын субъектілерге қатысты және TR
Ontology негізіндегі ақпаратты алу OBIE анықтаған қатынастар - Онтологияға негізделген ақпарат алу [10] - ақпараттарды алудың кіші алаңы, кемінде біреуі табиғи тілдегі мәтіннен ақпаратты алу процесін басқару үшін онтология қолданылады OBIE жүйесі мәтіннен пайдаланылған онтологияның тұжырымдамаларын, даналарын және қатынастарын анықтау үшін дәстүрлі ақпаратты алу әдістерін қолданады, олар процесстен кейін онтологияға құрылымдалады. енгізу онтологиясы алынатын ақпараттың үлгісін құрайды - Ontology study OL - Негізгі мақала: Онтологияны оқыту
Онтологияны оқыту дегеніміз - онтологияны автоматты немесе жартылай автоматты құру, оның ішінде тиісті доменнің терминдерін табиғи тілден алу. мәтінді онтологияны қолмен құру өте еңбекқор және көп уақытты қажет ететіндіктен, процесті автоматтандыру үшін үлкен мотивация бар
Semantic annotati SA туралы - семантикалық аннотация кезінде [12] табиғи тілдегі мәтін көбінесе RDFa-да ұсынылған метамәліметтермен толықтырылған, ол қамтылған терминдердің семантикасын машинада түсінікті етуі керек Бұл процесте, әдетте, жартылай автоматты түрде білім алынады. мысалы, лексикалық терминдер мен мысалы, онтологиядан алынған ұғымдар арасындағы байланыс орнайтындығы түсінікті, осылайша мәтіннің мағынасы өңделетін контексте қандай мағынаға ие болатындығы, сондықтан мәтіннің мағынасы машинамен оқылатын мәліметтерге негізделген. тұжырым жасау қабілеті Семантикалық аннотация әдетте келесі екі ішкі тарауларға бөлінеді - Терминологиялық үзінді - Сілтеме жасайтын субъект: Терминдерді шығару деңгейінде мәтіннен лексикалық терминдер алынады Осы мақсатта токенизатор алдымен сөзді анықтайды шекаралар мен аббревиатураларды шешеді. Бұдан кейін мәтінге тұжырымдамаға сәйкес келетін терминдер оларды доменге қатысты лексикон көмегімен алынады. Байланысты байланыстыру
[13] байланыстыратын нысанда бастапқы мәтіннен алынған лексикалық терминдер мен онтологиядан немесе DBpedia сияқты білім базасынан алынған ұғымдар арасындағы байланыс орнатылды. Ол үшін кандидат-тұжырымдамалардың бірнеше мағыналарына сәйкес анықталған. лексиканың көмегімен термин Соңында, терминдердің контексті ең дұрыс бөлуді анықтау үшін және терминді дұрыс тұжырымдамаға тағайындау үшін талданады
Құралдар
Құралдарды бөлу үшін келесі критерийлерді қолдануға болады: Табиғи тілдегі мәтіннен білімді алу. Source - Қандай енгізу форматтарын құрал өңдей алады, мысалы, қарапайым мәтін, HTML немесе PDF - Қатынас парадигмасы
Құрал деректер көзіне сұрау сала алады ма немесе толығымен қоқысты талап етеді өндіру процесі
Деректерді синхрондау
деректерді синхрондалған алу процесінің нәтижесі
шығыс онтологиясын қолданады
құрал нәтижені онтологиямен байланыстырады ма? өндіру процесі ману болып табылады al, жартылай автоматтандырылған немесе автоматты
онтологияны қажет етеді: құралға өндіру үшін онтология қажет пе? GUI қолданады - құрал графикалық пайдаланушы интерфейсін ұсынады ма? , OBIE, OL немесе SA құралы - Шығарылған кәсіпорындар »құралымен қолданылады, мысалы, аталатын субъектілер, ұғымдар немесе қатынастарды құралдың көмегімен алуға болады. Қолданбалы әдістер
Қандай әдістер қолданылады, мысалы NLP , статистикалық әдістер, кластерлеу немесе машиналық оқыту
Шығару үлгісі - құралдың нәтижесін көрсету үшін қандай модель қолданылады, мысалы: RDF немесе OWL - Қолдау көрсетілетін домендер
Қандай домендерге қолдау көрсетіледі, мысалы экономика немесе биология
Қолдау көрсетілетін тілдер
Ағылшын немесе неміс тілдерін қай тілде өңдеуге болады: Төмендегі кестеде табиғи тілдер көздерінен білімді алуға арналған кейбір құралдар сипатталған
Аты-жөні
Қайнар көзі
Қатынас парадигмасы
Деректерді синхрондау
Шығару онтологиясын қолданады
Картографияны автоматтандыру - Онтологияны қажет етеді: GUI - тәсілін және өндірілген субъектілерді қолданады - App өтірік Техника
Шығару үлгісі: Қолдау көрсетілетін домендер
Қолдау көрсетілетін тілдер
AeroText [14]
қарапайым мәтін, HTML, XML, SGML
дамп - жоқ
иә
автоматты
иә
иә
ЖК
атаулы субъектілер, қатынастар, оқиғалар
лингвистикалық ережелер
доменге тәуелсіз
ағылшын, испан, араб, қытай, индиана
AlchemyAPI [15]
кәдімгі мәтін, HTML
автоматты
иә
SA
көп тілді
ANNIE [16]
жай мәтін
қоқыс тастау
иә
иә
IE
шектеулі мемлекеттік алгоритмдер
ASIUM [17]
қарапайым мәтін
қоқыс тастау
жартылай автоматты
иә
OL
ұғымдар, тұжырымдаманың иерархиясы
NLP, кластерлеу - толығымен мұқият қарау [18]
автоматты түрдегі ЖК
аталатын субъектілер, қатынастар, оқиғалар
NLP
Dandelion API
қарапайым мәтін , HTML, URL
REST
жоқ
жоқ
автоматты
жоқ
иә
SA
деп аталатын субъектілер, статистикалық әдістер
JSON
домендік тәуелсіз
көп тілді
DBpedia Spotlight [19]
қарапайым мәтін, HTML
дамп, SPARQL
иә
иә
a Автоматтандырылған
жоқ
иә
SA
әр сөзге аннотация, NLP сөзіне түсініктеме, NLP, статистикалық әдістер, машинамен оқыту
RDFa
доменге тәуелсіз
ағылшын
EntityClassifiereu [20]
қарапайым мәтін, HTML - қоқыс тастау
иә
иә
автоматты
жоқ
иә
IE, OL, SA
аннотация әр сөзге, ережеге негізделген
ережелеріне негізделген грамматиканың
ережелеріне негізделген
ағылшын, неміс, голландтық
K-Extractor [21] [22]
жазбаға түсініктеме мәтін, HTML, XML, PDF, MS Office, электрондық поштаның қоқысы, SPARQL - иә
иә
автоматты
жоқ
иә
IE, OL, SA
ұғымдар, аталған субъектілер, даналар, ұғымдар иерархиясы, жалпы қатынастар, пайдаланушы анықтайтын қатынастар, оқиғалар, модальділік, шиеленіс, объектіні байланыстыру, оқиғаны байланыстыру, сезім
NLP, машиналық оқыту, эвристикалық ережелер
RDF, OWL, меншік IDocument [23]
HTML, PDF, DOC
SPARQL - иә
иә
иә
OBIE
даналары, меншіктері құндылықтар
NLP
жеке, іскери
NetOwl Extractor [24]
б HTML мәтіні, HTML, XML, SGML, PDF, MS Office
қоқыс тастау
Жоқ
Иә
Автоматтандырылған - иә
Иә
IE
аталған субъектілер, қатынастар, оқиғалар
NLP
XML, JSON, RDF-OWL, басқалары - бірнеше домендер
ағылшын, араб қытай қарапайым және дәстүрлі, француз, корей, парсы және парсы, парсы, парсы, орыс, испан
OntoGen [25 ]
жартылай автоматты
иә
OL
ұғымдар, иерархия тұжырымдамасы, салықтық емес қатынастар, мысалдар
NLP, машиналық оқыту, кластерлеу
OntoLearn [26]
қарапайым мәтін , HTML - қоқыс тастау
жоқ
иә
автоматты
иә
жоқ
OL ұғымдар, тұжырымдамалар иерархиясы, мысалдар
NLP, статистикалық әдістер
меншік
домендік тәуелсіз
ағылшынша
OntoLearn қайта жүктелген
қарапайым мәтін, HTML
дамп: жоқ
иә
автоматты
иә
жоқ
OL
ұғымдар, тұжырымдамалық иерархия, даналар
NLP, статистикалық әдістер
доменге тәуелсіз
ағылшынша
OntoSyphon [27]
HTML, PDF, DOC
дамп, іздеу жүйесінің сұраулары
жоқ
иә
автоматты
иә
жоқ
OBIE
co Ұсыныстар, қатынастар, мысалдар
NLP, статистикалық әдістер
RDF
доменге тәуелсіз
ағылшынша
x [28]
қарапайым мәтін
төгу
жоқ
иә
жартылай автоматты
иә
жоқ
OBIE
даналары, мәліметтер типінің сипаттары
эвристикалық негізделген әдістер
домендік тәуелсіз
тілден тәуелсіз
OpenCalais
кәдімгі мәтін, HTML, XML
қоқыс тастау
жоқ
иә
автоматты
иә
жоқ
SA
нысандарға аннотация, оқиғаларға түсініктеме , фактілерге аннотация
NLP, машиналық оқыту
RDF - доменге тәуелсіз
PoolParty Extractor [29]
қарапайым мәтін, HTML, DOC, ODT
қоқыс тастау
жоқ
иә
автоматты
иә
иә
OBIE
аталатын нысандар, түсініктер, қатынастар, мәтінді жіктейтін ұғымдар, NLP байыту, машиналық оқыту , статистикалық әдістер
RDF, OWL - доменге тәуелсіз
ағылшын, неміс, испан, француз
Rosoka [30]
қарапайым мәтін, HTML, XML, SGML, PDF, MS Office
қоқыс тастау
Иә
Иә
Автоматты
жоқ
Иә
IE
ен NLP
XML, JSON, RDF және басқалары - бірнеше домендер
көптілді 230
SCOOBIE - қарапайым мәтін, HTML
дампы
жоқ
иә
автоматты
жоқ
жоқ
OBIE даналары, меншік мәні, RDFS типтері
NLP, машиналық оқыту
RDF, RDFa
домендік емес
ағылшынша, немісше
SemTag [31] [32]
HTML
қоқыс тастау
жоқ
иә
автоматты
иә
жоқ
SA
«ақылды FIX» доменге тәуелсіз
ақылды FIX
қарапайым мәтін, HTML, PDF, DOC, электрондық поштаның дампы - иә

no
автоматты
жоқ
иә
OBIE
заңды тұлғалар, NLP, машиналық оқыту
доменге тәуелсіз
ағылшын, неміс, француз, голланд, жылтырату
Text2Onto [33]
кәдімгі мәтін, HTML, PDF
қоқыс тастау
иә
жоқ
жартылай автоматты
иә
иә
OL
ұғымдар, тұжырымдамалық иерархия, салықтық емес қатынастар, даналар, аксиома
NLP, статистикалық әдістер, машиналық оқыту, ережелерге негізделген әдістер
OWL
deomain-тәуелсіз
ағылшын, Неміс, испан
Text-to-Onto [34]
қарапайым мәтін, HTML, PDF, PostScript
қоқыс жартылай автоматты
иә
иә
OL
ұғымдар, тұжырымдамалар иерархиясы, салықтық емес қатынастар, ұғымдарға сілтеме жасайтын лексикалық тұлғалар, қатынастарға сілтеме жасайтын лексикалық субъектілер, NLP, машиналық оқыту, кластерлеу, статистикалық әдістер
German
ThatNeedle
Жай мәтін
қоқыс
автоматты
no
түсініктер, қатынастар, иерархия
NLP, жекеменшік
JSON - бірнеше домендер
ағылшынша
Wiki Machine [35]
қарапайым мәтін, HTML, PDF, DOC
тастау
жоқ
иә
автоматты
иә
иә
SA
тиісті зат есімдерге аннотация, жалпы зат есімдерге аннотация - машиналық оқыту
RDFa - домендік тәуелсіз
ағылшын, неміс, испан, француз, португал, итальян, орыс
ThingFinder [36]
IE
көп тілді субъектілер, қатынастар, оқиғалар
Білімді ашу - білімнің ашылуы үлкен көлемдегі мәліметтерді автоматты түрде іздеу процесін сипаттайды Деректер туралы ақпарат [37] Ол көбінесе деректерді шығару саласынан алынған білімді алу деп сипатталады және мәліметтермен жұмыс жасауда және терминология жағынан да онымен тығыз байланысты [38]. Мәліметтерді іздеудің белгілі саласы - бұл KDD мәліметтер базасында білімді ашу деп те аталатын білімді ашу, көптеген басқа білімдердің формалары сияқты, ол кіріс деректерінің абстракцияларын жасайды. Процесс нәтижесінде алынған білім қосымша пайдалану үшін пайдаланылуы мүмкін қосымша мәліметтерге айналуы мүмкін. және ашылу Білімді ашудан туындайтын нәтижелер көбінесе әрекет етпейтін, білімді табу, сонымен қатар домендермен басқарылатын деректерді іздеу деп аталады, [39] іс-әрекеттегі білімдер мен түсініктерді ашуға және жеткізуге бағытталған. бағдарламалық жасақтаманы жаңарту, әлсіздікті анықтау және сәйкестік, ол қолданыстағы бағдарламалық жасақтаманың артефактілерін түсінуді талап етеді. Бұл процесс кері қозғалтқыш түсінігімен байланысты Әдетте қолданыстағы бағдарламалық жасақтамадан алынған білімдер қажет болған кезде нақты сұраулар жасалатын модельдер түрінде ұсынылады. Субъектімен қарым-қатынас - бұл бар бағдарламалық жасақтамадан алынған білімді ұсынудың жиі нысаны, OMG нысанын анықтайды, оны анықтайтын білім алуды анықтайтын Metamodel KDM. Қолданыстағы кодты білуге ​​арналған бағдарламалық жасақтама активтері мен олардың өзара байланысы туралы онтология, бағдарламалық жасақтама өндірісі деп аталатын, қолданыстағы бағдарламалық жасақтама жүйелерінен білім табу деректерді өндірумен тығыз байланысты, өйткені қолданыстағы бағдарламалық жасақтама артефактілерінде тәуекелдерді басқару және бизнес үшін үлкен мән бар бағдарламалық жасақтама жүйесін бағалау және эволюцияның мәні, кілті жеке мәліметтер жиынтығын шығарудың орнына бағдарламалық жасақтама метамәліметтерге, мысалы, технологиялық ағындарға, мысалы, деректер ағындарына, басқару ағындарына және & amp; қоңыраулар карталары, сәулет, деректер қорының сызбалары және бизнес ережелері / шарттары / процесі
Кіріс деректері
Деректер базасы
Қатысты деректер
Деректер базасы
Құжаттар қоймасы
Деректер қоймасы
Бағдарламалық жасақтама
Бастапқы коды
Конфигурация файлдары: Сценарийлер құру - Мәтін және тұжырымдаманы құру
Графиктер
Молекуланы игеру
Кезектіліктер - Деректер ағындарын іздеу
Әр түрлі деректер ағындарынан үйрену Тұжырымдаманың өзгеруі бойынша
Web
Шығару пішімдері - Мәліметтер моделі
Метадеректер - Метамодельдер және Онтология - Білім өкілі
Білім белгілері - Бизнес ережелері
Білім табу Metamodel KDM
BPMN іскери процестерді модельдеу туралы хабарлама
Ресурстарды сипаттау шеңбері RDF - бағдарламалық құралдардың өлшемдері
сонымен қатар қараңыз: Кластерлік талдау
Деректер археологиясы
Сілтемелер
^ RDB2RDF Жұмыс тобы, веб-сайт: http: // wwww3org / 2001 / sw / rdb2rdf /, жарғысы: http: // wwww3org / 2009/08 / rdb2rdf-жарғы, R2RML: РДФ картографиялау бойынша РДБ: http: // wwww3org / TR / r2rml /
^ LOD2 EU жеткізілетін 311 білім үзіндісі Құрылымдық көздерден http: // staticlod2eu / Жеткізу / жеткізілу-311pdf. ^ «Байланыстырылған деректер бұлтындағы өмір» wwwopencalaiscom Шығарылған 2009-11-10 Уикипедияда DBpedia DBpedia деп аталатын сілтеме жасалған екі егізде Википедия сияқты құрылымдық ақпарат бар. - бірақ машинамен оқуға болатын форматқа аударылды. ^ Тим Бернерс-Ли 1998, «Семантикалық вебтегі байланыс деректері» Орналастырылған: 20 ақпан 2011 ж. ^ Ху, 2007, «Реляциялық деректер базасы арасындағы қарапайым салыстыруларды табу» Схемалар және онтологиялар », ISWC 2007, 6-шы Халықаралық семантикалық веб-конференция, ASWC 2007, 2-ші Азия семантикалық веб-конференциясы, LNCS 4825, 225-2238 беттер, Бусан, Корея, 11-15 қараша 2007 ж. Http: // citeseerxistpsuedu / viewdoc / downloaddoi = 1011976934 & amp; rep = rep1 & amp; type = pdf
^ R Ghawi және N Cullot 2007, «Семантикалық өзара әрекеттесу үшін мәліметтер базасынан онтологиялық карта құру» InterDB 2007 мәліметтер базасының өзара әрекеттесуі туралы үшінші халықаралық семинар: http: // le2icnrsfr / IMG / басылымдар / InterDB07-Ghawi pdf
^ Li et al 2005 «Семантикалық вебке арналған жартылай автоматты онтологияны алу әдісі», WAIM, көлемі 3739 Информатика дәрістерінің конспектісі, 209-220 бет Springer doi: 101007 / 11563952_19
^ Тирмизи 2008 ж., «SQL қосымшаларын семантикалық веб-ге аудару», 5181/2008 мәліметтер базасындағы компьютерлік ғылымдағы дәрістердің конспектілері, том 5181/2008 мәліметтер базасы және сараптамалық жүйелер қосымшалары http: // citeseeristpsuedu / viewdoc / жүктеу; jsessionid = 15E8AB2A37BD06DAE59255A1AC3095F0doi = 1011140316 = & 1111140316 pdf
^ Фарид Сербах 2008 «Реляциялық мәліметтер базасынан жоғары құрылымдық семантикалық репозиторийлерді үйрену», Семантикалық веб: Зерттеулер мен қосымшалар, 5021 Информатика бойынша дәрістердің конспектісі, Спрингер, Берлин / Гейдельберг http: // wwwtao-projecteu / resources / жарияланымдар / cerbah-learning-жоғары құрылымдық-семантикалық-репозитарийлер-from-relational-databaseasespdf
^ ab Wimalasuriya, Daya C; Dou, Dejing 2010 «Онтологияға негізделген ақпарат алу: кіріспе және қазіргі тәсілдерді зерттеу», Информатика журналы, 363, 306 - 323, http: // ixcsuoregonedu / ~ dou / зерттеу / жұмыс / jis09pdf алынды: 18062012
Каннингэм, Хамиш 2005 «Ақпаратты алу, автоматика», Тіл және лингвистика энциклопедиясы, 2, 665 - 677, http: // gateacuk / sale / ell2 / яғни / mainpdf алынды: 18062012
^ Эрдман, М; Маэдче, Александр; Schnurr, H-P; Staab, Steffen 2000 «Оқулықтан жартылай автоматты семантикалық аннотацияға: онтологияға негізделген мәтінді аннотациялау құралдары туралы», COLING материалдары, http: // wwwidaliuse / ext / epa / cis / 2001/002 / paperpdf алынды: 18062012
^ Рао, Делип; Макнами, Пол; Dredze, Mark 2011 "Entity Linking: Finding Extracted Entities in a Knowledge Base", Multi-source, Multi-lingual Information Extraction and Summarization, http://wwwcsjhuedu/~delip/entity-linkingpdf retrieved: 18062012
^ Rocket Software, Inc 2012 "technology for extracting intelligence from text", http://wwwrocketsoftwarecom/products/aerotext retrieved: 18062012
^ Orchestr8 2012: "AlchemyAPI Overview", http://wwwalchemyapicom/api retrieved: 18062012
^ The University of Sheffield 2011 "ANNIE: a Nearly-New Information Extraction System", http://gateacuk/sale/tao/splitch6html#chap:annie retrieved: 18062012
^ ILP Network of Excellence "ASIUM LRI", http://www-aiijssi/~ilpnet2/systems/asiumhtml retrieved: 18062012
^ Attensity 2012 "Exhaustive Extraction", http://wwwattensitycom/products/technology/semantic-server/exhaustive-extraction/ retrieved: 18062012
^ Mendes, Pablo N; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian 2011 "DBpedia Spotlight: Shedding Light on the Web of Documents", Proceedings of the 7th International Conference on Semantic Systems, p 1 - 8, http://wwwwiwissfu-berlinde/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011pdf retrieved: 18062012
^ Cite error: The named reference entityclassifier was invoked but never defined see the help page
^ Balakrishna, Mithun; Moldovan, Dan 2013 "Automatic Building of Semantically Rich Domain Models from Unstructured Data", Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference FLAIRS, p 22 - 27, http://wwwaaaiorg/ocs/indexphp/FLAIRS/FLAIRS13/paper/view/5909/6036 retrieved: 11082014
^ 2 Moldovan, Dan; Blanco, Eduardo 2012 "Polaris: Lymba's Semantic Parser", Proceedings of the Eight International Conference on Language Resources and Evaluation LREC, p 66 - 72, http://wwwlrec-conforg/proceedings/lrec2012/pdf/176_Paperpdf retrieved: 11082014
^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas 2009 "iDocument: Using Ontologies for Extracting Information from Text", http://wwwdfkiuni-klde/~maus/dok/AdrianMausDengel09pdf retrieved: 18062012
^ SRA International, Inc 2012 "NetOwl Extractor", http://wwwsracom/netowl/entity-extraction/ retrieved: 18062012
^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja 2007 "OntoGen: Semi-automatic Ontology Editor", Proceedings of the 2007 conference on Human interface, Part 2, p 309 - 318, http://analyticsijssi/~blazf/papers/OntoGen2_HCII2007pdf retrieved: 18062012
^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola 2002 "Integrated Approach to Web Ontology Learning and Engineering", Computer, 3511, p 60 - 63, http://wwwusersdiuniroma1it/~velardi/IEEE_Cpdf retrieved: 18062012
^ McDowell, Luke K; Cafarella, Michael 2006 "Ontology-driven Information Extraction with OntoSyphon", Proceedings of the 5th international conference on The Semantic Web, p 428 - 444, http://turingcswashingtonedu/papers/iswc2006McDowell-finalpdf retrieved: 18062012
^ Yildiz, Burcu; Miksch, Silvia 2007 "ontoX - A Method for Ontology-Driven Information Extraction", Proceedings of the 2007 international conference on Computational science and its applications, 3, p 660 - 673, http://publiktuwienacat/files/pub-inf_4769pdf retrieved: 18062012
^ semanticweborg 2011 "PoolParty Extractor", http://semanticweborg/wiki/PoolParty_Extractor retrieved: 18062012
^ IMT Holdings, Corp 2013 "Rosoka", http://wwwrosokacom/content/capabilities retrieved: 08082013
^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A; Zien, Jason Y 2003 "SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation", Proceedings of the 12th international conference on World Wide Web, p 178 - 186, http://www2003org/cdrom/papers/refereed/p831/p831-dillhtml retrieved: 18062012
^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio 2006 "Semantic annotation for knowledge management: Requirements and a survey of the state of the art", Web Semantics: Science, Services and Agents on the World Wide Web, 41, p 14 - 28, http://staffwwwdcsshefacuk/people/JIria/iria_jws06pdf, retrieved: 18062012
^ Cimiano, Philipp; Völker, Johanna 2005 "Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery", Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems, 3513, p 227 - 238, http://wwwcimianode/Publications/2005/nldb05/nldb05pdf retrieved: 18062012
^ Maedche, Alexander; Volz, Raphael 2001 "The Ontology Extraction & Maintenance Framework Text-To-Onto", Proceedings of the IEEE International Conference on Data Mining, http://userscsccalpolyedu/~fkurfess/Events/DM-KM-01/Volzpdf retrieved: 18062012
^ Machine Linking "We connect to the Linked Open Data cloud", http://thewikimachinefbkeu/html/indexhtml retrieved: 18062012
^ Inxight Federal Systems 2008 "Inxight ThingFinder and ThingFinder Professional", http://inxightfedsyscom/products/sdks/tf/ retrieved: 18062012
^ Frawley William F et al 1992, "Knowledge Discovery in Databases: An Overview", AI Magazine Vol 13, No 3, 57-70 online full version: http://wwwaaaiorg/ojs/indexphp/aimagazine/article/viewArticle/1011
^ Fayyad U et al 1996, "From Data Mining to Knowledge Discovery in Databases", AI Magazine Vol 17, No 3, 37-54 online full version: http://wwwaaaiorg/ojs/indexphp/aimagazine/article/viewArticle/1230
^ Cao, L 2010 "Domain driven data mining: challenges and prospects" IEEE Trans on Kn owledge and Data Engineering 22 6: 755–769 doi:101109/tkde201032 
v
e
Semantic Web
Background
Databases
Hypertext
Internet
Ontologies
Semantic networks
World Wide Web
Sub-topics
Data Web
Dataspaces
Hyperdata
Linked data
Rule-based systems
Applications
Semantic analytics
Semantic broker
Semantic computing
Semantic mapper
Semantic matching
Semantic publishing
Semantic reasoner
Semantic search
Semantic service-oriented architecture
Semantic wiki
Related topics
Collective intelligence
Description logic
Folksonomy
Geotagging
Information architecture
Knowledge extraction
Knowledge management
Knowledge representation
Library 20
Metadata
Mind mapping
ODBC
References
Topic Maps
Web 20
Web engineering
Web Science Trust
Standards
Syntax and supporting technologies
HTTP
IRI
URI
RDF
triples
RDF/XML
JSON-LD
Turtle
Notation3
N-Tr iples
TriX no W3C standard
RRID
SPARQL
XML
Schemas, ontologies and rules
Common logic
OWL
RDFS
Rule Interchange Format
Semantic Web Rule Language
ALPS
Semantic annotation
eRDF
GRDDL
Microdata
Microformats
RDFa
SAWSDL
Facebook Platform
Common vocabularies
DOAP
Dublin Core
FOAF
hAtom
hCalendar
hCard
hProduct
hRecipe
hResume
hReview
SIOC
SKOS
v
e
Computable knowledge
Topics and
concepts
Alphabet of human thought
Authority control
Automated reasoning
Commonsense knowledge
Commonsense reasoning
Computability
Formal system
Inference engine
Knowledge base
Knowledge-based systems
Knowledge engineering
Knowledge extraction
Knowledge representation
Knowledge retrieval
Library classification
Logic programming
Ontology
Personal knowledge base
Question answering
Semantic reasoner
Proposals and
implementations
Zairja
Ar s Magna 1300
An Essay towards a Real Character and a Philosophical Language 1688
Calculus ratiocinator & Characteristica universalis 1700
Dewey Decimal Classification 1876
Begriffsschrift 1879
Mundaneum 1910
Logical atomism 1918
Tractatus Logico-Philosophicus 1921
Hilbert's program 1920s
Incompleteness theorem 1931
World Brain 1938
Memex 1945
General Problem Solver 1959
Prolog 1972
Cyc 1984
Semantic Web 2001
Evi 2007
Wolfram Alpha 2009
Watson 2011
Siri 2011
Knowledge Graph 2012
Wikidata 2012
Cortana 2014
Viv 2016
In fiction
The Engine Gulliver's Travels, 1726
Joe "A Logic Named Joe", 1946
The Librarian Snow Crash, 1992
Dr Know AI Artificial Intelligence, 2001
Waterhouse The Baroque Cycle, 2003
See also: Logic machines in fiction and List of fictional computers


Knowledge extraction

Random Posts

Picts

Picts

The Picts were a tribal confederation of peoples who lived in what is today eastern and northern Sco...
Visual prosthesis

Visual prosthesis

A visual prosthesis, often referred to as a bionic eye, is an experimental visual device intended to...
Mini rugby

Mini rugby

Mini rugby, also known as New Image Rugby, is a form of rugby union designed to introduce the sport ...
List of synthetic polymers

List of synthetic polymers

Synthetic polymers are human-made polymers From the utility point of view they can be classified int...