Wed . 20 Feb 2020

Bilgi edinme

Bilgi çıkarma, yapılandırılmış ilişkisel veritabanlarından, XML'den ve yapılandırılmamış metinlerden, belgelerden, görüntü kaynaklarından bilgi oluşturulmasıdır. Ortaya çıkan bilginin, makine tarafından okunabilir ve makine tarafından yorumlanabilen bir biçimde olması ve çıkarımı kolaylaştıracak şekilde bilgiyi temsil etmesi gerekir yöntemsel olarak bilgi ayıklama NLP ve ETL veri ambarına benzer şekilde, ana kriter, ayıklama sonucunun yapılandırılmış bilginin yaratılmasının veya ilişkisel bir şemaya dönüştürülmesinin ötesine geçmesidir. Mevcut tanımlayıcı bilgileri yeniden kullanma veya ontolojileri veya Kaynak verilere dayalı bir şema
RDB2RDF W3C grubu [1] şu anda ilişkisel veritabanlarından RDF'nin çıkarılması için bir dili standartlaştırmaktadır Bilgi çıkarmanın diğer bir popüler örneği Wikipedia'nın yapılandırılmış verilere dönüştürülmesi ve aynı zamanda mevcut bilgilerle eşleştirilmesidir. bkz. DBpedia ve Freebase
İçindekiler
1 Genel Bakış 2 Örnekler 21 Varlık bağlama
22 İlişkisel veritabanları RDF'ye

3 Yapılandırılmış kaynaklardan RDF'ye çıkarma
31 1: 1 RDB Tablolarından / Görünümlerinden RDF Varlıklarına / Niteliklerine / Değerlerine Eşleme
32 İlişkisel veritabanlarının RDF ile karmaşık eşleştirmeleri
33 XML
34 Yöntem / Araç Araştırması
4 Doğal dil kaynaklarından ayıklama
41 Geleneksel bilgi ayıklama IE
42 Ontoloji tabanlı bilgi ayıklama OBIE
43 Ontoloji öğrenimi OL
44 Anlamsal ek açıklama SA
45 Araçlar
5 Bilgi keşfi
51 Giriş verileri
52 Çıktı formatları
6 Ayrıca bakınız
7 Referanslar
Genel Bakış
RDF ve OWL gibi bilgi temsil dillerinin standartlaştırılmasından sonra, özellikle ilişkisel veritabanlarının RDF'ye dönüştürülmesi, kimlik çözümlemesi, bilgi keşfi ve ontoloji öğrenimi konularında alanda çok sayıda araştırma yapılmıştır. bilgi çıkarma ve çıkarma, dönüştürme ve yükleme kaynakları yapılandırılmış biçimlere dönüştürmek























konçeryonun bazı ilişkilerini sadece ilişkisel veritabanlarından çıkartmakla yükümlü kılan bu kriterlerdeki yaklaşımları kategorilere ayırmak için kullanılabilir: [2]
Kaynak
Hangi veri kaynaklarının kapsandığı: Metin, İlişkisel Veritabanları, XML, CSV
Fuar
Çıkartılan bilgi nasıl ontoloji dosyası, anlamsal veritabanı nasıl yapılır
Sorgulama
Senkronizasyon
Bilgi çıkarma işlemi bir dökümü üretmek için bir kez yürütülür mü veya sonuç kaynakla senkronize edildi Statik veya dinamik Sonuçta iki yönlü yazılan değişiklikler var mı? Kelime dağarcığının yeniden kullanılması
Araç, ekstraksiyondaki mevcut kelimeleri yeniden kullanabiliyor. Örneğin, 'firstName' tablo sütunu eşlenebilir to foaf: firstName Bazı otomatik yaklaşımlar kelime haznesini eşleme yeteneğine sahip değil
Otomasyon
Çıkarma işleminin desteklenme / otomatikleştirme derecesi Manuel, GUI, yarı otomatik, otomatik
Bir etki alanı ontolojisi gerektirir
A önceden var olan ontoloji gereklidir eşleştirmek için Yani bir haritalama oluşturulur veya kaynak ontoloji öğrenmesinden bir şema öğrenilir
Örnekler
Varlık bağlama
DBpedia Spotlight, OpenCalais, Karahindiba dataTXT, Zemanta API, Extractiv ve PoolParty Extractor analiz ücretsiz adlandırılmış varlık tanıma yoluyla metin ve daha sonra adayları ad çözümlemesi ile belirsizleştirir ve bulunan varlıkları DBpedia bilgi deposuna bağlar [3] Dandelion dataTXT demo veya DBpedia Spotlight web demosu veya PoolParty Extractor Demo
Başkan Obama Kongre politikanın daha cömert yardım sağladığını savunarak geçen yılki ekonomik teşvik paketine dahil olan öğrenciler için vergi indirimi
Başkan Obama bir DBpedia LinkedData kaynağına bağlı olduğundan, daha fazla bilgi otomatik olarak alınabilir ve bir Anlamsal Akıl Yürütücü söz konusu tüzel kişi FOAF yazılımı kullanan Kişi tipinde ve YAGO Counter örneklerini kullanan Birleşik Devletler Başkanları tipinde: yapılandırılmış verilerin ve biçimsel bilginin daha fazla geri alınmasını sağlamayan varlıkları veya Wikipedia makalelerine ve diğer hedeflere bağlantı

RDF ile ilişkisel veritabanları
Triplify, D2R Server, Ultrawrap ve Virtuoso RDF Görünümleri ilişkisel veritabanlarını dönüştüren araçlardır RDF Bu işlem sırasında, dönüştürme işlemi sırasında varolan sözcüklerin ve ontolojilerin yeniden kullanılmasına izin verir Kullanıcılar adında tipik bir ilişkisel tablo dönüştürülürken, bir sütun egname veya egfirst_name ve last_name gibi sütunların bir araya getirilmesi, oluşturulan varlığın URI'sini sağlamak zorundadır Normalde birincil anahtar kullanılır Diğer tüm sütunlar bu varlık ile bir ilişki olarak çıkarılabilir [4] Sonra resmi olarak tanımlanmış anlambilime sahip özellikler kullanılır ve bilgileri yorumlamak için yeniden kullanılır. Örneğin, marriedTo adlı bir kullanıcı tablosundaki bir sütun simetrik ilişki ve bir sütun ana sayfası olarak tanımlanabilir foaf: anasayfa olarak adlandırılan FOAF Kelime haznesinden bir mülke dönüştürülebilir, böylece ters bir fu olarak nitelendirilebilir nctional özellik Daha sonra kullanıcı tablosunun her girdisi sınıf foafının bir örneği haline getirilebilir: Kişi Ontolojisi Nüfusu Ayrıca status_id'den bir ontoloji biçiminde alan bilgisi, status_id 2 ise manuel olarak oluşturulan kurallarla oluşturulabilir. Sınıf öğretmeni ya da yarı otomatik yöntemlerle ontoloji öğrenme İşte örnek bir dönüşüm:
Adı
marriedTo
anasayfa
status_id
Peter
Mary
http: // exampleorg / Peters_page
1
Claus
Eva
http: // exampleorg / Claus_page 2
: Peter: marriedTo: Mary
: evliBir baykuş: SimetrikÖzellik
: Peter foaf: ana sayfa & lt; http: // exampleorg / Peters_page & gt;
: Peter a foaf: Kişi
: Peter a: Öğrenci
: Claus a: Öğretmen
Yapısal kaynaklardan RDF'ye çıkarma
1: 1 RDB Tablolarından / Görüntülemelerden RDF Birimlerine Haritalama / Öznitelikler / Değerler
Bir sorun etki alanının RDB temsilini oluştururken, başlangıç noktası genellikle bir varlık-ilişki diyagramıdır ERD Genellikle, her varlık bir veritabanı tablosu olarak temsil edilir, varlığın her bir özniteliği bu tabloda bir sütun haline gelir, ve varlıklar arasındaki ilişkiler yabancı anahtarlarla gösterilir Her tablo tipik olarak belirli bir varlık sınıfını tanımlar, her sütun kendi özniteliklerinden biridir Tablodaki her satır, birincil anahtarla benzersiz olarak tanımlanan bir varlık örneğini tanımlar Tablo satırları toplu olarak bir varlık kümesini tanımlar. aynı varlık kümesinin eşdeğer bir RDF temsili:
Tablodaki her sütun bir öznitelik yani, yüklem
Her sütun değeri bir öznitelik değeridir, yani nesne
Her satır anahtarı bir varlık kimliğini temsil eder, yani konu
Her satır bir varlık insti temsil eder ance
Her satır varlık örneği, ortak bir konu varlık kimliğine sahip üçlü koleksiyonuyla RDF'de temsil edilir
Bu nedenle, RDF semantiğine dayalı eşdeğer bir görünüm oluşturmak için temel eşleme algoritması aşağıdaki gibi olacaktır:
her tablo için bir RDFS sınıfı oluşturun
tüm birincil anahtarları ve yabancı anahtarları IRI'lara dönüştürün
her sütuna bir yüklem IRI atayın
her satır için bir rdf: tür yüklemi atayın, karşılık gelen bir RDFS sınıfı IRI'ya bağlayın birincil veya yabancı anahtarın bir parçası olmayan her sütun için, konu olarak birincil anahtar IRI'sını, yüklem olarak IRI sütununu ve nesne olarak sütunun değerini içeren bir üçlü oluşturun. Bu temel veya doğrudan eşleme, Tim Berners-Lee'nin ER modelinin RDF modeliyle karşılaştırılmasında bulunabilir [4]
İlişkisel veritabanlarının RDF ile karmaşık eşleştirmeleri
Yukarıda belirtilen 1: 1 eşleme eski verileri ortaya koyar RDF olarak basit bir şekilde, kullanımı iyileştirmek için ek iyileştirmeler kullanılabilir RDF çıkışının verilen Kullanım Durumlarına uygunluğu Normalde, bir varlık-ilişki diyagramı ERD'nin ilişkisel tablolara dönüştürülmesi sırasında bilgi kaybedilir Ayrıntılar, nesne-ilişkisel empedans uyumsuzluğunda bulunabilir ve tersine mühendislik uygulanmalıdır. çıkarma iki yönden gelebilir İlk yön verilen veritabanı şemasından bir OWL şeması ayıklamak veya öğrenmek için çalışıyor Erken yaklaşımlar 1: 1 haritalama rafine için sabit miktarda elle oluşturulan haritalama kuralları [5] [6] [7] ayrıntılı yöntemler şematik bilgi yöntemlerinin ontoloji öğrenimi ile örtüşmesini sağlamak için sezgisel tarama veya öğrenme algoritmaları kullanmaktır. Bazı yaklaşımlar, örneğin, yabancı anahtarları analiz eden SQL şemasında bulunan yapıdan [8] bilgiyi çıkarmaya çalışırken, diğerleri içeriği ve değerleri analiz eder kavramsal hiyerarşiler oluşturmak için tablolar [9] örneğin az değerli sütunlar kategori olmaya adaydır. İkinci yön m şema ve içeriği önceden varolan bir etki alanı ontolojisine de bakınız: ontoloji hizalaması Genellikle, uygun bir etki alanı ontolojisi yoktur ve önce oluşturulması gerekir
XML
XML bir ağaç olarak yapılandırıldığından, herhangi bir veri kolayca grafik olarak yapılandırılan RDF'de temsil edilebilir XML2RDF, RDF boş düğümlerini kullanan ve XML öğelerini ve özniteliklerini RDF özelliklerine dönüştüren bir yaklaşımın bir örneğidir. Ancak, konu ilişkisel veritabanlarında olduğu gibi daha karmaşıktır. ilişkisel tablo birincil anahtar çıkarılan üçlülerin öznesi olmak için ideal bir adaydır. Bununla birlikte, bir XML öğesi bir konu olarak dönüştürülebilir - bir özne olarak, üçlü bir XSLT yüklemi veya nesnesi standart olarak kullanılabilir XML'i RDF'ye manuel olarak dönüştürmek için dönüştürme dili
Yöntemler / Araçlar Araştırması
Adı
Veri Kaynağı
Veri Tanıtımı
Veri Senkronizasyonu
Haritalama Dili
Kelime Yeniden Kullanımı
Haritalama Otomatiği
Req Domain Ontology
GUI Kullanıyor
A İlişkisel Verilerin RDF'ye Doğrudan Eşlenmesi
İlişkisel Veriler
SPARQL / ETL
dinamik
Yok
false
otomatik
false
false
CSV2RDF4LOD
CSV
ETL
statik
RDF
true
manuel
false
false
Convert2RDF
Sınırlandırılmış metin dosyası
ETL
static
RDF / DAML
doğru
manuel
yanlış
doğru
D2R Sunucu
RDB
SPARQL
iki yönlü
D2R Harita
doğru
manual
false
false
DartGrid
RDB
kendi sorgu dili
dinamik
Visual Tool
true
manual
false
true
DataMaster
RDB
ETL
statik
tescilli
true
manuel
true
true
Google Refine'nin RDF Uzantısı
CSV, XML
ETL
statik
NONE
yarı otomatik
false
gerçek
Krextor
XML
ETL
statik
xslt
true
manuel
gerçek
yanlış
MAPONTO
RDB
ETL
statik
tescilli
gerçek
manuel
gerçek
false
metamorfozlarının
RDB
ETL
statik
tescilli xml tabanlı haritalama dili
true
manual
false
true
MappingMa ster
CSV
ETL
statik
MappingMaster
gerçek
GUI
sahte
gerçek
ODEMapster
RDB
ETL
statik
tescilli
true
manuel
true
OntoWiki CSV İthalatçı Plug-in - DataCube & amp; Tabular
CSV
ETL
statik
RDF Veri Küpü Vocaublary
true
yarı otomatik
false
true
Poolparty Extraktor PPX
XML, Metin
LinkedData
dinamik
RDF SKOS
true
yarı otomatik
true
false
RDBToOnto
RDB
ETL
statik
none
false
otomatik, kullanıcı ayrıca sonuçlarda ince ayar yapma şansına sahiptir
false
true
RDF 123
CSV
ETL
static

gerçek
RDOTE
RDB
ETL
statik
SQL
gerçek
manuel
true yANLıŞ
sahte
yanlış br> true
RelationalOWL
RDB
ETL
statik
sahte
otomatik
sahte
yANLıŞ
hiçbiri
T2LD
CSV
ETL
statik
false
false
otomatik
false
RDF Data Cube Kelime Bilgisi
E-tablolarda çok boyutlu istatistiksel veriler
Data Cube Vocabulary
true
manual
false
TopBraid Composer
CSV
ETL
statik
SKOS
false
yarı otomatik
false
true
Triplify
RDB
bağlı veri
dinamik
SQL
gerçek
manuel
fa lse
yanlış
Ultrawrap
RDB
SPARQL / ETL
dinamik
R2RML
true
yarı otomatik
false
true
Virtuoso RDF

RDB
SPARQL
dinamik
Meta Şema Dil
true
yarı otomatik
false
true
Virtuoso Sponger
yapılandırılmış ve yarı yapılandırılmış veri kaynakları
SPARQL
dinamik
Virtuoso PL & amp; Yanlış
VISAVIS
RDB
RDQL
dinamik
SQL
gerçek
manuel
XSLT
gerçek
yarı otomatik
yanlış true
true
XLWrap: RDF e-tablosu
CSV
ETL
statik
TriG Sözdizimi
true
manuel
false
false
XML to RDF
XML
ETL
statik
false
false
otomatik
false
false
Doğal dil kaynaklarından alıntılar
Bilginin en büyük bölümü iş belgelerinde bulunan% 80'i [10] doğal dilde kodlanmıştır ve bu nedenle yapılandırılmamıştır Yapılandırılmamış veriler bilgi elde etmek için oldukça zor olduğu için, genellikle yapılandırılmış verilere göre daha kötü sonuçlar verme eğiliminde olan daha karmaşık yöntemler gereklidir. Bununla birlikte, çıkarılan bilginin büyük ölçüde elde edilmesi, artan karmaşıklığı ve azaltılmış çıkarma kalitesini telafi etmelidir Aşağıda, doğal dil kaynakları, verilerin düz metin olarak yapılandırılmamış bir şekilde verildiği bilgi kaynakları olarak anlaşılmaktadır. Verilen metin ek olarak bir biçimlendirme belgesine gömülür, örneğin HTML belgesi, söz konusu sistemler normalde biçimlendirme öğelerini otomatik olarak kaldırır
Geleneksel bilgi çıkarma IE
Geleneksel bilgi çıkarma [11], bilgileri ayıklayan doğal dil işleme teknolojisidir. tipik olarak doğal dil metinlerinden ve bunları uygun bir şekilde yapılandırmak Tanımlanacak bilgi türleri işleme başlamadan önce bir modelde belirtilmelidir, bu nedenle geleneksel Bilgi Çıkarma işleminin tamamı etki alanına bağlıdır IE aşağıdaki şekilde bölünür beş alt görev
Adlandırılmış varlık tanıma NER
Çekirdeklik çözünürlüğü CO
Şablon öğesi inşaatı TE
Şablon ilişkisi inşaatı TR
Şablon senaryo üretimi ST
Adlandırılmış varlık tanıma görevi tanımak ve adlandırılmış bir varlığın metin atamasında yer alan tüm adlandırılmış varlıkları önceden tanımlanmış bir kategoriye göre kategorize etme Bu, dilbilgisi b ased yöntemler veya istatistiksel modeller
Çekirdeklik çözümlemesi, bir metin içinde NER tarafından tanınan eşdeğer varlıkları tanımlar. İki tür eşdeğerlik ilişkisi vardır: İlki, iki farklı temsil edilen varlık, örneğin IBM Avrupa ile IBM ve ikincisi, bir varlık ve onun ve IBM gibi anaprik referansları arasındaki ilişkiye Her iki tür de çekirdeklik çözünürlüğü ile tanınabilir
Şablon öğesi oluşturma sırasında IE sistemi, NER ve CO tarafından tanınan varlıkların açıklayıcı özelliklerini tanımlar. kırmızı veya büyük gibi nitelikler
Şablon ilişkisi yapısı, şablon öğeleri arasında var olan ilişkileri tanımlar Bu ilişkiler, hem etki alanının hem de aralığın varlıklara karşılık geldiği kısıtlama ile birlikte veya konumlandırılmış işler gibi çeşitli türlerde olabilir
Şablon senaryosunda metinde açıklanan üretim olayları tanımlanacak ve str NER ve CO tarafından tanınan ve TR tarafından tanımlanmış varlıklar ile ilgili olarak tanımlanmış

Ontoloji temelli bilgi çıkarma OBIE
Ontoloji temelli bilgi çıkarma [10] en az bir bilgi çıkarma alt alanıdır. ontoloji, doğal dil metninden bilgi çıkarma sürecine rehberlik etmek için kullanılır OBIE sistemi, işlemden sonra bir ontolojiye yapılandırılacak olan metindeki kullanılan ontolojilerin kavramlarını, örneklerini ve ilişkilerini tanımlamak için geleneksel bilgi çıkarma yöntemlerini kullanır. girdi ontolojileri çıkarılacak bilgi modelini oluşturur
Ontoloji öğrenimi OL
Ana makale: Ontoloji öğrenimi
Ontoloji öğrenimi, karşılık gelen alanın terimlerini doğal dilden çıkarmak da dahil olmak üzere ontolojilerin otomatik veya yarı otomatik oluşturulmasıdır. metin Elle ontolojiler oluşturmak son derece emek yoğun ve zaman alıcı olduğundan, süreci otomatikleştirmek için büyük motivasyon vardır
Semantik açıklamalar Semantik ek açıklama sırasında, [12] doğal dil metni RDFa'da sıklıkla temsil edilen ve içerilen terimlerin anlambilimini makine tarafından anlaşılabilir hale getirecek meta verilerle zenginleştirilir. Genellikle yarı otomatik olan bu işlemde bilgi çıkarılır. sözcük terimleri ve örneğin ontolojilerden gelen kavramlar arasında bir bağın kurulduğu hissi Böylece, işlenmiş bağlamdaki bir terimin anlamının amaçlandığı ve bu nedenle metnin anlamı, makine tarafından okunabilir verilerde çıkarımlar çizme yeteneği Anlamsal bilgi notu genellikle aşağıdaki iki alt göreve ayrılır
Terminoloji çıkarımı
Varlık bağlantısı
Terminoloji çıkarımı seviyesinde, metinden sözcük terimleri çıkarılır Bu amaçla bir belirteç ilk önce kelimeyi belirler kısaltmalar ve kısaltmalar Daha sonra bir konsepte karşılık gelen metinden terimler, bunları en sonda bağlamak için alana özel bir sözlük yardımıyla çıkarılır. tity linking
Kaynak metindeki çıkarılan sözcük terimleri ile DBpedia gibi bir ontoloji veya bilgi tabanından kavramlar arasında bir bağlantı kurarken [13] Bu amaçla, aday kavramlar, bir sözlük yardımıyla bir terim Son olarak, terimlerin bağlamı en uygun belirsizliği belirlemek ve terimi doğru kavrama atamak için analiz edilir
Araçlar
Aşağıdaki kriterler araçları kategorize etmek için kullanılabilir; doğal dil metninden bilgi ayıklayın
Kaynak
Hangi giriş biçimleri araç tarafından işlenebilir örneğin düz metin, HTML veya PDF
Access Paradigm
Araç veri kaynağını sorgulayabilir veya ayıklama işlemi
Veri Senkronizasyonu
Çıkarma işleminin kaynakla senkronize edilmesidir
Çıktı Ontolojisini Kullanır
Araç sonucu bir ontoloji ile bağlar mı
Haritalama Otomasyonu
Nasıl otomatik çıkarma işlemi manu al, yarı otomatik veya otomatik
Ontoloji Gerektirir
Aletin ekstraksiyon için bir ontolojiye ihtiyacı var mı?
GUI Kullanıyor
Alet grafiksel bir kullanıcı arayüzü sunuyor mu? Yaklaşım
Hangi yaklaşım IE , OBIE, OL veya SA aracı tarafından kullanılır
Ayıklanan Varlıklar
Adlandırılmış varlıklar, kavramlar veya ilişkiler gibi hangi tür varlıklar araç tarafından çıkarılabilir
Uygulamalı Teknikler
Hangi teknikler uygulanır örneğin NLP , istatistiksel yöntemler, kümeleme veya makine öğrenimi
Çıktı Modeli
Aracın sonucunu temsil etmek için hangi model kullanılır? Örneğin RDF veya OWL
Desteklenen Alanlar
Hangi alanlar örneğin ekonomi veya biyoloji desteklenir
Desteklenen Diller
Hangi diller işlenebilir (örn. İngilizce veya Almanca) Aşağıdaki tablo, doğal dil kaynaklarından Bilgi Çıkarma için bazı araçları karakterize eder
Ad
Kaynak
Access Paradigm
Veri Senkronizasyonu
Çıktı Ontolojisini Kullanır
Haritalama Otomasyonu
Ontoloji Gerektirir
GUI Kullanır
Yaklaşım
Ayıklanan Varlıklar
Uygulama lied Teknikleri
Çıktı Modeli
Desteklenen Alanlar
Desteklenen Diller
AeroText [14]
düz metin, HTML, XML, SGML
dökümü
hayır
evet
otomatik
evet
evet
IE
varlıklar, ilişkiler, olaylar
dilbilimsel kurallar
tescilli
domain bağımsız - İngilizce, İspanyolca, Arapça, Çince, endonezyaca
AlchemyAPI [15]
düz metin, HTML
otomatik
evet
SA
çok dilli
ANNIE [16]
düz metin
dökümü
evet
evet
IE
sonlu durum algoritmaları
çok dilli
ASIUM [17]
düz metin
yarı otomatik
yes
OL
kavramlar, kavram hiyerarşisi
NLP, kümeleme
Yoğunluk Kapsamlı Çıkarma [18]
otomatik
IE
adlandırılmış varlıklar, ilişkiler, olaylar
NLP
Dandelion API
düz metin , HTML, URL
REST
hayır
hayır
otomatik
hayır
evet
SA
adlandırılmış varlıklar, kavramlar
istatistiksel yöntemler
JSON
alandan bağımsız
çok dilli
DBpedia Spotlight [19]
düz metin, HTML
dökümü, SPARQL
evet
evet
a utomatic
no
yes
SA
her kelimeye bilgi notu, non-durwords ek açıklama
NLP, istatistiksel yöntemler, makine öğrenimi
RDFa
domainden bağımsız
English
EntityClassifiereu [20]
düz metin, HTML
dökümü
evet
evet
otomatik
hayır
evet
IE, OL, SA
ek açıklama her kelimeye, durmayan kelimelere ek açıklama
kural tabanlı dilbilgisi
XML
domainden bağımsız
İngilizce, Almanca, Felemenkçe
K-Extractor [21] [22]
metin, HTML, XML, PDF, MS Office, e-posta
dökümü, SPARQL
evet
evet
otomatik
hayır
evet
IE, OL, SA
kavramlar, adlandırılmış varlıklar, örnekler, kavram hiyerarşisi, genel ilişkiler, kullanıcı tanımlı ilişkiler, olaylar, yöntem, zaman, varlık bağlama, olay bağlama, NLP
, makine öğrenimi, sezgisel kurallar
RDF, OWL, tescilli XML | domainden bağımsız
İngilizce, İspanyolca
iDocument [23]
HTML, PDF, DOC
SPARQL
yes
yes
OBIE
örnek, özellik değerleri
NLP
kişisel, business
NetOwl Extractor [24]
p metin, HTML, XML, SGML, PDF, MS Office
dökümü
Hayır
Evet
Otomatik
evet
Evet
IE
adlandırılmış varlıklar, ilişkiler, olaylar
NLP
XML, JSON, RDF-OWL, diğerleri
birden çok alan adı
İngilizce, Arapça Çince Basitleştirilmiş ve Geleneksel, Fransızca, Korece, Farsça Farsça ve Dari, Rusça, İspanyolca
OntoGen [25 ]
yarı otomatik
evet
OL
kavramlar, kavram hiyerarşisi, taksonomik olmayan ilişkiler, örnekler
NLP, makine öğrenimi, kümeleme
OntoLearn [26]
düz metin , HTML
dökümü
hayır
evet
otomatik
evet
hayır
OL
kavramlar, kavram hiyerarşisi, örnekler
NLP, istatistiksel yöntemler
tescilli
alandan bağımsız


OntoLearn Reloaded
düz metin, HTML
dump
hayır
evet
otomatik
evet
hayır
OL
kavramlar, kavram hiyerarşisi, örnekler
NLP, istatistiksel yöntemler
tescilli
domain bağımsız
İngilizce
OntoSyphon [27]
HTML, PDF, DOC
dump, arama motoru sorguları
hayır
evet
otomatik
evet
hayır
OBIE
co kavramlar, ilişkiler, örnekler
NLP, istatistiksel yöntemler
RDF
domain-bağımsız
İngilizce
ontoX [28]
düz metin
dump
hayır
evet
yarı otomatik
evet
hayır
OBIE
örnekler, veri türü özellik değerleri
sezgisel tabanlı yöntemler
tescilli
alandan bağımsız
dilden bağımsız
OpenCalais
düz metin, HTML, XML
dökümü
hayır
evet
otomatik
evet
hayır
SA
varlıklara ek açıklama, olaylara ek açıklama , gerçeklere ek açıklama
NLP, makine öğrenimi
RDF
domainden bağımsız
İngilizce, Fransızca, İspanyolca
PoolParty Extractor [29]
düz metin, HTML, DOC, ODT
dökümü
hayır
evet
otomatik
evet
evet
OBIE
adlandırılmış varlıklar, kavramlar, ilişkiler, metni kategorilere ayıran kavramlar, zenginleştirmeler
NLP, makine öğrenimi , istatistiksel yöntemler
RDF, OWL
domain bağımsız
İngilizce, Almanca, İspanyolca, Fransızca
Rosoka [30]
düz metin, HTML, XML, SGML, PDF, MS Office
dökümü
Evet
Evet
Otomatik
hayır
Evet
IE
isminde ent ities, ilişkiler, öznitelikler, kavramlar
NLP
XML, JSON, RDF, diğerleri
birden çok alan adı
Multilingual 230
SCOOBIE
düz metin, HTML
dökümü
no
evet
otomatik
hayır
hayır
OBIE
örnekler, özellik değerleri, RDFS türleri
NLP, makine öğrenimi
RDF, RDFa
etki alanından bağımsız
İngilizce, Almanca
SemTag [31] [32]
HTML
dökümü
hayır
evet
otomatik
evet
hayır
SA
makine öğrenimi
veritabanı kaydı
alandan bağımsız
dilden bağımsız
smart FIX
düz metin, HTML, PDF, DOC, e-Posta
dökümü
evet
hayır
otomatik
hayır
evet
OBIE
adlandırılmış varlıklar
NLP, makine öğrenimi
tescilli
domain bağımsız İngilizce, Almanca, Fransızca, Flemenkçe, lehçe
Text2Onto [33]
düz metin, HTML, PDF
dökümü
evet
hayır
yarı otomatik
evet
evet
OL
kavramlar, kavram hiyerarşisi, taksonomik olmayan ilişkiler, örnekler, aksiyomlar
NLP, istatistiksel yöntemler, makine öğrenimi, kural tabanlı yöntemler
OWL
deomain-bağımsız
İngilizce, Almanca, İspanyolca
Metin-To-Onto [34]
düz metin, HTML, PDF, PostScript
yarı otomatik
yarı otomatik
evet
evet
OL
kavramlar, kavram hiyerarşisi, taksonomik olmayan ilişkiler, kavramlara atıf yapan sözcüksel varlıklar, ilişkilere atıf yapan sözcüksel varlıklar
NLP, makine öğrenimi, kümeleme, istatistiksel yöntemler
Almanca
ThatNeedle
Düz Metin
döküm
otomatik
no
kavramlar, ilişkiler, hiyerarşi
NLP, tescilli
JSON
birden fazla alan adı
İngilizce
Wiki Makinesi [35]
HTML, PDF, DOC
dökümü
hayır
evet
otomatik
evet
evet
SA
doğru isimlere açıklama, ortak isimlere not ekleme
makine öğrenimi
RDFa
domain bağımsız - İngilizce, Almanca, İspanyolca, Fransızca, Portekizce, İtalyanca, Rusça
ThingFinder [36]
IE
adlandırılmış varlıklar, ilişkiler, olaylar

Bilgi keşfi
Bilgi keşfi, bilgili sayılabilecek kalıplar için büyük hacimli verileri otomatik olarak arama işlemini açıklar e veriler hakkında [37] Genellikle giriş verilerinden bilgi türetilmesi olarak tanımlanır Veri madenciliği alanından geliştirilen bilgi keşfi ve hem metodoloji hem de terminoloji açısından bununla yakından ilişkilidir [38]
En iyi veri madenciliğinin bilinen bir dalı da bilgi keşiftir, aynı zamanda veritabanlarında bilgi keşfi olarak da bilinir KDD Diğer birçok bilgi keşfi biçimi gibi, girdi verilerinin soyutlamalarını oluşturur Süreç yoluyla elde edilen bilgiler, daha fazla kullanım için kullanılabilecek ek veriler haline gelebilir Bilgi keşfinden elde edilen sonuçlar genellikle alan adı güdümlü veri madenciliği olarak da bilinen eyleme dönüştürülebilir, eyleme dönüştürülebilir bilgi keşfi değildir, [39] eyleme dönüştürülebilir bilgi ve öngörüler keşfetmeyi ve sunmayı amaçlamaktadır
Bilgi keşfinin bir diğer umut verici uygulaması, yazılım modernizasyonu, zayıflık keşfi ve mevcut yazılım eserlerini anlamayı içeren uyumluluk Bu süreç, ters motor konseptiyle ilgilidir Genellikle mevcut yazılımdan elde edilen bilgiler, gerektiğinde belirli sorguların yapılabileceği modeller biçiminde sunulur. Bir varlık ilişkisi, mevcut yazılımdan elde edilen bilgileri temsil eden sık bir formattır Nesne Yönetim Grubu OMG tarafından geliştirilen şartname Bilgi Keşfi Metamodel KDM tanımlayan mevcut kodların bilgi keşfini gerçekleştirmek amacıyla yazılım varlıkları ve ilişkileri için bir ontoloji Yazılım madenciliği olarak da bilinen mevcut yazılım sistemlerinden bilgi keşfi, veri madenciliği ile yakından ilişkilidir, çünkü mevcut yazılım eserleri risk yönetimi ve iş için çok büyük bir değer içerir değer, yazılım sistemlerinin değerlendirilmesi ve evrimi için anahtar Bireysel veri setlerini madencilik yapmak yerine, yazılım madenciliği, veri akışları, kontrol akışları ve benzeri süreç akışları gibi meta verilere odaklanır. çağrı haritaları, mimari, veritabanı şemaları ve iş kuralları / terimleri / süreçleri
Giriş verileri
Veritabanları
İlişkisel veriler
Veritabanı
Belge deposu
Veri ambarı
Yazılım
Kaynak kodu
Yapılandırma dosyaları
Komut dosyaları oluşturma
Metin
Kavram madenciliği
Grafikler
Molekül madenciliği
Diziler
Veri akışı madenciliği
Zamanla değişen veri akışlarından öğrenme under concept drift
Web
Çıktı formatları
Veri modeli
Meta veri
Metamodel
Ontoloji
Bilgi gösterimi
Bilgi etiketleri
İş kuralı
Bilgi Keşif Metamodel KDM
İş Süreçleri Modelleme Notasyonu BPMN
Ara temsil
Kaynak Açıklama Çerçeve RDF
Yazılım metrikleri
Ayrıca bkz. Küme analizi
Veri arkeolojisi
Referanslar
^ RDB2RDF Çalışma Grubu, Web sitesi: http: // wwww3org / 2001 / sw / rdb2rdf /, charter: http: // wwww3org / 2009/08 / rdb2rdf-charter, R2RML: RDB - RDF Eşleme Dili: http: // wwww3org / TR / r2rml /
^ LOD2 EU Çıktılabilir 311 Bilgi Özeti Yapılandırılmış Kaynaklardan http: // staticlod2eu / Çıktılar / teslim edilebilir-311pdf
^ "Bağlantılı Veri Bulutundaki Yaşam" wwwopencalaiscom Erişim tarihi 2009-11-10 Wikipedia, DBpedia DBpedia adında bir Bağlantılı Veri ikizine sahiptir. - ancak makine tarafından okunabilir bir formata çevrildi
^ ab Tim Berners-Lee 1998, "Anlamsal Ağdaki İlişkisel Veritabanları" Geri alındı: 20 Şubat 2011
^ Hu ve ark 2007, "İlişkisel Veritabanı Arasında Basit Eşlemeleri Keşfetme Şemalar ve Ontolojiler ", 6. Uluslararası Anlamsal Web Konferansı ISWC 2007, 2. Asya Anlamsal Web Konferansı ASWC 2007, LNCS 4825, sayfa 225‐238, Busan, Kore, 11‐15 Kasım 2007 http: // citeseerxistpsuedu / viewdoc / downloaddoi = 1011976934 & rep = rep1 & amp; type = pdf
^ R Ghawi ve N Cullot 2007, "Anlamsal Birlikte Çalışabilirlik için Veritabanından Ontoloji Haritalama Oluşturma" Üçüncü Uluslararası Veritabanı Birlikte Çalışabilirlik Çalıştayı InterDB 2007 http: // le2icnrsfr / IMG / yayınlar / InterDB07-Ghawi pdf
^ Li ve ark. 2005 "Anlambilim Ağı için Yarı Otomatik Ontoloji Edinme Yöntemi", WAIM, cilt 3739, Bilgisayar Biliminde Ders Notları, sayfa 209-220 Springer doi: 101007 / 11563952_19
^ Tirmizi et al 2008, "SQL Uygulamalarını Anlamsal Web'e Çevirme", Bilgisayar Bilimi Ders Notları, Cilt 5181/2008 Veritabanı ve Uzman Sistem Uygulamaları http: // citeseeristpsuedu / viewdoc / download; jsessionid = 15E8AB2A37BD06DAE59255A1AC3095F0doi = 10111403169 & amp = rep11 pdf
^ Farid Cerbah 2008 "İlişkisel Veritabanlarından Yüksek Yapılandırılmış Anlamsal Depoları Öğrenmek", Anlamsal Ağ: Araştırma ve Uygulamalar, Bilgisayar Bilimi Ders Notları, Springer, Berlin / Heidelberg http: // wwwtao-projecteu / resources / yayınlar / cerbah-learning-son derece yapılandırılmış-anlamsal-depolar-ilişkisel-veri tabanlarıpdf
^ ab Wimalasuriya, Daya C; Dou, Dejing 2010 "Ontoloji temelli bilgi çıkarma: Giriş ve güncel yaklaşımların incelenmesi", Journal of Information Science, 363, s 306 - 323, http: // ixcsuoregonedu / ~ dou / araştırma / makaleler / jis09pdf geri alındı: 18062012
^ Cunningham, Hamish 2005 "Bilgi Çıkarma, Otomatik", Dil ve Dilbilim Ansiklopedisi, 2, s 665-677, http: // gateacuk / sale / ell2 / ie / mainpdf alındı: 18062012
^ Erdmann, M; Maedche, Alexander; Schnurr, H-P; Staab, Steffen 2000 "El Kitabından Yarı Otomatik Semantik Ek Açıklamalara: Ontoloji Tabanlı Metin Ek Açıklama Araçları Hakkında", COLING Bildirileri, http: // wwwidaliuse / ext / epa / cis / 2001/002 / paperpdf alındı: 18062012
Rao, Delip; McNamee, Paul; Dredze, Mark 2011 "Entity Linking: Finding Extracted Entities in a Knowledge Base", Multi-source, Multi-lingual Information Extraction and Summarization, http://wwwcsjhuedu/~delip/entity-linkingpdf retrieved: 18062012
^ Rocket Software, Inc 2012 "technology for extracting intelligence from text", http://wwwrocketsoftwarecom/products/aerotext retrieved: 18062012
^ Orchestr8 2012: "AlchemyAPI Overview", http://wwwalchemyapicom/api retrieved: 18062012
^ The University of Sheffield 2011 "ANNIE: a Nearly-New Information Extraction System", http://gateacuk/sale/tao/splitch6html#chap:annie retrieved: 18062012
^ ILP Network of Excellence "ASIUM LRI", http://www-aiijssi/~ilpnet2/systems/asiumhtml retrieved: 18062012
^ Attensity 2012 "Exhaustive Extraction", http://wwwattensitycom/products/technology/semantic-server/exhaustive-extraction/ retrieved: 18062012
^ Mendes, Pablo N; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian 2011 "DBpedia Spotlight: Shedding Light on the Web of Documents", Proceedings of the 7th International Conference on Semantic Systems, p 1 - 8, http://wwwwiwissfu-berlinde/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011pdf retrieved: 18062012
^ Cite error: The named reference entityclassifier was invoked but never defined see the help page
^ Balakrishna, Mithun; Moldovan, Dan 2013 "Automatic Building of Semantically Rich Domain Models from Unstructured Data", Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference FLAIRS, p 22 - 27, http://wwwaaaiorg/ocs/indexphp/FLAIRS/FLAIRS13/paper/view/5909/6036 retrieved: 11082014
^ 2 Moldovan, Dan; Blanco, Eduardo 2012 "Polaris: Lymba's Semantic Parser", Proceedings of the Eight International Conference on Language Resources and Evaluation LREC, p 66 - 72, http://wwwlrec-conforg/proceedings/lrec2012/pdf/176_Paperpdf retrieved: 11082014
^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas 2009 "iDocument: Using Ontologies for Extracting Information from Text", http://wwwdfkiuni-klde/~maus/dok/AdrianMausDengel09pdf retrieved: 18062012
^ SRA International, Inc 2012 "NetOwl Extractor", http://wwwsracom/netowl/entity-extraction/ retrieved: 18062012
^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja 2007 "OntoGen: Semi-automatic Ontology Editor", Proceedings of the 2007 conference on Human interface, Part 2, p 309 - 318, http://analyticsijssi/~blazf/papers/OntoGen2_HCII2007pdf retrieved: 18062012
^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola 2002 "Integrated Approach to Web Ontology Learning and Engineering", Computer, 3511, p 60 - 63, http://wwwusersdiuniroma1it/~velardi/IEEE_Cpdf retrieved: 18062012
^ McDowell, Luke K; Cafarella, Michael 2006 "Ontology-driven Information Extraction with OntoSyphon", Proceedings of the 5th international conference on The Semantic Web, p 428 - 444, http://turingcswashingtonedu/papers/iswc2006McDowell-finalpdf retrieved: 18062012
^ Yildiz, Burcu; Miksch, Silvia 2007 "ontoX - A Method for Ontology-Driven Information Extraction", Proceedings of the 2007 international conference on Computational science and its applications, 3, p 660 - 673, http://publiktuwienacat/files/pub-inf_4769pdf retrieved: 18062012
^ semanticweborg 2011 "PoolParty Extractor", http://semanticweborg/wiki/PoolParty_Extractor retrieved: 18062012
^ IMT Holdings, Corp 2013 "Rosoka", http://wwwrosokacom/content/capabilities retrieved: 08082013
^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A; Zien, Jason Y 2003 "SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation", Proceedings of the 12th international conference on World Wide Web, p 178 - 186, http://www2003org/cdrom/papers/refereed/p831/p831-dillhtml retrieved: 18062012
^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio 2006 "Semantic annotation for knowledge management: Requirements and a survey of the state of the art", Web Semantics: Science, Services and Agents on the World Wide Web, 41, p 14 - 28, http://staffwwwdcsshefacuk/people/JIria/iria_jws06pdf, retrieved: 18062012
^ Cimiano, Philipp; Völker, Johanna 2005 "Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery", Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems, 3513, p 227 - 238, http://wwwcimianode/Publications/2005/nldb05/nldb05pdf retrieved: 18062012
^ Maedche, Alexander; Volz, Raphael 2001 "The Ontology Extraction & Maintenance Framework Text-To-Onto", Proceedings of the IEEE International Conference on Data Mining, http://userscsccalpolyedu/~fkurfess/Events/DM-KM-01/Volzpdf retrieved: 18062012
^ Machine Linking "We connect to the Linked Open Data cloud", http://thewikimachinefbkeu/html/indexhtml retrieved: 18062012
^ Inxight Federal Systems 2008 "Inxight ThingFinder and ThingFinder Professional", http://inxightfedsyscom/products/sdks/tf/ retrieved: 18062012
^ Frawley William F et al 1992, "Knowledge Discovery in Databases: An Overview", AI Magazine Vol 13, No 3, 57-70 online full version: http://wwwaaaiorg/ojs/indexphp/aimagazine/article/viewArticle/1011
^ Fayyad U et al 1996, "From Data Mining to Knowledge Discovery in Databases", AI Magazine Vol 17, No 3, 37-54 online full version: http://wwwaaaiorg/ojs/indexphp/aimagazine/article/viewArticle/1230
^ Cao, L 2010 "Domain driven data mining: challenges and prospects" IEEE Trans on Kn owledge and Data Engineering 22 6: 755–769 doi:101109/tkde201032 
v
e
Semantic Web
Background
Databases
Hypertext
Internet
Ontologies
Semantic networks
World Wide Web
Sub-topics
Data Web
Dataspaces
Hyperdata
Linked data
Rule-based systems
Applications
Semantic analytics
Semantic broker
Semantic computing
Semantic mapper
Semantic matching
Semantic publishing
Semantic reasoner
Semantic search
Semantic service-oriented architecture
Semantic wiki
Related topics
Collective intelligence
Description logic
Folksonomy
Geotagging
Information architecture
Knowledge extraction
Knowledge management
Knowledge representation
Library 20
Metadata
Mind mapping
ODBC
References
Topic Maps
Web 20
Web engineering
Web Science Trust
Standards
Syntax and supporting technologies
HTTP
IRI
URI
RDF
triples
RDF/XML
JSON-LD
Turtle
Notation3
N-Tr iples
TriX no W3C standard
RRID
SPARQL
XML
Schemas, ontologies and rules
Common logic
OWL
RDFS
Rule Interchange Format
Semantic Web Rule Language
ALPS
Semantic annotation
eRDF
GRDDL
Microdata
Microformats
RDFa
SAWSDL
Facebook Platform
Common vocabularies
DOAP
Dublin Core
FOAF
hAtom
hCalendar
hCard
hProduct
hRecipe
hResume
hReview
SIOC
SKOS
v
e
Computable knowledge
Topics and
concepts
Alphabet of human thought
Authority control
Automated reasoning
Commonsense knowledge
Commonsense reasoning
Computability
Formal system
Inference engine
Knowledge base
Knowledge-based systems
Knowledge engineering
Knowledge extraction
Knowledge representation
Knowledge retrieval
Library classification
Logic programming
Ontology
Personal knowledge base
Question answering
Semantic reasoner
Proposals and
implementations
Zairja
Ar s Magna 1300
An Essay towards a Real Character and a Philosophical Language 1688
Calculus ratiocinator & Characteristica universalis 1700
Dewey Decimal Classification 1876
Begriffsschrift 1879
Mundaneum 1910
Logical atomism 1918
Tractatus Logico-Philosophicus 1921
Hilbert's program 1920s
Incompleteness theorem 1931
World Brain 1938
Memex 1945
General Problem Solver 1959
Prolog 1972
Cyc 1984
Semantic Web 2001
Evi 2007
Wolfram Alpha 2009
Watson 2011
Siri 2011
Knowledge Graph 2012
Wikidata 2012
Cortana 2014
Viv 2016
In fiction
The Engine Gulliver's Travels, 1726
Joe "A Logic Named Joe", 1946
The Librarian Snow Crash, 1992
Dr Know AI Artificial Intelligence, 2001
Waterhouse The Baroque Cycle, 2003
See also: Logic machines in fiction and List of fictional computers


Knowledge extraction

Random Posts

IP address blocking

IP address blocking

IP address blocking prevents connection between a server or website and certain IP addresses or rang...
Gisele Bündchen

Gisele Bündchen

Gisele Caroline Bündchen1 Portuguese pronunciation: ʒiˈzɛli kaɾoˈlini ˈbĩtʃẽj, German pronuncia...
Sheldon, West Midlands

Sheldon, West Midlands

Sheldon is an area of east Birmingham, England Historically part of Warwickshire, it is close to the...
Beverly, Chicago

Beverly, Chicago

Beverly is one of the 77 community areas of Chicago, Illinois It is located on the South Side on the...