Thu . 20 Jul 2020

Doğal dil işleme

Doğal dil işleme, bilgisayar bilimi, yapay zeka ve bilgisayarlarla insan doğal dilleri arasındaki etkileşimlerle ilgili hesaplama dilbilimi alanıdır. NLP, insan-bilgisayar etkileşimi alanı ile ilgilidir NLP'deki birçok zorluk şunları içerir: doğal dil anlama, bilgisayarların insan veya doğal dil girdisinden anlam çıkarmasını sağlama; ve diğerleri doğal dil üretmeyi içerir
Bir web sayfasında müşteri hizmetleri sunan otomatik bir çevrimiçi asistan, doğal dil işlemenin önemli bir bileşen olduğu bir uygulama örneği [1]
İçindekiler 1 1 Tarih
2 Makine öğrenimini kullanma
3 Başlıca görevler
4 İstatistiksel
5 Değerlendirme
51 Hedefler
52 Değerlendirme zaman çizelgesi
53 Farklı değerlendirme türleri
6 Standardizasyon
7 Ayrıca bakınız
8 Referanslar
9 Daha fazla okuma
Tarih
Ana madde: Doğal dil işleme tarihi
NLP'nin tarihi genellikle 1950'lerde başlar, ancak daha önceki dönemlerden çalışma bulunabilir 1950'de, Alan Turing, şu anda zeka kriteri olarak Turing testi olarak adlandırılan "Computing Machinery and Intelligence" başlıklı bir makaleyi yayınladı. 1954'teki Georgetown deneyinde altmıştan fazla Rusça cümlenin İngilizce'ye tam otomatik çevirisi yapıldı. üç veya beş yıl içinde makine çevirisi çözülmüş bir sorun olurdu [2] Ancak, gerçek ilerleme çok daha yavaştı ve 1966'daki ALPAC raporundan sonra, on yıllık araştırmaların beklentileri karşılayamadığını tespit etti, makine çevirisi için fon önemli ölçüde azaldı. makine çevirisinde 1980'lerin sonlarına kadar, ilk istatistiksel makine çeviri sistemleri geliştirildi.
1960'larda geliştirilen bazı önemli başarılı NLP sistemleri, kısıtlı kelime dağarcığı olan sınırlı "blok dünyalarında" çalışan doğal bir dil sistemi olan SHRDLU idi ve 1964-1966 yılları arasında Joseph Weizenbaum tarafından yazılan bir Rogerian psikoterapist simülasyonu olan ELIZA, insan düşüncesi veya duygu hakkında neredeyse hiçbir bilgi kullanmadan, ELIZA bazen şaşırtıcı derecede insan benzeri bir etkileşim sağladı "Hasta" çok küçük bilgi tabanını aştığında, ELIZA Örneğin, "Başım ağrıyor" ile "Kafanız ağrıyor diyorsun" diye yanıt veren genel bir yanıt verin
1970'lerde birçok profesyonel gramerler, gerçek dünya bilgisini bilgisayar tarafından anlaşılabilir verilere yapılandırmış olan "kavramsal ontolojiler" yazmaya başladı Örnekler MARGIE Schank, 1975, SAM Cullingford, 1978, PAM Wilensky, 1978, TaleSpin Meehan, 1976, QUALM Lehnert, 1977, Politics Carbonell, 1979 ve Plot Units Lehnert 1981 Bu süre zarfında, PARRY, Racter ve Jabberwacky dahil olmak üzere birçok sohbet botu yazılmıştır
1980'lere kadar, NLP sistemlerinin çoğu, 1980'lerin sonlarından itibaren karmaşık elle yazılmış kural setlerine dayanıyordu. , NLP'de dil işleme için makine öğrenme algoritmalarının tanıtılmasıyla bir devrim vardı. Bu hem hesaplama gücünün sürekli artması, Moore Yasası'na bakın hem de teorik temelleri olan Chomskyan dilbilim kuramlarının egemenliğinin kademeli olarak azalmasından kaynaklanıyordu. dil işlemede makine öğrenimi yaklaşımının temelini oluşturan bir tür corpus dilbilimini caydırdı [3] En erken kullanılan makine öğrenimi algoritmasından bazıları karar ağaçları gibi ithms, mevcut elle yazılmış kurallara benzer sert if-then kuralları sistemleri üretti, ancak konuşmaların bir kısmı etiketleme, gizli Markov modellerinin NLP'ye kullanımını tanıttı ve giderek artan bir şekilde, araştırmalar istatistiksel modellere odaklandı, giriş verilerini oluşturan özelliklere gerçek değerli ağırlıklar eklemeye dayalı yumuşak, olasılıklı kararlar veren birçok konuşma tanıma sisteminin şu anda güvendiği önbellek dili modelleri, bu tür istatistiksel modellerin örnekleridir Bu tür modeller, bilinmeyen girdiler verildiğinde genellikle daha sağlamdır, özellikle gerçek dünya verileri için çok yaygın olan hataları içeren girdi ve birden çok alt görev içeren daha büyük bir sisteme entegre edildiğinde daha güvenilir sonuçlar üretir
Özellikle iş nedeniyle makine çevirisi alanında meydana gelen önemli erken başarıların çoğu art arda daha karmaşık istatistiksel modellerin geliştirildiği IBM Research'te, bu sistemler mevcut çok dilli programlardan tüm hükümet işlemlerinin ilgili hükümet sistemlerinin tüm resmi dillerine tercüme edilmesini gerektiren yasaların bir sonucu olarak Kanada Parlamentosu ve Avrupa Birliği tarafından üretilen geniş kapsamlı corpora Ancak, diğer birçok sistem özellikle Bu sistemlerin başarısı, bu sistemlerin başarısında büyük bir sınırlama olan ve sıklıkla devam eden görevler Sonuç olarak, sınırlı miktarda veriden daha etkin bir şekilde öğrenme yöntemlerine büyük miktarda araştırma yapıldı
Son araştırmalar giderek daha fazla denetimsiz ve yarı denetimli öğrenme algoritmalarına odaklanıyor Bu tür algoritmalar, istenen cevaplarla elle açıklamalı olmayan verilerden veya açıklamalı ve açıklamalı olmayan verilerin bir kombinasyonunu kullanarak öğrenebilirler Genel olarak, bu görev çok daha zordur denetimli öğrenme ve genellikle belirli miktarda girdi verisi için daha az doğru sonuçlar üretir Ancak, çok büyük diğer şeylerin yanı sıra, genellikle daha düşük sonuçları telafi edebilen World Wide Web'in tüm içeriği dahil olmak üzere açıklamalı olmayan veri miktarı
Makine öğrenimini kullanma
Bu bölüm herhangi bir kaynak göstermiyor Lütfen iyileştirmeye yardımcı olun güvenilir kaynaklara atıflar ekleyerek bu bölümü Kaynaksız malzeme sorgulanabilir ve kaldırılabilir Şubat 2013 Bu şablon iletisini nasıl ve ne zaman kaldıracağınızı öğrenin
Modern NLP algoritmaları makine öğrenmesine, özellikle istatistiksel makine öğrenimine dayalıdır Makine öğrenimi paradigması farklıdır dil işlemeye yönelik önceki girişimlerin çoğu dil işleme görevlerinin önceki uygulamaları genellikle büyük kural setlerinin doğrudan elle kodlanmasını içeriyordu Makine öğrenme paradigması, genel öğrenme algoritmalarını kullanmak yerine çağırıyor - her zaman olmasa da, genellikle istatistiksel çıkarımlara dayandırılıyor - tipik gerçek dünya örneklerinin büyük corpora analiz yoluyla otomatik olarak bu kuralları öğrenmek için Bir corpus çoğul, "c orpora ", bir dizi belge veya bazen, öğrenilecek doğru değerlerle elle açıklanan tek tek cümlelerdir
NLP görevlerine birçok farklı makine öğrenme algoritması sınıfı uygulanmıştır. giriş verilerinden üretilen "özellikler" Karar ağaçları gibi en erken kullanılan algoritmalardan bazıları, daha sonra yaygın olan elle yazılmış kural sistemlerine benzer zor if-then kural sistemleri üretti. her bir girdi özelliğine gerçek değerli ağırlıklar eklemeye dayalı yumuşak, olasılıklı kararlar veren istatistiksel modellere odaklanmış Bu tür modeller, sadece bir değil, birçok farklı olası cevabın göreli kesinliğini ifade edebilmeleri ve bu durumda daha güvenilir sonuçlar üretebilmeleri avantajına sahiptir. bir model daha büyük bir sistemin bileşeni olarak dahil edilir
Makine öğrenimi algoritmalarına dayanan sistemlerin elle üretilen kurallara göre birçok avantajı vardır:
Öğrenme prosedürü makine öğrenimi sırasında kullanılan ures otomatik olarak en sık karşılaşılan durumlara odaklanırken, kuralları elle yazarken, çabaların nereye yönlendirilmesi gerektiği pek açık değildir. Otomatik öğrenme prosedürleri, istatistiksel modeller üretmek için istatistiksel çıkarım algoritmalarını kullanabilir. bilinmeyen girdilere, örneğin daha önce görülmemiş kelimeleri veya yapıları içeren ve hatalı yazılan kelimeleri veya yanlışlıkla atlanan kelimeleri içeren, genel olarak, bu girdiyi elle yazılmış kurallarla incelikle işlemek - veya daha genel olarak elle yazılmış kural sistemleri oluşturmak yumuşak kararlar veren - son derece zor, hataya açık ve zaman alıcıdır
Kuralları otomatik olarak öğrenmeye dayalı sistemler sadece daha fazla girdi verisi sağlayarak daha doğru hale getirilebilir. Ancak, elle yazılmış kurallara dayalı sistemler yalnızca yapılabilir çok daha zor bir görev olan kuralların karmaşıklığını artırarak daha doğru, özellikle sistemlerin karmaşıklığının bir sınırı vardır sistemlerin gittikçe daha fazla yönetilemez hale geldiği el yapımı kurallara dayanır. Bununla birlikte, makine öğrenme sistemlerine giriş yapmak için daha fazla veri oluşturmak, genellikle karmaşıklığı önemli ölçüde arttırmaksızın, çalışılan adam-saat sayısında karşılık gelen bir artış gerektirir. ek açıklama süreci
Öğrenme yaklaşımlarına ayrılan NLP alt alanı doğal dil öğrenimi NLL olarak bilinir ve konferans CoNLL [4] ve zirve organı SIGNLL [5] ACL tarafından desteklenir, ayrıca hesaplama dilbilimi ve Dil Edinimi ile olan bağlantılarını da tanır. Hesaplamalı dil öğrenme araştırmasının amacı, insan dili edinimi veya psiko-dilbilim hakkında daha fazla bilgi edinmek olduğunda, NLL, hesaplamalı psiko-dilbilimle ilgili alanla çakışır
Başlıca görevler
Aşağıda, en sık araştırılan görevlerin bir listesi verilmiştir. NLP'de bu görevlerin bazılarının doğrudan gerçek dünya uygulamalarına sahip olduğunu, diğerlerinin ise genellikle ai için kullanılan alt görevler olduğunu unutmayın. d Daha büyük görevleri çözmede Bu görevleri diğer potansiyel ve gerçek NLP görevlerinden ayıran şey, yalnızca kendilerine ayrılmış araştırma hacmi değil, her biri için genellikle iyi tanımlanmış bir sorun ayarı, görevi değerlendirmek için standart bir ölçüt olması , görevin değerlendirilebileceği standart corpora ve belirli bir göreve ayrılmış yarışmalar
Otomatik özetleme
Bir metin parçasının okunabilir bir özetini üretme Genellikle, makaleler gibi bilinen türde metinlerin özetlerini sağlamak için kullanılır bir gazetenin mali bölümünde
Özdeşlik çözümü
Bir cümle veya daha büyük bir metin parçası verildiğinde, hangi "söz" kelimelerinin aynı nesnelere "varlıklar" anlamına geldiğini belirleyin. Anaphora çözümü bu görevin belirli bir örneğidir zamirleri, atıfta buldukları isimler veya isimlerle eşleştirmekle özellikle ilgilidir. Özdeşlik çözümünün daha genel görevi, atıfta bulunan ifadeleri içeren sözde "köprü ilişkileri" tanımlamayı da içerir Örneğin, "John'un evine ön kapıdan girdi" gibi bir cümlede, "ön kapı" yönlendirici bir ifadedir ve tanımlanacak köprü ilişkisi, söz konusu kapının John'un ön kapısı olması gerçeğidir. atıfta bulunulabilecek başka bir yapıdan ziyade ev - Söylem analizi

Bu değerlendirme listesi bir dizi ilgili görevi içerir Bir görev bağlı metnin söylem yapısını, yani cümleler arasındaki söylem ilişkilerinin doğasını tanımlamaktır. detaylandırma, açıklama, kontrast Başka bir olası görev, konuşma eylemlerini bir metin parçasında tanımak ve sınıflandırmaktır, örneğin evet-hayır sorusu, içerik sorusu, ifade, iddia, vb.
Makine çevirisi
Metni bir insan dilinden otomatik olarak başka Bu en zor sorunlardan biridir ve konuşma dilinde "AI-complete" olarak adlandırılan bir sorun sınıfının üyesidir, yani insanların grammaya sahip olduğu tüm farklı bilgi türlerini gerektirir r, anlambilim, gerçek dünyayla ilgili gerçekler, vb. doğru bir şekilde çözmek için
Morfolojik segmentasyon
Kelimeleri bireysel morfemlere ayırın ve morfemlerin sınıfını tanımlayın Bu görevin zorluğu büyük ölçüde morfolojinin karmaşıklığına bağlıdır. İngilizce olarak kabul edilen dilin kelimelerinin yapısı oldukça basit bir morfolojiye, özellikle de çekim morfolojisine sahiptir ve bu nedenle bu görevi tamamen göz ardı etmek ve bir kelimenin olası tüm biçimlerini (örneğin, "aç, aç, aç, aç") modellemek genellikle mümkündür. ayrı kelimeler Türkçe veya Manipuri gibi dillerde [6] oldukça aglütine edilmiş bir Hint dili, her sözlük girişinde binlerce olası kelime formu bulunduğundan böyle bir yaklaşım mümkün değildir.
Adlandırılmış varlık tanıma NER
Verilen bir metin akışı, metin veya öğe gibi uygun adlarla hangi öğelerin eşlendiğini ve bu adların her birinin türünün örneğin kişi, konum, organizasyon olduğunu belirleyin. d, İngilizce gibi dillerde adlandırılmış varlıkları tanımak için, bu bilgiler adlandırılmış varlığın türünü belirlemede yardımcı olamaz ve her durumda genellikle yanlış veya yetersizdir. Örneğin, bir cümlenin ilk kelimesi de büyük harfle yazılır ve adlandırılan varlıklar genellikle yayılır sadece bazıları büyük harfle yazılmış olan birkaç kelime Dahası, Batı dillerindeki metinlerde Çince veya Arapça gibi birçok başka dilde büyük harf kullanımı yoktur ve büyük harf kullanan diller bile isimleri ayırt etmek için onu tutarlı bir şekilde kullanamazlar Örneğin, isimler, isimlere atıfta bulunmalarına bakılmaksızın, Fransızca ve İspanyolca sıfat olarak kullanılan isimleri büyük harfle yazmaz
Doğal dil üretimi
Bilgisayar veritabanlarından veya anlamsal amaçlardan bilgileri okunabilir insan diline dönüştürün
Doğal dil anlama
Metin parçalarını, bilgisayar programlarının Na'yi manipüle etmesi daha kolay olan birinci dereceden mantık yapıları gibi daha resmi temsillere dönüştürün tural dil anlayışı, genellikle doğal diller kavramlarının organize gösterimleri biçimini alan bir doğal dil ifadesinden türetilebilen, olası semantiğin tanımlanmasını içerir. açık dünya varsayımı CWA veya açık dünya varsayımı gibi sübjektif varsayımlarla karışıklıklar olmadan doğal dil anlambiliminin açıkça resmileştirilmesi Semantik biçimselleştirmenin temelinin inşası için öznel Evet / Hayır vs Doğru Doğru / Yanlış beklenir [7]
Optik karakter tanıma OCR
Basılı metni temsil eden bir görüntü verildiğinde, karşılık gelen metni belirleyin
Konuşma bölümü etiketleme
Bir cümle verildiğinde, her kelime için konuşmanın bölümünü belirleyin Birçok kelime, özellikle yaygın olanları, konuşmanın birden çok parçası olarak hizmet verebilir Örneğin, "kitap" bir isim olabilir "masada kitap" veya fi kitap "af kitap "Işık; "set" bir isim, fiil veya sıfat olabilir; ve "out" konuşmanın en az beş farklı bölümünden herhangi biri olabilir Bazı diller diğerlerinden daha fazla belirsizliğe sahiptir İngilizce gibi çok az çekim morfolojisine sahip diller özellikle böyle bir belirsizliğe eğilimlidir Çince bu tür belirsizliğe yatkındır çünkü tonal bir dildir sözel bükülme sırasında Bu tür bükülme, amaçlanan anlamı iletmek için ortografide kullanılan varlıklar aracılığıyla kolayca iletilmez

Ayrıştırma
Belirli bir cümlenin ayrıştırma ağacı dilbilgisel analizini belirleme Doğal diller için dilbilgisi belirsizdir ve tipik cümleler birden fazla olası analize sahiptir. Aslında, şaşırtıcı bir şekilde, tipik bir cümle için, çoğu insan için tamamen saçma görünecek binlerce potansiyel ayrıştırma olabilir
Soru cevaplama
Bir insan dili sorusu verildiğinde, cevabını belirleyin Tipik soruların belirli bir "Kanada'nın başkenti nedir" gibi doğru yanıtlar, ancak bazen açık uçlu sorular "inci nedir?" e hayatın anlamı "Son çalışmalar daha da karmaşık sorulara baktı [8]
İlişki çıkarma
Bir metin parçası verildiğinde, adlandırılan varlıklar arasındaki ilişkileri tanımlayın, örneğin kiminle evlendi? cümle sınırı belirleme bozukluğu olarak
Bir metin parçası verildiğinde, cümle sınırlarını bulun Cümle sınırları genellikle dönemler veya diğer noktalama işaretleri ile işaretlenir, ancak aynı karakterler başka amaçlara da hizmet edebilir, örn. kısaltmaları işaretleme
Duygu analizi
Öznel ayıklama genellikle belirli belgeler hakkında "polariteyi" belirlemek için genellikle çevrimiçi incelemeleri kullanan bir dizi belgeden gelen bilgiler Pazarlama amacıyla sosyal medyadaki kamuoyu eğilimlerini belirlemek için özellikle yararlıdır
Konuşma tanıma
Verilen bir bir kişinin veya konuşan insanların ses klibi, konuşmanın metinsel temsilini belirleme Bu, metnin konuşmaya zıttıdır ve konuşma dilinde "AI-compl" olarak adlandırılan son derece zor sorunlardan biridir. ete "yukarıya bakın Doğal konuşmada birbirini izleyen kelimeler arasında neredeyse hiç duraklama yoktur ve bu nedenle konuşma segmentasyonu konuşma tanıma için gerekli bir alt görevdir aşağıya bakınız. Ayrıca çoğu konuşulan dilde, birbirini izleyen harfleri temsil eden seslerin, adlandırılan bir süreçte birbirine karıştığını unutmayın. Böylece, analog sinyalin ayrık karakterlere dönüştürülmesi çok zor bir süreç olabilir
Konuşma segmentasyonu
Konuşan bir kişinin veya insanların ses klibi göz önüne alındığında, bunları kelimelere ayırın Bir konuşma tanıma alt görevi ve genellikle it
Konu segmentasyonu ve tanıma
Bir metin parçası verildiğinde, her biri bir konuya ayrılan segmentlere ayırın ve segmentin konusunu tanımlayın
Word segmentasyonu
Sürekli bir parça ayırın ayrı kelimelere metin İngilizce gibi bir dil için, kelimeler genellikle boşluklarla ayrıldığından, bu oldukça önemsizdir. Ancak, Çince, Japonca ve Tay dili gibi bazı yazılı diller kelime sınırını işaretlemez Bu tarz bir metin ve bu dillerde metin segmentasyonu, kelimelerin kelime dağarcığı ve morfolojisi hakkında bilgi gerektiren önemli bir görevdir.
Kelime anlamda anlam ayrımı
Birçok kelimenin birden fazla anlamı vardır; bağlamda en mantıklı olan anlamı seçmeliyiz Bu sorun için, genellikle bir sözlükten veya örneğin sözlükten veya WordNet gibi çevrimiçi bir kaynaktan bir sözcük listesi ve ilişkili sözcük duyuları verilir. Bazı durumlarda, kümeler ilgili görevlerin çoğu NLP'den genellikle bir bütün olarak ayrı ayrı ele alınan NLP alt alanlarında gruplandırılmıştır Örnekler şunları içerir:
Bilgi alma IR
Bu bilgi depolama, arama ve alma ile ilgilidir Bu, bilgisayar bilimi içinde daha yakın ayrı bir alandır veritabanları için, ancak IR bazı NLP yöntemlerine dayanmaktadır, stemming Bazı güncel araştırma ve uygulamalar IR ve NLP arasındaki boşluğu kapatmaya çalışır
Bilgi çıkarma IE
Bu genel olarak metinden anlambilimsel bilgilerin çıkarılması ile ilgilidir Bu, adlandırılmış varlık tanıma, Çekirdeklik çözünürlüğü, ilişki çıkarma, vb. Gibi görevleri kapsar
Konuşma işleme
Konuşma tanıma, metin okuma ve ilgili görevleri kapsar
Diğer görevler de:
Ana dil belirleme
Stemming
Metin basitleştirme
Metin okuma
Metin geçirme
Doğal dil arama
Sorgu genişletme
Otomatik makale puanlama
Truecasing
İstatistiksel
Ana madde: Stokastik dilbilgisi
İstatistiksel doğal dil işleme, yukarıda tartışılan bazı zorlukları, özellikle de daha uzun cümleler oldukça belirsiz olduğu için ortaya çıkan zorlukları çözmek için stokastik, olasılıksal ve istatistiksel yöntemler kullanır. gerçekçi gramerlerle işlendiğinde, binlerce veya milyonlarca olası analiz sağladı. Belirsizlik giderme yöntemleri genellikle corpora ve Markov modellerinin kullanılmasını içerir CSELT liderliğindeki ESPRIT Projesi P26 1984 - 1988, bilgi tabanlı yaklaşım ve istatistiki karşılaştırmalı konuşma tanıma problemini araştırdı olanlar: seçilen sonuç tamamen istatistiksel bir modeldi [9] İstatistiksel doğal dil anlayışının ilk modellerinden biri 1991'de Roberto Pieraccini, Esther Levin ve Chin-Hui Lee f tarafından tanıtıldı. rom Bell Laboratuvarları [10] NLP, olasılıksal modelleme, bilgi teorisi ve lineer cebir dahil olmak üzere otomatik dil işlemeye yönelik tüm nicel yaklaşımları içerir [11] İstatistiksel NLP teknolojisi, her ikisi de yapay alanlar olan makine öğrenimi ve veri madenciliğinden gelir. Veriden öğrenmeyi içeren zeka
Değerlendirme
Amaçlar
NLP değerlendirmesinin amacı, bir algoritmanın veya sistemin bir veya daha fazla kalitesini ölçmek olup, şunları belirlemek için: algoritmanın tasarımcılarının hedeflerine cevap verip vermediğini veya sistem kullanıcılarının ihtiyaçlarını karşılıyorsa NLP değerlendirmesinde araştırma büyük ilgi gördü, çünkü uygun değerlendirme ölçütlerinin tanımı tam olarak bir NLP problemini belirtmenin bir yoludur Bir algoritma sistemi üzerinde NLP değerlendirmesinin metriği, dil anlama ve dil üretimi Esas olarak değerlendirme verilerini ve değerlendirme metriklerini içeren kesin bir değerlendirme kriteri seti belirli bir NLP problemi için çözümlerini karşılaştırmak üzere birkaç ekip görevlendirdi
Değerlendirme süresi

1983 yılında Syntactic & amp; gibi genel konuları içeren Konuşma Teknolojilerini değerlendiren Esprit P26 Projesi'nin başlangıcı; Anlamsal Ayrıştırma, vb. Kuralı temel alarak istatistiksel yaklaşımlarla karşılaştırma [12]
1987 yılında, yazılı metinler üzerine ilk değerlendirme kampanyası mesajın anlaşılmasına adanmış bir kampanya gibi görünmektedir Palet 1998
Parseval / GEIG projesi karşılaştırmalı ifade yapısı grammars Black 1991
Tipster projesi içinde Hirschman 1998'de özetleme, çeviri ve arama gibi görevler üzerine bir dizi kampanya yapıldı. 1994'te, Almanya'da Morf Olimpiyatları Alman morfolojik savaşçılarını karşılaştırdı
The Senseval & amp; Romanseval kampanyaları semantik belirsizlik hedefleriyle gerçekleştirildi
1996'da Sparkle kampanyası İngilizce, Fransızca, Almanca ve İtalyanca dillerinde sözdizimsel ayrıştırıcıları karşılaştırdı
Fransa'da Grace projesi Fransızlar için bir dizi 21 tarikat karşılaştırdı 1997'de Adda 1999
2004 yılında Technolangue / Easy projesi sırasında Fransızlar için 13 ayrıştırıcı karşılaştırıldı
2006 ve 2007 yıllarında CoNLL ortak görevleri kapsamında bağımlılık ayrıştırıcılarının büyük ölçekli değerlendirilmesi gerçekleştirildi
Fransa'da 2007 yılı ANR-Passage projesi kapsamında Fransızlar için 10 ayrıştırıcı karşılaştırıldı - passage web sitesi
İtalya'da EVALITA kampanyası 2007, [13] 2009, 2011 ve 2014 [14] İtalyanca için çeşitli NLP ve konuşma araçlarını karşılaştırın - EVALITA web sitesi
Farklı değerlendirme türleri
Değerlendirme prosedürlerine bağlı olarak, NLP değerlendirmesinde geleneksel olarak bir takım ayrımlar yapılır
İçsel ve dışsal değerlendirme
İçsel değerlendirme
İçsel değerlendirme izole bir NL'yi göz önünde bulundurur P sistemi ve performansını değerlendiriciler tarafından tanımlanan altın standart sonucuna göre karakterize eder. Kullanımda değerlendirme olarak da adlandırılan dışsal değerlendirme, NLP sistemini daha karmaşık bir ortamda gömülü bir sistem veya bir insan kullanıcı için kesin bir işlev olarak görür. sistemin dışsal performansı daha sonra, dışsal sistemin veya insan kullanıcının genel görevine göre fayda açısından karakterize edilir. Örneğin, konuşmanın bir kısmının çıktısına dayanan sözdizimsel bir ayrıştırıcıyı düşünün. POS etiketleyiciyi yapılandırılmış verilerde çalıştırın ve POS etiketleyicisinin sistem çıktısını altın standart çıktıyla karşılaştırın. Ekstrinsik bir değerlendirme ayrıştırıcıyı başka bir POS etiketleyiciyle ve ardından yeni POS etiketleyicisiyle karşılaştırır ve ayrıştırma doğruluğunu karşılaştırır. > Kara kutu v cam kutu değerlendirmesi
Kara kutu değerlendirmesi, birinin örnek veri kümesinde bir NLP sistemi çalıştırmasını ve aşağıdakilerle ilgili bir dizi parametreyi ölçmesini gerektirir: hız, güvenilirlik, kaynak tüketimi gibi sürecin kalitesi; ve en önemlisi, veri notunun doğruluğu veya çevirinin aslına uygunluğu gibi sonucun kalitesi aşağıdakilere bakar: sistemin tasarımı; uygulanan algoritmalar; kelime boyutu veya ifade kümesi kardinalitesi gibi kullandığı dilsel kaynaklar NLP problemlerinin karmaşıklığı göz önüne alındığında, performansı sadece cam kutu değerlendirmesine dayanarak tahmin etmek genellikle zordur; ancak bu tür bir değerlendirme, hata analizi veya sistemin gelecekteki gelişmeleri konusunda daha bilgilendiricidir
Otomatik v manuel değerlendirme
Birçok durumda, bir NLP sistemini çıktısını altınla karşılaştırarak değerlendirmek için otomatik prosedürler tanımlanabilir standart bir Altın standardını yeniden üretmenin maliyeti oldukça yüksek olmasına rağmen, aynı girdi verileri üzerinde önyükleme otomatik değerlendirmesi, aşırı ek maliyetler olmadan gerektiği kadar tekrarlanabilir. Ancak, birçok NLP probleminde, bir altın standardının kesin tanımı karmaşıktır görev ve annotator anlaşması yetersiz olduğunda imkansız olabilir Manuel değerlendirme en iyi bir sistemin kalitesini tahmin etmek için talimat verilen insan hakimler tarafından veya çoğu zaman çıktısının bir örneğinin, bir dizi kritere dayanarak gerçekleştirilmesine rağmen, onların dilsel yeterlilikleri, insan hakimler bir dizi dil işleme görevi için referans olarak kabul edilebilir, ayrıca eir derecelendirmeleri Bu nedenle, insan değerlendirmesi perspektifken otomatik değerlendirme bazen objektif değerlendirme olarak adlandırılır
Standartlaştırma
Sözcüksel kaynaklar ve NLP programları arasındaki birlikte çalışabilirliği kolaylaştırmak için bir ISO alt komitesi çalışıyor. Alt komite ISO / TC37 ve ISO / TC37 / SC4 olarak adlandırılır Bazı ISO standartları zaten yayınlanmıştır, ancak çoğu yapım aşamasındadır, çoğunlukla sözlük temsiliyle ilgili olarak bkz. LMF, ek açıklama ve veri kategorisi kaydı
Ayrıca bkz. Biyomedikal metin madenciliği
Birleşik terim işleme
Bilgisayar destekli inceleme
Kontrollü doğal dil
Derin dil işleme
Yabancı dil okuma yardımı
Yabancı dil yazma yardımı
Dil teknolojisi
Gizli Dirichlet tahsisi LDA
Gizli semantik indeksleme
Doğal dil işleme araçlarının listesi
LRE Harita
Doğal dil programlama
İlişkiler dilbilim
Anlambilimsel katlama
Konuşmalı diyalog sistemi
Düşünce vektör
Transderivatio nal search
Word2vec
Referanslar
^ Konuşmacı ajana dayalı bir çevrimiçi yardım masası sistemi uygulama Yazarlar: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung ve Choochart Haruechaiyasak ACM 2009 Yayınlayan Makaleler, Kaynakça Veri Bibliometrics Yayınlanan: Devam , MEDES '09 Uluslararası Acil Dijital Ekosistemlerin Yönetimi Konferansı Bildirileri, ACM New York, NY, ABD ISBN 978-1-60558-829-2, doi: 101145/16438231643908
^ Hutchins, J 2005 "Tarih kısaca makine çevirisinin açıklaması "[kendi kendine yayınlanan kaynak]
^ Chomskyan dilbilimi, teorik modellerinin matematikte patolojik olaylarla karşılaştırılabilecek, tipik olarak düşünce deneyleri kullanılarak oluşturulan teorik modellerinin sınırlarını vurgulayan" köşe vakalarının "araştırılmasını teşvik eder. corpus dilbiliminde olduğu gibi, gerçek dünya verilerinde meydana gelen tipik olayların sistematik olarak araştırılması, bu tür gerçek dünya verileri kurumunun oluşturulması ve kullanılması temel bir parçadır Buna ek olarak, Chomskyan dilbiliminin "uyaranın yoksulluğu" argümanı gibi teorik temelleri, genel olarak makine öğreniminde kullanılan genel öğrenme algoritmalarının dil işlemede başarılı olamayacağını gerektirir. sonuç olarak, Chomskyan paradigması bu tür modellerin dil işlemeye uygulanmasını engellemiştir
^ CoNLL
^ SIGNLL
^ Kishorjit, N, Vidya Raj RK, Nirmal Y ve Sivaji B 2012 "Manipuri Morpheme Identification", Bildiriler ve Güneydoğu Asya Doğal Dil İşleme SANLP 3. Çalıştayı, sayfa 95-108, COLING 2012, Mumbai, Aralık 2012
^ Yucong Duan, Christophe Cruz 2011, Varlık Uluslararası Yenilik Dergisi'nden Kavramsallaştırma yoluyla Doğal Dil Anlamını Biçimlendirme , Yönetim ve Teknoloji2011 2 1, s. 37-42
^ "Çok yönlü soru cevaplama sistemleri: sentezde görme", Mittal ve ark., IJIIDS, 52, 119-142, 2011
^ Ciaramella, Alberto, Giancarlo Pirani ve Claudio Rullent "Sonuçlar ve Gelecek Gelişmeler" Konuşma Anlayışında İleri Algoritmalar ve Mimariler Springer Berlin Heidelberg, 1990 265-274
^ Roberto Pieraccini, Esther Levin, Chin-Hui Lee: ATIS görevinde kavramsal yapının stokastik gösterimi ,, Proc Dördüncü Ortak DARPA Konuşma ve Doğal Lang Çalıştayı, Pacific Grove, CA, Şubat 1991
^ Christopher D Manning, Hinrich Schütze: İstatistiksel Doğal Dil İşlemenin Temelleri, MIT Press 1999, ISBN 978-0-262-13360- 9, p xxxi
^ Pirani, Giancarlo, ed Konuşma anlama için gelişmiş algoritmalar ve mimariler Vol 1 Springer Science & amp; Business Media, 2013
^ Magnini, B, Cappelli, A, Tamburini, F, Bosco, C, Mazzei, A, Lombardo, V, Bertagna, F, Toral, A, Bartalesi Lenzi, V, Sprugnoli, R & amp; Speranza, E 2008, Mayıs İtalyanca için Doğal Dil Araçlarının Değerlendirilmesi: EVALITA 2007 LREC 2008 Bildirilerinde
^ Attardi, G, Basile, V, Bosco, C, Caselli, T, Dell'Orletta, F, Montemagni, S , Patti, V, Simi, M & amp; Sprugnoli, R 2015 İtalyanca için En İyi Dil Teknolojileri: EVALITA 2014 Perspektifi Intelligenza Artificiale, 91, 43-61
Daha fazla okuma
Bates, M 1995 "Doğal dil anlama modelleri" Ulusal Akademi Bildirileri Amerika Birleşik Devletleri Bilimleri 92 22: 9977-9982 doi: 101073 / pnas92229977
Steven Bird, Ewan Klein ve Edward Loper 2009 Python O'Reilly Media ile Doğal Dil İşleme ISBN 978-0-596-51649-9
Daniel Jurafsky ve James H Martin 2008 Konuşma ve Dil İşleme, 2. baskı Pearson Prentice Hall ISBN 978-0-13-187321-6
Christopher D Manning, Prabhakar Raghavan ve Hinrich Schütze 2008 Bilgi Erişim Cambridge Üniversitesi'ne Giriş Basın ISBN 978-0-521-86571-5 Resmi html ve pdf sürümleri ücretsiz olarak kullanılabilir
Christopher D Manning ve Hinrich Schütze 1999 İstatistiksel Doğal Dil İşlemenin Temelleri MIT Basın ISBN 978-0-262-13360-9
David MW Güçleri ve Christopher CR Turk 19 89 Doğal Dilin Makine Öğrenmesi Springer-Verlag ISBN 978-0-387-19557-5
v
e
Doğal dil işleme
Genel terimler
Metin corpus
Konuşma corpus
Anahtar sözcükler
Kelime torbası
AI-complete
n-gram Bigram, Trigram
Metin analizi
Metin segmentasyonu
Konuşma parçası etiketleme
Metin parçalama
Bileşik terim işleme
Kollokasyon ekstraksiyonu
Köklendirme
Lemmatizasyon
İsimlendirilmiş varlık tanıma
Çekirdeklik çözünürlüğü
Duygu analizi
Kavram madenciliği
Ayrıştırma
Kelime anlamda anlam ayrımı
Terminoloji çıkarma
Taşımacılık
Otomatik özetleme
Çoklu belge özetleme
Cümle çıkarma
Metin basitleştirme
Makine çevirisi
Bilgisayar destekli
Örnek tabanlı
Rule-based
Automatic identification
and data capture
Speech recognition
Speech synthesis
Optical character recognition
Natural language generation
Topic model
Pachinko allocation
Latent Dirichlet allocation
Latent semantic a nalysis
Computer-assisted
reviewing
Automated essay scoring
Concordancer
Grammar checker
Predictive text
Spell checker
Syntax guessing
Natural language
user interface
Automated online assistant
Chatterbot
Interactive fiction
Question answering
Authority control
NDL: 00562347


Natural language processing

Random Posts

The San Francisco Examiner

The San Francisco Examiner

The San Francisco Examiner is a longtime daily newspaper distributed in and around San Francisco, Ca...
Frederator Films

Frederator Films

Frederator Films is an animation studio founded by Fred Seibert as part of Frederator Studios, with ...
John Hasbrouck Van Vleck

John Hasbrouck Van Vleck

John Hasbrouck Van Vleck March 13, 1899 – October 27, 1980 was an American physicist and mathematici...
Christian Lacroix

Christian Lacroix

Christian Marie Marc Lacroix French pronunciation: ​kʁistjɑ̃ lakʁwa; born 16 May 1951 is a Fren...