Sun . 20 Jul 2020

Пошук інфармацыі

Пошук ІЧ - гэта дзейнасць па атрыманні інфармацыйных рэсурсаў, неабходных для інфармацыйнай патрэбы з калекцыі інфармацыйных рэсурсаў. Пошукі могуць ажыццяўляцца на аснове паўнатэкставай ці іншай індэксацыі на аснове змесціва. Аўтаматызаваныя сістэмы пошуку інфармацыі выкарыстоўваюцца для памяншэння названага. "Перагрузка інфармацыяй" Шмат універсітэтаў і публічных бібліятэк выкарыстоўваюць ІЧ-сістэмы для забеспячэння доступу да кніг, часопісаў і іншых дакументаў. Інтэрнэт-пошукавыя сістэмы з'яўляюцца найбольш бачнымі ІЧ-дадаткамі - Змест - 1 Агляд - 2 Гісторыя - 3 Мадэль тыпы: 31 Першае вымярэнне: матэматычная аснова - 32 Другое вымярэнне: уласцівасці мадэлі 4 - меры і эфектыўнасць - 41 - дакладнасць - 42 - узгадваецца - 43 - выпадае - 44 F-score / F-мера - 45 Сярэдняя дакладнасць - 46 Precision at K - 47 R-Precision - 48 Сярэдняя сярэдняя дакладнасць - 49 - Зніжаны кумулятыўны ўзмацненне - 410 Іншыя меры
411 Візуалізацыя - 5 Храналогія - 6 узнагарод на месцах - 7 вядучых навукова-даследчых груп ІР - 8 Гл. Інш o
9 Спасылкі - 10 Далейшае чытанне - 11 Знешнія спасылкі - Агляд - Працэс пошуку інфармацыі пачынаецца, калі карыстальнік уводзіць запыт у сістэму. Запыты - гэта фармальныя заявы пра патрэбы ў інфармацыі, напрыклад, пошук радкі ў вэб-пошукавых сістэмах Запыт пошуку інфармацыі не вызначае адназначна аднаго аб'екта ў калекцыі. Замест гэтага некалькі аб'ектаў могуць супадаць з запытам, магчыма, з рознай ступенню значнасці. Аб'ект - гэта сутнасць, прадстаўленая інфармацыяй у Збор зместу або базы дадзеных Запыты карыстальнікаў супадаюць з інфармацыяй аб базе дадзеных. Аднак, у адрозненне ад класічных запытаў SQL у базе дадзеных, пры атрыманні інфармацыі вынікі, якія вяртаюцца, могуць і не супадаюць з запытам, таму вынікі звычайна ранжыруюцца. Гэты рэйтынг вынікаў з'яўляецца ключавым розніца пошуку пошуку інфармацыі ў параўнанні з пошукам базы дадзеных [1]
У залежнасці ад прыкладання аб'ектамі дадзеных могуць быць, напрыклад, тэкставыя дакументы, выявы, [2] аўдыё, [3] мапы розуму [4] ] або відэа Часта самі дакументы не захоўваюцца і не захоўваюцца непасрэдна ў ІЧ-сістэме, а замест гэтага ўяўляюцца ў сістэме сурагатамі дакументаў або метададзенымі. Большасць ІЧ-сістэм вылічваюць лікавую ацэнку таго, наколькі добра кожны аб'ект у базе дадзеных адпавядае запыт і ранжыраванне аб'ектаў у адпаведнасці з гэтым значэннем. Пасля гэтага паказваюцца карыстачу аб'екты вышэйшага рангу. Пасля гэтага працэс можа быць паўтараны, калі карыстальнік жадае ўдакладніць запыт [5] - Гісторыя - «
ёсць машына пад назвай Univac, у якой літары і лічбы кадуюцца ў якасці ўзору магнітных плям на доўгай сталёвай стужцы. Гэта азначае, што тэкст дакумента, які папярэднічае яго кода, сімвалам, можа быць запісаны, машына аўтаматычна выбірае і друкуе гэтыя спасылкі. якія былі закадзіраваны любым жаданым спосабам з хуткасцю 120 слоў у хвіліну
""
JE Holmstrom, 1948 г. Ідэя выкарыстання кампутараў для пошуку адпаведнай інфармацыі была папулярызавана ў артыкуле "Мы" Можна падумаць Ванневар Буш у 1945 годзе [ 6] Здавалася б, Буш быў натхнёны патэнтамі на "статыстычную машыну" - пададзенай Эмануэлем Голдбергам у 1920-я і 30-я гады - якія шукалі дакументы, якія захоўваюцца на фільме [7]. Першае апісанне камп'ютэра, які шукае інфармацыю, было апісана. Холмстром у 1948 годзе [8], у якім падрабязна распавядаецца пра раннія згадкі пра камп'ютэрны кампутар Univac. Аўтаматызаваныя сістэмы пошуку інфармацыі былі ўведзены ў 1950-я гады: адна нават у рамантычнай камедыі 1957 г. Набор настольных камп'ютэраў У 1960-х гадах была створана першая вялікая навукова-даследчая група па пошуку інфармацыі Джэрард Салтон з Корнела Да 1970-х гадоў было паказана, што некалькі розных метадаў пошуку добра працуюць на невялікіх тэкставых карпусах, напрыклад, у зборніку Кранфілда ў некалькі тысяч дакументаў [6]. Маштабныя сістэмы пошуку, такія як дыялогавая сістэма Lockheed, пачалі выкарыстоўваць раней у 1970-я гады
У 1992 годзе Міністэрства абароны ЗША разам з Нацыянальным інстытутам стандартаў і тэхналогій NIST арганізавала канферэнцыю па пошуку тэкстаў TREC у рамках Тэкставая праграма TIPSTER. Мэтай гэтага стала прааналізаваць супольнасць пошуку інфармацыі шляхам прадастаўлення інфраструктуры, неабходнай для ацэнкі метадалогій пошуку тэкстаў у вельмі вялікім зборніку тэкстаў. Гэта каталізавала даследаванне метадаў, якія маштабуюцца да вялікіх карпарацый. Укараненне вэб-пошукавых сістэм яшчэ больш узмацнілася неабходнасць атрымання вельмі маштабных сістэм пошуку - Тыпы мадэляў - Катэгарызацыя ІЧ-мадэляў, перакладзеных з нямецкага запісу, арыгінальная крыніца Дамінік Куропка
Для эфектыўнага пошуку адпаведных дакументаў ІЧ-стратэгіямі дакументы звычайна ператвараецца ў падыходнае ўяўленне Кожная стратэгія пошуку ўключае ў сябе пэўную мадэль для сваіх мэтаў прадстаўлення дакумента. На малюнку справа ілюстравана ўзаемасувязь некаторых агульных мадэляў. На малюнку мадэлі класіфікуюцца па двух вымярэннях: матэматычная аснова і ўласцівасці мадэль | Першае вымярэнне: матэматычная аснова | Сукупнасць тэарэтычных мадэляў r Падабенства дакументаў у выглядзе набораў слоў або фраз Падабенства звычайна вынікае з тэарэтычных задач на гэтых мноствах. Агульныя мадэлі:
Стандартная булевая мадэль
Пашыраная булевая мадэль
Невыразны пошук
Алгебраічныя мадэлі ўяўляюць дакументы і запыты. звычайна ў выглядзе вектараў, матрыц або кортежаў. Падабенства вектара запыту і вектара дакумента прадстаўлена ў выглядзе скалярнага значэння










Пашырэная тэма, касмічная мадэль на аснове тэмы
Пашыраны Булевая мадэль: Латэнтная семантычная індэксацыя ака латэнтны семантычны аналіз
Імавернісцкія мадэлі трактуюць працэс пошуку дакументаў як імавернасны вывад. Падабенствы вылічваюцца як верагоднасць таго, што дакумент адпавядае зададзенаму запыту. выкарыстоўваецца ў гэтых мадэлях - Бінарная мадэль незалежнасці - Верагодная мадэль актуальнасці, на якой заснавана функцыя актуальнасці okapi BM25 - Невызначаны вывад
Моўныя мадэлі
Diver Мадэль ад выпадковасці - латэнтнае размеркаванне Дырыхле
Мадэлі пошуку на аснове функцый праглядаюць дакументы як вектары значэнняў функцыянальных функцый альбо проста функцыі і шукаюць найлепшы спосаб аб'яднаць гэтыя функцыі ў адзіны рэйтынг рэлевантнасці, як правіла, вывучаючы Метады ранжыравання Функцыі функцый - адвольныя функцыі дакумента і запыту, і як такія могуць лёгка ўключаць практычна любую іншую мадэль пошуку як проста яшчэ адну асаблівасць. Другое вымярэнне: Уласцівасці мадэлі
Мадэлі без тэрміназалежнасці залежаць ад розных тэрмінаў / словы як незалежныя Гэты факт звычайна прадстаўлены ў вектарных касмічных мадэлях з дапамогай дапушчэння ортогональности тэрміна вектараў або ў імавернасных мадэлях з дапамогай здагадкі аб незалежнасці для тэрмінных зменных. узаемазалежнасць паміж двума членамі вызначаецца самой мадэллю. Звычайна гэта прама ці ўскосна адбываецца, напрыклад, цьмяна энцыянальнае памяншэнне ў выніку сукупнасці гэтых тэрмінаў ва ўсім наборы дакументаў
Мадэлі з трансцэндэнтнымі тэрмінамі ўзаемазалежнасці дазваляюць прадставіць узаемазалежнасці паміж тэрмінамі, але яны не сцвярджаюць, як вызначана ўзаемазалежнасць двух тэрмінаў. Яны абапіраюцца на знешнюю крыніцу Напрыклад, ступень узаемазалежнасці паміж двума тэрмінамі. Напрыклад, чалавечы альбо складаны алгарытм
Меры эфектыўнасці і правільнасці
Дадатковая інфармацыя: Меры ацэнкі пошуку інфармацыі
Ацэнка сістэмы пошуку інфармацыі - гэта працэс ацэнкі таго, наколькі добра сістэма задавальняе інфармацыйныя патрэбы сваіх карыстальнікаў. Традыцыйныя ацэначныя паказчыкі, распрацаваныя для булевага пошуку і пошуку да верхняга к, ўключаюць у сябе дакладнасць і адкліканне. Шмат іншых мер для ацэнкі эфектыўнасці сістэм пошуку інфармацыі таксама былі прапанаваны. У цэлым вымярэнне лічыць калекцыю дакументы для пошуку і пошукавы запыт Усе агульныя меры, апісаныя тут заднім Змесціце паняцце асноўнай ісціны, якое адпавядае рэчаіснасці: як вядома, кожны дакумент адпавядае альбо не адпавядае канкрэтнаму запыту. На практыцы запыты могуць быць няправільнымі і могуць быць розныя адценні рэлевантнасці. Практычна ўсе сучасныя метрыкі ацэнкі, напрыклад , сярэдняя дакладнасць, дысконтаваны кумулятыўны прырост прызначаны для пошуку ў рангах без відавочнага адсячэння звання, з улікам адноснага парадку дакументаў, атрыманых пошукавымі сістэмамі, і надання большай вагі дакументам, вернутым з больш высокімі рангамі [неабходная цытата]
Матэматычныя сімвалы, якія выкарыстоўваюцца ў формулах ніжэй, азначаюць:


X
& # x2229;
Y





Скрыжаванне - у гэтым выпадку ўказанне дакументаў у абедзвюх наборах X і Y







X | >



- Кардынальнасць - у гэтым выпадку колькасць дакументаў у мностве X

& # x222B;



- Інтэгральная тэхніка |
& # x2211;




- Падвядзенне звестак | Звязацца | Атрыманне дадзеных & # x0394; br> Precision
Асноўны артыкул: Дакладнасць і адкліканне
Precision - гэта частка атрыманых дакументаў, якія маюць дачыненне да патрэбнасці карыстальніка ў інфармацыі.
= =?





& # x2229; br>

|








= \ cap \ | |

У б інарная класіфікацыя, дакладнасць аналагічная станоўчаму прагнастычнаму значэнню. Дакладнасць прымае пад увагу ўсе атрыманыя дакументы. Гэта таксама можна ацаніць пры зададзеным рангу адсячэння, улічваючы толькі самыя высокія вынікі, якія вяртае сістэма. Гэтая мера называецца дакладнасцю ў n або P @ n
Звярніце ўвагу, што сэнс і выкарыстанне "дакладнасці" ў сферы пошуку інфармацыі адрозніваецца ад вызначэння дакладнасці і дакладнасці ў іншых галінах навукі і статыстыкі. Нагадаем, галоўны артыкул: Дакладнасць і ўспомненне
Нагадаем, гэта частка дакументаў, якія адносяцца да запыту, якія паспяхова здабываюць


Назад | br>



& # x2229; Мабільная версія | | Бінарная класіфікацыя | Біялагічная класіфікацыя | зварот часта называюць адчувальным, таму на яго можна разглядаць як на верагоднасць таго, што адпаведны дакумент будзе атрыманы з дапамогай запыту. Немагчыма атрымаць 100% адкліканне, вярнуўшы ўсе дакументы ў адказ на любы запыт. досыць, але трэба вымераць колькасць не адпаведных дакументаў, напрыклад, вылічыўшы дакладнасць
Выпадзенне
Доля нерэлевантных дакументаў, якія вымаюцца, з усіх даступных дакументаў: Патрабаванне да высаджвання: выпадзенне, выбух, выкідванне, ападкі, выпадзенне, ачыстка & # x2229;

















= \ cap \ | |

У бінарнай класіфікацыі выпадзенне цесна звязана са спецыфікай і роўна



1
& # x2212;









Магчымасць разгляду можа быць разгледжана як верагоднасць таго, што адпаведны дакумент будзе атрыманы запытам. трывіяльна, каб дамагчыся падзення 0%, вярнуўшы нулявыя дакументы ў адказ на любы запыт - F-score / F-мера - Асноўны артыкул: F-score
Сярэдняе ўзважанае гарманічнае ўздзеянне і ўспомніць, традыцыйны F-вымярэнне або збалансаваны F-бал - гэта:


F = =


2 & & x22C5;

p
r
e
c
i s s я i o o n n

& # x22C5;

r
e
c a l a l l l l l l l l l l l l l l l l l l l b l e l e c
i
s
i
o
n
+++++++++++++++++++++++++++ L-L-B-НА /


ст l
l






cdot mathrm + mathrm

Гэта таксама вядома як
Тонкі вымярэнне, які адпавядае велічыні F, 1 і 2, і 3, і 3, і 3, і 3, 3, 3, 4, 5, 6, 6 і 3, таму што ўзгадненне і дакладнасць роўныя
Агульная формула для негатыўнага рэальнага


& # x03B2;


F & V & & x03B2;

& # x03B2;
2


& # x22C5; e
c
i
s
i o o n n

& # x22C5;

r e e c c a a l l l l l l l l l l l l l l l l l l l l & l x03B2;
2 2

& # x22C5;

p
r
e
c
i
s
i o n

+ + + + + br br br br br br br br br br >




= cdot mathrm cdot mathrm cdot mathrm + mathrm ,

Два іншых часта выкарыстоўваюцца F меры








"Мэта", вага якой нагадвае ўдвая больш, чым дакладнасць , і пра тое, што ў Беларусі



"Файна", "05", "Мера", "Мера", "Мера", якое "" Дакладнасць узважвання ўдвая большая, чым успомніць. Мера F была выведзена ван Рыйсбергенам 1979 г. Такім чынам, што ў той час, калі ён падыходзіць для F,
& # x03B2;





"вымярае эфектыўнасць пошуку ў адносінах да карыстальніка, які прымацоўвае да сайце". "& & x03B2;
"


у разы большую важнасць нагадаць пра дакладнасць". Ён заснаваны на меры эфектыўнасці ван Рыйсбергена. 1
& # x2212;


1



& # x03B1;
P

+ онлайн, альбомаў, старонкі 1 і & x x xx ; і & # x03B1;



Радыёапараты



+ +

Іх адносіны:



F & F & & x03B2;

= 1 1 & # x2212;
E |

= 1-E, там, дзе


& # x03B1; = =


1

1
+

& # x03B2; Старонка 2







F - вымярэнне можа быць лепшым адзінкавым паказчыкам у параўнанні з дакладнасцю і ўспамінам; як дакладнасць, так і ўспамін даюць розную інфармацыю, якая можа дапаўняць адна адну пры спалучэнні. Калі адна з іх перавышае іншую, F-мера адлюструе яе [неабходнае цытаванне]
Сярэдняя дакладнасць
Дакладнасць і ўспомненне - адзінкавыя паказчыкі зыходзячы з усяго спісу дакументаў, якія вяртаюцца сістэмай. Для сістэм, якія вяртаюць паслядоўнасць ранжыраваных дакументаў, пажадана таксама разгледзець парадак, у якім вяртаюцца дакументы, прадстаўленыя шляхам вылічэння дакладнасці і ўспомніць на кожнай пазіцыі ў ранжыраванай паслядоўнасці дакументы, можна пабудаваць крывую дакладнасці ўспомнення, пабудаваць дакладнасць дакладнасці



p | > як функцыя адклікання






Сярэдняя дакладнасць вылічвае сярэдняе значэнне



p

r
раўнавагі, прамежка, параметры і інтэрвалы ад


r r = = 0 0 | br> = 1 - увогуле



[9]


AveP = =

& # x222B; фотаздымак 0, старонка 1, табліца 1, пв, т, п р, б р <бр >

= int _ ^ prdr

Гэта вобласць пад крывой дакладнасці ўспомнення. Гэты інтэграл на практыцы замяняецца на канчатковую суму па кожнай пазіцыі ў ранжыраванай паслядоўнасці дакументаў:



AveP = =

& # x2211;
k k = = 1


n


P

k

& # x0394;
r

k?


= сума _ ^ Pk Delta rk |

- гэта ранг у паслядоўнасці атрыманых дакументаў, а колькасць нумароў - гэта нумар Атрыманых дакументаў, дабрабыту і ачысткі дакументаў, дабраўзроставых дакументаў, дабрабыту, дабрабыту, дабрабыту, да канца br>?

k?



у спісе, і


& # x0394;
r: k k (a) k (k), (b) (k) (k) () (b) - змяненне адклікання з прадметаў (b) для k (b) & # x2212;
1, альбом, iнфармацыi, iнфармацыi, iнфармацыi, iнфармацыi, iнфармацыi, iнфармацыi, тэхнiцы i кнiзе br> [9] - Гэтая канчатковая сума эквівалентная:



AveP = =


& # x2211;
k k = = 1 1
P

k

& # x00D7; rel
& # x2061; > Колькасць адпаведных дакументаў




= ^ Pk times Імя аператара k ! br> rel | & # x2061;

k


k k
- гэта паказчык функцыі, роўны 1, калі элемент займае ранг






Каляндар - гэта адпаведны дакумент, у адваротным выпадку нуль [10] Звярніце ўвагу сярэдняе значэнне складае па ўсіх адпаведных дакументах, а адпаведныя дакументы, якія не атрыманы, атрымліваюць нуль дакладнасці нуля. >





Функцыя па зніжэнні ўздзеяння "варушэння" на крывую [11] [12] Напрыклад, візуальныя класы PASCAL Visual Object выклікаюць арыенцір для выяўлення аб'ектаў камп'ютэрнага бачання. вылічвае сярэднюю дакладнасць шляхам асераднёнай дакладнасці на мностве раўнамерна размешчаных узроўняў узгадвання: [11] [12]


AveP = =

1
11


& # x2211;

r & & x2208; br>
interp, які перамяшчаецца на сайтах, у якіх ёсць b, у r у = = сума _p_ r? r> т-р, р-а-а, р-а, інтэп, -а, р, -а, р, -а, р, -а, р > - гэта інтэрпаляваная дакладнасць, якая прымае максімальную дакладнасць над усімі ўспамінамі, большымі, чым у параўнанні з тым, як максімальна дакладная.



прамежкавы інтэрфейс, які перамяшчаецца ў інтэрфейс, каб увайсці ў парадак


r
& # x007E;


& # x2265;



& # x2061;
p


r
& # x007E; Радыётэхнічныя дадзеныя

r = імя аператара _: geq rp «Альтэрнатывай з'яўляецца атрыманне аналітычнага матэрыялу, які дазваляе атрымаць аналітыку, якая займаецца тэхнікай? > функцыя, мяркуючы канкрэтнае параметрычнае размеркаванне для асноўных значэнняў рашэння. Напрыклад, крыніца ўзгадвання бінармальнай дакладнасці можа быць атрымана, мяркуючы, што значэнні рашэння ў абодвух класах будуць сачыць за размеркаваннем Гаўса [13] | Precision at K
For Сучаснае пошуку інфармацыі ў Інтэрнэце на маштабах, нагадванне - гэта ўжо не значная метрыка, бо ў многіх запытах ёсць тысячы адпаведных дакументаў, і нешматлікім карыстальнікам будзе цікава прачытаць усе іх Дакладнасць у k дакументах P @ k па-ранейшаму карысная метрыка, напрыклад, P @ 10 або "Дакладнасць у 10" адпавядае колькасці адпаведных вынікаў на першай старонцы вынікаў пошуку, але не можа прыняць Int o ўлічыце пазіцыі адпаведных дакументаў сярод лепшых k [неабходнае цытаванне]. Яшчэ адным недахопам з'яўляецца тое, што ў запыце з меншай колькасцю адпаведных вынікаў, чым k, нават у дасканалай сістэмы будзе адзнака менш за 1 [14]. паколькі толькі вынікі верхніх k павінны быць вывучаны, каб вызначыць, ці з'яўляюцца яны адпаведнымі ці не. R-Precision
R-дакладнасць патрабуе ведаць усе дакументы, якія маюць дачыненне да запыту Колькасць адпаведных дакументаў,



R



, выкарыстоўваецца для вылічэння для разлікаў, і гэта вар'іруецца ад запыту да запыту. Напрыклад, калі ёсць 15 дакументаў, якія адносяцца да "чырвоны" у корпусе R = 15, R-дакладнасць для "чырвонага" глядзіць на вернутыя 15 дакументаў, падлічвае колькасць, якое адпавядае








ператварае гэта ў долю запатрабаванасці:






/ R = = R r



15



[15] - Дакладнасць узгадвання на R-й пазіцыі [14]
Эмпірычна гэта мера вельмі часта карэлюе з сярэдняй дакладнасцю [14]
Сярэдняя сярэдняя дакладнасць
Сярэдняя сярэдняя дакладнасць для набору запытаў - гэта сярэдняе значэнне сярэдняй дакладнасці для кожнага запыту



MAP = =



& # x2211;
q q = = 1 1

Q: Папярэдняя і наступная навіна: A a v v e e P P | > Q




= ^ operatornam e !

дзе Q - колькасць запытаў - зніжаны кумулятыўны прыбытак
Асноўны артыкул: Зніжаны кумулятыўны ўзмацненне
DCG выкарыстоўвае ацэньваную шкалу рэлевантнасці дакументаў з набору вынікаў для ацэнкі карыснасці. або атрыманне дакумента на аснове яго пазіцыі ў спісе вынікаў Перадумова DCG заключаецца ў тым, што вельмі рэлевантныя дакументы, якія з'яўляюцца ніжэй у спісе вынікаў пошуку, павінны быць пакараныя, паколькі ацэньванне значэння рэлевантнасці памяншаецца лагарыфмічна прапарцыйна пазіцыі выніку
DCG, назапашаны на пэўнай рангавай пазіцыі | >
D D G

G G G p p p p p p



...



l

1

+

& # x2211; i = = 2, 2, т, п, п, п, с, п, т, р, е, г а л br> я i iнфармацыя, i iнфармацыя, i iнфармацыя, i часопiс, i дэталь 2, iнфармацыя, i iнфармацыя, i & i




= = rel _ + sum _ ^ i

Паколькі набор вынікаў можа адрознівацца па памеры паміж рознымі запытамі ці сістэмамі, для параўнання прадукцыйнасці у нармалізаванай версіі DCG выкарыстоўваецца ідэальны DCG. Для гэтага ён сартуе дакументы спісу вынікаў па рэлевантнасці і стварае ідэальны DCG ў становішчы p | C

G

p

таварная інфармацыя, якая нармалізуе колькасць балаў: птушыная тэхніка, птушка, тэхніка, тэхніка, тэхніка
G

p


= =


D
C

G
P: P: P: P: P:

I
D
C
G



у



= =

Значэнні nDCG для ўсіх запытаў можна асерадзіць, каб атрымаць меру сярэдняй эфектыўнасці алгарытму ранжыравання. Звярніце ўвагу, што ў дасканалым алгарытме ранжыравання,



Да D, З - у Г,
p?





iнфармацыi



I I D D C br> у G

p





вырабляецца nDCG 10 Усе разлікі nDCG з'яўляюцца адноснымі значэннямі на прамежку 00 да 10 і таму супярэчлівы запыт - іншыя мерапрыемствы - тэрміналогія і словаўтварэнне - з матрыцы блытаніны - праўдзівы станоўчы TP - eqv з хітом - сапраўдным адмоўным TN - eqv з правільнае адхіленне - ілжыва-станоўчы FP - экв. з ілжывай сігналізацыяй, памылка тыпу I - ілжыва-адмоўная FN - eqv з промахам, памылка тыпу II - адчувальнасць ці праўдзівая хуткасць TPR - экв з ударам rate, recall





T
P
R


=



T
P

P


=



T
P




T
P


+


F
N







==+

specificity SPC or true negative rate TNR





S
P
C


=



T
N

N


=



T
N




F
P


+


T
N







==+

precision or positive predictive value PPV





P
P
V


=



T
P




T
P


+


F
P







=+

recall recall





r
e
c
a
l
l


=



T
P




T
P


+


F
N







=+

negative predictive value NPV





N
P
V


=



T
N




T
N


+


F
N







=+

fall-out or false positive rate FPR





F
P
R


=



F
P

N


=



F
P




F
P


+


T
N





=
1
&#x2212;

S
P
C




==+=1-

false discovery rate FDR





F
D
R


=



F
P




F
P


+


T
P





=
1
&#x2212;


P
P
V




=+=1-

miss rate or false negative rate FNR





F
N
R


=



F
N

P


=



F
N




F
N


+


T
P





=
1
&#x2212;


T
P
R




==+=1-

accuracy ACC





A
C
C


=





T
P


+


T
N




P
+
N





=+

F1 score
is the harmonic mean of precision and sensitivity





F
1


=



2


T
P




2


T
P

+


F
P


+


F
N







=++

Matthews correlation coefficient MCC






T
P
&#x00D7;
T
N
&#x2212;
F
P
&#x00D7;
F
N



T
P
+
F
P


T
P
+
F
N


T
N
+
F
P


T
N
+
F
N








Informedness = Sensitivity + Specificity - 1
Markedness = Precision + NPV - 1
Sources: Fawcett 2006, Powers 2011, and Ting 2011 [16] [17] [18]
Mean reciprocal rank
Spearman's rank correlation coefficient
bpref - a summation-based measure of how many relevant documents are ranked before irrelevant documents[15]
GMAP - geometric mean of per-topic average precision[15]
Measures based on marginal relevance and document diversity - see Relevance information retrieval § Problems and alternatives
Visualization
Visualizations of information retrieval performance include:
Graphs which chart precision on one axis and recall on the other[15]
Histograms of average precision over various topics[15]
Receiver operating characteristic ROC curve
Confusion matrix
Timeline
Before the 1900s
1801: Joseph Marie Jacquard invents the Jacquard loom, the first machine to use punched cards to control a sequence of operations
1880s: Herman Hollerith invents an electro-mechanical data tabulator using punch cards as a machine readable medium
1890 Hollerith cards, keypunches and tabulators used to process the 1890 US Census data
1920s-1930s
Emanuel Goldberg submits patents for his "Statistical Machine” a document search engine that used photoelectric cells and pattern recognition to search the metadata on rolls of microfilmed documents
1940s–1950s
late 1940s: The US military confronted problems of indexing and retrieval of wartime scientific research documents captured from Germans
1945: Vannevar Bush's As We May Think appeared in Atlantic Monthly
1947: Hans Peter Luhn research engineer at IBM since 1941 began work on a mechanized punch card-based system for searching chemical compounds
1950s: Growing concern in the US for a "science gap" with the USSR motivated, encouraged funding and provided a backdrop for mechanized literature searching systems Allen Kent et al and the invention of citation indexing Eugene Garfield
1950: The term "information retrieval" was coined by Calvin Mooers[19]
1951: Philip Bagley conducted the earliest experiment in computerized document retrieval in a master thesis at MIT[20]
1955: Allen Kent joined Case Western Reserve University, and eventually became associate director of the Center for Documentation and Communications Research That same year, Kent and colleagues published a paper in American Documentation describing the precision and recall measures as well as detailing a proposed "framework" for evaluating an IR system which included statistical sampling methods for determining the number of relevant documents not retriev ed[21]
1958: International Conference on Scientific Information Washington DC included consideration of IR systems as a solution to problems identified See: Proceedings of the International Conference on Scientific Information, 1958 National Academy of Sciences, Washington, DC, 1959
1959: Hans Peter Luhn published "Auto-encoding of documents for information retrieval"
1960s:
early 1960s: Gerard Salton began work on IR at Harvard, later moved to Cornell
1960: Melvin Earl Maron and John Lary Kuhns[22] published "On relevance, probabilistic indexing, and information retrieval" in the Journal of the ACM 73:216–244, July 1960
1962:
Cyril W Cleverdon published early findings of the Cranfield studies, developing a model for IR system evaluation See: Cyril W Cleverdon, "Report on the Testing and Analysis of an Investigation into the Comparative Efficiency of Indexing Systems" Cranfield Collection of Aeronautics, Cranfield, England, 1962
Kent published Information Analys is and Retrieval
1963:
Weinberg report "Science, Government and Information" gave a full articulation of the idea of a "crisis of scientific information" The report was named after Dr Alvin Weinberg
Joseph Becker and Robert M Hayes published text on information retrieval Becker, Joseph; Hayes, Robert Mayo Information storage and retrieval: tools, elements, theories New York, Wiley 1963
1964:
Karen Spärck Jones finished her thesis at Cambridge, Synonymy and Semantic Classification, and continued work on computational linguistics as it applies to IR
The National Bureau of Standards sponsored a symposium titled "Statistical Association Methods for Mechanized Documentation" Several highly significant papers, including G Salton's first published reference we believe to the SMART system
mid-1960s:
National Library of Medicine developed MEDLARS Medical Literature Analysis and Retrieval System, the first major machine-readable database and batch-retrieval system
Project Intrex at MIT
1965: J C R Licklider published Libraries of the Future
1966: Don Swanson was involved in studies at University of Chicago on Requirements for Future Catalogs
late 1960s: F Wilfrid Lancaster completed evaluation studies of the MEDLARS system and published the first edit ion of his text on information retrieval
1968:
Gerard Salton published Automatic Information Organization and Retrieval
John W Sammon, Jr's RADC Tech report "Some Mathematics of Information Storage and Retrieval" outlined the vector model
1969: Sammon's "A nonlinear mapping for data structure analysis" IEEE Transactions on Computers was the first proposal for visualization interface to an IR system
1970s
early 1970s:
First online systems—NLM's AIM-TWX, MEDLINE; Lockheed's Dialog; SDC's ORBIT
Theodor Nelson promoting concept of hypertext, published Computer Lib/Dream Machines
1971: Nicholas Jardine and Cornelis J van Rijsbergen published "The use of hierarchic clustering in information retrieval", which articulated the "cluster hypothesis"[23]
1975: Three highly influential publications by Salton fully articulated his vector processing framework and term discrimination model:
A Theory of Indexing Society for Industrial and Applied Mathematics
A Theory of Term Importance in Automatic Text Analysis JASIS v 26
A Vector Space Model for Automatic Indexing CACM 18:11
1978: The First ACM SIGIR conference
1979: C J van Rijsbergen published Information Retrieval Butterworths Heavy emphasis on probabilistic models
1979: Tamas Doszkocs implemented the CITE natural language user interface for MEDLINE at the National Library of Medicine The CITE system supported free form query input, ranked output and relevance feedback[24]
1980s
1980: First international ACM SIGIR conference, joint with British Computer Society IR group in Cambridge
1982: Nicholas J Belkin, Robert N Oddy, and Helen M Brooks proposed the ASK Anomalous State of Knowledge viewpoint for information retrieval This was an important concept, though their automated analysis tool proved ultimately disappointing
1983: Salton and Michael J McGill published Introduction to Modern Information Retrieval McGraw-Hill, with heavy emphasis on vector models
1985: David Blair and Bill Maron publish: An Evaluation of Retrieval Effectiveness for a Full-Text Document-Retrieval System
mid-1980s: Efforts to develop end-user versions of commercial IR systems
1985–1993: Key papers on and experimental systems for visualization interfaces
Work by Donald B Crouch, Robert R Korfhage, Matthew Chalmers, Anselm Spoerri and others
1989: First World Wide Web proposals by Tim Berners-Lee at CERN
1990s
1992: First TREC conference
1997: Publication of Korfhage's Information Storage and Retrieval[25] with emphasis on visualization and multi-reference point systems
late 1990s: Web search engines implementation of many features formerly found only in experimental IR systems Search engines become the most common and maybe best instantiation of IR models
Awards in the field
Tony Kent Strix award
Gerard Salton Award
Leading IR Research Groups
Center for Intelligent Information Retrieval CIIR at the University of Massachusetts Amherst [26]
Information Retrieval Group at the University of Glasgow [27]
Information and Language Processing Systems ILPS at the University of Amsterdam [28]
Language Technologies Institutes LTI at the Carnegie Mellon University
Text Information Management and Analysis Group TIMAN at the University of Illinois at Urbana-Champaign
See also
Adversarial information retrieval
Collaborative information seeking
Controlled vocabulary
Cross-language information retrieval
Data mining
European Summer School in Information Retrieval
Human–computer information retrieval HCIR
Information extraction
Information Retrieval Facility
Knowledge visualization
Multimedia information retrieval
Personal information management
Relevance Information Retrieval
Relevance feedback
Rocchio Classification
Search index
Social information seeking
Special Interest Group on Information Retrieval
Subject indexing
Temporal information retrieval
tf-idf
XML-Retrieval
References
^ Jansen, B J and Rieh, S 2010 The Seventeen Theoretical Constructs of Information Searching and Information Retrieval Journal of the American Society for Information Sciences and Technology 618, 1517-1534
^ Goodrum, Abby A 2000 "Image Information Retrieval: An Overview of Current Research" Informing Science 3 2 
^ Foote, Jonathan 1999 "An overview of audio information retrieval" Multimedia Systems Springer 
^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf 2009 Information Retrieval On Mind Maps - What Could It Be Good For Proceedings of the 5th International Conference on Collaborative Computing: Networking, Applications and Worksharing CollaborateCom'09 Washington, DC: IEEE 
^ Frakes, William B 1992 Information Retrieval Data Structures &amp; Algorithms Prentice-Hall, Inc ISBN 0-13-463837-9 
^ a b Singhal, Amit 2001 "Modern Information Retrieval: A Brief Overview" PDF Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 4: 35–43 
^ Mark Sanderson &amp; W Bruce Croft 2012 "The History of Information Retrieval Research" Proceedings of the IEEE 100: 1444–1451 doi:101109/jproc20122189916 
^ JE Holmstrom 1948 "'Section III Opening Plenary Session" The Royal Society Scientific Information Conference, 21 June-2 July 1948: report and papers submitted: 85 
^ a b Zhu, Mu 2004 "Recall, Precision and Average Precision" PDF 
^ Turpin, Andrew; Scholer, Falk 2006 "User performance versus precision measures for simple search tasks" Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval Seattle, WA, August 06–11, 2006 New York, NY: ACM: 11–18 doi:101145/11481701148176 ISBN 1-59593-369-7 
^ a b Everingham, Mark; Van Gool, Luc; Williams, Christopher K I; Winn, John; Zisserman, Andrew June 2010 "The PASCAL Visual Object Classes VOC Challenge" PDF International Journal of Computer Vision Springer 88 2: 303–338 doi:101007/s11263-009-0275-4 Retrieved 2011-08-29 
^ a b Manning, Christopher D; Raghavan, Prabhakar; Schütze, Hinrich 2008 Introduction to Information Retrieval Cambridge University Press 
^ KH Brodersen, CS Ong, KE Stephan, JM Buhmann 2010 The binormal assumption on precision-recall curves Proceedings of the 20th International Conference on Pattern Recognition, 4263-4266
^ a b c Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze 2009 "Chapter 8: Evaluation in information retrieval" PDF Retrieved 2015-06-14  CS1 maint: Uses authors parameter link Part of Introduction to Information Retrieval [1]
^ a b c d e http://trecnistgov/pubs/trec15/appendices/CEMEASURES06pdf
^ Fawcett, Tom 2006 "An Introduction to ROC Analysis" PDF Pattern Recognition Letters 27 8: 861 – 874 doi:101016/jpatrec200510010 
^ Powers, David M W 2011 "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness &amp; Correlation" PDF Journal of Machine Learning Technologies 2 1: 37–63 
^ Ting, Kai Ming 2011 Encyclopedia of machine learning Springer ISBN 978-0-387-30164 -8 
^ Mooers, Calvin N; The Theory of Digital Handling of Non-numerical Information and its Implications to Machine Economics Zator Technical Bulletin No 48, cited in Fairthorne, R A 1958 "Automatic Retrieval of Recorded Information" The Computer Journal 1 1: 37 doi:101093/comjnl/1136 
^ Doyle, Lauren; Becker, Joseph 1975 Information Retrieval and Processing Melville pp 410 pp ISBN 0-471-22151-1 
^ "Machine literature searching X Machine language; factors underlying its design and development" doi:101002/asi5090060411 
^ Maron, Melvin E 2008 "An Historical Note on the Origins of Probabilistic Indexing" PDF Information Processing and Management 44 2: 971–972 doi:101016/jipm200702012 
^ N Jardine, CJ van Rijsbergen December 1971 "The use of hierarchic clustering in information retrieval" Information Storage and Retrieval 7 5: 217–240 doi:101016/0020-02717190051-9 
^ Doszkocs, TE &amp; Rapp, BA 1979 "Searching MEDLINE in English: a Prototype User Inter-face with Natural Language Query, Ranked Output, and relevance feedback," In: Proceedings of the ASIS Annual Meeting, 16: 131-139
^ Korfhage, Robert R 1997 Information Storage and Retrieval Wiley pp 368 pp ISBN 978-0-471-14338-3 
^ "Center for Intelligent Information Retrieval | UMass Amherst" ciircsumassedu Retrieved 2016-07-29 
^ "University of Glasgow - Schools - School of Computing Science - Research - Research overview - Information Retrieval" wwwglaacuk Retrieved 2016-07-29 
^ "ILPS - information and language processing systems" ILPS Retrieved 2016-07-29 
Further reading
Christopher D Manning, Prabhakar Raghavan, and Hinrich Schütze Introduction to Information Retrieval Cambridge University Press, 2008
Stefan Büttcher, Charles L A Clarke, and Gordon V Cormack Information Retrieval: Implementing and Evaluating Search Engines MIT Press, Cambridge, Mass, 2010
External links
Wikiquote has q uotations related to: Information retrieval
ACM SIGIR: Information Retrieval Special Interest Group
BCS IRSG: British Computer Society - Information Retrieval Specialist Group
Text Retrieval Conference TREC
Forum for Information Retrieval Evaluation FIRE
Information Retrieval online book by C J van Rijsbergen
Information Retrieval Wiki
Information Retrieval Facility
Information Retrieval @ DUTH
TREC report on information retrieval evaluation techniques
How eBay measures search relevance
Information retrieval performance evaluation tool @ Athena Research Centre
Authority control
NDL: 00575010


Information retrieval

Random Posts

B♭ (musical note)

B♭ (musical note)

B♭ B-flat; also called si bémol is the eleventh step of the Western chromatic scale starting from C ...
Fourth dimension in art

Fourth dimension in art

New possibilities opened up by the concept of four-dimensional space and difficulties involved in tr...
Holt Renfrew

Holt Renfrew

Holt, Renfrew & Co, Limited, commonly known as Holt Renfrew or Holt's,1 is a chain of high-end C...
Later Silla

Later Silla

Later Silla 668–935, Hangul: 후신라; Hanja: 後新羅; RR: Hushila, Korean pronunciation: ...