[МУЗИКА] Досега се концентрирахме над задачата да намерим подходящ документ за някого, който чете статия и ние просто претърсихме всички останали статии в корпуса за да намерим тази статия, която е най-близка или много близка до статията, която човекът чете. Но в много случаи сме всъщност заинтересовани да намерим структурирано представяне на нашите данни, на всички статии. Един пример за структурирано представяне, от който може да сме заинтересовани, е откриването на клъстери от статии, така че да открием групи от статии, които са свързани помежду си. Ще обсъдим причини за искането на такива клъстери, както и алгоритми за реализирането на това клъстеризиране. Нека навлезем в целта на клъстеризирането, също както и някои приложения, които мотивират реализирането на клъстеризиране в контекста на нашето приложение с документи. Целта на клъстеризирането е да се открият групи от свързани статии. Така че, например, може би има група където всичките статии в тази група са свързани към теми, свързани със спорт. И може би има друга група, където всички статии са относно световните новини. Ако можем да открием този тип структура в нашите данни, тогава ако правим нещо подобно на задачата за намиране на подходящ документ, за която говорихме по-рано. , тогава ако човек чете статия и ние намерим в коя група попада тази статия, и тогава, когато търсим друга статия за този потребител, ние можем просто да потърсим всички статии в тази група. Така че ако човек чете статия за спорт, може би можем да му препоръчаме друга статия за спорт, само търсейки най-близкия съсед в дадената група от статии за спорт. Но всъщност можем да използваме клъстеризиране, за да правим дори по-модерни неща Например може би сме заинтересовани в изучаването на предпочитанията на потребител над дадени теми В такъв случай, ние приемаме, че човекът не се интересува само от спорт. Той може да има и други интереси и когато ще представим статия на този потребител, може би бихме искали да изследваме и някои от тези предпочитания. В този случай, ако си представим, че имаме клъстеризиране на нашите статии в тези групи от свързани статии, тогава потребителя ще прочете някакво подмножество от статии в корпуса, това са статиите, които не са посивени тук. Това са всички статии, които потребителя е прочел, и след това да си представим, че потребителя ни дава някаква обратна връзка относно статиите, дали му харесва или не. Нека плюс знакът да значи "да, хареса ми статията" а знакът минус - че не му е харесала. Така че потребителя е харесал тези две статии в клъстер 1, този зелен клъстер, както и тази статия в клъстер 4, оранжевият клъстер, не са харесали статията, която са прочели в този син клъстер, клъстер 2. Не им е харесала тази друга статия в клъстер 4, харесала им е тази статия в синия клъстер, клъстер 2 и така нататък. И след като получим тази обратна връзка или получавайки я в течение на времето можем да използваме това, за да научим този тип от предпочитания по теми Нещо, което ще обсъдим и че всъщност нямаме етикети на темите като "спорт", "световни новини" и т.н. Но знаем, че има групи от статии и можем да използваме това, зада избираме статии от тези групи. Или може след това да влезем в групите и да сложим етикети на групите сами. [МУЗИКА]