[MÚSICA] Consideraremos que los datos no están clasificados, no tienen rótulos Apuntamos a inferir grupos de artículos relacionados que formarán grupos Aquí la entrada será un vector cada observación que vamos a graficar quí es nuestro vector contador de palabras y en este caso, estamos observando un ejemplo muy simple con un vocabulario que solo tiene dos palabras Tenemos un vector, tenemos palabra 1 y palabra 2 y este eje es palabra 2 y este palabra 1 Recuerda que en realidad tendemos a tener vocabularios muy grandes y tenemos estos grandes vectores de muchas dimensiones Cuando estamos graficando nuestras observaciones, éstas están en un espacio de muchas dimensiones, pero para la visualización veamos esta representación 2D De modo que tendremos un gran número de documentos acá, todos representados por sus contadores de palabras sobre estas dos palabras distintas en el vocabulario De modo que esta es la entrada al algoritmo de agrupamiento, y la salida serán los rótulos de los grupos Lo que quiero decir es que esta observación y todas estas obseraciones acá, todas estas serán rotuladas como rojo Quizás se les aplique un rótulo de grupo Uno Llamemos a este Grupo 1 Para cada documento habrá algún rótulo Ésta será rotulada Uno Todas estas observaciones de acá tendrá algún otro rótulo Supongamos que este es el grupo 2 De modo que esta observación obtiene el rótulo Dos Y todas estas observaciones tendrán el rótulo 3 Ésas van a ser la salida de este algoritmo Y quizás lo que puedes hacer es a posteriori recorrerlos y buscar algún artículo en el grupo 1 y podrías decir que este grupo es en realidad sobre deportes Y voya a escribir explícitamente que este rótulo se asigna a posteriori Bien, éste es un ejemplo de una tarea de aprendizaje no supervisado porque estamos operando sin ningún rótulo Solo tenemos observaciones y y estamos intentando descubrir alguna estructura en estas observaciones De nuevo, la entrada es nuestro vector contador de palabras y la salida es para cada documento en la colección vamos a asociarle algún rótulo de grupo ¿Qué define un grupo? Cada grupo está definido por un centro de grupo. Marcaré los centros de grupo con X Y además está la forma del grupo y estas elipses están representando las formas de estos grupos Y cuando pensamos si estas observaciones, estas observaciones acá deben ser asignadas al grupo verde o al grupo rojo lo que estamos haciendo es determinando que tan parecido es este artículo con los otros articulos basado en la forma de este grupo Puntuamos cada observación basándonos en el centro del grupo y también en la forma del grupo Y en este caso, como este grupo tiene forma oblonga inclinada será asignado al grupo verde en lugar de al grupo rojo Pero otra forma de hacerlo, que es muy común, es en lugar de ver la forma del grupo, buscamos los centros del grupo Entonces medimos la distancia de esta observación déjenme cambiar el color acá, en esta forma de hacerlo como comparamos la distancia de esta observación al centro del grupo verde versus la distancia al centro del grupo rojo Y en este caso va a ser dificultoso decidir si este artículo debería quedar en el grupo verde o en el grupo rojo Pero hay otros casos como esta obaservación aquí donde es bastante obvio con esta métrica que debería ser asignado al grupo rojo