[MÚSICA] Ahora vamos a profundizar, y entender cómo vamos a predecir la probabilidad de que una oración sea positiva o negativa usando clasificadores lineales. O podemos llamarlos modelos lineales. Ahora, tomaremos algunos datos de entrada x. Vamos a calcular algunas características h, y vamos a obtener este P^, la probabilidad de que la calificación sea positiva o negativa. Si volvemos a nuestro ejemplo de fronteras de decisión, hemos calculado el resultado de cada dato como w transpuesta h de x, o w0*h0 + w1*h1 + w2*h2 + w3*h3, y así. Todo lo que estaba bajo la recta tenía un valor mayor que 0. Todo lo que estaba por encima tenía valor menor que cero, pero no sabemos hasta donde. Es como una gran cantidad inferior a 0, y mucho mayor que 0, potencialmente. Y cómo relacionamos estos valores, que pueden estar entre menos infinito y más infinito, con la probabilidad que la salida sea +1, la probabilidad que la oración sea +1. Y esa es la tarea que intentaremos realizar hoy. De hecho, tenemos w transpuesta h, el valor, que puede variar entre menos infinito y más infinito. Si es es positivo, mayor que 0, vamos a predecir +1, y si es negativo menor que 0, vamos a poner -1. Lo que queremos decir es que si el valor es realmente muy grande, como infinito, entonces estamos muy seguros que ŷ es +1. Así que vamos a decir que la probabilidad que y=+1 dada esta entrada es 1. Por otro lado, si el valor es muy negativo, como menos infinito, estamos muy seguros que ŷ es -1. Y entonces deberíamos obtener la probabilidad de que y=+1 es 0, para esta entrada x en particular. Ahora, si el valor es 0, estamos justo en la frontera de decisión donde no es positivo ni negativo. Entonces podemos ser indiferentes en predecir si ŷ es +1 o -1. Por lo que si somos indiferentes con las probabilidades, podemos interpretar eso. Podemos decir que la probabilidad que 'y' sea +1 dada la entrada, es 0.5, es decir 50-50. Podría ir en cualquier dirección. Entonces, ese es nuestro objetivo. Predecir estas probabilidades a partir de los valores. Así que, tenemos los valores. Los valores pueden variar entre menos infinito y más infinito. Y son esta combinación ponderada de las características. Y las probabilidades están entre 0 y 1. Si el valor es menos infinito, quiero que la probabilidad de esa salida sea 0. Si el valor es más infinito, quiero predecir la salida con 1.0. Y si el valor es 0.0, quiero decir que la probabilidad es 0.5. Los valores pueden variar entre menos infinito y más infinito, las probabilidades entre 0 y 1. La pregunta es ¿Cómo relacionar los valores entre menos infinito y más infinito, con la probabilidad entre 0 y 1? ¿Cómo se relacionan estas dos cosas? Y ahora vamos a ver algo de magia. [RISAS] La magia que pega, que enlaza este rango de menos infinito a más infinito, con el rango 0,1 se llama una función de enlace, que enlaza ambas. Voy a tomar el valor, que está entre menos infinito y más infinito, y voy a pasarlo a través de una función g que comprime esa enorme linea al intervalo 0,1 [SONIDO] Y usarla para predecir la probabilidad que y=+1. Y cuando tomas un modelo lineal, w transpuesta h, menos infinito a más infinito, y lo comprimes en 0, 1 usando funciones de enlace, estas construyendo un modelo lineal generalizado. Así que, si alguien te detiene hoy en la calle y te pregunta ¿Qué es un modelo lineal generalizado? Dile no hay problema. Es como un modelo de regresión, pero comprimiendo entre 0, 1 a través de una función de enlace. Así que, es un poco abstracto. Hablaremos sobre esto en el contexto de la regresión logística, que es un tipo específico de función de enlace. Ahora que hemos hablado sobre modelos lineales generalizados como compresor de menos infinito a más infinito, al intervalo 0,1. Eso vale para clasificadores y la mayoría de los tipos de clasificadores. Hay otros tipos de modelos lineales generalizados que no comprimen entre 0 y 1. Pero para los fines, puedes pensar sobre ellos en ese contexto. Así que en este contexto, nuestro objetivo ahora se convierte en tomar los datos de entrenamiento, pasarlo a través de algún extractor de características que nos da las h's, TFIDF o cualquiera que se represente en los datos, número de "increíbles". Y ahora, construimos un modelo lineal W transpuesta h, lo pasamos a través de la función de enlace que lo comprime al intervalo 0,1. Y usamos eso para predecir la probabilidad que el sentimiento del comentario es positivo dada la oración de entrada. [MÚSICA]