[MÚSICA] Hemos visto y explorado un poco el modelo de regresión logística. Y dimos indicios de qué significa aprendizaje, encontrado los mejores parámetros para estos modelos. Sin embargo, hablamos sobre las características de una manera abstracta. Dijimos que teníamos número de increíbles, número de horribles, y así. Pero tenemos que pensar un poco más profundo cuando nuestras entradas se llaman variables categóricas. Tomemos un pequeño ejemplo. Si nuestras entradas x fueran valores numéricos como número de increíbles, una edad, un salario, es natural multiplicarlos por coeficientes particulares. Así, 1.5 veces el número de increíbles tiene sentido, o 17 veces el salario tiene sentido como valor numérico en la función score. Sin embargo, si usamos entradas categóricas como masculino, femenino, lugar de nacimiento, código postal, que en Estados Unidos se llama zipcode. En Estados Unidos El código postal, o zipcode, está definido por cinco números. Por ejemplo, 10005 o 98195. Este es un número que se puede multiplicar por un coeficiente, sin embargo, en realidad no se comportan como valores numéricos, se comportan más como valores categóricos. Por ejemplo, 98195 no es 9 veces más grande que 10005. Es sólo una parte diferente del país. Así que incluso los números, si no se comportan como una escala continua sino como un indicador de localización como en este ejemplo, el indicador de categoría, entonces tenemos que codificarlos de formas interesantes si vamos a multiplicarlos por algún coeficiente. La pregunta es ¿Cómo multiplicamos un coeficiente como 1.5 o -2.7 con esta categoría llamada variable? Y para hacer esto vamos a usar lo que se llama un codificador. Un codificador toma una entrada categórica, por ejemplo país de nacimiento, e intenta codificarlo usando algún tipo de valores numéricos que son naturalmente multiplicados por algunos coeficientes. Por ejemplo, país de nacimiento, podría tener 196 categorías o países que podría tomar como valor. Y una manera de codificar esto es usando la codificación 1-hot, donde se crea una característica para cada país posible. Por ejemplo, podría ser una característica para Argentina, una característica para Brasil, y así, hasta una característica para Zimbabwe. Y así, si alguien ha nacido en Brasil, entonces la característica para Argentina vale 0, la característica para Brasil vale 1, y todas las otras características valen 0. Entonces, sólo una de estas características tiene valor 1, y el resto 0, por eso se llama 1-hot. Proviene de ingeniería eléctrica, que significa 1 encendido o 1 activado. De manera similar, si alguien ha nacido en Zimbabwe, obtendremos 0, 0, 0, 0, y sólo 1 en la característica h196 que corresponde a Zimbabwe. Esa es una forma de codificar. E implícitamente en éste módulo, hemos explorado un tipo diferente de codificación para datos tipo texto. Y discutimos eso en el primer curso, lo que se llamaba Bolsa de Palabras. Así, un comentario está definido por texto, que puede tener 10 000 palabras diferentes que provienen de él, o más, mucho más, millones. Y lo que hace Mochila de Palabras es tomar ese texto y codificarlo como cuentas. Por ejemplo, podríamos asociar h1 con el número de increíbles, h2 con el número de horribles. Y así hasta h10000 que podría ser el número de sushis. Es decir el número de veces que aparece la palabra sushi. Y un dato en particular podría tener 2 increíbles, 0 horribles, 0 de otras cosas, y tal vez 3 sushi. Entonces se vuelve un vector muy disperso, de 10000 dimensiones. En ambos casos, hemos tomado una entrada categórica, y definido un conjunto de características, una para cada categoría posible, para contener un valor o una cuenta. Y esto podemos pasarlo directamente al modelo de regresión logística que discutimos previamente. Este tipo de codificación es muy fundamental en la práctica, y deberías familiarizarte mucho con ello. [MÚSICA]