Ok, parlons de ce problème de prédiction du prix d'une maison C'est un problème très important, au moins au Etats-Unis On estime que 50% des économies d'un foyer est investi dans l'immobilier C'est clairement important Autant pour les consommateurs que pour les décideurs politiques Ok, donc je suis là et je souhaite vendre ma maison. J'ai cette belle et grande maison, vert pomme, mais je ne sais pas quel prix lui attribuer. Donc je ne suis pas de sa valeur, et donc comment puis-je faire pour estimer la valeur de cette maison? Il parait censé d'aller regarder d'autres ventes récentes qui ont eu lieu dans mon voisinage. Donc je regarde dans les environs, dans la région qui m'entoure, et je constate à quel prix les maisons se sont vendues et à quoi elles ressemblaient? Donc ce que je vais faire, c'est noter pour chacune des ventes récentes à quel prix elles ont été conclues? Et aussi, quelle était la taille de la maison qui a été vendue? Je vais dire que c'est ce qui signifie que cette maison est similaire à la mienne ou pas. Ok, et étant une statisticienne, je vais prendre toutes ces observations et je vais les illustrer par un graphique. Au moins au Etats-Unis, la taille des maisons est mesurée en pieds carrés. Ce sera donc mon axe des x. Et mon axe des y sera le prix de vente de la maison. Ok, donc ca c'est ma variable des y et chacun de ces points représente une vente unique de maison. Donc ici c'est une des ventes passées dans mon voisinage. Et juste pour introduire un peu de terminologie, quand on parle de régression, on fait souvent référence à x, cette variable x, comme étant la fonctionnalité, c'est la terminologie que nous avons utilisé. On en parle aussi comme de la covariable, ou de l'indicateur, et dans certains cas, elle s'appelle la variable indépendante. Ensuite, notre observation y, comme je viens de le dire, j'ai tendance à y référer comme à une observation. Certaines personnes l'appelle une résponse, ou une variable dépendante. Ok, donc la question est comment vais-je utiliser ces observations pour estimer la valeur de ma maison? Et bien je pourrai regarder sa taille et regarder d'autres ventes de maison de cette taille. Le plus probable, c'est qu'il y ait exactement zéro vente de maisons qui avaient exactement la même surface que la mienne. Ok, donc je me dis que je ne peux pas utiliser cette approche. Je vais être un peu plus flexible et je vais regarder un certain voisinage, pas un voisinage géographique, un petit intervalle de surface autour de ma surface au sol. Donc je vais dire ok, regardons toutes les ventes qui concernaient des maisons dans cet intervalle de surface au sol. Mais même avec cette approche, dans ce cas par exemple, j'ai seulement deux ventes de maison sur lesquelles je peux fonder mon estimation. Donc ça me dérange. Et ce que je fais en fait ici, c'est que je me débarrasse de toutes ces autres observations comme si elles n'avaient rien à voir avec la valeur de ma maison. Et la question est, est-ce raisonnable? Est-ce qu'on croit vraiment qu'il n'y a aucune information dans ces autres observations? Et bien, quand je regarde ces données et quand je pense aux données, j'aime tirer parti de toutes les informations que je peux pour fournir des bonnes prédictions.