María Leyenda Rodríguez EJERCICIO: El módulo básico de R contiene un ejemplo,denominado CO2, relativo a la absorción de CO2 de ciertas plantas en función de la concentración de CO2 ambienta, del origen de la planta y de un factor que indica si la planta ha sido sometida a helada la noche anterior al experimento. a) Construcción de un modelo de regresión de la absorción de CO2 sobre la concentración ambiental de CO2 y el origen de la planta,en base a la significación de coeficientes. En primer lugar, observamos que tenemos dos variables explicativas; una es la concentración ambiental y la otra es el origen de la planta. Por tanto, existen varios modelos posibles que se obtienen como resultado de la combinación de las variables explicativas,operaciones sobre ellas o interacciones. Luego, tendremos que buscar el modelo que mejor ajuste los datos y que a la vez sea lo más sencillo posible, es decir, se trata de incorporar al modelo únicamente los elementos que estén justificados para la mejora del ajuste, la significación medida con alguna prueba o criterios similares. Los métodos que nos resuelven el problema descrito anteriormente son, los métodos de selección de variables. Lo habitual, es que los métodos de selección de variables respetan la estructura jerarquica del modelo, y por tanto, sólo incorpore un elemento al modelo si el modelo ya posee todos los efectos de orden inferior. Estos métodos suelen aplicar dos pautas: Métodos Forward: Se parte de un modelo sencillo y se van añadiendo términos con algún criterio, hasta que se considera que no procede añadir ninguno más. Métodos Backward: Se parte de un modelo muy conplejo, que contiene todos los efectos que pueden llegar a infuír en la variable respuesta, y se van eliminando términos con algún criterio, hasta llegar a la conclusión de que no procede suprimir ninguno más. Tambien hay métodos de selección que combinan pasos forward y pasos backward. En este apartado, vamos a emplear el criterio basado en la significación del término para la supresión o inclusión de términos al modelo de regresión y cómo criterio de significación emplearemos la siognificación del coeficiente. Nosotros usaremos este criterio en un método forward,por tanto, se añadirá el coeficiente que al añadirlo al modelo resulte más significativo; hasta que todos los elementos que queden fuera del modelo sean no significativos. Tambien podríamos haber usado un método backwarz, que suprimiría el término que resultase menos significativo; hasta que todos los coeficientes son significativos. Incluso podríamos haber usado, una combinación de pasos forward y de pasos backward, aunque en este caso sería necesario que el nivel de significación de entrada sea más pequeño que el de salida para que el proceso llegue a su fin. En nuestro caso particular, como hemos dicho que usaríamos un método forward empezaremos por un modelo muy sencillo,con solo una constante Cómo este coeficiente es significativo, veamos si los coeficientes asociados a los efectos principales son significativos, es decir, el coeficiente asociado a la variable que representa la concentración de CO2 ambiental y el coeficiente que representa el origen de la planta La variable que representa el origen de la planta es una variable discreta,que la reparametrizaremos de la sigiente forma Y1j= mu1+e1j Y2j=mmu1+alfai+e2j coeficientes En esta parametrización hemos tomado la primera como categoria de referencia,de manera que en lugar de la media global se considera la media del primer grupo mu1 como referencia,y se miden las desviaciones que experimentan los demás grupos respecto del grupo de referencia. Si tenemos en cuenta la parametrización Que es la más natural,obtenemos que Estamos en condiciones de considerar un modelo que incluya simultaneamente los efectos del grupo de pertenencia y de la variable explicativa continúa. Lo haremos de la siguiente manera Este modelo es sin interacción pues se están considerando los efectos principales de las variables explicativas, tanto de la discreta como de la continua, pero se supone que dichos elementos se suman no se potencian el uno con el otro. La idea geométrica qué está detrás de este modelo es que,fijado el grupo,la recta de regresión de Y sobre z es una recta cuya coordenada en el origen es mu +alfai, y cuya pendiente es gamma. Al cambiar de grupola ordenada en el origen se modifica pues cambia alfai,pero la pendiente sigue siendo la misma,gamm.En consecuencia las rectas de regresión de los dos grupos son paralelas.Cambiar de un grupo a otro modifica el punto de partida,creandoun desplazamiento vertical hacia arriba o hacia abajo para todos los individuos,independientemente del valor de z, que por lo demás sigue aportando a la respuesta ,Y, el mismo incremento gamma por unidad z,sin verse tampoco afectada por el grupo. Por todo ello decimos que los efectos de las dos variables explicativas no interactúan,sino que simplemente se suman. Finalmente consideremos el modelo con interacción y veamos si es aceptable.