Modèle mixte r

NOTE 2: les modèles peuvent également être comparés à l`aide de la fonction AICc du paquet AICcmodavg. Le critère d`information d`Akour (AIC) est une mesure de la qualité du modèle. L`AICc corrige le biais créé par la petite taille d`échantillon lors de l`estimation de l`AIC. Généralement, si les modèles sont à l`intérieur de 2 unités AICc les uns des autres, ils sont très similaires. Dans les 5 unités, ils sont assez similaires, plus de 10 unités de différence et vous pouvez probablement être heureux avec le modèle avec AICc inférieur. Comme avec les valeurs de p cependant, il n`y a pas de «ligne dure» qui est toujours correcte. Un modèle mixte est un bon choix ici: il nous permettra d`utiliser toutes les données que nous avons (taille de l`échantillon plus élevé) et de tenir compte des corrélations entre les données provenant des sites et des chaînes de montagnes. Nous allons également estimer moins de paramètres et éviter les problèmes avec les comparaisons multiples que nous pourrions rencontrer tout en utilisant des régressions distinctes. Comme pour beaucoup d`autres problèmes, il y a plusieurs paquets en R qui vous permettent de faire face à des modèles mixtes linéaires à partir d`un point de vue fréquentiste (REML).

Je ne mentionnerai que le nLME (effets mixtes non linéaires), le lme4 (effets mixtes linéaires) et l`asreml (REML spatial moyen). Il existe également plusieurs options pour les approches bayésiennes, mais ce sera un autre poste. Pour lme4 si vous êtes à la recherche d`une table, je vous recommande d`avoir un regard sur le paquet Stargazer. Tout comme nous l`avons fait avec les chaînes de montagnes, nous devons supposer que les données recueillies au sein de nos sites pourraient être corrélées et nous devrions donc inclure des sites comme un effet aléatoire supplémentaire dans notre modèle. Maintenant, nous allons tracer nos variables prédictitrices continues. La visualisation des données peut nous aider à comprendre les distributions, intercepter les erreurs de codage (par exemple, nous savons qu`une variable ne prend que des valeurs de 0 à 7, mais nous voyons un 999 dans le graphique), et nous donner une idée de la relation entre nos variables. Par exemple, nous pouvons voir que deux prédicteurs sont fortement corrélés et décident que nous voulons seulement inclure un dans le modèle, ou nous pouvons noter une relation curviligne entre deux variables. La visualisation des données est un moyen rapide et intuitif de vérifier tout cela à la fois. Si la plupart de vos prédicteurs apparaissent indépendamment les uns des autres, c`est très bien. Il façonne vos attentes du modèle.

Par exemple, si elles sont indépendantes, l`estimation d`un prédicteur ne doit pas changer beaucoup lorsque vous entrez un autre prédicteur (même si les tests d`erreur et de signification standard peuvent). Nous pouvons obtenir toutes ces informations et l`intuition sur ce que et comment modéliser sont des données en l`affichant simplement. La dernière section est un tableau des estimations d`effets fixes. Pour de nombreuses applications, ce sont les personnes qui s`intéressent avant tout. Les estimations représentent les coefficients de régression. Ceux-ci sont non standardisés et sont sur l`échelle logit. Les estimations sont suivies de leurs erreurs standard (SEs). Comme c`est fréquent dans les GLMs, les SEs sont obtenues en invertant la matrice d`information observée (deuxième matrice dérivée négative). Cependant, pour les GLMMs, c`est encore une approximation.

Les approximations des estimations de coefficient se stabilisent probablement plus rapidement que celles pour les SEs. Ainsi, si vous utilisez moins de points d`intégration, les estimations peuvent être raisonnables, mais l`approximation des SEs peut être moins exacte. Les tests de Wald, (FRAC {estimation} {se}), reposent sur la théorie asymptotique, ici se référant à la taille de l`unité de niveau le plus élevé converge à l`infini, ces tests seront normalement distribués, et à partir de ce, valeurs p (la probabilité d`obtenir l`estimation observée ou plus l`extrême, étant donné que l`estimation réelle est 0).