• Les Forêts aléatoires avec R
  • Préambule
  • 1 Introduction
    • 1.5 Jeux de données
      • 1.5.1 Jeu de données fil rouge : détection de spams
      • 1.5.2 Pollution à l’ozone
      • 1.5.3 Analyser des données génomiques pour une étude vaccinale
      • 1.5.4 Pollution par les poussières
  • 2 Arbres CART
    • 2.4 Le package rpart
    • 2.5 Découpes concurrentes et de substitution
      • 2.5.2 Découpes de substitution
      • 2.5.3 Interprétabilité
    • 2.6 Exemples
      • 2.6.1 Prédire la concentration d’ozone
      • 2.6.2 Analyser des données génomiques
  • 3 Forêts aléatoires
    • 3.1 Principe général
      • 3.1.1 Instabilité d’un arbre
      • 3.1.2 D’un arbre à un ensemble : le Bagging
    • 3.3 Le package randomForest
    • 3.5 Réglage des paramètres pour la prédiction
      • 3.5.1 Le nombre d’arbres ntree
      • 3.5.2 Le nombre de variables choisies à chaque noeud mtry
    • 3.6 Exemples
      • 3.6.1 Prédire la concentration d’ozone
      • 3.6.2 Analyser des données génomiques
      • 3.6.3 Analyser la pollution par les poussières
  • 4 Importance des variables
    • 4.1 Notions d’importance
    • 4.3 Diversité des arbres et importance des variables
    • 4.5 Exemples
      • 4.5.1 Une illustration par simulation en régression
      • 4.5.2 Prédire la concentration d’ozone
      • 4.5.3 Analyser des données génomiques
  • 5 Sélection de variables
    • 5.4 Le package VSURF
    • 5.5 Réglage des paramètres pour la sélection
    • 5.6 Exemples
      • 5.6.1 Prédire la concentration d’ozone
      • 5.6.2 Analyser des données génomiques
  • Published with bookdown

Les Forêts aléatoires avec R

1 Introduction

1.5 Jeux de données

1.5.1 Jeu de données fil rouge : détection de spams

data("spam", package = "kernlab")
set.seed(9146301)
levels(spam$type) <- c("ok", "spam")
yTable <- table(spam$type)
indApp <- c(sample(1:yTable[2], yTable[2]/2),
            sample((yTable[2] + 1):nrow(spam), yTable[1]/2))
spamApp <- spam[indApp, ]
spamTest <- spam[-indApp, ]

1.5.2 Pollution à l’ozone

data("Ozone", package = "mlbench")

1.5.3 Analyser des données génomiques pour une étude vaccinale

data("vac18", package = "mixOmics")

1.5.4 Pollution par les poussières

data("jus", package = "VSURF")