Agregació de bootstrap

Una il·lustració del concepte d'agregació bootstrap.

L'agregació de bootstrap, també anomenada bagging (de b ootstrap agg regat ing), és un metaalgoritme de conjunt d'aprenentatge automàtic dissenyat per millorar l'estabilitat i la precisió dels algorismes d'aprenentatge automàtic utilitzats en la classificació estadística i la regressió. També redueix la variància i ajuda a evitar el sobreajustament. Encara que normalment s'aplica als mètodes d'arbre de decisió, es pot utilitzar amb qualsevol tipus de mètode. L'empaquetament és un cas especial de l'enfocament de la mitjana del model.[1]

Donat un conjunt d'entrenament estàndard D {\displaystyle D} de mida n, l'empaquetament genera m nous conjunts d'entrenament D i {\displaystyle D_{i}} , cadascuna de mida n′, mitjançant un mostreig de D uniformement i amb substitució. Mitjançant el mostreig amb substitució, es poden repetir algunes observacions en cadascun D i {\displaystyle D_{i}} . Si n′=n, aleshores per a n gran el conjunt D i {\displaystyle D_{i}} s'espera que tingui la fracció (1 - 1/ e) (≈63,2%) dels exemples únics de D, la resta són duplicats.[2] Aquest tipus de mostra es coneix com a mostra d'arrencada. El mostreig amb substitució garanteix que cada bootstrap sigui independent dels seus companys, ja que no depèn de les mostres escollides anteriorment quan es mostren. A continuació, s'ajusten m models utilitzant les m mostres d'arrencada anteriors i es combinen fent la mitjana de la sortida (per a la regressió) o la votació (per a la classificació).[3]

Per exemple fent un símil de mostreig, si es capturen peixos, es mesuren i immediatament s tornen a l'aigua abans de continuar amb la mostra, aquest és un mostreig amb agregació, perquè es podria acabar capturant i mesurant el mateix peix més d'una vegada. Tanmateix, si no es torna el peix a l'aigua ni s'etiqueta i allibera cada peix després de capturar-lo, aquest es converteix en un disseny sense agregació.[4]

El conjunt de dades d'arrencada es fa seleccionant objectes aleatòriament del conjunt de dades original. A més, ha de tenir la mateixa mida que el conjunt de dades original. Tanmateix, la diferència és que el conjunt de dades d'arrencada pot tenir objectes duplicats. Aquí teniu un exemple senzill per demostrar com funciona juntament amb la il·lustració següent:

Suposem que el conjunt de dades original és un grup de 12 persones. Aquests nois són Emily, Jessie, George, Constantine, Lexi, Theodore, John, James, Rachel, Anthony, Ellie i Jamal.

Si escollim un grup de noms a l'atzar, diguem que el nostre conjunt de dades d'arrencada tenia James, Ellie, Constantine, Lexi, John, Constantine, Theodore, Constantine, Anthony, Lexi, Constantine i Theodore. En aquest cas, la mostra bootstrap contenia quatre duplicats per a Constantine i dos duplicats per a Lexi i Theodore.

Referències

  1. Brownlee, Jason. «Essence of Bootstrap Aggregation Ensembles» (en anglès). https://machinelearningmastery.com,+16-05-2021.+[Consulta: 3 novembre 2022].
  2. Aslam, Javed A.; Popa, Raluca A.; and Rivest, Ronald L. (2007); On Estimating the Size and Confidence of a Statistical Audit, Proceedings of the Electronic Voting Technology Workshop (EVT '07), Boston, MA, August 6, 2007. More generally, when drawing with replacement n′ values out of a set of n (different and equally likely), the expected number of unique draws is n ( 1 e n / n ) {\displaystyle n(1-e^{-n'/n})} .
  3. «Bagging (Bootstrap Aggregation)» (en anglès). https://corporatefinanceinstitute.com.+[Consulta: 3 novembre 2022].
  4. «Python Machine Learning - Bootstrap Aggregation (Bagging)» (en anglès). https://www.w3schools.com.+[Consulta: 3 novembre 2022].