2.5.3- Que hacer cuando hacen falta datos (missing values)
Esta es una de las situaciones mas comunes que se presentan cuando se trabaja con datos secundarios. Al momento de procesar la información vamos a encontrar que no todos los registros tienen todos los datos completos y aquí hay que tomar decisiones al respecto. Para ello es importante saber que hacer y si vale la pena salvar el registro o por el contrario es mejor desecharlo. También es importante saber que tan crucial son los datos faltantes y si hay posibilidad de hallarlos en otra fuente.
Una vez que identificamos que hay datos faltantes, primero debemos contar cuantos valores hacen falta, y que porcentaje del total de la población representan, ya que no es igual que haga falta el 0.5% de los datos de pesaje de novillos en un año, a que nos haga falta el 25% de los datos en un pesaje. Es importante saber por que faltan los datos y si algo se puede hacer para remediarlo. Vamos a trabajar con un ejemplo de registro de pesos para un grupo de novillos que se encuentran entre los 8 y 10 meses de edad.
2.5.3.1- Opción contar el total de los registros
Lo primero que vamos a hacer es contar el número de animales. En este caso podemos usar la función de Excel “contar” o “count”. Para ellos nos ubicamos en la celda donde queremos tener esta cuenta y escribimos la función (=count) y seleccionamos el rango de la tabla como se muestra en la ilustración. En es este caso hay 40 observaciones en total.
2.5.3.2- Contar los valores faltantes
Ahora para identificar el número de observaciones faltantes (missing values) podemos utilizar la función “contar.blanco” o “countblank” en Excel. Parea ello escribimos la función en la celda donde queremos tener el dato y seleccionamos el rango como se hizo en el caso anterior.
2.5.3.3- Determine la proporción de valores faltantes
En el ejemplo en total faltan tres registros, es decir el 7.5% de los pesos no aparecen. Ahora bien hay que tomar decisiones. Una puede ser descartar lo registros o asignarle a los datos faltantes el valor de la media poblacional. En caso de no querer descartar los registros pensando que en el futuro cuando el animal salga a la venta se puede tener una idea aproximada de la ganancia de peso para ese periodo de tiempo, podemos incluir la media del peso en el es campo faltante basados en el peso medio del lote como control.
La manera de incluir el promedio del lote en los registros sin datos es la siguiente: lo primero es obtener la media de los pesos sin los registros que estan en blanco para ello utilizamos la función 'averageif o en español 'promedio.si' como se muestra en la barra de fórmulas de las imagen número 2.5.3.3. Es decir se calcula el promedio del lote, excluyendo aquellos que estan en blanco
2.5.3.4- Calcular la media para incluir en los valores faltantes
El valor que vamos a 'insertar' en las celdas en blanco es la media que obtuvimos en el paso anterior, este valor tiene que copiarse en una celda aparte de donde hicimos el cálculo (sin la fórmula) ya que de lo contrario entraremos en un error de referencia circular. Una vez hecho esto, desde el menú inicio seleccionamos buscar (find) y de ahi seleccionar 'ir a especial' o 'go to special'
2.5.3.5- Seleccionar los espacios en blanco
En la hoja de dialogo seleccionar la opción 'blancos' (blanks) y hacer click en OK.
2.5.3.6- Señalar el valor a insertar
Una vez seleccionados los campos en blanco, en la primera celda resaltada deberemos copiar la coordendada donde se encuentra el valor que deseamos incluir en este caso = I9, sin embargo debemos tener cuidado de fijar la coordenadas con el signo $, es decir =$I$9. Una vez hecho esto presionar al tiempo control + enter (windows) o command + enter (si es un mac) y los valores se copiaran automáticamente.
2.5.3.7- Revisar que el dato fue adecuadamente copiado en todas las
celdas
Finalmente se puede observar que ya no existen valores faltantes, sino que han sido reemplazados con la media y de esta manera no vamos a afectar este resultado de la media del lote. Solo se recomienda hacer esto cuando no hagan falta muchos datos y por alguna razon es mejor no borrar los registros. También es importante no incluir estos registros si hacen parte de otro análisis ya que esto tendría alguna incidencia sobre los resultados.
Como trabajar cuando hay datos faltantes