Datos: el error es inevitable
La calidad de cualquier trabajo esta relacionado directamente con la calidad de datos recolectados, en el proceso el error es inevitable.
Los datos son nuestro único vínculo con el mundo que estudiamos. Los datos son los mejores modelos de la naturaleza y ocupan la posición suprema en todas las aplicaciones del método científico.
NOTA: este artículo es la continuación de las ideas sobre el método científico planteados en los artículos:
1ra parte) El Método científico, para todos y
(la 2da parte)
El progreso de la ciencia, los negocios y la industria tienen su base en los datos. La calidad de cualquier trabajo tiene una relación directa con la calidad de los datos de los cuales se deriva.
Hoy tenemos a la disposición más medios para recopilar datos—por ende, más datos—sobre innumerables fenómenos y no necesitamos contratar un ejército de recolectores de datos. Pero la tecnología mejorada no garantiza mejores datos.
Tal como todo modelo, los datos nunca son exactos
Es un hecho que los datos recopilados nunca coincidirán exactamente con lo que creemos que representan.
Los datos son un tipo especial de modelo que transformamos en información sobre el fenómeno estudiado y como todos los modelos, los datos son simplificaciones de la naturaleza. En los modelos abstractos, como las teorías e hipótesis, nos ayudan a simplificar la naturaleza, son nuestros sustitutos de la realidad.
En un sentido estricto, los datos siempre estarán incompletos, sin embargo, en lugar de referirnos a los datos como "falsos", decimos que los datos se "miden con un margen de error". En este contexto, "error" no implica descuido, más bien significa "variación".
Variación en los datos y el error
No todos los datos fueron creados iguales
El objetivo universal al utilizar el método científico es reducir el error y cuando decimos que los datos se miden con error es para indicar que han sido recopilados en más de una ocasión (y por diferentes personas) y cualquier variación que haga que nuestra medición sea inexacta, es un error.
Tipos de errores
No todos los errores son creados iguales
Existen diferentes fuentes de error al recolectar datos y, aunque no se puede eliminar por completo el error, existen salvaguardas y precauciones para reducirlo. Para cada tipo de error se requiere una diferente medida de seguridad.
Error de redondeo, precisión y exactitud
No todas las medidas pueden hacerse con exactitud. El error de precisión y redondeo se aplica a muchos tipos de medidas: tiempo, velocidad, peso, energía, volumen, distancia y muchas otras. Para la mayoría de las aplicaciones no técnicas, este tipo de error no es importante por lo que no importa el valor más allá de unos pocos decimales.
Desde el punto de vista de la gerencia general, por ejemplo, podrían no estar interesados en la fracción de centavo que cuesta producir la pieza más pequeña de un producto. El plan financiero por los próximos cinco años es presentado en varias monedas y desprecia algunos centavos en conversión monetaria.
El error de redondeo incluso es aplicado en estimaciones de porcentajes y probabilidades.
Error de muestreo
Es un fenómeno generalizado que a menudo se atribuye al "ruido" aleatorio y a las variables no medidas. Es un error universal que puede reducirse al hacer muchas observaciones para hacer un promedio que cubra gran parte del error cometido en cada observación.
Y aunque en algunos casos es fácil de superar, existen casos en los que no se pueden obtener tantas muestras de un fenómeno. Por ejemplo, en estudios en los que no es posible replicar el fenómeno, como los estudios de algún tipo de cáncer o estudios ambientales.
Error técnico y humano.
Ciertas máquinas e instrumentos son más precisos que otros. También algunas personas son menos propensas a los errores que otras, y la experiencia indica que ninguna máquina o persona es infalible al error.
El sesgo
Los sesgos pueden ocurrir por error o deliberadamente. El sesgo es fácil de confundir con el error de muestreo. El sesgo la tendencia de los datos a caer más en un lado del promedio que en el otro, lo que lo distingue del error de muestreo.
Mientras que el error de muestreo tiende a equilibrarse en el promedio a medida que se recopilan más observaciones, el sesgo persiste. Cuando los datos están sesgados, la recopilación de muestras más grandes mostrará que el promedio de los datos difieren del promedio esperado (o el promedio real).
Por ejemplo, algunas encuestadoras recopilan datos la oferta de empleos a partir de las publicaciones en los periódicos, pero los datos recopilados no representan a aquellos que no utilizan los medios de papel, por lo que esos datos estarían sesgados.
Una analogía del sesgo es un vehículo con uno de sus neumáticos desinflados, o al contrario, con demasiado aire. Los neumáticos que tienen la presión de aire adecuada (datos en la media), o una aproximacion a la requerida, se desgastaran al lado contrario de la inclinación del neumático con la diferencia de presión (datos sesgados), pero el desgaste solo sera visible despues de mucho espacio recorrido (después de que hayan sido recopilados más datos).
Basura entra, basura sale
Es difícil diferenciar datos basura de entre los buenos datos y obviamente la calidad de los datos tiene un gran impacto en las conclusiones que se pueden sacar.

