Professional Documents
Culture Documents
Procesamiento de datos
CURSOS EN LNEA
Procesamiento de datos
En muchas ocasiones debemos procesar informacin en formato de hoja de clculo, que tiene
muchos errores, los cuales debemos eliminar o resolver antes de iniciar a trabajar con ella.
En este documento revisaremos algunas tareas bsicas para limpiar y preparar la informacin,
de forma tal, que no afecte los resultados o dificulte su manejo.
Para los ejemplos que se muestran puede descargar el archivo procesamiento.xlsx y reproducir
lo que se explica.
Para agregar texto al formato se encierran los caracteres entre comillas ("") o se
pone delante una barra invertida (\)
En la tabla que trabajaremos, las columnas con los primeros problemas, se marcaron con color
rojo.
JEFE es necesario cambiar a maysculas y minsculas: lupe prez Lupe Prez. El proceso es:
a) Agregamos una columna a la derecha. Situamos el cursor en la nueva columna y en la
primera fila de la tabla, esto es, la celda N5.
b) La frmula: =NOMPROPIO(M5)
Las funciones MAYUSC y MINUSC pueden ser de utilidad en otros casos similares.
Puede probar cada parte del proceso, poniendo la frmula en la celda correspondiente.
No olvide agregar el smbolo = al inicio.
Extraemos los nmeros, para esto podemos utilizar la funcin EXTRAE, sabemos que
debemos obtener los nmeros a partir de la posicin 6, pero tambin necesita la
cantidad de caracteres a extraer y en este caso tenemos FAOP-1 y FAOP-168, es decir,
la cantidad de nmeros es variable.
Lo que podemos hacer es conocer el total de caracteres de la cadena (funcin LARGO)
y le restamos los 5 caracteres del inicio (FAOP-). Este dato lo utilizaremos para indicar
cuntos nmeros debe extraer de la cadena.
EXTRAE(O5,6,LARGO(O5)-5)
Por ltimo, unimos las cadenas ya trabajadas y para esto podemos utilizar la funcin
CONCATENAR o el operador &:
=SUSTITUIR(IZQUIERDA(O5,5),"M","P")&TEXTO(EXTRAE(O5,6,LARGO(O5)-5),"0000")
O bien
=CONCATENAR(SUSTITUIR(IZQUIERDA(O5,5),"M","P"),TEXTO(EXTRAE(O5,6,LARGO(
O5)-5),"0000"))
De esta manera podemos depurar la informacin, antes de comenzar con otras tareas.
Eliminacin de duplicados
Muchas veces recibimos informacin con filas duplicadas y debemos identificarlas para eliminarlas.
Podemos hacerlo de forma manual, caso por caso, con peligro de cometer un error, eliminar no
duplicados y no detectar algn repetido.
Excel cuenta con una herramienta que nos permite eliminar fcilmente las filas duplicadas, proceso
que revisaremos a continuacin.
Antes de realizar utilizar esta opcin, es recomendable guardar su archivo y hacer una
copia de la hoja.
3. Al abrirse el cuadro de dilogo, seleccione la opcin MIS DATOS TIENEN ENCABEZADOS, esto
facilitar la identificacin de cada columna de la tabla.
4. En este caso, las dos ltimas filas no tienen datos duplicados, por lo que si dejamos todas las
columnas seleccionadas, no identificar duplicados y al dar ACEPTAR mostrara el mensaje de
error:
Figura 11. Mensaje que indica que no encontr valores duplicados en la tabla
5. Por eso vamos a desactivar las columnas que NO TENGAN VALORES REPETIDOS y damos clic
en ACEPTAR.
Figura 12. Columnas desactivadas que no se tomarn en cuenta para identificar duplicados
Separacin de columnas
En ocasiones recibimos informacin que est unida, pero nosotros la necesitamos dividida. Para
estas ocasiones podemos utilizar la herramienta de TEXTO EN COLUMNAS o podemos utilizar
funciones, como lo hicimos al depurar la informacin.
Vamos a dividir la columna donde aparecen los nombres de los jefes. Para este caso, haremos
una copia de la columna N, que tiene frmulas y que utilizaremos para el ejemplo.
1. Primero haremos una copia de la columna N. Para iniciar seleccione la columna N, oprima el
botn de COPIAR u oprima CTRL +C. Seleccione la siguiente columna VACA, en este ejemplo,
la columna Q.
En INICIO elija PEGAR y despus PEGADO ESPECIAL. Al abrirse el cuadro de dilogo, elija
VALORES y d clic en ACEPTAR.
Esto har que tengamos una copia de los datos, sin las frmulas. Con esta columna
trabajaremos la separacin de columnas.
2. Seleccione los datos de la columna Q, verifique que tiene suficientes columnas disponibles a
la derecha.
3. En DATOS, del grupo HERRAMIENTAS DE DATOS, elija TEXTO EN COLUMNAS:
Figura 17. Los datos delimitados estn separados por un carcter especfico
es comn que dos separadores signifiquen que, para ciertos datos, debe generarse una celda
en blanco.
La opcin CALIFICADOR DEL TEXTO se utiliza porque comnmente cada columna se delimita
con un separador y con comillas dobles o simples, sobre todo cuando en el texto que vamos
a separar, se incluye el separador como parte de la cadena. Por ejemplo, si el separador es
la coma y una parte de la cadena incluye algo como: bonos, cheques, efectivo, como
dlares, euros, pesos y otros podra generar error al dividir bloques que deben permanecer
unidos. Las comillas hacen que cada texto entre comillas, se considere como indivisible.
6. Puede aplicar formato a cada columna, seleccionando cada separacin y eligiendo el formato
que requiere cada tipo de datos. De clic en FINALIZAR.
7. Observe que la separacin inici en la columna Q, donde tenamos la copia de los datos.
Observe que, en algunos casos, como con los apellidos compuestos, se separ en ms columnas.
En estos casos puede hacer las correcciones de forma manual.
Recodificacin
Suele pasar que tenemos toda la informacin, pero no como la necesitamos, unos ejemplos:
Tenemos el RFC o la CURP, pero no la fecha de nacimiento o necesitamos la edad en aos,
tenemos la fecha de nacimiento.
Requerimos el gnero como Hombre o Mujer, pero lo tenemos como F y M o H y M.
Contamos con el mes en letra y lo necesitamos como nmero o viceversa.
Los datos estn separados, pero los necesitamos unidos de una forma especfica.
El sueldo se increment y no est actualizado, entre otros casos
Estos casos son muy comunes y para resolverlos podemos utilizar funciones y comandos,
revisaremos la forma de recodificar los datos con los que contamos.
1. Calcular la edad actual o algn valor similar en aos, a partir de una fecha:
Aplique formato GENERAL al resultado, si no lo hace, se mostrar una fecha en vez del
nmero de aos.
Esta frmula se puede utilizar para calcular la antigedad o diferencias en aos entre dos
fechas cualesquiera.
2. Cambiar un valor por otro equivalente.
Tenemos dos formas de hacerlo, con el comando Reemplazar, idneo para pocos datos o
con frmula, para muchos datos.
Con REEMPLAZAR
En la columna G tenemos el gnero como M para masculino y F para femenino. Lo
queremos como Hombre y Mujer respectivamente.
a) Seleccione la columna G, en INICIO elija BUSCAR Y SELECCIONAR y despus
REEMPLAZAR
b) Para cada caso escriba los datos a reemplazar y el nuevo texto. D clic en el botn
OPCIONES.
Figura 25. Nmero de cambios realizados Figura 26. Resultado del reemplazo
Con Frmulas
Como parte de sus prestaciones, los empleados tienen sus vacaciones en el mes de su
nacimiento. Tenemos la fecha de nacimiento en la columna H, obtengamos el nombre del
mes en que les corresponden sus vacaciones.
a) Inserte una columna a la derecha de la columna H. Site el cursor en esa nueva columna
en la primera fila de datos, en la celda I5.
=ELEGIR(MES(H5),"enero","febrero","marzo","abril","mayo","junio","julio","agosto","s
eptiembre","octubre","noviembre","diciembre")
3. Los datos estn separados, pero lo necesitamos unidos de una forma especfica.
a) Conviene hacer este cambio en una nueva columna. Seleccione la columna G y agregue
una nueva columna.
b) Usaremos la funcin CONCATENAR para unir el nombre del empleado en diversas
formas, tal como se ve en la imagen.
Para obtener:
Iniciales, utilice la funcin izquierda y no olvide escribir el punto entre comillas para
unirlo al nombre =CONCATENAR(D7, " ",E7," ",IZQUIERDA(F7,1),".")
Si no agrega un espacio entre comillas, los datos se mostrarn pegados uno al otro.
=SI(M5<=4500,M5*(1+19.5%),M5*(1+14.5%))