You are on page 1of 17

UNIVERSIDAD NACIONAL AUTNOMA DE MXICO

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin

Procesamiento de datos

CURSOS EN LNEA

HORTENSIA CANO GRANADOS


Procesamiento de datos Hortensia Cano Granados

Procesamiento de datos
En muchas ocasiones debemos procesar informacin en formato de hoja de clculo, que tiene
muchos errores, los cuales debemos eliminar o resolver antes de iniciar a trabajar con ella.
En este documento revisaremos algunas tareas bsicas para limpiar y preparar la informacin,
de forma tal, que no afecte los resultados o dificulte su manejo.
Para los ejemplos que se muestran puede descargar el archivo procesamiento.xlsx y reproducir
lo que se explica.

Depuracin de datos con funciones


Para depurar los datos se pueden utilizar los comandos:
REEMPLAZAR para modificar palabras o textos cortos.
ELIMINAR para descartar hojas, filas, columnas o celdas.
BORRAR para quitar datos de celdas.
Pero existen datos para los cuales no son suficientes estos comandos y para resolver este tipo de
problemas se utilizan algunas funciones:
Quitar espacios y caracteres no imprimibles.
Reemplazar caracteres de una cadena de texto.
Agregar o quitar caracteres.
Cambiar el formato de una cadena de caracteres.
Los comandos no pueden ayudarnos con estos cambios, utilizaremos algunas funciones de TEXTO
para resolver estos problemas:
Funcin Descripcin
CONCATENAR Concatena varios elementos de texto en uno solo. Tambin se puede utilizar el
operador &. CONCATENAR(texto1,texto2,texto3,)
DERECHA Devuelve el nmero de caracteres especificado, del lado derecho de un texto.
DERECHA(texto, nmero_de_caracteres)
ESPACIOS Quita los espacios del texto. ESPACIOS(texto)

EXTRAE Devuelve un nmero especfico de caracteres de una cadena de texto que


comienza en la posicin que se especifique. EXTRAE(texto,
posicin_inicial,nmero_de_caracteres)
IZQUIERDA Devuelve el nmero de caracteres especificado, del lado izquierdo de un texto.
IZQUIERDA(texto,nmero_de_caracteres)

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 1


Procesamiento de datos Hortensia Cano Granados

LARGO Devuelve el nmero de caracteres de una cadena de texto. LARGO(texto)


LIMPIAR Quita del texto todos los caracteres no imprimibles como son, los cdigos de
control y otros smbolos que a veces se muestran en los datos importados de
otros programas. LIMPIAR(texto)
MAYUSC Pone el texto en maysculas. MAYUSC(texto)
MINUSC Pone el texto en minsculas. MINUSC(texto)
NOMPROPIO Pone en mayscula la primera letra de cada palabra de un valor de texto.
NOMPROPIO(texto)
REEMPLAZAR Reemplaza caracteres de texto.
REEMPLAZAR(texto_original,nm_inicial,nm_de_caracteres, texto_nuevo)
SUSTITUIR Reemplaza el texto existente con texto nuevo en una cadena.
SUSTITUIR(texto, texto_original, texto_nuevo, nm_ocurrencia)
TEXTO Da formato a un nmero y lo convierte en texto. El formato va entre comillas.
TEXTO(valor, formato)
Opciones de formato
nicamente los dgitos significativos; no presenta los #
ceros sin valor
Muestra los ceros sin valor si un nmero tiene menos 0 (cero).
dgitos que ceros en el formato
Los meses como 1-12 m
Los meses como 01-12 mm
Los meses como ene dic mmm
Los meses como enero diciembre mmmm
Los das como 1-31 d
Los das como 01-31 dd
Los das como lun sb ddd
Los das como lunes sbado dddd
Los aos como 00-99 aa
Los aos como 1900-9999 aaaa
Las horas como 0-23 h
Las horas como 00-23 hh
Los minutos como 0-59 m
Los minutos como 00-59 mm
Los segundos como 0-59 s
Los segundos como 00-59 ss

Para agregar texto al formato se encierran los caracteres entre comillas ("") o se
pone delante una barra invertida (\)

En la tabla que trabajaremos, las columnas con los primeros problemas, se marcaron con color
rojo.

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 2


Procesamiento de datos Hortensia Cano Granados

Figura 1. Tabla con informacin a depurar

En RFC tenemos espacios de ms y un guion que debemos eliminar: ORAJ-550107NA6


En JEFE debemos cambiar el nombre a maysculas y minsculas.
La IDENTIFICACIN debe tener un formato FAOP-0001, as que debemos cambiar la M
por la P y agregar ceros al nmero para que quede a cuatro posiciones: 0001, 0002,
0168.
Ahora revisaremos cmo aplicar las funciones para depurar nuestros datos.
RFC Debemos quitar los espacios y el guion. El proceso es:
a) Agregamos una columna a la derecha. Situamos el cursor en la nueva columna y en la
primera fila de la tabla, esto es, la celda C5.
b) La frmula:
Para quitar los espacios: ESPACIOS(B5) esto nos dar la cadena sin espacios.
Para quitar el guion lo sustituiremos por nada, esto lo escribimos como es decir, dos
comillas que no tienen nada:
SUSTITUIR(texto,texto_original,texto_nuevo,nm_ocurrencia), no utilizaremos el
nmero de ocurrencia.
=SUSTITUIR(ESPACIOS(B5),"-","")

Figura 2. El RFC se presenta depurado

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 3


Procesamiento de datos Hortensia Cano Granados

c) Copiamos la frmula al resto de las celdas.

La funcin REEMPLAZAR cambia el nmero de caracteres que se le indiquen por


un texto nuevo, tomando como referencia su posicin. Por ejemplo:
1234567890
=REEMPLAZAR(C5,5,3,"+") quedara: 1234+890

JEFE es necesario cambiar a maysculas y minsculas: lupe prez Lupe Prez. El proceso es:
a) Agregamos una columna a la derecha. Situamos el cursor en la nueva columna y en la
primera fila de la tabla, esto es, la celda N5.
b) La frmula: =NOMPROPIO(M5)

Figura 3. Se muestra el cambio a maysculas y minsculas

c) Copiamos la frmula al resto de las celdas.

Las funciones MAYUSC y MINUSC pueden ser de utilidad en otros casos similares.

IDENTIFICACIN debemos cambiar una letra y cambiar un formato. El proceso es:


a) Agregamos una columna a la derecha. Situamos el cursor en la nueva columna y en la
primera fila de la tabla, esto es, la celda P5.
b) La frmula es:
Para aplicar el nuevo formato, debemos separar en dos partes el texto: FAOM- y los
nmeros.
1. A la primera parte del texto le vamos a extraer los cinco caracteres del lado izquierdo
y le cambiaremos la letra M por la P;
2. A la segunda parte de la cadena de texto, la vamos a extraer para cambiarle el formato.
3. Finalmente las uniremos.

Puede probar cada parte del proceso, poniendo la frmula en la celda correspondiente.
No olvide agregar el smbolo = al inicio.

Sacamos los 5 caracteres: Izquierda(O5,5)


Cambiamos la letra: SUSTITUIR(Izquierda(O5,5), "M","P")

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 4


Procesamiento de datos Hortensia Cano Granados

Figura 4. Las letras han sido cambiadas

Extraemos los nmeros, para esto podemos utilizar la funcin EXTRAE, sabemos que
debemos obtener los nmeros a partir de la posicin 6, pero tambin necesita la
cantidad de caracteres a extraer y en este caso tenemos FAOP-1 y FAOP-168, es decir,
la cantidad de nmeros es variable.
Lo que podemos hacer es conocer el total de caracteres de la cadena (funcin LARGO)
y le restamos los 5 caracteres del inicio (FAOP-). Este dato lo utilizaremos para indicar
cuntos nmeros debe extraer de la cadena.
EXTRAE(O5,6,LARGO(O5)-5)

Figura 5. En Q5 tenemos el ejemplo de cmo queda la extraccin de los nmeros

Le cambiamos el formato con la funcin TEXTO, poniendo entre comillas el cdigo:


TEXTO(EXTRAE(O5,6,LARGO(O5)-5),"0000")

Figura 6. El formato aplicado al nmero y utilizando funciones

Por ltimo, unimos las cadenas ya trabajadas y para esto podemos utilizar la funcin
CONCATENAR o el operador &:
=SUSTITUIR(IZQUIERDA(O5,5),"M","P")&TEXTO(EXTRAE(O5,6,LARGO(O5)-5),"0000")
O bien
=CONCATENAR(SUSTITUIR(IZQUIERDA(O5,5),"M","P"),TEXTO(EXTRAE(O5,6,LARGO(
O5)-5),"0000"))

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 5


Procesamiento de datos Hortensia Cano Granados

Figura 7. Resultado final

c) Copiamos la frmula al resto de las celdas.

Si prefiere slo la corregida, seleccione la columna con los


nuevos datos, cpiela y pguela en la misma columna, con
PEGADO ESPECIAL, eligiendo la opcin VALORES. Esto
convertir las frmulas en valores y ya no depender de la
columna original.
Despus de verificar que en esta columna ya no hay frmulas,
puede ocultar o eliminar la columna con los datos incorrectos.

De esta manera podemos depurar la informacin, antes de comenzar con otras tareas.

Eliminacin de duplicados
Muchas veces recibimos informacin con filas duplicadas y debemos identificarlas para eliminarlas.
Podemos hacerlo de forma manual, caso por caso, con peligro de cometer un error, eliminar no
duplicados y no detectar algn repetido.
Excel cuenta con una herramienta que nos permite eliminar fcilmente las filas duplicadas, proceso
que revisaremos a continuacin.

Figura 8. Filas duplicadas

Antes de realizar utilizar esta opcin, es recomendable guardar su archivo y hacer una
copia de la hoja.

1. Seleccione toda la tabla, incluyendo los encabezados.


2. Seleccione DATOS y en el grupo HERRAMIENTAS DE DATOS, seleccione QUITAR
DUPLICADOS.

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 6


Procesamiento de datos Hortensia Cano Granados

Figura 9. Elegir QUITAR DUPLICADOS

3. Al abrirse el cuadro de dilogo, seleccione la opcin MIS DATOS TIENEN ENCABEZADOS, esto
facilitar la identificacin de cada columna de la tabla.

Figura 10. Opciones para quitar duplicados

4. En este caso, las dos ltimas filas no tienen datos duplicados, por lo que si dejamos todas las
columnas seleccionadas, no identificar duplicados y al dar ACEPTAR mostrara el mensaje de
error:

Figura 11. Mensaje que indica que no encontr valores duplicados en la tabla

5. Por eso vamos a desactivar las columnas que NO TENGAN VALORES REPETIDOS y damos clic
en ACEPTAR.

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 7


Procesamiento de datos Hortensia Cano Granados

Figura 12. Columnas desactivadas que no se tomarn en cuenta para identificar duplicados

6. Al dar ACEPTAR se muestra un mensaje indicando cuntas filas se eliminaron.

Figura 13. Reporte de la eliminacin

Con esto termina la eliminacin de filas duplicadas.

Separacin de columnas
En ocasiones recibimos informacin que est unida, pero nosotros la necesitamos dividida. Para
estas ocasiones podemos utilizar la herramienta de TEXTO EN COLUMNAS o podemos utilizar
funciones, como lo hicimos al depurar la informacin.
Vamos a dividir la columna donde aparecen los nombres de los jefes. Para este caso, haremos
una copia de la columna N, que tiene frmulas y que utilizaremos para el ejemplo.

Nuevamente, es recomendable guardar su archivo y hacer una copia de su hoja antes


de iniciar.

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 8


Procesamiento de datos Hortensia Cano Granados

Figura 14. Separaremos toda la informacin en palabras

1. Primero haremos una copia de la columna N. Para iniciar seleccione la columna N, oprima el
botn de COPIAR u oprima CTRL +C. Seleccione la siguiente columna VACA, en este ejemplo,
la columna Q.
En INICIO elija PEGAR y despus PEGADO ESPECIAL. Al abrirse el cuadro de dilogo, elija
VALORES y d clic en ACEPTAR.

Figura 15. Opciones de Pegado especial

Esto har que tengamos una copia de los datos, sin las frmulas. Con esta columna
trabajaremos la separacin de columnas.
2. Seleccione los datos de la columna Q, verifique que tiene suficientes columnas disponibles a
la derecha.
3. En DATOS, del grupo HERRAMIENTAS DE DATOS, elija TEXTO EN COLUMNAS:

Figura 16. Opcin para separar las columnas

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 9


Procesamiento de datos Hortensia Cano Granados

4. En Tipos de datos seleccione DELIMITADOS, ya que vamos a separar en cada espacio en


blanco. Damos clic en SIGUIENTE.

Figura 17. Los datos delimitados estn separados por un carcter especfico

5. Seleccionamos el separador de cada columna, en este ejemplo, el ESPACIO. Damos clic en


SIGUIENTE.

Figura 18. Eleccin del separador

En el caso de los espacios es conveniente dejar activada la opcin CONSIDERAR


SEPARADORES CONSECUTIVOS COMO UNO SOLO, esto hace que, si por error se capturaron
2 espacios en vez de uno, al dividir, tengamos columnas en blanco. Para el resto de los casos,

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 10


Procesamiento de datos Hortensia Cano Granados

es comn que dos separadores signifiquen que, para ciertos datos, debe generarse una celda
en blanco.
La opcin CALIFICADOR DEL TEXTO se utiliza porque comnmente cada columna se delimita
con un separador y con comillas dobles o simples, sobre todo cuando en el texto que vamos
a separar, se incluye el separador como parte de la cadena. Por ejemplo, si el separador es
la coma y una parte de la cadena incluye algo como: bonos, cheques, efectivo, como
dlares, euros, pesos y otros podra generar error al dividir bloques que deben permanecer
unidos. Las comillas hacen que cada texto entre comillas, se considere como indivisible.
6. Puede aplicar formato a cada columna, seleccionando cada separacin y eligiendo el formato
que requiere cada tipo de datos. De clic en FINALIZAR.

Figura 19. Formato de las columnas

7. Observe que la separacin inici en la columna Q, donde tenamos la copia de los datos.

Figura 20. Separacin terminada

Observe que, en algunos casos, como con los apellidos compuestos, se separ en ms columnas.
En estos casos puede hacer las correcciones de forma manual.

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 11


Procesamiento de datos Hortensia Cano Granados

Recodificacin
Suele pasar que tenemos toda la informacin, pero no como la necesitamos, unos ejemplos:
Tenemos el RFC o la CURP, pero no la fecha de nacimiento o necesitamos la edad en aos,
tenemos la fecha de nacimiento.
Requerimos el gnero como Hombre o Mujer, pero lo tenemos como F y M o H y M.
Contamos con el mes en letra y lo necesitamos como nmero o viceversa.
Los datos estn separados, pero los necesitamos unidos de una forma especfica.
El sueldo se increment y no est actualizado, entre otros casos
Estos casos son muy comunes y para resolverlos podemos utilizar funciones y comandos,
revisaremos la forma de recodificar los datos con los que contamos.
1. Calcular la edad actual o algn valor similar en aos, a partir de una fecha:

Figura 21. Datos para los clculos

a) En la columna H tenemos la fecha de nacimiento y la edad en aos la calcularemos en


la columna I, a partir de la celda I5.
b) Primero obtenemos la diferencia entre la fecha actual y la fecha en que naci el
empleado. Esto nos dar el nmero de das y para obtener los aos debemos dividir
entre 365, es decir, entre el nmero de das que tiene un ao: (HOY()-H5)/365

Figura 22. Clculo de la edad

c) El siguiente paso es reducirlo a los aos cumplidos, utilizando la funcin


TRUNCAR(valor,nmero_de_decimales) para cortar la parte decimal de la edad. Es este
caso recortaremos todos los decimales: =TRUNCAR((HOY()-H5)/365)

Figura 23. Resultado final

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 12


Procesamiento de datos Hortensia Cano Granados

Aplique formato GENERAL al resultado, si no lo hace, se mostrar una fecha en vez del
nmero de aos.

Esta frmula se puede utilizar para calcular la antigedad o diferencias en aos entre dos
fechas cualesquiera.
2. Cambiar un valor por otro equivalente.
Tenemos dos formas de hacerlo, con el comando Reemplazar, idneo para pocos datos o
con frmula, para muchos datos.
Con REEMPLAZAR
En la columna G tenemos el gnero como M para masculino y F para femenino. Lo
queremos como Hombre y Mujer respectivamente.
a) Seleccione la columna G, en INICIO elija BUSCAR Y SELECCIONAR y despus
REEMPLAZAR

b) Para cada caso escriba los datos a reemplazar y el nuevo texto. D clic en el botn
OPCIONES.

Figura 24. Informacin para el cambio

Es importante que seleccione las opciones COINCIDIR MAYSCULAS Y MINSCULAS


cuando desee que la bsqueda del texto sea exactamente como est escrita.
Tambin debe activar la opcin COINCIDIR CON EL CONTENIDO DE TODA LA CELDA
cuando quiere que coincida con todo el contenido de la celda y no con una parte.
c) D clic en REEMPLAZAR TODOS. Al terminar los cambios d clic en CERRAR. En cada
reemplazo se informar cuntos cambios se realizaron:

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 13


Procesamiento de datos Hortensia Cano Granados

Figura 25. Nmero de cambios realizados Figura 26. Resultado del reemplazo

Con Frmulas
Como parte de sus prestaciones, los empleados tienen sus vacaciones en el mes de su
nacimiento. Tenemos la fecha de nacimiento en la columna H, obtengamos el nombre del
mes en que les corresponden sus vacaciones.
a) Inserte una columna a la derecha de la columna H. Site el cursor en esa nueva columna
en la primera fila de datos, en la celda I5.

Figura 27. Nueva columna para el valor que solicitan

b) Necesitamos el mes y lo podemos obtener de la fecha de nacimiento con la funcin


MES(fecha) y aplicando formato GENERAL al resultado: MES(H5)

Tambin podemos obtener el da y el ao de una fecha con las funciones DIA(fecha) y


AO(fecha).

Figura 28. Mes de nacimiento

c) Podemos usar la funcin SI para poner condiciones, pero seran demasiadas,


utilizaremos la funcin ELEGIR(nm_ndice,valor1,valor2, ...).
Esta funcin necesita un valor numrico entero como ndice y despus se escribe la lista
de valores que debe tomar, segn el valor del ndice. En este caso, el ndice es el
nmero del mes que va del 1 hasta el 12, los valores son los nombres de los meses. Si
el ndice es 1, elige enero, si es 2 elige febrero, etc.

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 14


Procesamiento de datos Hortensia Cano Granados

=ELEGIR(MES(H5),"enero","febrero","marzo","abril","mayo","junio","julio","agosto","s
eptiembre","octubre","noviembre","diciembre")

Figura 29. Resultado

3. Los datos estn separados, pero lo necesitamos unidos de una forma especfica.
a) Conviene hacer este cambio en una nueva columna. Seleccione la columna G y agregue
una nueva columna.
b) Usaremos la funcin CONCATENAR para unir el nombre del empleado en diversas
formas, tal como se ve en la imagen.

Figura 30. Resultado de unir datos del empleado

Las frmulas se muestran para cada opcin.

Figura 31. Frmulas

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 15


Procesamiento de datos Hortensia Cano Granados

Para obtener:
Iniciales, utilice la funcin izquierda y no olvide escribir el punto entre comillas para
unirlo al nombre =CONCATENAR(D7, " ",E7," ",IZQUIERDA(F7,1),".")
Si no agrega un espacio entre comillas, los datos se mostrarn pegados uno al otro.

4. El sueldo se increment y no est actualizado, entre otros casos.


Utilice la columna N para esta opcin. Despus de muchos aos de problemas financieros, la
empresa increment el sueldo en un 14.5% a todos los empleados, excepto a los que ganan
$4,500 o menos, quienes recibirn un aumento del 19.5%
a) Primero calculemos el sueldo final:
Sueldo actual = Sueldo + Sueldo x incremento. En frmula para la primera fila es:
=M5+M5*14.5% esto puede expresarse tambin como: =M5*(1+14.5%) o
=M5*(1+0.145)
Elija la frmula que prefiera, todas expresan lo mismo y generan el mismo resultado.
b) Ahora es necesario ajustar la frmula para que se pague ms al personal de menor
ingreso, usando la funcin lgica SI:
SI Sueldo es menor o igual a 4500 entonces
Sueldo actual = sueldo x (1+19.5%)
Si no
Sueldo actual = sueldo x (1+14.5%)

=SI(M5<=4500,M5*(1+19.5%),M5*(1+14.5%))

Figura 32. Resultado de la frmula

Con esto terminamos las opciones para depurar la informacin.

Direccin General de Cmputo y de Tecnologas de Informacin y Comunicacin 16

You might also like