You are on page 1of 17

1

UNIVERSIDAD NACIONAL DE SAN MARTÍN – TARAPOTO


FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA

PROYECTO DE TESIS

“USO DEL RECONOCIMIENTO OPTICO DE CARACTERES

(OCR ) MEDIANTE UNA APLICACIÓN PARA EL PROCESO DE

REGISTROS DE COMPROBANTES DE PAGOS EN LA

EMPRESA GRUPO ESCONSULTORES SAC.”

TESISTA: Jimmy Jeiensto Carbajal Sánchez


ÍNDICE

Contenido
ÍNDICE ........................................................................................................................ 5
I. DATOS GENERALES........................................................................................... 7
1.1. Nombre del proyecto .................................................................................... 7
1.2. Ubicación geográfica de la tesis ................................................................... 7
1.3. Período de ejecución de la tesis .................................................................. 7
1.4. Ejes temáticos prioritarios y líneas de investigación..................................... 7
1.5.1. Eje temático ....................................................................................... 7
1.5.2. Línea de investigación ....................................................................... 7
II. PLANTEAMIENTO DEL PROBLEMA ................................................................... 8
2.1. Antecedentes del problema .......................................................................... 8
2.2. Definición del problema ................................................................................ 9
2.3. Formulación del problema ............................................................................ 9
2.4. Justificación e importancia ........................................................................... 9
2.5. Limitaciones ............................................................................................... 10
III. OBJETIVOS........................................................................................................ 10
3.1. Objetivo General ........................................................................................ 10
3.2. Objetivos Específicos ................................................................................. 10
IV. MARCO TEÓRICO CONCEPTUAL .................................................................... 11
4.1. Antecedentes de la investigación ............................................................... 11
4.2. Definición de términos ................................................................................ 12
4.2.2. Comprobantes de pago ................................................................... 12
4.2.3. Optical Character Recognition ......................................................... 12
4.3. Bases teóricas ............................................................................................. 12
4.4. Hipótesis .................................................................................................... 14
4.5. Sistema de variables .................................................................................. 14
4.5.2. Variable dependiente ....................................................................... 14
4.6. Escala de medición .................................................................................... 14
V. METODOLOGÍA DE LA INVESTIGACIÓN ......................................................... 14
5.1. Tipo de investigación .................................................................................. 15
5.2. Nivel de investigación ................................................................................. 15
5.3. Diseño de la investigación .......................................................................... 15
5.4. Cobertura de la investigación ..................................................................... 15
5.4.2. Población ......................................................................................... 15
5.4.3. Muestra ............................................................................................ 15
5.5. Fuentes, técnicas e instrumentos de investigación .................................... 16
5.5.2. Técnicas e Instrumentos .................................................................. 16
5.6. Procedimiento y presentación de datos ..................................................... 17
5.7. Análisis e interpretación de datos ............................................................... 17
VI. ASPECTOS ADMINISTRATIVOS....................................................................... 17
6.1. Cronograma de actividades........................................................................ 17
6.2. Asignación de recursos .............................................................................. 18
6.3. Presupuesto de costo del proyecto ............................................................ 19
6.4. Financiamiento ........................................................................................... 19
VII. REFERENCIAS BIBLIOGRÁFICAS .................................................................... 20
I. DATOS GENERALES
1.1. Nombre del proyecto
“APLICACIÓN DEL UN SISTEMA OCR (Optical Character Recognition) PARA
MEJORAR LOS REGISTROS DE COMPROBANTES DE PAGO EN LA
EMPRESA GRUPO ESCONSULTORES SAC.”
1.2. Ubicación geográfica de la tesis
Departamento San Martín.
1.3. Período de ejecución de la tesis
Enero de 2018 a Diciembre de 2018.
1.4. Ejes temáticos prioritarios y líneas de investigación
1.5.1. Eje temático
Tecnología de Información y Comunicación TIC.
1.5.2. Línea de investigación
Inteligencia Artificial y Recuperación de la Información.
II. PLANTEAMIENTO DEL PROBLEMA

2.1. Antecedentes del problema

En el área de Cuentas por Pagar se conoce muy bien que el fin de una factura de proveedor
en su contabilización, y todos los elementos de mejora que introduzcamos en el proceso de
facturas de proveedor deben de ir encaminados a una reducción del ciclo de contabilización
así como a disminuir el coste del proceso lo máximo posible.
Dentro de un proceso automatizado de facturas de proveedor podemos definir 4 grandes fases:
- Conformación de facturas y cuadre de 2 o 3 vías contra pedido.
- Aprobación de Facturas, para aceptación de facturas en base a criterios de negocio.
-Resolución de incidencias, categorización de las excepciones para su resolución
procedimentada.
- Contabilización automática de facturas.
Todas estas fases se automatizan con herramientas de workflow como ya indicábamos en
nuestro post previo, pero existe un requisito básico para su funcionamiento: se debe disponer
de los datos contenidos en las facturas. Este punto no supone inconveniente alguno para las
facturas electrónicas, ya que toda la información básica de factura es contenida de forma
estructurada en el fichero pero ¿qué pasa con las facturas en papel y las facturas recibidas
por email en PDF?

El tratamiento de las facturas en papel, previamente escaneadas, y de las facturas PDF


requiere de una herramienta de OCR (Optical Character Recognition) para la extracción de
datos. El OCR nos permite extractar los datos de la facturas y utilizarlos para el posterior
proceso de las facturas.
En easyap utilizamos para el proceso de las facturas en papel y PDF, en la externalización de
procesos de cuentas por pagar de facturas, diferentes plataformas de OCR de primer nivel, y
el uso de las mismas desde hace más de 12 años nos ha aportado una experiencia
importantísima a la hora de conocer el verdadero potencial, los limites y dependencias de las
mismas.
2.2. Definición del problema
En la actualidad existen más de 100000 empresas contables en las cuales existe mucho
uso de la tecnología por parte de ellos .Pero a pesar de eso existe un gran déficit en la
optimización de tiempo al momento de registrar los documentos contables manuales que
se entregan en las empresas que venden un producto o brindan un servicio. La empresa
grupo ESconsultores recibe todos los comprobantes de pagos que emiten todas las
empresas a las que brinda el servicio de asistencia contable. Entonces cada empresa tiene
un cierto número de documentos contables que declara mensualmente los cuales
demuestran todos los movimientos económicos que se realizaron en la empresa a la sunat.
Después de la entrega de los documentos contables, la empresa Grupo ESconsultores los
clasifica por tipo de comprobante, por fecha en la que se realizó la venta, compra, o pago
de servicio, por código y numeración consecutiva. Cada trabajador tiene asignado cierta
cantidad de empresas para realizar este proceso por lo cual después de organizar los
documentos contables se pasan a una hoja de cálculo en este caso Microsoft Excel donde
se ingresaran por cada mes para las ventas y compras, los datos que se extraen de estos
son el monto y la fecha. Esto es un proceso muy tedioso porque algunas empresas tienen
cantidades muy altas de comprobantes de pago lo que hace que se tome bastante tiempo
en registrar todo esto, Peor en caso que el tipo de comprobante sea facturas donde
también se tiene que llenar la razón social y el ruc, en este proceso la empresa se gasta
un 80% de su tiempo en realizar todo esto proceso lo que no permite hacer otros trabajos
más analíticos.

2.3. Formulación del problema


¿Cómo se mejorará el registro de los comprobantes de pago en la empresa grupo
Esconsultores utilizando el reconocimiento óptico de caracteres?

2.4. Justificación e importancia

El presente proyecto de tesis se justifica porque plantea un sistema OCR (Optical Character
Recognition) para mejorar el registro de comprobantes de pagos en la empresa grupo
esconsultores sac. Es muy importante disminuir la carga operativa en esta institución, porque
se pierde bastante tiempo registrando manualmente los comprobantes por ello se quiere
ingresara y detectara los datos más relevantes de cada comprobante utilizando un escáner
como herramienta de entrada para luego utilizar el reconocimiento óptico de caracteres una
tecnología que se encuentra en la rama de la inteligencia artificial con esto el texto manual o
impreso por una ticketera,

se procesar y convertir a texto computacional para así solo tener que declarar los impuestos
tributarios a la sunat mucho más rápido y de manera más eficiente , así optimizar la mano de
obra .Con esto grupo esconsultores tendrá más tiempo para realizar un trabajo más analíticos
en las empresas que brinda contabilidad y así generar un mejor servicio.

2.5. Limitaciones
La resistencia de las personas al uso de las tecnologías de información y la poca credibilidad
al momento de usarla.

Existe un cierto porcentaje de error del 15% al momento de identificar los caracteres por mal
escritura o al estado que se encuentra el documento contable.

III. OBJETIVOS

3.1. Objetivo General


Agilizar y mejorar el ingreso de las boletas y facturas para así optimizar la mano de obra
contable en la empresa Esconsultores.

3.2. Objetivos Específicos


a) Recopilar información sobre los modelos de boletas y facturas
b) Extracción de los datos más relevantes de los comprobantes.
c) Utilizar la tecnología OCR (Optical Character Recognition) para la identificación de
caracteres y la transformación a texto mano escrito o impresas por una computadora
a texto digital.
IV. MARCO TEÓRICO CONCEPTUAL

4.1. Antecedentes de la investigación

a) Pérez J. y Brito G. (2013). Reconocimiento de placas vehiculares mediante


procesamiento de imágenes para optimizar el acceso a los parqueaderos de la UTA,
Campus Huachi. Este trabajo se crea una aplicación de reconocimiento de placas
vehiculares mediante técnicas de procesamiento de imágenes. En el contexto de
este trabajo este proceso ha constituido transformaciones sistemáticas de la
imagen en escala de grises a imagen binaria (blanco/negro), realizada con
diferentes rangos de intensidad, y posteriormente se realiza un análisis de
partículas con la intención de encontrar las coordenadas de la placa vehicular como
un objeto dentro de la imagen total.
b) Luna Wulfrano (2014).Mejoras al reconocimiento óptico de caracteres y a la
corrección de textos electrónicos en los sistemas de lectura automática de texto.
Con este trabajo se presentó un modelo para mejorar el proceso de reconocimiento
óptico de caracteres, como un método de corrección de textos electrónicos que
minimice los errores de salida del sistema de reconocimiento óptica de caracteres.
Las pruebas efectuadas muestran que el modelo de red neuronal convolucional
modular, propuesto para realizar el reconocimiento hasta en un 68.75%.

c) Alkhoury, I (2015): Arabic Text Recognition and Machine Translation el proyecto de


tesis trata de un sistema que reconoce las imágenes de texto manuscrito en árabe,
y que traduce el texto reconocido al inglés. Este sistema está construido a partir de
la combinación de un sistema (HTR) y un sistema (MT). se enfoca en el uso de los
Bernoulli Hidden Markov Models (BHMMs). Los modelos BHMMs ya han sido
probados anteriormente en tareas con alfabeto latino obteniendo buenos
resultados. En aplicaciones reales, la transcripción del texto en árabe no se limita
únicamente al texto manuscrito, sino también al texto impreso. El texto impreso se
puede interpretar como una forma simplificada de texto manuscrito. Por lo tanto,
para este tipo de texto, también proponemos el uso de modelos BHMMs. Además,
estos modelos se han comparado con tecnología del estado del arte basada en
redes neuronales.
4.2. Definición de términos
4.2.1. inteligencia artificial
Es la inteligencia exhibida por máquinas. En ciencias de la computación, una
máquina inteligente ideal es un agente racional flexible que percibe su entorno
y lleva a cabo acciones que maximicen sus posibilidades de éxito en algún
objetivo o tarea. Coloquialmente, el término inteligencia artificial se aplica
cuando una máquina imita las funciones «cognitivas» que los humanos asocian
con otras mentes humanas, como por ejemplo: "aprender" y "resolver
problemas".

4.2.2. Comprobantes de pago


Es el documento que acredita la transferencia de bienes, la entrega en uso o la
prestación de servicios. Para ser considerado como tal debe ser emitido y/o
impreso conforme a las normas del Reglamento de Comprobantes de Pago
(Resolución de Superintendencia N° 007-99-SUNAT).

4.2.3. Optical Character Recognition


Es un proceso dirigido a la digitalización de textos, los cuales identifican
automáticamente a partir de una imagen símbolos o caracteres que pertenecen
a un determinado alfabeto, para luego almacenarlos en forma de datos. Así
podremos interactuar con estos mediante un programa de edición de texto o
similar.

4.3. Bases teóricas


4.3.1. Inteligencia artificial
La inteligencia artificial es una de las ramas de la Informática, con fuertes raíces
en otras áreas como la lógica y las ciencias cognitivas. Como veremos a
continuación, existen muchas definiciones de lo que es la inteligencia artificial.
El problema de la inteligencia artificial como aquel de construir una máquina que
se comporte de manera que si el mismo comportamiento lo realizara un ser
humano, este sería llamado inteligente.

Existen, sin embargo, otras definiciones que no se basan en el comportamiento


humano. Son las cuatro siguientes.

 Actuar como las personas. Esta es la definición de McCarthy, donde el


modelo a seguir para la evaluación de los programas corresponde al
comportamiento humano. El llamado Test de Turing (1950) también utiliza
este punto de vista. El sistema Eliza, un bot (programa software)
conversacional es un ejemplo de ello.
 Razonar como las personas. Lo importante es cómo se realiza el
razonamiento y no el resultado de este razonamiento. La propuesta aquí
es desarrollar sistemas que razonen del mismo modo que las personas.
La ciencia cognitiva utiliza este punto de vista.
 Razonar racionalmente. En este caso, la definición también se focaliza en
el razonamiento, pero aquí se parte de la premisa de que existe una forma
racional de razonar. La lógica permite la formalización del razonamiento
y se utiliza para este objetivo.
 Actuar racionalmente. De nuevo el objetivo son los resultados, pero ahora
evaluados de forma objetiva. Por ejemplo, el objetivo de un programa en
un juego como el ajedrez será ganar. Para cumplir este objetivo es
indiferente la forma de calcular el resultado.
 Además de las definiciones mencionadas más arriba, hay aún otra
clasificación de la inteligencia artificial según cuáles son los objetivos
finales de la investigación en este campo. Son la inteligencia artificial
fuerte y la débil.

Existen distintos tipos de percepciones y acciones, que pueden ser obtenidas y


producidas, respectivamente, por sensores físicos y sensores mecánicos en
máquinas, pulsos eléctricos u ópticos en computadoras, tanto como por
entradas y salidas de bits de un software y su entorno software.

Varios ejemplos se encuentran en el área de control de sistemas, planificación


automática, la habilidad de responder a diagnósticos y a consultas de los
consumidores, reconocimiento de escritura, reconocimiento del habla y
reconocimiento de patrones. Los sistemas de IA actualmente son parte de la
rutina en campos como economía, medicina, ingeniería y la milicia, y se ha
usado en gran variedad de aplicaciones de software, juegos de estrategia, como
ajedrez de computador, y otros videojuegos.

4.4. Hipótesis
Alterna: Usando el reconocimiento óptico de caracteres (OCR) mediante una aplicación
mejorara el proceso de registros de comprobantes de pagos en la empresa grupo Es
consultores sac.
Nula: Usando el reconocimiento óptico de caracteres (OCR) mediante una aplicación
no se mejorara el proceso de registros de comprobantes de pagos en la empresa grupo
Es consultores sac.

4.5. Sistema de variables


4.5.1. Variable independiente
X = Aplicación reconocimiento óptico de caracteres (OCR)

Indicadores:

X1: Precisión en la captura de datos de los comprobantes de pago. Unidad de


medida: Porcentaje.
4.5.2. Variable dependiente
Y = Mejorara en el proceso de registros de boletas y facturas.

Indicadores:

Y1: Número de documentos contables. Unidad de medida: unidades

4.6. Escala de medición


La variable X, se medirá de manera cuantitativa para determinar el nivel de precisión
en la extracción de los datos.
La variable Y, es cuantitativa discreta porque va a tomar valores enteros.

V. METODOLOGÍA DE LA INVESTIGACIÓN
5.1. Tipo de investigación
El estudio que se presenta corresponde a una investigación del tipo Aplicada
- Transversal, porque los resultados obtenidos pretenden aplicarse en forma
inmediata para ayudar a resolver la situación problemática planteada,
analizando los resultados obtenidos en un mediano plazo.

5.2. Nivel de investigación


El nivel de la investigación es experimental, porque se modificará la variable
independiente para evaluar su influencia sobre la variable dependiente.

5.3. Diseño de la investigación


La investigación es del tipo de diseño pre-test (sin el modelo de recuperación
de información web) pos-test (con el modelo de recuperación de información
web) de un solo grupo, que se encuentran ubicado dentro del diseño Cuasi
Experimental, adaptado a las variables de estudio.

5.4. Cobertura de la investigación


5.4.1. Universo
La presente investigación tiene como universo la empresa contable grupo
ES consultores.

5.4.2. Población
La presente investigación tendrá como población a todas las empresas que
brindan servicios o venden productos que el grupo Es consultores lleva su
contabilidad que son en total 75 .n=75 empresas.
5.4.3. Muestra
Se utilizará el muestreo aleatorio simple para determinar el tamaño de la
muestra. Se utilizará esta técnica puesto que cada miembro de la población
tiene la misma probabilidad de ser seleccionado. Cada sujeto es
seleccionado independientemente de los otros miembros de la población.
Determinamos el tamaño de la siguiente manera, como cada miembro tiene
igualdad de oportunidades de ser seleccionado, entonces la probabilidad
de cada uno de los sujetos es:
p=1/N = 1/75 = 0.01333 = 1.333%
Donde N=tamaño de la población.
Entonces:
n=p*N

Donde n=tamaño de la muestra.


p=probabilidad de ser elegido.

n=0.01333*75
n=10 Empresas.

5.5. Fuentes, técnicas e instrumentos de investigación


5.5.1. Fuentes
5.5.1.1. Fuentes Primarias
Se cuenta con muchos modelos de comprobantes de pago para
analizarlos y hacer que el OCR aprenda de su contexto.

5.5.1.2. Fuentes Secundarias


Información obtenida a través de libros, revistas, informes técnicos,
diarios, cuadros estadísticos, resúmenes y compilaciones, tanto físicas
como digitales.

5.5.2. Técnicas e Instrumentos


En esta parte especificamos las técnicas e instrumentos a utilizar para la
recolección de datos. Indicar además su justificación y para quienes van
dirigidos.
TÉCNICA INSTRUMENTO
Test Formato de Test
Entrevista Guía De Entrevista (Personal)
Análisis Documental Fichas Bibliográficas

5.6. Procedimiento y presentación de datos


Se procesarán los datos recogidos de las entrevistas, así como de la
observación directa en campo y de los resultados obtenidos con el uso
del sistema informático, luego se sistematizarán para el análisis
correspondiente. Los datos serán presentados en formatos de cuadros
comparativos, gráficos, tablas, entre otros.

5.7. Análisis e interpretación de datos


Análisis e interpretación se realizará a luz de los datos procesados en
los resultados y se contrastará la relación con los objetivos e hipótesis
propuestos en esta investigación.

VI. ASPECTOS ADMINISTRATIVOS

6.1. Cronograma de actividades


M enero febrero Marzo Abril Mayo Junio Julio
E
SEMANA 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 34
S
1. Recopilación de información de los
comprobantes de pago.
1.1. Levantamiento de información
sobre plantas medicinales.
1.2. Aplicación del Pre Test.

1.3. Implementación de la Base de


Datos para recuperacion de datos de
imagenes.
2. Selección de que tipo de escaner se
usara para la extraccion de dato.

2.1. Implementación del primer


escaner para la recuperacion de datos
de imagenes.
2.2. Implementación del primer escaner
para la recuperacion de datos de
imagenes.
2.3. Tratamiento de la Base de Datos para
acoplar a la recuperacion de datos de
imagenes.

2.4. Verificación del comportamiento de los


dos escaner para la extraccion de datos.
2.5. Selección el escaner que se
ultilizara para la extraccion de datos
3. Implementación del Sistema OCR para la
extraccion de datos de grupo
esconsultores.

3.1. Modelado de Negocio.


3.2. Análisis y Diseño de la Aplicación.
3.3. Implementación de la aplicación.
3.3. Implantación de la Aplicación.
4. Procesamiento de los resultados
obtenidos.
4.1. Aplicación del Pos Test.

4.2. Procesamiento de los resultados


obtenidos.
4.3. Análisis e interpretación de los
datos.
4.4. Difusión de los resultados del
proyecto.

6.2. Asignación de recursos

Los recursos económicos asignados a cada proyecto, serán


desagregados de la siguiente forma:
Bienes y Servicios 35.83%
Supervisión y monitoreo, difusión y publicaciones 2.50%
Subvención a investigadores 61.67%
TOTAL 100.00%
6.3. Presupuesto de costo del proyecto

6.4. Financiamiento
El proyecto de tesis será financiado por mi persona
VII. REFERENCIAS BIBLIOGRÁFICAS

7.1. Pérez J. y Brito G. (2013). Reconocimiento de placas vehiculares


mediante procesamiento de imágenes para optimizar el acceso a los
parqueaderos de la UTA, Campus Huachi.
7.2. Luna Wulfrano (2014).Mejoras al reconocimiento óptico de caracteres y
a la corrección de textos electrónicos en los sistemas de lectura
automática de texto.
7.3. Alkhoury, I (2015): Arabic Text Recognition and Machine Translation el
proyecto de tesis trata de un sistema que reconoce las imágenes de
texto manuscrito en árabe, y que traduce el texto reconocido al inglés.
Recuperado por el URL http://www.tdx.cat/handle/10803/391250.
7.4. Torra v (2004).Inteligencia artificial. Recuperado por el URL:
http://www.fgcsic.es/lychnos/es_es/articulos/inteligencia_artificial

You might also like