You are on page 1of 15

Enl@ce:

Revista Venezolana de Información,


Tecnología y Conocimiento
ISSN: 1690-7515
Depósito legal pp 200402ZU1624
Año 4: No. 2, Mayo-Agosto 2007, pp. 81-95

Sistemas transparentes para gobiernos electrónicos


eficientes
Andrade Castro, Jesús Alberto1
Yedra Hernández, Yaskelly2

Resumen

Este trabajo hace una reflexión crítica del papel que desempeñan los sistemas transparentes en el gobierno
electrónico. La misión de los sistemas transparentes computarizados es desarrollar aplicaciones confiables y robustas,
con el propósito de sustituir la fiscalización y los controles jurídicos y contables del comportamiento administrativo,
por verdaderas evaluaciones que incluyan la participación del ciudadano, en el ejercicio transparente de la acción
gubernamental. Teniendo como base la necesidad de tener aplicaciones para gobierno electrónico, el Laboratorio de
Investigación de Tecnologías y Sistemas de Información (LITSI) de la Facultad de Ciencias de la Universidad del Zulia
desarrolla aplicaciones de minería de texto, para obtener datos que están envueltos en el metalenguaje de etiquetas
(HTML) contenido en las páginas WEB. Con el prototipo que hemos desarrollado, se ha hecho un intento por convertir
información desde documentos tipos texto no estructurados que están en la WEB, en información factible de ser ana-
lizada y contrastada con las acciones y políticas públicas. Se pretende así, desarrollar sistemas transparentes eficientes
con aplicaciones computarizadas que permitan al ciudadano ejercer el control social de la gestión gubernamental.
Palabras clave: sistemas transparentes, gobierno electrónico, metaetiquetas, eficiencia, WEB

Recibido: 27-06-07 Aceptado: 12-07-07

1
Economista. Master of Science in Management Information Systems. Magister en Computación Aplicada. Doctor en Ciencias
Humanas. Profesor Titular (Emérito). Miembro del Programa de Promoción al Investigador; Nivel II.
Correo electrónico: jandrade01@gmail.com
2
Ingeniero en Computación. Master en Telemática. Profesora Agregada del Departamento de Computación de la Facultad de Cien-
cias. Universidad del Zulia. Miembro del Programa de Promoción al Investigador; Nivel Candidato. Estudiante del Doctorado de
Computación de la Universidad Central de Venezuela.
Correo electrónico: yaskelly@yahoo.es

81
Sistemas transparentes para gobiernos electrónicos eficientes
Andrade Castro, Jesús Alberto y Yedra Hernández, Yaskelly

Transparent Systems for Efficient e-Government


Abstract

This Works makes a critical reflection about the role placed by transparent systems in electronic government.
Transparent systems’ mission is to develop trustworthy and robust applications, with the purpose of substituting fiscal,
accounting and judicial controls of administrative behaviour, by real evaluations that include citizen’s participation, in
the transparent exercise of government action. Taking as basis the need to have applications for electronic government,
Laboratorio de Investigación de Tecnologías y Sistemas de Información (LITSI) of Facultad Experimental de Ciencias
at Universidad del Zulia, develops applications of text mining, in order to obtain data that are engaged in label meta-
language (HTML) of web pages. With the prototype that we have developed, an attempt has been made to convert
information from text-type documents that are in the web, into information susceptible to analysis and contrast
with actions and public policies. Thus, the pretension in to develop efficient transparent systems with computerized
applications that may allow the citizen to exercise social control over government execution.
Key words: transparent systems, electronic government, meta-labels, efficiency, WEB.

Introducción tribuya a la gestión gubernamental que incluya la


participación ciudadana.
La idea de un Estado sustentado en el go- Hasta ahora, en la administración pública la-
bierno electrónico (GE) ha generado esperanzas tinoamericana, la ciudadanía no ha sido tan activa
de alto impacto tanto en el sector público como como muchos pudieran pensar, puesto que partici-
en el privado, porque su instauración se asocia, pa limitadamente en acciones que se asocian prin-
por un lado, a la transparencia y control que ge- cipalmente con la presentación pasiva de informa-
nera confianza en los actos de la administración ción, sin embargo, ella permanece latente en espera
pública, y por el otro lado, los entes privados pre- por ocupar un lugar privilegiado en el desarrollo
suponen que para enfrentar a una administración de estrategias y políticas que permitan una mayor
pública ineficiente, la contribución de las tecnolo- transparencia y control de la gestión de gobierno.
gías de información (TICs), particularmente la In- Y ello ha sido así, porque los distintos niveles del
ternet, pudiera significar mejoras en los procesos gobierno que han usado la Internet, lo han hecho
internos que trasciendan hacia un Estado mucho principalmente como medio para promocionar el
más organizado. reparto de los servicios, y en muchos casos, como
Con esas dos visiones de la administración medio propagandístico de gestión, limitando y des-
pública, el gobierno electrónico se ha manifestado virtuando el potencial que tiene la Internet como
en una multiplicidad de formas y a distintos ni- una red de alcance para el control social, donde el
veles, con la esperanza de que su presencia con- gran protagonista sea el ciudadano.

82
Enl@ce: Revista Venezolana de Información, Tecnología y Conocimiento
Año 4: No. 2, Mayo-Agosto 2007, pp. 81-95

De manera que existe una brecha profunda siones. Los resultados de la acción gubernamental
entre las expectativas que tienen los ciudadanos son producto de las capacidades administrativas
por obtener beneficios asociados a los procesos del que el Estado desarrolla para favorecer a los diver-
gobierno electrónico, y lo que hasta ahora se le ha sos grupos de ciudadanos.
entregado al ciudadano común. La participación es el valor democrático que
El potencial que tienen las TICs para in- promueve la colaboración ciudadana en la formu-
tegrar al ciudadano al sector público en la toma lación y en la implantación de la acción pública
de decisiones existe; por tanto, el gobierno elec- (Bañón i Martínez, 2006, p xviii.). Con participa-
trónico debería usarse intensivamente como me- ción se aumenta la eficiencia de la gestión pública,
dio para la diseminación de información y como porque la actuación ciudadana es dinamizadora
herramienta para la participación ciudadana en de la acción de gobierno y de los procesos demo-
la toma de decisiones de los asuntos que le com- cráticos.
peten. Se puede, así, promocionar y construir una Pero la participación no puede reducirse a
nueva ciudadanía que esté más y mejor informada mesas técnicas de trabajo o de observación, puesto
acerca de los mecanismos del gobierno y el alcan- que la participación es, sobre todo, toma de decisio-
ce de la gestión. Para ello, se requieren sistemas nes, y para ello tiene que haber necesariamente una
que agilicen la participación ciudadana en las ta- buena información, donde el ciudadano sea prota-
reas de control, y así alcanzar gestiones más trans- gonista en la ejecución de las decisiones políticas.
parentes. Se necesitan, por lo tanto, sistemas de
información que brinden al ciudadano la posibili- La transparencia de la acción pública co-
dad de ejercer directamente un control social de la rresponde al conjunto de mecanismos que asegu-
gestión gubernamental. En ello, las tecnologías de ran la igualdad de los ciudadanos y el cumplimien-
información pueden aportar mecanismos que fa- to de sus actividades mediante el acceso y difusión
ciliten la participación ciudadana en el control de de la información. Al proveer a los usuarios con
los recursos del Estado y en la construcción de una información de políticas públicas y con resultados
sociedad donde la rendición de cuentas sea exigida de la gestión gubernamental, se pueden establecer
directamente por los ciudadanos, para incremen- vínculos entre las acciones públicas y los intereses
tar y mejorar la calidad democrática. de los ciudadanos, con el fin de regular la acción
gubernamental.
Sistemas transparentes en el gobierno El gobierno electrónico es un sistema, que
electrónico como cualquier otro, genera información organi-
zada, pero que además, se caracteriza por estar
Los valores de la acción pública en los sis- orientada a apoyar la transparencia de la gestión
temas democráticos son los de la transparencia en gubernamental, potenciando la gobernabilidad
la actuación y el de participación social en las deci- democrática al legitimar las acciones asociadas a

83
Sistemas transparentes para gobiernos electrónicos eficientes
Andrade Castro, Jesús Alberto y Yedra Hernández, Yaskelly

la transparencia y al control, que a la postre robus- De manera que la misión de los sistemas
tecen las acciones del Estado. Para Gascó (2004, transparentes es desarrollar aplicaciones confia-
p.87), el gobierno electrónico incluye todas aque- bles y robustas, con el propósito de sustituir la
llas actividades basadas en las modernas tecnolo- fiscalización y los controles jurídicos y contables
gías de información y la comunicación que el Es- del comportamiento administrativo, por verdade-
tado desarrolla para aumentar la eficiencia de la ras evaluaciones que incluyan la participación del
gestión pública. elemento humano, en el ejercicio transparente de
La gobernabilidad se incrementa si los sis- la acción gubernamental.
temas y procedimientos que incentivan la partici- Los sistemas transparentes ponen en el ciu-
pación en la vigilancia y el control de la gestión pú- dadano un instrumento para la acción social, que
blica, son abiertamente ofrecidos a los ciudadanos. debería ser el centro de la interacción entre el ciu-
Para ello, los mecanismos que aumentan la efica- dadano que tiene acceso a los mecanismos y siste-
cia y la eficiencia se deben ofrecer abiertamente a mas digitales, con los ejecutores y responsables de
los ciudadanos, para que sean ellos mismos quie- la políticas públicas.
nes vigilen el desarrollo y la aplicación de las po- Los sistemas transparentes obligan a cum-
líticas públicas. Se debe por lo tanto, desarrollar plir con las responsabilidades y a ser coherentes
programas, procedimientos y sistemas adecuados, —y consecuentes— con nuestros compromisos y
de fácil acceso y operatividad, a fin de aumentar objetivos como agentes de participación social.
la transparencia que se refleje en la vigilancia y el No se trata sólo de un modelo técnico de gestión o
control de los actos que conducen a las prácticas dirección (Sarasqueta, 2004, p. 71), sino que ade-
de corrupción. Y es que el GE tiene el potencial más, existe toda una carga de compromiso per-
de reducir la corrupción porque puede hacer a la sonal en el sistema de transparencia informativa,
administración pública mucho más transparente que en colectivo significa el accionar de políticas
y participativa, al trasladar parte del control de la públicas con racionalidad y eficiencia social. Por
gestión gubernamental a los ciudadanos, y ejercer, lo tanto, el GE debe concebirse como un sistema
así, plenamente la transparencia. transparente que sirva de instrumento regulato-
Si se desarrollaran sistemas que permitie- rio de la acción pública.
ran al ciudadano ejercer el control social, se esta-
ría incentivando la participación de aquellos que Eficiencia de los sistemas transparentes
se ven afectados directamente por las decisiones
políticas. Por lo tanto, se requiere ofrecer sistemas Los sistemas transparentes (como pueden
de información transparentes con propósitos re- ser los del GE) aumentan la racionalidad y la po-
gulatorios orientados a minimizar la corrupción e sibilidad de controlabilidad del ciudadano sobre
incentivar la participación ciudadana en el ejerci- las estrategias, líneas de acción y procesos de las
cio de la contraloría social. administraciones del Estado.

84
Enl@ce: Revista Venezolana de Información, Tecnología y Conocimiento
Año 4: No. 2, Mayo-Agosto 2007, pp. 81-95

El gobierno electrónico se caracteriza por proceso de asimilación de la información en su


generar asimetrías de información que reflejan las toma de decisiones. Si los sistemas generan y res-
prioridades de las acciones públicas. Y como conse- ponden a las políticas de transparencias, entonces
cuencia de los compromisos políticos, los sistemas son eficientes, y ello sólo ocurre cuando la infor-
transparentes pudieran ser construidos en formas mación que producen se vuelve parte o se “incrus-
que fallen en el avance de las metas políticas. Ta- ta” en rutinas de todos los días, particularmente
les asimetrías pueden generarse debido a que las en aquellas asociadas a la toma de decisiones don-
agencias de gobierno deben manejar con discrecio- de participan los ciudadanos.
nalidad determinados tipos de información. Los sistemas de información son eficientes
Los gobiernos siempre tienen acceso ex- sólo si ellos alteran las selecciones de los usuarios
clusivo a información que tratan en forma confi- en una forma que es significativa a los objetivos de
dencial, generando —a veces— desconfianza en la política planteada. Cuando los sistemas generan
el resto de la población. Y aunque, muchos tipos respuestas positivas a los ciudadanos, se produce
de información no son (ni deberían ser) secretos, la más importante condición de transparencia que
buena parte de ellos se vuelven inaccesible para la es su eficiencia. Para que eso ocurra, hacen falta
ciudadanía, sino se discrimina en forma beneficio- sistemas de información transparentes, que estén
sa para la sociedad. ajustados y debidamente diseñados a la medida de
Los sistemas transparentes permiten que las necesidades y objetivos de la acción del Esta-
información nueva se ajuste fácilmente en las ru- do.
tinas que alteran las opciones ciudadanas. Es allí Así, los sistemas de transparentes tienen
donde el GE apunta a complementar y corregir la efectos cuando alteran la selección de información
información que es socialmente relevante. De ma- de los usuarios y se manifiestan en conductas ob-
nera que disminuyendo las asimetrías de informa- servables que son de beneficio social. Esto quiere
ción se abona el camino para una mejor gestión decir, que un sistema transparente de GE sólo es
de los asuntos públicos, y en ello, el GE es una he- eficiente, si la conducta ciudadana es modificada en
rramienta adecuada para la transparencia, porque términos de los objetivos planteados por la agencia
puede disminuir las asimetrías de información de gobierno que lo implementa. Si esas conductas
que desvían el interés colectivo. responden a los objetivos planteados, entonces se
De allí que debería estar en el interés de los está en presencia de un sistema transparente para
gobiernos incentivar el uso de sistemas transpa- los fines de la política pública. Los sistemas trans-
rentes que sirvan de mecanismos de control de la parentes están asociados al efecto y alcance de la
acción pública gubernamental. política sobre el propio sistema y a distintos nive-
Cuando los sistemas proveen información les de efectividad que se pueden generar.
relevante y de fácil acceso, y los ciudadanos la in- En el GE, los sistemas eficientes generan
corporan en sus acciones, se produce entonces un confianza en la ciudadanía y motivan su participa-

85
Sistemas transparentes para gobiernos electrónicos eficientes
Andrade Castro, Jesús Alberto y Yedra Hernández, Yaskelly

ción, a la vez que brindan credibilidad al abrir el el espacio y en un formato adecuado, de manera
abanico de opciones que las tecnologías de infor- que se ajuste a la forma que a los ciudadanos les
mación pueden generar. sea útil en el proceso de toma de decisión en el
La acción de gobierno puede crear proce- conjunto de opciones que se les puede ofrecer.
sos democráticos deliberativos, a través del uso La ausencia de una cultura de la evaluación
de sistemas de información transparentes que se y de la transparencia de la acción pública deja el
sometan a las métricas y permitan la comparación camino expedito a evaluaciones arbitrarias y alea-
en formatos de fácil distribución. Por ello, los sis- torias. Hacen falta sistemas que sirvan de instru-
temas transparentes introducen información nue- mentos de medida en materia de gestión y control,
va en patrones de tomas de decisiones complejas para alcanzar una concepción instrumental de la
existentes que trascienden al beneficio colectivo. Y acción pública a medida que se produzcan resulta-
ello es así, porque un sistema transparente obliga a dos que sean susceptibles de medición. Afortuna-
la participación ciudadana y colectivamente a dar damente, lo sustantivo de los sistemas transparen-
cuentas de los actos que afectan al público, y por tes es la utilidad que tienen como instrumentos de
tanto, a estar sometidos al juicio de los demás. evaluación del impacto social de la acción pública.
Sin embargo, la necesidad de implantar
sistemas transparentes en las administraciones Sistemas transparentes y extracción de in-
públicas no significa que cualquier información formación (EI) desde portales WEB
tenga un valor en sí misma. Aunque la informa-
ción esté disponible, el público pudiera desconfiar Los objetivos funcionales del gobierno elec-
de tales sistemas, porque más información, no es trónico usualmente impulsan el uso de la tecnolo-
necesariamente mejor, ni garantiza su distribución gía en forma desconectada de las actividades rela-
equitativa, y pudiera terminar por confundir a los cionadas con políticas públicas y la participación
ciudadanos y hacerlos sentir frustrados, aislados o de los actores sociales. Específicamente se le aso-
simplemente ignorados. cia al aumento de eficiencia a través de la mejora
Los sistemas transparentes prometen po- de la gestión interna, a una mayor oferta de servi-
líticas socialmente innovativas, pero crean retos cios y una presencia más numerosa de las tecnolo-
difíciles para los gobiernos, el sector privado y los gías de información. Por lo tanto, se le considera
ciudadanos. Tales sistemas tienen importancia en un modelo “tecnológico” porque se fundamenta
la política pública, porque revelan información en el uso de tecnologías como factor determinante
que de no organizarse y estructurase sería difícil en el desarrollo de las prácticas organizacionales
de difundir. Por eso, independientemente de lo re- públicas. Al final, termina imperando un modelo
levante que resulte la información, ella no puede que obstaculiza la oportunidad de incorporar a las
proveer los fundamentos para un sistema transpa- TICs como factor de desarrollo de una sociedad
rente a menos que esté disponible en el tiempo, en cuyos cimientos son las políticas públicas. Se tra-

86
Enl@ce: Revista Venezolana de Información, Tecnología y Conocimiento
Año 4: No. 2, Mayo-Agosto 2007, pp. 81-95

ta de un modelo que, bajo el manto de una visión los con sistemas transparentes donde la variable
tecnológica y tecnocrática, pretende despolitizar fundamental de trabajo sea el dato como unidad
aspectos inherentes al comportamiento político mínima de información y la expresión de su uso
de las acciones públicas. sea el resultado de la acción del Estado, que le es
Hace falta, por lo tanto, una visión del entregada al ciudadano como insumo relevante
Estado distinta a aquella basada en la eficien- para la toma de decisiones.
cia técnica, que conduce al indefectible camino Kaufman y Sebastián (2007) proponen ale-
de construir un gobierno electrónico basado en jarse del gobierno electrónico que se centra en la
la tecnológico, para proponer un modelo menos dimensión tecnológica que sólo sirve para consu-
consumista de tecnología que tienda a resolver mir tecnología, para proponer la construcción de
problemas básicos de la sociedad, sustentado en un modelo de GE mínimo incremental que permi-
el desarrollo de sistemas de información más efi- ta levantar los cimientos para resolver problemas
cientes en términos de la participación social y la básicos en función del desarrollo de sistemas de
calidad de los datos. información compartidos (con garantía de calidad
Un sistema transparente de GE debe ser de los datos). En ese modelo incremental lo prin-
principalmente político, para que el ciudadano cipal es el dato y, por lo tanto, la información se
sea el actor social en donde las acciones públicas ve como un producto y no como un subproducto
se centran. El GE debe entonces ser visto como la del sistema, así se pone énfasis en la calidad de
plataforma para construir un modelo de sociedad la información y no en los aspectos tecnológicos.
mucho más participativo en términos de políti- Ello permite que el gobierno electrónico valide los
cas públicas, que refleje además, la agilidad y la datos como fuente de sustento de la participación
transparencia de sistemas que sirvan al ciudadano ciudadana.
como ser político, y no como un ser pasivo que es Teniendo como norte que el dato es la fuen-
resultado de la acción técnica. El GE se extiende te primaria en la construcción del modelo incre-
a lo político, no por razones asociadas a su capa- mental, se podría comenzar por enlazar los sitios
cidad técnica, sino porque el fundamento técnico WEB con la actividad de los ciudadanos. De mane-
debe expresar las razones de la política pública. ra que se hace necesario desarrollar y construir as-
Es así como podemos entender que en los pectos donde se apoye la participación ciudadana
términos de eficiencia en que se entiende el GE, en forma mucho más operativa.
debe prevalecer el factor social como centro de La World Wide Web (WEB) consiste prin-
desarrollo de cualquier expresión tecnológica. Es cipalmente de texto envuelto en un metalengua-
necesario entonces concebir sistemas transpa- je que por lo general corresponde a los formatos
rentes que permitan al ciudadano interactuar en HTML o XHTML, que se despliegan en páginas en
forma activa como controladores de las gestiones la Internet. Obtener información desde ese tipo de
de gobierno. Para ello, hace falta construir mode- páginas se ha hecho vital para el manejo de datos

87
Sistemas transparentes para gobiernos electrónicos eficientes
Andrade Castro, Jesús Alberto y Yedra Hernández, Yaskelly

públicos. De manera que extraer información es guage) característico en la Internet; y el otro, la


una actividad central en cualquier esfuerzo que parte que constituye la información que sí le es re-
se haga para descubrir conocimiento contenido levante al usuario.
(o generado) en la WEB. Sin embargo, debido a
Cuando decimos extraer información (EI),
la alta variabilidad de código HTML es muy limi-
nos referimos a un proceso automatizado que
tante definir vínculos entre los patrones del código
como entrada toma texto, que no se ve a simple
HTML y los conceptos que como seres humanos
vista, y produce salidas de datos estructuradas. EI
nos formamos.
se usa para localizar información en un documen-
Extraer información desde páginas WEB es to que, por lo general, contiene datos expresados
un paso crucial para el desarrollo de aplicaciones en un lenguaje natural, por lo tanto en forma no
bajo la técnica de minería de texto en páginas con estructurada.
formato HTML. Al hacer análisis de las funciones
La idea detrás de la extracción de datos (ED)
del GE encontramos que, debido a la naturaleza
es desarrollar procesos que tomen como entrada,
abierta de los datos que están contenidos en los si-
texto no visto en los navegadores (browsers), pero
tios electrónicos, las páginas WEB (portales) con-
que están contenidos en la páginas WEB en forma
tienen información en formato texto que no está
de código fuente, con el fin de generar salidas con
estructurada de la forma como se conciben otros
formatos fijos y no ambiguos.
tipos de información, como son bases de datos o
archivos. Y es que la información en la WEB se en- Un problema que se presenta cuando se na-
cuentra en forma semi-estructurada o no estructu- vega con browsers en la internet es que, la forma
rada, y por lo tanto, se encuentra distribuida en un de recolectar datos relevantes, está basada en mé-
formato que dificulta su accesibilidad. todos poco automatizados y eso en grandes volú-
menes de datos es inadecuado. La automatización
Extraer información de páginas WEB no
es deseable para altos volúmenes de datos y para
puede hacerse por los procedimientos sistemáti-
casos donde las personas no están capacitadas en
cos tradicionales de captura de datos, y ello es de-
actividades de computación. Para ese tipo de si-
bido a que los sitios WEB contienen información
tuaciones es deseable acceder a datos desde pro-
adicional a la que es relevante a los usuarios. De
gramas computarizados que les permita interac-
manera que en los portales y demás sitios WEB
tuar y recolectar datos desde estructuras menos
existen dos tipos de datos; por un lado, aquellos
conocidas.
que conforman la estructura de la página, que
forman parte de un metalenguaje conocido como Hay, ciertamente, muchos documentos en
lenguaje de marcado o de marcas, que se expresa a la WEB que son dirigidos principalmente para
través del uso de metaetiquetas y que corresponde presentar algunos datos estructurados, tales como
a la manera como se codifica un documento en el listas (precios, artículos, etc.), tablas (horarios,
lenguaje de hipertexto (Hypertext Markup Lan- cruce de datos asociados, etc.) y otras formas es-

88
Enl@ce: Revista Venezolana de Información, Tecnología y Conocimiento
Año 4: No. 2, Mayo-Agosto 2007, pp. 81-95

tructuradas. Tales documentos se denominan da- Un modelo de este tipo de jerarquía es


tos intensivos, y son generados automáticamente denominado “estructura lógica de documentos”
desde el back-end de un sistema de base de da- (Summers, 1995). Diversos enfoques se han pro-
tos. La información, en este tipo de documentos, puesto con el fin de descubrir estructuras lógicas
usualmente es presentada en una forma clara y en documentos de tipo HTML (Gu, Chen, Ma,
estructurada, de manera que el usuario puede en- Chen, 2002 y Kahn 2001). Con código HTML las
contrar la información deseada con poco esfuerzo limitaciones del manejo de datos estás dadas por
(Burget, 2004). las limitaciones del navegador, las cuales se some-
ten a las jerarquías propias del lenguaje.
Usualmente, este tipo de documento contie-
ne una estructura jerárquica de encabezamiento y Estos procesos automatizados están basa-
etiquetas de navegación que denotan el significado dos en algoritmos y programas que son desarro-
de cada parte del texto o el valor de los datos tra- llados bajo un enfoque de minería de texto, una
tados, que permite al usuario ir desde el dato más variante de la minería de datos. En particular, la
general (ejemplo, desde el encabezamiento princi- minería de textos permite explorar datos en la
pal, que da una idea del tópico del documento) a WEB para descubrir patrones desconocidos o
una forma mucho más específica, a fin de alcanzar para generar información con significado para al-
un valor del documento. Este tipo de jerarquía es gún tipo de usuario en particular. La accesibilidad
llamada estructura lógica del documento. y abundancia de información en los portales WEB
Contrario a lo que ocurre con el código en hace del uso y desarrollo de la minería de datos un
HTML (metalenguaje) donde el usuario de docu- asunto de considerable importancia y necesidad.
mentos es limitado por las capacidades del WEB Los beneficios del uso de esta metodología incluye
browser, la información no estructurada —que es el mejoramiento en el manejo de grandes volúme-
relevante— debe ser buscada e interpretada por nes de datos y la obtención de resultados más cla-
el usuario. Esto tiene diversos problemas comu- ros para propósitos definidos.
nes que son causados por la gran variabilidad de
Un elemento que le añade dificultad, a la
HTML y porque las construcciones no tienen rela-
generación de información a partir de las páginas
ción directa con los datos semánticos.
WEB, está relacionado con el diseño. Las páginas
Hacen falta métodos, técnicas y herramien- WEB usualmente tienen una inmensa variedad de
tas adecuadas para manejar sitios WEB, con el diseños, de manera que de antemano no está cla-
propósito de generar tipos de información a partir ro si sería posible realizar una extracción de datos
de datos que se encuentran contenidos en los docu- en forma sistemática y si los datos extraídos serán
mentos con formato HTML. Sin estas técnicas, aso- de utilidad para el procesamiento y generación de
ciadas a la extracción de datos, sería muy difícil ob- información, que sea útil para los propósitos y re-
tener información que se despliega en la Internet. querimientos funcionales que se definen.

89
Sistemas transparentes para gobiernos electrónicos eficientes
Andrade Castro, Jesús Alberto y Yedra Hernández, Yaskelly

Estudios relacionados con la extracción au- pueden estar distribuidos en diversos lugares de
tomática han sido realizados por Liu, Grossman,y la página o incluso en diverso sentido (horizontal
Zhai (2003) quienes han propuesto un método o vertical).
de extracción de registros de datos en las pági-
Otros estudios refieren a la extracción en los
nas WEB. Reis, Golgher, Silva, y Laender (2004)
niveles de estructuras de datos, por ejemplo Breuel
investigaron acerca de la extracción de artículos
(2003) propuso un análisis sintáctico (parsing) de
de noticias. Craven (2003) propuso un método
la página WEB, formando árboles de etiquetas en
de extracción de resúmenes desde las páginas
HTML. Song, Liu, Wen y Ma (2004) han propues-
WEB.
to dividir las páginas WEB en bloques, para luego
Un desafío crucial en la extracción de infor- extraer información desde esos bloques.
mación, como tecnología de aplicación en la WEB, Lee, Seo, Lee, Jung, Cho, Lee, Kwak, Cha,
es la adquisición de experticia. Las técnicas para Kim, Ahn, Kim y Kim (2001) desarrollaron la idea
extraer información del dominio son todavía muy de recuperar respuestas en lugar de documentos, a
débiles y en particular en la WEB estas técnicas través de procedimientos centrados en un sistema
están afectadas por la forma cómo se organizan de preguntas y respuestas, a partir de respuestas
los distintos tipos de documentos y por el tiempo “tipos” y así seleccionar la respuesta por cada res-
que los expertos deben involucrarse en aportar su puesta “tipo”. El enfoque en este caso consistió en
conocimiento. Jung; Yi; Kim y Lee (2005) pro- clasificar posibles respuestas y diseñar un método
pusieron estrategias para extraer información de para determinar los tipos de respuestas.
los expertos y generar conocimiento automático
a partir de documentos estructurados de la WEB. Una técnica desarrollada por Shim, Kim,
Su enfoque está dirigido a documentos estructura- Cha, Lee, y Seo (2002) consistió en hacer un aná-
dos, por lo tanto deja por fuera una vasta cantidad lisis de pre procesamiento morfológico, en don-
de documentos WEB. de un pre-procesador remueve la mayoría de las
etiquetas pertenecientes al metalenguaje HTML
El trabajo de Xue, Hu, Xin, Song, Shi, Cao, en un documento en página WEB, con excepción
Lin y Li (2007) extrae datos en forma automáti- de las etiquetas <title> y <keyword> que son
ca desde los títulos contenidos en el cuerpo de los usadas posteriormente para propósitos específi-
documentos HTML publicados en la WEB. Ellos cos. El pre procesador mantiene el diseño de las
desarrollaron un método para extraer automáti- tablas y determina las fronteras del cuerpo del
camente los títulos bajo ciertas condiciones de ta- documento. Todos los procesos después de este
maño de la letra, color, estilo, alineación, número pre procesamiento son ejecutados en documentos
de títulos contenidos, líneas de texto consecutivas, HTML con sus etiquetas removidas, constituyén-
etc. En todas esas situaciones, el problema se cen- dose en un documento casi en formato texto sim-
tra en el diseño de la página, porque los títulos ple. Luego, un analizador morfológico analiza las

90
Enl@ce: Revista Venezolana de Información, Tecnología y Conocimiento
Año 4: No. 2, Mayo-Agosto 2007, pp. 81-95

sentencias en el lenguaje Koreano. Cada eojeol3 que le permiten ejercer un mayor control de la eje-
en una sentencia, produce pares de morfemas con cución gubernamental. Para que las tecnologías
cierta parte de las etiquetas correspondientes al de información sean utilizadas sistemáticamente,
nuevo texto. El analizador morfológico hace una hace falta la institucionalización de lineamientos
post edición del análisis y recupera el morfema de básicos generales que sirvan de referencia para la
la secuencia incorrecta usando una base de datos adopción de sistemas transparentes. Debido a que
de errores. cada instancia de gobierno aspira insertar o modi-
ficar el uso de TICs para incrementar su eficiencia,
Propuesta de aplicación de minería de tex- hacen falta lineamientos rectores que permitan la
to en el GE organicidad de las políticas del Estado.
En el Laboratorio de Investigación de Tec-
En todos los trabajos anteriormente refe- nologías y Sistemas de Información (LITSI) de la
renciados, el análisis circunda en torno a la extrac- Facultad de Ciencias de la Universidad del Zulia
ción de información desde páginas en la WEB para estamos trabajando en el desarrollo de sistemas
transformar el contenido de la entrada de docu- transparentes, que permitan obtener datos desde
mentos en datos estructurados. la WEB que cumplan patrones pre establecidos.
El uso generalizado de la Web ha conver- Un prototipo ya desarrollado, permite buscar,
tido a HTML en un estándar de facto para inter- dentro del metalenguaje, información que le es
cambiar documentos. HTML es una simplifica- relevante a los usuarios (nuestro interés es a los
ción de SGML, un lenguaje de especificación de ciudadanos).
texto estructurado diseñado originalmente con el Con el prototipo que hemos desarrollado,
objetivo de que fuera un lenguaje universal para se ha hecho un intento por convertir información
intercambiar y manipular texto estructurado. Es desde documentos tipos texto que están en la WEB
bastante posible que XML reemplace a HTML en (portales de GE) en información que es vertida
el futuro, y se hacen esfuerzos para estandarizarlo. como entradas en bases de datos relacionales (po-
La estructura que se puede derivar de un texto en blar la base de datos), para ser luego analizadas y
ningún caso es similar a la relacional (como las de contrastada con las acciones y políticas públicas.
las bases de datos relacionales), que se puede se- Uno de los principales retos que se nos pre-
parar en campos y registros fijos y tabulada. sentó cuando desarrollábamos aplicaciones para
Para los propósitos del gobierno electró- extraer información, fue el de ser consistente con
nico, las técnicas de extracción de información el contenido de la página y el manejo del metalen-
brinda al ciudadano con sistemas transparentes guaje incrustado. A nivel del prototipo, desarrolla-

Frases segmentadas y palabras en Koreano que se transforman en un espacio.


3

91
Sistemas transparentes para gobiernos electrónicos eficientes
Andrade Castro, Jesús Alberto y Yedra Hernández, Yaskelly

mos varios métodos empíricos relacionados con el cial a partir de una métrica predefinida que sirva
proceso de extracción de información; por ejem- para interpretar los datos. El procedimiento invo-
plo, un enfoque predominante consistió en anotar lucra el desarrollo de reglas en mDTD que permi-
manualmente una recopilación grande de datos ten establecer un dominio de trabajo. Esto se logra
extraídos en forma indirecta (en nuestro caso, por- a partir la extracción de documentos estructura-
tales WEB de gobierno electrónico de Venezuela) dos de la WEB sin ayuda manual.
que sirvieron de pista para formalizar futuras bús-
quedas. Esto se hizo a través de un procedimiento Nosotros, hasta ahora, hemos contribuido al
que sirvió de aprendizaje para construir patrones área de búsqueda en texto no estructurado a fin de
de extracción desde el corpus de texto anotado. poblar bases de datos (información estructurada).
Este procedimiento fue anteriormente propuesto Planeamos continuar trabajando en lenguajes tipo
por Nahm, y Mooney (2000). También, consi- XML, desarrollando prototipos para consultar da-
derando la propuesta de Yangarber y Grishman tos, en páginas elaboradas en otros lenguajes como
(2000) redujimos las anotaciones manuales apli- el XML. La capacidad de consultar eficientemente
cando directamente técnicas de aprendizaje con XML (y HTML como un caso simplificado) abrirá
datos no anotados, luego de obtener indicaciones la puerta a mejoras de las máquinas de búsqueda
de lo que interesaba para la captura de patrones en portales Web, tales como el de incorporar pre-
regulares de información. dicados sobre la estructura de los documentos. Así
mismo, pretendemos hacer un análisis de grafo
Nuestra meta es desarrollar un sistema WEB
que nos indique el grado de profundidad que un
de extracción de información altamente portable,
sitio WEB genera.
sin anotación manual, proponiendo al menos dos
ideas claves. Primero, desarrollar el sistema en un
software universal no privativo y de libre acceso, Resultados preliminares
XML y SGML para aplicar extracciones en docu-
mentos WEB basados en el estándar HTML, ello a Los sitios WEB contienen etiquetas que dan
través de una sintaxis expresada en una definición significado a la manera cómo se despliega la in-
tipo documento modificado (Document Type De- formación; adicionalmente, las páginas contienen
finition —mDTD—), desarrollado por Kim, Jung, datos que son considerados errores o información
Lee (2003) el cual depende de una interpretación no deseada al corpus del texto tratado, ello dificul-
analítica para identificar el objetivo de extracción ta la recuperación de información relevante.
desde el contenido del documento WEB. Y segun- Este alto número de errores existentes en
do, desde un documento DTD convencional pre- los documentos desplegados de Internet, en la ma-
tendemos dos cosas, a) introducir un modelo con yoría de los casos por no seguir los estándares, difi-
palabras clave y operadores que corresponden a culta el tratamiento informático; por ello, estamos
los datos objetivos, y b) construir una información desarrollando técnicas de depuración de texto que
relevante para el desarrollo de una controlaría so- previamente procesen y reparen las páginas web,

92
Enl@ce: Revista Venezolana de Información, Tecnología y Conocimiento
Año 4: No. 2, Mayo-Agosto 2007, pp. 81-95

a fin de obtener documentos XHTML (eXtensible nistración pública más productiva, transparente y
HTML) bien establecidos. democrática, que facilite la eficiencia en el servicio
Las pruebas realizadas, aunque prelimina- público y modifique la relación tradicional entre el
res, muestran el gran potencial del método pro- ciudadano y el Estado, a través de la existencia de
puesto para encontrar información a partir de da- sistemas transparentes.
tos embebidos en metalenguajes, al usar la Web
Los resultados se reflejan en la moderniza-
como corpus del texto, así como la viabilidad de la
ción del Estado como entidad jurídico-administra-
incorporación de nuevo conocimiento en reposi-
tiva, y se manifiesta en la incorporación de nuevos
torios y sistemas que intentan disminuir la ambi-
espacios de participación en la toma de decisiones
güedad del sentido de las palabras, que pueden a
y como apoyo para la contraloría social.
su vez ser usadas en sistemas de recuperación de
información. La participación ciudadana es vital para la
Para el ciudadano que interactúa a través el desarrollo del gobierno electrónico, pero hay
de la internet, un sistema de información transpa- que adaptarlo a la aplicación de políticas públicas;
rente, basada en calidad de los datos, le permitirá por lo tanto, estas deben prevalecer y reflejarse en
ejecutar políticas públicas a través del uso de mé- el portal, para que el GE no sea visto como un ele-
tricas aplicadas a los portales de gobierno electró- mento “adicional” de la gestión de gobierno, sino
nico. Por ejemplo, cualquier ciudadano podría ha- que se pueda considerar como un mecanismo útil
cer seguimiento de la ejecución de obras, desde el y necesario para la gobernanza.
momento en que se licite, vigilando el proceso de
Desde un punto de vista práctico, la trans-
desarrollo que tiene la obra en un momento dado.
parencia y la confianza en el GE se amarra al po-
Sin embargo, el sistema por sí mismo no garanti-
tencial que brinda el uso de las tecnologías de in-
za que la información en el portal sea válida o que
formación y los sistemas transparentes, para que
esté correctamente publicada. Lo que el sistema se
la ciudadanía ejerza su participación plena, con el
limita a hacer es tomar la información publicada
fin de re estructurar la acción de la democracia.
en el portal, para establecer la presencia y cum-
plimiento de ciertos indicadores previamente di- La internet es el espacio donde el GE adquie-
señados. re sentido, pero para los efectos de la participación
y control hace falta que se desarrollen sistemas
Conclusiones transparentes. En el Laboratorio de investigación
de tecnologías y sistemas de información LITSI
Con el gobierno electrónico se pretende estamos desarrollando sistemas que permitan la
brindar a la ciudadanía un mayor y mejor acceso a operatividad de la acción política, a través del uso
los mecanismos de decisión, en temas que la afec- de sistemas computarizados dirigidos a ejercer el
ten directamente. La idea es construir una admi- control social de la gestión pública.

93
Sistemas transparentes para gobiernos electrónicos eficientes
Andrade Castro, Jesús Alberto y Yedra Hernández, Yaskelly

Es necesario que el ciudadano común se Gascó, M. (2004). E-gobienro en Bolivia y Paraguay. En


instruya en el uso de herramientas mínimas para América Latina Puntogob. Casos y Tendencias
participar activamente en los procesos políticos, en Gobierno Electrónico, Coordinador Araya
económicos y sociales que viven las sociedades. Dujisin; Porrúa Vigón.
Gu X.; Chen J; Ma W. y Chen G. (2002). Visual
La ciudadanía debe impulsar la incorporación de
Based Content Understanding towards Web
sistemas transparentes en los asuntos públicos,
Adaptation, Proc. Adaptive Hypermedia and
de tal modo que se materialice el principio de la Adaptive Web-Based Systems, Malaga, Spain,
democracia participativa y protagónica, en donde pp. 164-173
sea la ciudadanía organizada quien desde sus ni- Jung H.; Yi, E.; Kim, D. y Lee, G. (2005). Information
veles, cualidades y capacidades puedan decidir y extraction with automatic knowledge expansion.
ejecutar las acciones del gobierno electrónico. Information Processing and Management 41,
pp. 217–242
Lee, G.; Seo, J.; Lee, S.; Jung, H.; Cho, B.; Lee, C.; Kwak,
Bibliografía B.; Cha, J.; Kim, D.; Ahn, J.; Kim, H. y Kim, K.
(2001). SiteQ: Engineering high performance QA
Bañón i Martínez, R. (2006). (Compilador). La evalua- system using lexico-semantic pattern matching
ción de la acción y de las políticas públicas. Es- and shallow NLP. En Proceedings of the 10th
paña: Ediciones Díaz de Santos. text retrieval conference.
Liu, B.; Grossman, R. y Zhai, Y. (2003). Mining data
Breuel, T. (2003). Information extraction from records in web pages. En Proceedings of the
HTML documents by structural matching. ninth ACM SIGKDD internacional conference
En Proceedings of the second internacional on knowledge discovery and data mining (pp.
workshop on web document analysis. 601-606).
Burget, R. (2004). Hierarchies in HTML Documents: Nahm, U. y Mooney, R. (2000). Using information
Linking Text to Concepts. En Proceedings of extraction to aid the discovery of prediction rules
the Database and Expert Systems Applications, from text. En Proceedings of the ACM SIGKDD-
15th international Workshop on (Dexa’04) - 2000 workshop on text mining.
Volume 00 (August 30 - September 03, 2004). Sarasqueta, A. (2004). Una visión global de la
DEXA. IEEE Computer Society, Washington, globalización. Espaýa: EUNSA.
DC, 186-190. DOI= http://dx.doi.org/10.1109/ Reis, D.; Golgher, P.; Silva, A. y Laender, A. (2004).
DEXA.2004.80. Recuperado el 12 de marzo Automatic web news extraction using tree edit
de 2007 del sitio WEB: http://citeseer.ist.psu. distance. En Proceedings of international WWW
edu/cache/papers/cs2/492/http:zSzzSzwww. conference (pp. 502–511).
fit.vutbr.czzSz~burgetrzSzpublicationszSzwebs Shim, J.; Kim, D.; Cha, J.; Lee, G. y Seo, J. (2002).
2004.pdf/burget04hierarchies.pdf Multi-strategic integrated Web document
Craven, T. (2003). HTML tags as extraction cues for pre-processing for sentence and word
web page description construction. Informing boundarydetection. Information Processing
Science Journal, pp. 6, 1-12. and Management, 38(4).

94
Enl@ce: Revista Venezolana de Información, Tecnología y Conocimiento
Año 4: No. 2, Mayo-Agosto 2007, pp. 81-95

Song, R.; Liu, H.; Wen, J.-R. y Ma, W.-Y. (2004).


Learning block importance models for web
pages. En Proceedings of internacional WWW
conference (pp. 203-211).
Summers, K. (1995). Toward a taxonomy of logical
document structures. Electronic Publishing and
the Information Superhighway: Proceedings of
the Dartmouth Institute for Advanced Graduate
Studies (DAGS ’95). Boston, USA.
Xue, Y.; Hu, Y.; Xin, G.; Song, R.; Shi, S.; Cao, Y.; Lin,
C. y Li, H. (2007). Web page title extraction and
its application. Information Processing and
Management. 43 (2007) pp. 1332-1347
Yangarber, R. y Grishman, R. (2000). Extraction
pattern discovery through corpus analysis.
En: Proceedings of the conference on applied
natural language processing ANLP-NAACL.

95

You might also like