You are on page 1of 8

c c


   
cc 


 !"#
"$% &'
!())*
c+", c",-.##, c","

!/   %0  !     '! 1  '   $   2%  

  %   -   1      !"  
 %  -       
"30!%1 0% ,1!!44
%5!0'##% !44,

c-/2% 6
 "$ 3 7  % " ,

²²²²²²²²²²[²²²²²²²²²²

 c
c8

E l volumen de información que se genera en los blogs


de la UTPL se ha incrementado debido a la
interacción académica de profesores y alumnos de la
( 7c8 c3 c8
universidad ya que se publican trabajos de clase y Wordpress almacena en su base de datos los
proyectos que se desarrollan en el semestre. Pero en la metadatos que el usuario ingresa en un artículo, como
actualidad sólo las personas que publicaron sus son el titulo, etiquetas, categorías, autor, etc., la cuál se
contenidos conocen de su existencia en la web, lo que almacena en las tablas wp_blogs, wp_user, wp_#posts,
limita la visibilidad y uso de las mismas. wp_#terms, wp_#term_relationships,
Otro problema que se presenta es que no existe la wp_#term_taxonomy, wp_#comments, wp_#links,
cultura de etiquetación de los contenidos que se publican wp_#options de la base de datos del wordpress
en la web, lo que provoca que no exista etiquetas multiusuario.
necesarias que faciliten la clasificación temática de La extracción de esta información se puede realizar a
contenidos de interés. través de consultas SQL a su base de datos.
El proyecto propone el desarrollo de un sistema de Adicionalmente para la extracción de información se
extracción de conocimiento que permita la etiquetación analizó varias herramientas como: Foca, (online y
de los contenidos de los blogs, utilizando lenguajes de servidor local), Metadata Miner Catalogue, HTML Code
descripción semántica desde los blogs del Wordpress Export, Open Calais y Alchemy API, las mismas que
multiusuario (WPMU) y desde el contenido de las cumplen su función de extracción de metadatos,
entradas. generando información en forma desorganizada, por ello
Por medio de lenguajes de descripción semántica se se evaluó los lenguajes semánticos que se acoplan al
obtendrá la información necesaria para implementaciones sistema a desarrollar.
en sistemas de representación de conocimiento que (, "$
permitirá extraer filtros temáticos de acuerdo a Las soluciones para vincular esquemas de descripción de
necesidades. recursos de información y de metadatos son escasas
Así también se pretende que el proyecto sirva como para sistemas CMS como Wordpress.
base para futuras investigaciones sobre filtrado de Los estándares existentes, se basan en la arquitectura
contenidos en plataformas y repositorios de la UTPL. XML, que pueden combinarse con Wordpress para
elaborar una estrategia de metadatos coherente e
integrada.
vvvvvvvvvvvvvvvv Otro lenguaje que se adapta al Wordpress multiusuario
ã c  
           es el Resource Description Framework (RDF), es una
         !"   alternativa para la definición de recursos web [1], siendo
ã |  #$ $
        c   un modelo de metadatos para mejorar la recuperación de
c     c  %          
$ $"  
información.
ã   &
        c   La DCMI, definida por la norma ISO 1536 del 2003[2]
c     c  %           que delimita los elementos de Dublin Core utilizados en la
"   descripción de objetos de información, beneficiando la
 '(  )!   *+'+
----9----:)-:;--,))<())-c 

=  ,>c  (

participación extensa de estándares interoperables de procesos principales del sistema son:


metadatos. š Extracción de metadatos, cuando la entrada
posea tags.
š Extracciòn de metadatos, cuando la entrada no
(  .c c .c8
posea tags.
(,( - 1 !" š Generación de Archivos RDF compatibles con la
Actualmente la información de los blogs se plataforma Scuttle.
encuentra sin etiquetas y desorganizada, siendo invisible
por los usuarios que buscan en Internet.
„   

     
 ö    c  +

  


 
 
 
  ö, %  
  



   
 
 
  El sistema permite la extracción de metadatos y la

  
  

  

  generación de archivos semánticos, mediante la ejecución
 

  
 „
  „ 

 de dos procesos importantes como:
 
 kmarks estructurados en archivos RDF, š Obtener los metadatos
que pueden ser registrados en buscadores semánticos y š Generar de RDF
utilizados por herramientas de representación semántica. El nombre de esta aplicación es Sistema de
†, " Etiquetación de Metadatos a Entradas de blogs (EMEB).
La estrategia que se propone para este proyecto
comprende los siguientes pasos:
ö,†  +9
 
?  
 

3",,  +,


š Desarrollar la programación en php para la
extracción de etiquetas de la base de datos
del WPMU y la generación de archivos RDF.
š Elaborar una taxonomía en base a la
distribución de áreas de la universidad, y que
ayudará a la organización de la información.
š Incluir un plugin en la plataforma del WPMU
para la categorización de blogs a nivel de
administración.
š Utilizar el web service AlchemyAPI como
extractor de metadatos para las entradas sin 3",(, +,
etiquetas. Aunque el Sistema EMEB es de ejecución automática, se
š Generar automáticamente un archivo RDF debe presentar el resultado de la ejecución de los
que contiene los bookmarks obtenidos de la procesos. Así como también del registro de logs del
extracción de los blogs. propio sistema.
š Realizar pruebas de funcionamiento del Se presentará el resumen estadístico de la generación de
proceso de extracción de metadatos. bookmarks pero únicamente para el rol de Administrador
š Adaptar la aplicación en un servidor de del Wordpress multiusuario.
pruebas con la finalidad de prevenir algún Se modifica la interfaz del Wordpress multiusuario con
error posterior a la implementación. un campo para escoger una categoría a nivel global,
š Utilizar al menos una muestra de 30 entradas permitiendo la organización de los blogs.
para los casos de prueba del sistema. ?   

 
†,(  En esta capa, se agrega los módulos principales del
El sistema EMEB realiza sus procesos de forma Sistema EMEB, como es la Obtención de metadatos y la
automática a través de 2 rutinas ksh1, que realizaràn el Generación de Archivos RDF.
llenado de datos y la generación de archivos RDF. Los Cabe destacar que, se implementa el Web service
Alchemy API para la extracción en las entradas que
1
 , -  ./-0    1  2 1    carecen de etiquetas. Así como también se utilizará el
        % 

=  ,>c  †

plugin Category Mapping para la categorización de los


blogs basándose en una taxonomía de acuerdo a la
división de areas de conocimiento de la universidad.
?    
A la base de datos se agregan las tablas wp_bookmarks
y wp_logs_bk para el almacenamiento de los metadatos y
la que se registre los logs de los procesos automáticos
del sistema EMEB.
En esta capa también se encuentra el directorio que
se almacena los bookmarks que describen en archivos
RDF, mediante el cual accede el Scuttle.

ö,ö !44
Un archivo RDF se puede registrar en repositorios de RDF,
para que sean accesibles por motores de búsqueda.
Se ha utilizado el estándar Dublin Core por ser el más
utilizado a nivel mundial para la descripción de
metadatos, además porque se puede reutilizar sus
elementos.
En la estructura del bookmark se usan algunos de los
elementos de Dublin Core como se detalla a

3",†, !44 +,

continuación.

Ê  
?

 
 

Elemento de
Metadato
Dublin Core 3",ö,"1$" 3,
Título de la entrada dc:title
Autor de la entrada dc:create
Descripción de la entrada dc:description
Se empieza con la evaluación de las entradas que han
Link de la entrada dc:source
sido ingresadas últimamente y además que posean el
Tags o etiquetas dc:subject
estado ³publicada´. Además se evalúa si la entrada
Categorías dc:identifier posee etiquetas.
o,  c  + Si la entrada no tiene etiquetas, se utiliza el web
service Alchemy API, para generar los tags para
Para el desarrollo se identificó dos procesos
utilizarlos y almacenarlos en la tabla wp_bookmarks.
principales como son:
En caso que la entrada si posea etiquetas, se procede
š Extracción de metadatos
a llenar los datos a la tabla wp_bookmarks
š Generar archivos RDF
Todas las acciones se almacenan en los logs del
o, -  
sistema EMEB en la tabla wp_logs_bk.
En el siguiente diagrama de flujo, se pueden visualizar los
pasos que se deben seguir para la utilización del módulo de
Llenado de Datos.

=  ,>c  ö

o,( . 3


En el siguiente diagrama de flujo, se pueden visualizar Este script permite la ejecución automática del proceso
los pasos que se deben seguir para la utilización del bk-llenar-datos.php, cada vez que ejecuta este proceso
módulo de Generar RDF. escribe en un archivo de log dentro del directorio
/bookmarks/log, en estos logs se indicará la fecha y hora
Primeramente se realiza la lectura de la tabla en que se ejecutó.
wp_bookmarks. Tomando en cuenta aquellos ååååååååååååååååååååååååååå
bookmarks que no fueron generados anteriormente. ååååå   åååååå
ååååååååååååååååååååååååååå
Cuando si existan bookmarks nuevos se procede a la
utilizar dicha información utilizando la descripción de å 
   
    
  
   !
algunos de los elemento de Dublin Core como: dc:title,
dc:description, dc:source, dc:creator, dc:subject, que å     "
 #  
    $  
 %&! '  &' (( () (* ++ ** *,-
å.!     
     # !   /
!!          
 ! .0102(, (3 )*2

å4!
   "
 #  
    $  
 !&! '  &' (( () (* ++ 56 53-
40102*(2

å  7!   !#  &


018&8&   7

, " +
El uso de logs es fundamental, ya permite mantener
informado al administrador de los procesos que se han
realizado en el Sistema EMEB, así como también de
cualquier anomalía que puede ocurrir. Por tal razón en
este sistema, se debe guardar o dejar un registro.
Se emplean 4 tipos de logs como:
š  Trata a nivel de error, ejemplo: error en
la inserción de algún bookmark.
š c Trata de la información más relevante
(poco)
š Ä  Trata de errores con un nivel más alto
de detalle del log ocurrido
3",o,"1$.3 +, š È c Errores del tipo advertencia como:
se genera el archivo RDF y se almacena en el que sobrepase el numero de caracteres o por no
directorio wordpressmu/bookmarks/bk-archivos-rdf. poder extraer etiquetas, mediante la evaluación
, 
c8
 ?c    mediante le web service Alchemy APÎ.
Debido a que el servidor de producción donde se tiene w,
+ c  +
Las pruebas de realizaron sobre 32 entradas en
diferentes blogs del multiusuario, las cuales reúnen las
siguientes características.
Ê   ?  !
 "Ä



?  
  
‘   
  
‘ 

  
‘    

  
‘    


  
‘  
  
 
3",, $ %
+,
‘  
   
‘     

 
implementado el Wordpress Multiusuario no tiene    
instalado el CRONTAB, se han creado dos scripts ksh
(Korn Shell) que permiten ejecutar los procesos de forma Una vez realizada la configuración y la adaptación del
diaria y calendarizada; estos scripts son: sistema EMEB-UTPL, al wordpress multiusuario, se
š ejecuta_llenar_datos.ksh ->‘
 
 
 ! realizan las siguientes pruebas a nivel de sistema y nivel

 !  " de usuario.
š ejecuta_genera_rdf.ksh -> ‘
 
 
 ! Ê  #


 
  


! #".

=  ,>c  o

 
   Ê  $ % 



a       ? a 


 
a  

  Y     
a  
 
   
 !   " "#
a  

  

 Ê Ê  $ 
a   



a   

  
 

 

w, !c" ?  


   

 
Las pruebas de Integridad de Datos se realizan en los  
siguientes escenarios:
Y 
š Llenado de Datos en las tablas del Sistema EMEB 
 Cuando existen tags asociadas a las  
entradas. 
 Cuando no existen tags en las entradas
š Generación de Archivos RDF 3",, $ %
Una vez puesta a prueba el método de llenado de +,
datos se revisa que sean datos correctos, sin interrupción
de alguno de ellos.
Los resultados indican que, de un total de 32 entradas
Los tags extraídos desde el wordpress, o desde el
el 94% de los casos se validaron sin error, en cambio se
resultado del Web Service Alchemy API, son utilizados
presenta un 6% de las entradas que presentaron errores
como parte de la descripción de cada bookmark.
de validación.
El análisis del archivo RDF que contiene los
Para mitigar este problema se procedió a utilizar una
bookmarks permite verificar si los datos son válidos y
función de limpieza de código HTML, con la finalidad de
reflejan la información que contienen en las entradas de
depurar datos no entendibles, para que la información de
los blogs.
la descripción tenga validez visual.
w,( !3 Una vez corregido este error se procedió a la
El objetivo de las pruebas de funcionamiento es asegurar validación del código para la obtención de tripletas y el
el cumplimiento de la funcionalidad de la navegación, grafo del RDF evaluado.
carga de datos, procesamiento, y generación de archivos
RDF. Se requiere verificar lo siguiente:
š Qué los procesos automáticos se ejecuten según
el cronograma diario que se configuró en el
servidor.
š Qué los resultados sean correctos.
š Que se registren en los logs del sistema
mensajes apropiados de error y precaución
cuando no existan entradas nuevas.
En el proceso de las pruebas de funcionamiento, se
verificó que la extracción de datos, carga y generación de
los procesos del sistema EMEB se ejecutan
correctamente.
w,† !@ 
El objetivo de las pruebas de validación es certificar
que los archivos RDF generados por el sistema EMEB
cumplan con las normas establecidas por la W3C.
Cabe destacar que, en el desarrollo de estas pruebas
de validación se obtuvo un conjunto de errores en el
campo de descripción de la entrada ya que en ella existe
código embebido en aplicaciones como: slideshare,
youtube, flickr y similares.
La siguiente tabla muestra los resultados de las 3",A,%' 3 +,
pruebas de validación sobre el conjunto de entradas
tomadas como muestra.

=  ,>c  

En resumen se puede decir que, se debe usar las


recomendaciones de la W3C, para los estilos de los blogs
y el contenido, de manera que pasen las pruebas de
validación, y por consiguiente sean accesibles por los
robots de búsqueda.
Al almacenar estos archivos repositorios RDF, facilita
la visibilidad de la información contenida en dichos RDF.

w,o ! !


El objetivo de las pruebas de estabilidad es asegurar
que el sistema EMEB es estable y no altera el
funcionamiento del Wodpress multiusuario.

‘       
Y   

p


3",B,.1' 3 +, 3",), +,

Las pruebas se realizan mediante una encuesta


Con el resultado de esta evaluación, se concluye que realizada a los usuarios para que ingresen entradas con
el RDF es correcto y se puede utilizar en cualquier según los casos de prueba de la Tabla 2.
sistema de representación semántica. Los resultados obtenidos señalan que, las entradas se
almacenaron normalmente en un 97% de los casos, en
w,ö !! cambio el 3% no pudo almacenar la entrada, debido a
Para las pruebas de accesibilidad se ha utilizado que se intento subir un archivo que sobrepasaba el límite
herramientas online como: de carga normal.
Luego de las pruebas realizadas se concluye que:
Ê  &  


  š El sistema EMEB, no afecta el
funcionamiento del WPMU.
š Las configuraciones del WPMU limita al
*     Sistema EMEB.
  
‘% &    


 w, 1,
Ê 
  %  
'    Actualmente existen proyectos de normas o

     

(   estándares que se usan en organismos dedicados a la
  
  )**+), investigación semántica y grupos de usuarios. La
-

    

     ISO/IEC es la encargada de normalizar los elementos de
 %       datos y facilitar el intercambio de información entre
‘  #./%   distintas bases de datos. Por tanto hay diferentes
   
    %  %  propuestas al respecto que se encuentran desarrollando
Ê         
   diversos esquemas y estándares para formalizar el uso

 , de metadatos y establecer un conjunto de reglas
‘    %

 
   012 semánticas, sintácticas y de contenido que pretenden
aÊ    %  *
 ‘3‘/
 describir homogéneamente Objetos de Aprendizaje o
  
4 %, recursos de información [3]
* 

(   

  Los metadatos y documentos XML/RDF para
     
  012        recuperación, fueron aplicados en la Universidad Carlos
%

a
* 
+, III de Madrid[4], mediante la creación de RAI
(Recuperación de Acceso a la Información) para la
recuperar los archivos educativos.
Debido al crecimiento de aplicaciones con Dublín Core
por parte de organizaciones dedicadas a la educación

=  ,>c  w

como universidades, centros de investigación y costes de integración y desarrollo.


bibliotecas, y en vista que los elementos que describen š Capacidad de reutilización de la información
recursos que sirven de conexión entre diferentes extraída desde los blogs del WPMU-UTPL en
proyectos, aumentando la red vinculada a la explotación cualquier sistema de representación de
de conocimiento. El repositorio de documentos de conocimiento.
artículos y revisas de España denominado RedIRIS, hace
uso de los meditados para la normalización de   c 
recuperación de información con DCMI patrocinada por
SEDIC (Sociedad Española de Documentación e š Antes de implementar el Sistema EMEB se
Información Científica), que cuenta con más de 350 recomienda realizar una depuración de la
instituciones afiliadas, principalmente universidades y base de datos del WPMU-UTPL, actualmente
centros públicos de investigación. [5]. existen 13592 tablas, de las cuales la mayoría
La Biblioteca de la Universidad de Chicago, utiliza el no contienen datos y pertenecen a los blogs
estándar Dublin Core con algunos elementos como que están inactivos.
Dc.Creador DC.Contributor y DC.Date se utilizan para š Incentivar la formación de una culltura de
describir el material de sus recursos educativos. [6] etiquetación de contenidos en plataformas
La Biblioteca Nacional de Suecia ha llegado a un web, con la finalidad de que docentes y
acuerdo a desarrollar nuevas soluciones técnicas, con el estudiantes enriquezcan la información con
fin degestionar esta circulación de archivos de texto y etiquetas formadas de su propio conocimiento
metadatos y ofrecen en diferentes formatos: MARC21, del tema.
ONIX, Dublín Core, etc. [7] š Se realice investigación sobre tecnologías de
Los metadatos usados en repositorios publicados en extracción de metadatos, orientadas a otras
el campo de la biología, como es el caso de ³Driade´ de
plataformas web 2.0 usadas en la UTPL
la universidad de Carolina del Norte en Chapel Hill .
(Wikis, CMS), para fomentar la creación de la
EEUU., El análisis se basa en el repositorio de ejemplos
dríade demostrando una reproducción automática, la
estructura semántica de los contenidos de la
herencia de metadatos, y la adopción y los resultados de UTPL.
los informes de un experimento de términos de š Fomentar el uso de estándares RDF y Dublín
cartografía que incluye 12 vocabularios y 600 términos de Core para la semantización de contenidos de las
aproximadamente. [8]. plataformas de la UTPL, con la finalidad de
estandarizar el proceso de semantización con
miras a desarrollar ontologías y otras tecnologías
ö 
c  semánticas.
š A través del marcado semántico se ha
conseguido estandarizar la representación de +c+ c.3C
los contenidos de los blogs del WPMU-UTPL, [1] Lamarca M., ³RDF´ Disponible en:
que contiene la información esencial del http://www.hipertexto.info/documentos/rdf.htm
proceso de desarrollo de aplicaciones [2] Uso del DublinCore (DCMI). ISO 15836-2003. Disponible
semánticas, y la organización de la en:
información de los blogs de acuerdo a su http://www.sedic.es/autoformacion/metadatos/tema7.htm
contenido. [3] Adriana J. Berlanga1, Clara López1, Erla Morales2,
š La Generación de un archivo RDF permitirá Francisco J. García1
que los contenidos de los blogs de la UTPL, [4] Recuperación y organización de la información, Universidad
puedan ser registrados en buscadores Carlos III de Madrid. Disponible en:
semánticos y utilizados por herramientas de http://recuperacionorganizacioninformacion.50webs.org/
[5] Red Iris., Disponible en:
representación semántica.
http://www.rediris.es/rediris/index.html.es
š El uso de Dublín Core en el archivo RDF
[6] Guidelines for Use of Dublin Core in University of Chicago
generado por el sistema EMEB, facilitará la
Library Projects Disponible en:
difusion de los metadatos en plataformas
http://memory.loc.gov/ammem/award99/icuhtml/dcguide.ht
semánticas que usen este estándar
ml#3
š El uso de web services como el AlchemyApi [7] 68th IFLA Council and General Conference August 18-24,
permitió la extracción de palabras clave de las 2002. Disponible en:
entradas del Wordpress Multiusuario, http://archive.ifla.org/IV/ifla68/papers/067-152s.pdf.
solucionando el problema de falta de [8] Theoretical Considerations of Lifecycle Modeling: An
etiquetado por parte de los usuarios. Analysis of the Dryad Repository Demonstrating Automatic
š Con la adaptación del Sistema EMEB se Metadata Propagation, Inheritance, and Value System
aprovecha la infraestructura existente de su Adoption., Disponible en:
base de datos, ya que no altera su lógica de http://www.informaworld.com/smpp/ftinterface~content=a91
funcionamiento, por lo tanto se reducen los 0229369~fulltext=713240928~frm=content

=  ,>c  A

You might also like