martes, 28 de mayo de 2013

Extracción de datos desde la Web con Python


Python es un lenguaje de programación de script orientado a objetos que se puede utilizar en plataformas Unix, Windows, OS/2, entre otros. Se caracteriza por tener una sintaxis limpia que favorece un código legible, por la sencillez y velocidad al crear los programas y por la cantidad de librerías, tipos de datos y funciones incorporada.
Una de sus funcionalidades es que puede interactuar con la web. Existen dos módulos que son los principales para leer datos de URL: urllib y urllib2. Para utilizar estos módulos se deben importar, y así, utilizar sus bibliotecas.
Para crear un objeto parecido a un fichero para leer la URL se utiliza una función urllib2.urlopen, este objeto tiene métodos como read (lee el archivo), readline (lee una línea), readlines (lee todas las líneas y devuelve una lista de ellas) y close. También esta la función urllib2.geturl que obtiene de la URL de la cual se esta leyendo la información, y devuelve un objeto con las cabeceras de respuesta del servidor.

 
 
 

 
Con lo anterior estamos leyendo una página web, pero para poder mostrar los datos que salen en esta, se utiliza el formato json, que ofrece los medios para pasar los datos en un formato estandarizado para analizar pares clave-valor. Lo que hace es que divide las claves y los valores para así permitir evaluar y mostrar los datos.  Para poder utilizarlo se deben importar las bibliotecas json y cargar los valores con un array de pares clave-valor json.load.
 
 
 
 
 
 
 
Python también interactúa con base de datos. Para esto tiene una propuesta estándar llamada Python Batabase API, que permite que el código sea prácticamente igual independiente de la base de datos con la cual se esta trabajando. Para poder utilizarla se debe realizar una conexión con el servidor de la base de datos mediante una función connect (los parámetros no están estandarizados y dependes de la base de datos con la cual se esta trabajando) que devuelve un objeto de tipo connection que representa la conexión con el servidor. Ahora, para poder realizar operaciones con la base de datos se utiliza el método cursor del objeto connection para crear un objeto cursor. Las operaciones se ejecutan a través del método execute de cursor, pasando como parámetro una cadena de códigos SQ a ejecutor.
 
 


 
 
 
 
Las interacciones que permite este programa sirven de mucho a la hora de obtener datos desde la web en tiempo real e ir actualizando estos datos, para así ir creando una base de datos a la ves de poder interactuar con ellas. Para ilustrar esto y ver como se obtienen datos vea el siguiente video:
 
 
 
 

 
Ahora, para poder tomar estos datos y pasarlos a acces lea Importación de datos en Microsoft Acces de este mismo blog.
 
Fuente:
 
 
Autor: Catalina Durán


No hay comentarios:

Publicar un comentario