viernes, 21 de junio de 2013

Extracción de Datos desde la Web con Python


Python es un lenguaje de programación de script orientado a objetos que se puede utilizar en plataformas Unix, Windows, OS/2, entre otros. Se caracteriza por tener una sintaxis limpia que favorece un código legible, por la sencillez y velocidad al crear los programas y por la cantidad de librerías, tipos de datos y funciones incorporada.
Una de sus funcionalidades es que puede interactuar con la web. Existen dos módulos que son los principales para leer datos de URL: urllib y urllib2. Para utilizar estos módulos se deben importar, y así, las bibliotecas de cada uno se pueden utilizar.
Para crear un objeto parecido a un fichero para leer la URL se utiliza una función urllib2.urlopen, este objeto tiene métodos como read (lee el archivo), readline (lee una línea), readlines (lee todas las líneas y devuelve una lista de ellas) y close. También esta la función urllib2.geturl que obtiene de la URL de la cual se esta leyendo la información, y devuelve un objeto con las cabeceras de respuesta del servidor.



Ahora, para que el programa muestre los datos de las páginas, se utiliza el módulos json, que ofrece los medios para pasar los datos en un formato estandarizado para analizar pares clave-valor; este analizador divide las claves y los valores, lo que permite evaluar y mostrar los datos. Para poder ocuparlo se debe importar la biblioteca json y cargar los valores con un array de pares clave-valor.




Python también permite interactuar con bases de datos a través de Python Database API. Para poder utilizarlo se realiza una conexión con el servidor de la base de datos mediante una función connect (los parámetros no están estandarizados y dependen de la base de datos con la cual se esta trabajando) la cual devuelve un objeto de tipo connection que representa la conexión con el servidor. Para realizar operaciones con la base de datos se utiliza el método cursor del objeto connection, que permite crear un objeto cursor para poder realizar las distintas operaciones. Estas operaciones se ejecutan a través del método execute de cursor, pasando como parámetro una cadenas con el código SQL a ejecutor.








Lo que permite hacer Python es muy útil, ya que de esta forma podemos obtener datos en tiempo real de paginas web y así poder armar una base de datos, como se ve en el siguiente video: 






Fuente:


Autor: Catalina Durán




No hay comentarios:

Publicar un comentario