¿Qué es urllib?
urllib es un módulo de Python que se puede utilizar para abrir URL. Define funciones y clases para ayudar en las acciones de URL.
Con Python también puede acceder y recuperar datos de Internet como XML, HTML, JSON, etc. También puede usar Python para trabajar con estos datos directamente. En este tutorial veremos cómo podemos recuperar datos de la web. Por ejemplo, aquí usamos una URL de video guru99, y vamos a acceder a esta URL de video usando Python y también imprimiremos el archivo HTML de esta URL.
En este tutorial aprenderemos
- Cómo abrir una URL usando Urllib
- Cómo leer un archivo HTML para su URL en Python
Cómo abrir una URL usando Urllib
Antes de ejecutar el código para conectarnos a los datos de Internet, necesitamos importar la declaración para el módulo de biblioteca de URL o "urllib".
- Importar urllib
- Define tu función principal
- Declare la variable webUrl
- Luego llame a la función urlopen en la biblioteca lib de URL
- La URL que estamos abriendo es el tutorial de guru99 en youtube
- A continuación, imprimiremos el código de resultado.
- El código de resultado se recupera llamando a la función getcode en la variable webUrl que hemos creado
- Vamos a convertir eso en una cadena, para que pueda concatenarse con nuestra cadena "código de resultado".
- Este será un código HTTP normal "200", lo que indica que la solicitud http se procesó correctamente.
Cómo obtener la URL del formulario de archivo HTML en Python
También puede leer el archivo HTML usando la "función de lectura" en Python, y cuando ejecute el código, el archivo HTML aparecerá en la consola.
- Llame a la función de lectura en la variable webURL
- Leer variable permite leer el contenido de los archivos de datos
- Leer todo el contenido de la URL en una variable llamada datos
- Ejecute el código: imprimirá los datos en formato HTML
Aquí está el código completo
Ejemplo de Python 2
## read the data from the URL and print it#import urllib2def main():# open a connection to a URL using urllib2webUrl = urllib2.urlopen("https://www.youtube.com/user/guru99com")#get the result code and print itprint "result code: " + str(webUrl.getcode())# read the data from the URL and print itdata = webUrl.read()print dataif __name__ == "__main__":main()
Ejemplo de Python 3
## read the data from the URL and print it#import urllib.request# open a connection to a URL using urllibwebUrl = urllib.request.urlopen('https://www.youtube.com/user/guru99com')#get the result code and print itprint ("result code: " + str(webUrl.getcode()))# read the data from the URL and print itdata = webUrl.read()print (data)