La ciencia de los datos: se trata de unicode en python

Los archivos de texto son texto puro - esto es mucho más seguro que los científicos de datos usando Python. La forma se codifica el texto puede diferir. Por ejemplo, un personaje puede utilizar cualquiera de siete u ocho bits para fines de codificación. El uso de caracteres especiales puede ser diferente también. En resumen, la interpretación de bits utilizado para crear personajes difiere de la codificación de la codificación. Marque aquí para una serie de codificaciones.

Video: Travis Fischer, Esther Nam: Character encoding and Unicode in Python - PyCon 2014

A veces es necesario trabajar con codificaciones distintas de la codificación por defecto fijado dentro del entorno Python. Cuando se trabaja con Python 3.x, usted debe confiar en formato de transformación universal de 8 bits (UTF-8) como la codificación utilizada para leer y escribir archivos. Este entorno siempre se establece para UTF-8, y tratando de cambiar provoca un mensaje de error.

Sin embargo, cuando se trabaja con Python 2.x, se puede elegir otro tipo de codificación. En este caso, la codificación predeterminada es el Código Estándar Americano para Intercambio de Información (ASCII), pero se puede cambiar a algún otro tipo de codificación.

Video: Python: Cadenas de caracteres (secuencia str) | TechKrowd

Puede utilizar esta técnica en cualquier archivo de Notebook IPython, pero en realidad no se vea la salida de la misma. Con el fin de ver una salida, es necesario trabajar con el símbolo IPython. Los siguientes pasos ayudan a ver cómo hacer frente a los caracteres Unicode, pero sólo cuando se trabaja con Python 2.x (Estos pasos se producirá errores en la Python 3.x ambiente).

  1. Abrir una copia del símbolo del sistema IPython.

    Aparecerá la ventana IPython.

  2. Escriba el siguiente código, al pulsar Intro después de cada línea.

    syssys.getdefaultencoding import ()

    Usted ve la codificación predeterminada para Python, que es ascii en la mayoría de los casos.

  3. Tipo recarga (SYS) y pulse Enter.

    Python vuelve a cargar el módulo sys y hace una función especial disponible.

  4. Tipo sys.setdefaultencoding ( ‘utf-8’) y pulse Enter.

    Python cambia la codificación, pero usted no sabrá que con certeza hasta después de que el siguiente paso.

  5. Tipo sys.getdefaultencoding () y pulse Enter.

    Se ve que la codificación predeterminada ha cambiado ahora a UTF-8.

Video: Популярные Video – Юникод и Python

Cambio de la codificación por defecto en el momento equivocado y en la manera incorrecta puede impedir la realización de tareas tales como módulos de importación. Asegúrese de probar su código cuidadosamente y completamente para asegurar que cualquier cambio en la codificación predeterminada no afectará su capacidad para ejecutar la aplicación. Buenos artículos adicionales para leer sobre este tema aparecen en blog.notdot.net y web.archive.org.

Artículos Relacionados