Modificando Dataframes
¿Cuando vamos a necesitar modificar un DataFrame? Una razón importante para la modificación es cuando necesitamos añadir una nueva entrada a la tabla, que normalmente se denomina fila. A veces necesitamos actualizar una fila específica, o incluso varias filas, en un dataframe.
En Pandas, las columnas son similares a las columnas que se usan en las bases de datos SQL. Nos permiten tener valores similares que caen bajo diferentes columnas. Una modificación común de un DataFrame es añadir una nueva columna si estamos ampliando el DataFrame para incluir más columnas y añadir más información.
Añadiendo una columna
Es posible que queramos añadir nueva información o realizar un cálculo basado en los datos que ya tenemos. Una forma de añadir una nueva columna es dando una lista de la misma longitud que el DataFrame existente. Supongamos que somos dueños de una ferretería y tenemos un DataFrame que contiene información de inventario:
Parece que la cantidad de cada producto en nuestro almacén ha desaparecido! Usemos el siguiente código para añadir esa información a nuestro DataFrame.
¿Podemos añadir la columna en una posicion especifica del DataFrame? Si. Especificando el index y usando insert()
. Por ejemplo, si queremos que Quantity
quede en la tercera columna (posicion-index 2), hacemos lo siguiente:
Añadiendo columnas
Tambien podemos añadir una columna que tendra el mismo valor para todas las filas. Supongamos que todos los productos estan en inventario, podemos hacer esto:
Finalmente podemos añadir una columna que corra un funcion sobre las columnas. Por ejemplo si queremos una nueva columna con los impuestos
¿Podemos correr opraciones entre mas de dos columnas de un dataframe? Si. De hecho no hay limite en que cantidad de columnas puedes correr funciones. Por ejemplo si tenemos 3 columnas: price
, tax
y quantity
podemos hacer algo como esto:
Corriendo operaciones en columnas
A menudo queremos añadir una columna que está relacionada con las columnas existentes, pero que requieren un cálculo más complejo que multiplicar o sumar. Por ejemplo tenemos el siguiente dataframe:
Es un poco rara la capitalización de las letras en cada fila. Nosotros queremos hacerlo más consistente cambiando todas las letras a mayúsculas. Podemos usar la función apply
para cada valor en una columna en particular.
Renombrando columnas
Es posible que tengamos que cambiar el nombre de una columna por otro que haga que los datos sean más claros para los usuarios. Por ejemplo, si tuviéramos un dataframe con información sobre las películas, y el nombre de la columna para los títulos de las películas se llamara simplemente "nombre", esto podría no ser obvio. Podríamos renombrar la columna a algo más claro como "movie_title".
Cuando obtenemos los datos de otras fuentes, normalmente vamos a querer cambiar los nombres de las columnas. Podamos cambiar los nombres de las columnas todas a la vez con el método .columns. pero tenga cuidado porque podríamos no etiquetar bien las columnas si lo hacemos en el orden incorrecto
También podemos renombrar columnas de forma individual usando el método .rename
. Pasando un diccionario con los argumentos: {'old_column_name1': 'new_column_name1', 'old_column2': 'new_column2'}
Eliminando columnas
Se puede utilizar el metodo drop()
para eliminar una columna en especifico y debemos especificar el eje con axis=1
Last updated