Saltar al contenido principal

HDFS: Operaciones de CLI e Inspección Forense

Esta guía establece los procedimientos estándar para la interacción con la capa de almacenamiento de CDP, contrastando el uso de la línea de comandos con la inspección visual de interfaces administrativas.

1. Gestión de Privilegios y Acceso

Para ejecutar operaciones de nivel administrativo (como chown o gestión de cuotas), el usuario debe estar integrado en el grupo LDAP supergroup. Esto otorga facultades de superusuario sobre el NameNode y YARN.

2. Protocolos de Interacción

El comando hdfs dfs emula la sintaxis de Linux pero opera sobre un sistema de archivos distribuido.

ComandoFunciónEjemplo de Uso
putIngesta de datoshdfs dfs -put data.csv /user/allan_admin/
setrepCambio de replicaciónhdfs dfs -setrep -R -w 2 /data/
cat/headInspección rápidahdfs dfs -head /data/file.txt
getExtracciónhdfs dfs -get /hdfs/path /local/tmp/
User Variables

HDFS interpreta rutas relativas basándose en el directorio del usuario en /user/$USER/. No es necesario usar rutas absolutas si se opera dentro del propio home del clúster.

3. Procedimiento de Inspección de Bloques

Ante una degradación de servicio o sospecha de corrupción, se debe ejecutar una inspección a nivel de bloque:

  1. Navegación: Utilities > Browse the file system.
  2. Localización: Ingrese a la ruta del archivo (ej: /user/allan_admin/data/).
  3. Análisis de Bloques: Haga clic en el archivo para desplegar la metadata del bloque.

HDFS Block Detail Inspección forense de un bloque: Identificación de Block ID y DataNodes que alojan las réplicas.

4. Diagnóstico de Alta Disponibilidad (Active vs Standby)

HDFS en CDP opera en modo de Alta Disponibilidad (HA). Solo un NameNode puede procesar peticiones de escritura/lectura.

Comportamiento de Standby

Si al intentar navegar por el sistema de archivos recibe el error:

Operation category READ is not supported in state standby

Acción: Cierre la pestaña y acceda a la UI del NameNode marcado como Active en Cloudera Manager.

5. Mantenimiento del Sistema de Archivos

  • Papelera: Los archivos borrados se mueven a .Trash. Use -skipTrash con precaución extrema.
  • Recuperación: Los archivos pueden recuperarse de la papelera moviéndolos nuevamente al directorio de usuario:
    hdfs dfs -mv .Trash/Current/user/allan_admin/file.txt /user/allan_admin/

Referencia Técnica: CDP ADMIN-230 - Module 21-02 & 21-03