Cien millones de registros

Descarga de los registros

Lo que a continuación vamos a tratar de realizar es la descarga de los cien millones de registros y
colocarlos en archivos de texto.

Lo primero que tenemos que realizar es invocar nuestro spark-shell con su respectivo conector de apache cassandra.

 
  
  
  
   spark-shell --packages com.datastax.spark:spark-cassandra-connector_2.12:3.1.0 --conf spark.cassandra.connection.host=127.0.0.1

Escribimos el siguiente código

 
  
  
  
  val usuarios =  spark.read.format("org.apache.spark.sql.cassandra").options(Map("keyspace"->"testdb","table"->"usuario")).load()
  
  val path="/home/kid/descarga"
  
  usuarios.write.format("csv").save(path)

El comando que escribe lo ejecutamos a 18:11
uploaddownload spark

La escritura termino a las 18:15 por lo tanto tardo 5 minutos en descargar 100 millones de registros
uploaddownload spark

El resultado final los registros quedaron el 17 archivos generados uploaddownload spark

Descarga de los registros

Conclusiones