Skip to content
This repository was archived by the owner on Mar 24, 2025. It is now read-only.
This repository was archived by the owner on Mar 24, 2025. It is now read-only.

null value still not correctly parsed in PySpark #227

@shermilaguerra

Description

@shermilaguerra

I update my packages with spark-xml_2.10:0.4.1
now, i cant see value in nested struct

F2.printSchema()
root
 |-- ARTIGO_PUBLICADO: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- AREAS_DO_CONHECIMENTO: struct (nullable = true)
 |    |    |    |-- AREA_DO_CONHECIMENTO_1: struct (nullable = true)
 |    |    |    |    |-- _NOME_DA_AREA_DO_CONHECIMENTO: string (nullable = true)
 |    |    |    |    |-- _NOME_DA_ESPECIALIDADE: string (nullable = true)
 |    |    |    |    |-- _NOME_DA_SUB_AREA_DO_CONHECIMENTO: string (nullable = true)
 |    |    |    |    |-- _NOME_GRANDE_AREA_DO_CONHECIMENTO: string (nullable = true)
 |    |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |-- AUTORES: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- _NOME_COMPLETO_DO_AUTOR: string (nullable = true)
 |    |    |    |    |-- _NOME_PARA_CITACAO: string (nullable = true)
 |    |    |    |    |-- _ORDEM_DE_AUTORIA: long (nullable = true)
 |    |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |-- DADOS_BASICOS_DO_ARTIGO: struct (nullable = true)
 |    |    |    |-- _ANO_DO_ARTIGO: long (nullable = true)
 |    |    |    |-- _DOI: string (nullable = true)
 |    |    |    |-- _FLAG_RELEVANCIA: string (nullable = true)
 |    |    |    |-- _HOME_PAGE_DO_TRABALHO: string (nullable = true)
 |    |    |    |-- _IDIOMA: string (nullable = true)
 |    |    |    |-- _MEIO_DE_DIVULGACAO: string (nullable = true)
 |    |    |    |-- _NATUREZA: string (nullable = true)
 |    |    |    |-- _PAIS_DE_PUBLICACAO: string (nullable = true)
 |    |    |    |-- _TITULO_DO_ARTIGO: string (nullable = true)
 |    |    |    |-- _TITULO_DO_ARTIGO_INGLES: string (nullable = true)
 |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |-- DETALHAMENTO_DO_ARTIGO: struct (nullable = true)
 |    |    |    |-- _FASCICULO: string (nullable = true)
 |    |    |    |-- _ISSN: string (nullable = true)
 |    |    |    |-- _LOCAL_DE_PUBLICACAO: string (nullable = true)
 |    |    |    |-- _PAGINA_FINAL: long (nullable = true)
 |    |    |    |-- _PAGINA_INICIAL: long (nullable = true)
 |    |    |    |-- _SERIE: long (nullable = true)
 |    |    |    |-- _TITULO_DO_PERIODICO_OU_REVISTA: string (nullable = true)
 |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |    |-- _VOLUME: long (nullable = true)
 |    |    |-- INFORMACOES_ADICIONAIS: struct (nullable = true)
 |    |    |    |-- _DESCRICAO_INFORMACOES_ADICIONAIS: string (nullable = true)
 |    |    |    |-- _DESCRICAO_INFORMACOES_ADICIONAIS_INGLES: string (nullable = true)
 |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |-- PALAVRAS_CHAVE: struct (nullable = true)
 |    |    |    |-- _PALAVRA_CHAVE_1: string (nullable = true)
 |    |    |    |-- _PALAVRA_CHAVE_2: string (nullable = true)
 |    |    |    |-- _PALAVRA_CHAVE_3: string (nullable = true)
 |    |    |    |-- _PALAVRA_CHAVE_4: string (nullable = true)
 |    |    |    |-- _PALAVRA_CHAVE_5: string (nullable = true)
 |    |    |    |-- _PALAVRA_CHAVE_6: string (nullable = true)
 |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |-- _SEQUENCIA_PRODUCAO: long (nullable = true)

i do:

F2.selectExpr("explode(ARTIGO_PUBLICADO) as e").select("e.DADOS_BASICOS_DO_ARTIGO._TITULO_DO_ARTIGO").show()
+-----------------+
|_TITULO_DO_ARTIGO|
+-----------------+
+-----------------+

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions