Pular para o conteúdo principal

Estrutura dos Dados

Visão Geral

Os dados extraídos de nosso banco clínico são organizados em duas seções principais:

  1. Campos de Metadados - Informações sobre paciente e documento (anonimizadas)
  2. Campos de Entidades Clínicas - Dados estruturados extraídos dos documentos médicos

Nota: Estes dados representam uma seleção específica de nosso banco de dados clínico, com ampla cobertura nacional e boa representatividade para estudos, filtrados conforme critérios definidos pelo cliente contratante.

Campos de Metadados do Paciente e do Documento

CampoTipoDescrição
document_idstringIdentificador único do documento no banco de dados
document_datestringData de criação do documento clínico (YYYY-MM-DD HH:MM:SS)
patient_idstringID anonimizado do paciente (prefixo: "patient")
case_idstringID anonimizado do caso clínico (prefixo: "case")
genderstringSexo biológico do paciente (MALE, FEMALE, UNKNOWN). Ver detalhes abaixo.
birthdatestringData de nascimento do paciente (YYYY-MM-DD HH:MM:SS)
deathstringStatus de óbito do paciente (Y, N, X). Ver detalhes abaixo.
provider_state_codestringCódigo da Unidade Federativa do provedor
provider_typestringTipo de hospital (Público, Convênio, Particular). Ver detalhes abaixo.

Campos Adicionais

Os campos abaixo podem ser contratados de forma adicional durante o processo de compra do banco de dados.

CampoTipoDescrição
payer_namestringIdentificador da fonte pagadora associada à nota clínica. Um mesmo paciente ou atendimento pode ter múltiplas fontes pagadoras, conforme os serviços registrados. Campo do tipo string, não normalizado, que representa diversos planos/convênios de saúde, SUS ou privado, podendo conter variações de grafia para uma mesma fonte, o que exige normalização prévia para fins analíticos.

Importante: Verifique com o time comercial durante as negociações para inclusão do campo.

Detalhamento dos Campos

Campo death – Status de Óbito

O campo death indica se há registro de óbito do paciente na base.

ValorDescrição
YSim – Óbito registrado
NNão – Sem registro de óbito
XNão especificado / Indisponível – Informação não consta ou não pôde ser definida

Campo gender – Sexo Biológico do Paciente

O campo gender representa o sexo biológico do paciente, registrado nos documentos clínicos.

ValorDescrição
MALEMasculino
FEMALEFeminino
UNKNOWNNão especificado / Indisponível – Informação não consta ou não pôde ser definida

Campo provider_type – Tipo de Hospital

O campo provider_type classifica o provedor quanto à natureza da gestão e da fonte pagadora.

ValorDescrição
PúblicoEstabelecimento exclusivamente da rede pública de saúde (SUS ou equivalente). Atendimento financiado pelo poder público.
Convênio ou ParticularEstabelecimento que atende por planos de saúde/convênios e/ou atendimento particular (privado), sem oferta pública.
Público, Convênio ou ParticularEstabelecimento que oferece atendimento nas três modalidades (público, convênio e particular).

Campos de Entidades Clínicas

Campos Básicos da Entidade

CampoTipoDescrição
entity_idstringID único da entidade (document_id + posição)
entitystringTermo clínico extraído do texto
labelstringCategoria da entidade clínica
assertionstringAserção sobre o contexto da entidade (AUSENTE, PRESENTE, POSSIVEL, HISTORICO) (quando disponível)

Campos de Terminologia (quando disponível)

CampoTipoDescrição
terminologystringTerminologia utilizada (CID-10, ATC, TUSS)
term_codestringCódigo da terminologia
term_descstringDescrição do termo

Campos de Relação (quando aplicável)

CampoTipoDescrição
relation_typestringTipo de relação com outra entidade
relation_entitystringEntidade relacionada
relation_positionstringPosição na relação (head, tail)

Campos Estruturados para Exames e Biomarcadores

Importante: Os campos abaixo são preenchidos apenas quando foi possível fazer a normalização/estruturação da entidade e se aplicam apenas às categorias especificadas:

CampoTipoCategorias AplicáveisDescrição
normalized_entitystringBIOMARKER, LAB_TEST, CLINICAL_ATTVersão padronizada da entidade (quando normalização foi possível)
numeric_valuestringBIOMARKER, LAB_TEST, CLINICAL_ATTValor numérico extraído (quando disponível)
unitstringBIOMARKER, LAB_TEST, CLINICAL_ATTUnidade de medida (quando disponível)
specific_markerstringBIOMARKER, LAB_TEST, CLINICAL_ATTMarcador específico de resultado
detection_statusstringBIOMARKER, LAB_TESTStatus de detecção do resultado
conditionstringCLINICAL_ATTCondições associadas
loinc_codestringBIOMARKERCódigo LOINC (quando disponível)

Detalhamentos e Informações Adicionais

Campo de Asserção - Contexto das Entidades

O campo assertion é uma classificação importante que indica o contexto clínico em que uma entidade foi mencionada no documento médico. Esta informação é crucial para análises precisas, pois o mesmo termo clínico pode ter significados diferentes dependendo do contexto.

Valores Possíveis de Asserção

ValorDescriçãoExemplo de Uso
PRESENTEA entidade está confirmada no paciente"Paciente apresenta diabetes tipo 2"
AUSENTEA entidade está negada ou ausente"Paciente não apresenta hipertensão"
POSSIVELA entidade é suspeita ou possível"Suspeita de pneumonia" ou "Possível infarto"
HISTORICOA entidade é um histórico do paciente"Histórico de cirurgia cardíaca em 2020"

Importância para Análise de Dados

A asserção é fundamental para análises precisas porque:

  • Evita falsos positivos: Entidades negadas (AUSENTE) não devem ser contadas como presentes
  • Identifica suspeitas: Entidades POSSIVEL podem indicar casos em investigação
  • Contextualiza histórico: Entidades HISTORICO fornecem informações sobre o passado do paciente
  • Melhora precisão: Permite análises mais refinadas considerando o contexto clínico

Exemplo Prático

Texto: "Paciente nega diabetes, mas apresenta histórico de hipertensão.
Suspeita de insuficiência cardíaca."

Entidades extraídas:
- "diabetes" → assertion: AUSENTE
- "hipertensão" → assertion: HISTORICO
- "insuficiência cardíaca" → assertion: POSSIVEL

Categorias com Asserção

O modelo de inferência de asserção é aplicado apenas às seguintes categorias de entidades:

DISEASE, PROCEDURE, PHARM_SUBSTANCE, SYMPTOM, FINDING, INJURY, VENT_SUPPORT, MEDICAL_DEVICE.

Nas demais categorias (por exemplo, BIOMARKER, LAB_TEST, CLINICAL_ATT, BODY_PART, TEMPORAL_CONCEPT, entre outras), o modelo de inferência não é aplicado. Essas entidades são tratadas como naturalmente presentes no contexto clínico do documento e não demandam classificação adicional. Deste modo, a ausência do campo preenchido não indica falha do modelo na inferência.

Campos de Terminologia - Normalização e Codificação

Os campos de terminologia (terminology, term_code, term_desc) são aplicados apenas para 3 categorias específicas de entidades, quando foi possível fazer o mapeamento/normalização para terminologias médicas padronizadas.

Categorias com Terminologia

CategoriaTerminologiaDescriçãoExemplo
DISEASECID-10Classificação Internacional de Doenças"diabetes tipo 2" → CID-10: E11
PROCEDURETUSSTerminologia Unificada da Saúde Suplementar"cirurgia cardíaca" → TUSS: 31001001
PHARM_SUBSTANCEATCAnatomical Therapeutic Chemical"metformina" → ATC: A10BA02

Exemplo Prático

Entidade extraída: "diabetes mellitus tipo 2"
Categoria: DISEASE
Terminologia aplicada:
- terminology: "CID-10"
- term_code: "E11"
- term_desc: "Diabetes mellitus não-insulino-dependente"

Importante: Nem todas as entidades das categorias DISEASE, PROCEDURE e PHARM_SUBSTANCE terão campos de terminologia preenchidos. Isso ocorre apenas quando foi possível fazer o mapeamento automático para as terminologias padronizadas.

Categorias de Entidades Clínicas

Labels Disponíveis

LabelDescriçãoExemplo
DISEASEDoenças e condições médicas"diabetes", "hipertensão"
FINDINGAchados clínicos observados"edema", "icterícia"
SYMPTOMSinais e sintomas"dor", "febre"
PHARM_SUBSTANCESubstâncias farmacológicas"metformina", "insulina"
PROCEDUREProcedimentos médicos"cirurgia", "biópsia"
STAGEEstágios de progressão"estágio 3", "avançado"
SCALEEscalas clínicas"Glasgow", "APACHE"
VENT_SUPPORTSuporte respiratório"ventilação mecânica"
MEDICAL_DEVICEDispositivos médicos"cateter", "marca-passo"
INJURYLesões e traumas"fratura", "laceração"
HCARE_ACTIVITYAtividades assistenciais"fisioterapia", "enfermagem"
TEMPORAL_CONCEPTConceitos temporais"ontem", "crônico"
BODY_PARTPartes anatômicas"coração", "fígado"
BODY_LOCLocalizações específicas"ventrículo esquerdo"
MORPHOLOGYCaracterísticas morfológicas"hiperplasia", "atrofia"
BIOMARKERBiomarcadores"hemoglobina", "glicose"
LAB_TESTExames laboratoriais"hemograma", "urina"
CLINICAL_ATTSinais vitais"pressão arterial", "temperatura"

Tipos de Relação

Relation TypeDescriçãoExemplo
is_date_ofAssocia data a evento"15/01/2024" → "cirurgia"
is_associated_anatomic_site_ofRelaciona entidade a local anatômico"tumor" → "fígado"
may_treatIndica tratamento possível"metformina" → "diabetes"
procedure_has_target_anatomyDefine alvo anatômico de procedimento"biópsia" → "fígado"
is_qualifier_ofQualifica ou modifica entidade"agudo" → "infarto"
may_diagnoseIndica capacidade diagnóstica"tomografia" → "tumor"
disease_has_primary_anatomic_siteRelaciona doença ao local primário"hepatite" → "fígado"
induced_byLiga entidade ao fator causador"úlcera" → "AINEs"
disease_has_findingAssocia doença a achado"diabetes" → "poliúria"
disease_has_metastatic_anatomic_siteDefine local metastático"câncer" → "pulmão"
disease_has_associated_anatomic_siteRelaciona doença a local associado"pneumonia" → "pulmão"

Importante: A extração de dados disponibilizada contém apenas os pacientes e documentos que atendem aos critérios específicos definidos para o projeto, representando uma amostra selecionada de nossa base, com ampla cobertura e representatividade.


Próximo: Entrega dos Dados