Pular para o conteúdo principal

Estrutura dos Dados

Visão Geral

Os dados extraídos de nosso banco clínico são organizados em duas seções principais:

  1. Campos de Identificação - Informações sobre paciente e documento (anonimizadas)
  2. Campos de Entidades Clínicas - Dados estruturados extraídos dos documentos médicos

Nota: Estes dados representam uma seleção específica de nosso banco de dados clínico, composto por mais de 45 milhões de documentos de aproximadamente 2,7 milhões de pacientes de 31 hospitais brasileiros, filtrados conforme critérios definidos pelo cliente contratante.

Campos de Identificação do Paciente e Documento

CampoTipoDescrição
document_idstringIdentificador único do documento no banco de dados
document_datestringData de criação do documento clínico (YYYY-MM-DD HH:MM:SS)
patient_idstringID anonimizado do paciente (prefixo: "patient_")
case_idstringID anonimizado do caso clínico (prefixo: "case_")
genderstringGênero do paciente (MALE, FEMALE, UNKNOWN)
birthdatestringData de nascimento do paciente (YYYY-MM-DD HH:MM:SS)
deathstringStatus de óbito (Y, N, X)
providerstringProvedor de dados anonimizado
provider_state_codestringCódigo da Unidade Federativa do provedor
provider_citystringCidade do provedor
provider_typestringTipo de hospital (Público, Convênio, Particular)

Campos Adicionais

Os campos abaixo podem ser contratados de forma adicional durante o processo de compra do banco de dados.

CampoTipoDescrição
payer_namestringIdentificador da fonte pagadora associada à nota clínica. Um mesmo paciente ou atendimento pode ter múltiplas fontes pagadoras, conforme os serviços registrados. Campo do tipo string, não normalizado, que representa diversos planos/convênios de saúde, SUS ou privado, podendo conter variações de grafia para uma mesma fonte, o que exige normalização prévia para fins analíticos.

Importante: Verifique com o time comercial durante as negociações para inclusão do campo.

Campos de Entidades Clínicas

Campos Básicos da Entidade

CampoTipoDescrição
entity_idstringID único da entidade (document_id + posição)
entitystringTermo clínico extraído do texto
labelstringCategoria da entidade clínica
assertionstringAserção sobre o contexto da entidade (AUSENTE, PRESENTE, POSSIVEL, HISTORICO) (quando disponível)

Campos de Terminologia (quando disponível)

CampoTipoDescrição
terminologystringTerminologia utilizada (CID-10, ATC, TUSS)
term_codestringCódigo da terminologia
term_descstringDescrição do termo

Campos de Relação (quando aplicável)

CampoTipoDescrição
relation_typestringTipo de relação com outra entidade
relation_entitystringEntidade relacionada
relation_positionstringPosição na relação (head, tail)

Campos Estruturados para Exames e Biomarcadores

Importante: Os campos abaixo são preenchidos apenas quando foi possível fazer a normalização/estruturação da entidade e se aplicam apenas às categorias especificadas:

CampoTipoCategorias AplicáveisDescrição
normalized_entitystringBIOMARKER, LAB_TEST, CLINICAL_ATTVersão padronizada da entidade (quando normalização foi possível)
numeric_valuestringBIOMARKER, LAB_TEST, CLINICAL_ATTValor numérico extraído (quando disponível)
unitstringBIOMARKER, LAB_TEST, CLINICAL_ATTUnidade de medida (quando disponível)
specific_markerstringBIOMARKER, LAB_TEST, CLINICAL_ATTMarcador específico de resultado
detection_statusstringBIOMARKER, LAB_TESTStatus de detecção do resultado
conditionstringCLINICAL_ATTCondições associadas
loinc_codestringBIOMARKERCódigo LOINC (quando disponível)

Detalhamentos e Informações Adicionais

Campo de Asserção - Contexto das Entidades

O campo assertion é uma classificação importante que indica o contexto clínico em que uma entidade foi mencionada no documento médico. Esta informação é crucial para análises precisas, pois o mesmo termo clínico pode ter significados diferentes dependendo do contexto.

Valores Possíveis de Asserção

ValorDescriçãoExemplo de Uso
PRESENTEA entidade está confirmada no paciente"Paciente apresenta diabetes tipo 2"
AUSENTEA entidade está negada ou ausente"Paciente não apresenta hipertensão"
POSSIVELA entidade é suspeita ou possível"Suspeita de pneumonia" ou "Possível infarto"
HISTORICOA entidade é um histórico do paciente"Histórico de cirurgia cardíaca em 2020"

Importância para Análise de Dados

A asserção é fundamental para análises precisas porque:

  • Evita falsos positivos: Entidades negadas (AUSENTE) não devem ser contadas como presentes
  • Identifica suspeitas: Entidades POSSIVEL podem indicar casos em investigação
  • Contextualiza histórico: Entidades HISTORICO fornecem informações sobre o passado do paciente
  • Melhora precisão: Permite análises mais refinadas considerando o contexto clínico

Exemplo Prático

Texto: "Paciente nega diabetes, mas apresenta histórico de hipertensão.
Suspeita de insuficiência cardíaca."

Entidades extraídas:
- "diabetes" → assertion: AUSENTE
- "hipertensão" → assertion: HISTORICO
- "insuficiência cardíaca" → assertion: POSSIVEL

Nota: O campo assertion está disponível apenas para algumas categorias de entidades e nem todos os documentos podem ter esta classificação aplicada.

Campos de Terminologia - Normalização e Codificação

Os campos de terminologia (terminology, term_code, term_desc) são aplicados apenas para 3 categorias específicas de entidades, quando foi possível fazer o mapeamento/normalização para terminologias médicas padronizadas.

Categorias com Terminologia

CategoriaTerminologiaDescriçãoExemplo
DISEASECID-10Classificação Internacional de Doenças"diabetes tipo 2" → CID-10: E11
PROCEDURETUSSTerminologia Unificada da Saúde Suplementar"cirurgia cardíaca" → TUSS: 31001001
PHARM_SUBSTANCEATCAnatomical Therapeutic Chemical"metformina" → ATC: A10BA02

Exemplo Prático

Entidade extraída: "diabetes mellitus tipo 2"
Categoria: DISEASE
Terminologia aplicada:
- terminology: "CID-10"
- term_code: "E11"
- term_desc: "Diabetes mellitus não-insulino-dependente"

Importante: Nem todas as entidades das categorias DISEASE, PROCEDURE e PHARM_SUBSTANCE terão campos de terminologia preenchidos. Isso ocorre apenas quando foi possível fazer o mapeamento automático para as terminologias padronizadas.

Categorias de Entidades Clínicas

Labels Disponíveis

LabelDescriçãoExemplo
DISEASEDoenças e condições médicas"diabetes", "hipertensão"
FINDINGAchados clínicos observados"edema", "icterícia"
SYMPTOMSinais e sintomas"dor", "febre"
PHARM_SUBSTANCESubstâncias farmacológicas"metformina", "insulina"
PROCEDUREProcedimentos médicos"cirurgia", "biópsia"
STAGEEstágios de progressão"estágio 3", "avançado"
SCALEEscalas clínicas"Glasgow", "APACHE"
VENT_SUPPORTSuporte respiratório"ventilação mecânica"
MEDICAL_DEVICEDispositivos médicos"cateter", "marca-passo"
INJURYLesões e traumas"fratura", "laceração"
HCARE_ACTIVITYAtividades assistenciais"fisioterapia", "enfermagem"
TEMPORAL_CONCEPTConceitos temporais"ontem", "crônico"
BODY_PARTPartes anatômicas"coração", "fígado"
BODY_LOCLocalizações específicas"ventrículo esquerdo"
MORPHOLOGYCaracterísticas morfológicas"hiperplasia", "atrofia"
BIOMARKERBiomarcadores"hemoglobina", "glicose"
LAB_TESTExames laboratoriais"hemograma", "urina"
CLINICAL_ATTSinais vitais"pressão arterial", "temperatura"

Tipos de Relação

Relation TypeDescriçãoExemplo
is_date_ofAssocia data a evento"15/01/2024" → "cirurgia"
is_associated_anatomic_site_ofRelaciona entidade a local anatômico"tumor" → "fígado"
may_treatIndica tratamento possível"metformina" → "diabetes"
procedure_has_target_anatomyDefine alvo anatômico de procedimento"biópsia" → "fígado"
is_qualifier_ofQualifica ou modifica entidade"agudo" → "infarto"
may_diagnoseIndica capacidade diagnóstica"tomografia" → "tumor"
disease_has_primary_anatomic_siteRelaciona doença ao local primário"hepatite" → "fígado"
induced_byLiga entidade ao fator causador"úlcera" → "AINEs"
disease_has_findingAssocia doença a achado"diabetes" → "poliúria"
disease_has_metastatic_anatomic_siteDefine local metastático"câncer" → "pulmão"
disease_has_associated_anatomic_siteRelaciona doença a local associado"pneumonia" → "pulmão"

Provedores Disponíveis

Nossa base de dados clínica inclui dados de 31 provedores (hospitais) distribuídos por todas as regiões do Brasil, totalizando aproximadamente 2,7 milhões de vidas e mais de 45 milhões de documentos:

  • Sudeste: 12 provedores (SP, MG)
  • Nordeste: 6 provedores (PE, RN, CE, PB)
  • Sul: 8 provedores (RS, PR, SC)
  • Norte: 3 provedores (TO, RO)
  • Centro-Oeste: 2 provedores (MT)

Importante: A extração de dados disponibilizada contém apenas os pacientes e documentos que atendem aos critérios específicos definidos para o projeto, representando uma amostra selecionada desta base completa.


Próximo: Entrega dos Dados