Visão Computacional

Veja os artigos deste label, com traduções para PT-BR.

Artigos

👁️Visão Computacional • 177 artigo(s) encontrados

NLP/LLMs • Score 85

Toward Auditable Neuro-Symbolic Reasoning in Pathology: SQL as an Explicit Trace of Evidence

arXiv:2601.01875v1 Announce Type: new Abstract: Automated pathology image analysis is central to clinical diagnosis, but clinicians still ask which slide features drive a model's decision and why. Vision-language models can produce natural language explanations, but these are often correlational and lack verifiable evidence. In this paper, we introduce an SQL-centered agentic framework that enables both feature measurement and reasoning to be auditable. Specifically, after extracting human-interpretable cellular features, Feature Reasoning Agents compose and execute SQL queries over feature tables to aggregate visual evidence into quantitative findings. A Knowledge Comparison Agent then evaluates these findings against established pathological knowledge, mirroring how pathologists justify diagnoses from measurable observations. Extensive experiments evaluated on two pathology visual question answering datasets demonstrate our method improves interpretability and decision traceability while producing executable SQL traces that link cellular measurements to diagnostic conclusions.

Fonte: arXiv cs.AI

Artigos

Toward Auditable Neuro-Symbolic Reasoning in Pathology: SQL as an Explicit Trace of Evidence

XAI-MeD: Explainable Knowledge Guided Neuro-Symbolic Framework for Domain Generalization and Rare Class Detection in Medical Imaging

OpenSocInt: A Multi-modal Training Environment for Human-Aware Social Navigation

DynaDrag: Dynamic Drag-Style Image Editing by Motion Prediction

Do Barro ao Código: Raciocínio Tipológico e Material nas Interpretações de IA das Torres de Pombos Iranianas

Compressed Map Priors for 3D Perception

Um Modelo de Linguagem Grande Aprimorado por Visão e Conhecimento para Inferência Generalizável do Comportamento de Travessia de Pedestres

Transporte Ótimo Sliced em Streaming

Controles de Abstenção Explícita para Confiabilidade Previsível em Respostas a Perguntas em Vídeo

Redes Neurais Espinhadas Personalizadas com Sinapses Ferroelectricas para Processamento de Sinais EEG

Simulação como Supervisão: Pré-treinamento Mecânico para Descoberta Científica

DepFlow: Disentangled Speech Generation to Mitigate Semantic Bias in Depression Detection

Aprendendo a Ser Reproduzível: Design de Função de Perda Personalizada para Redes Neurais Robústas

RoLID-11K: A Dashcam Dataset for Small-Object Roadside Litter Detection

Comparative Efficiency Analysis of Lightweight Transformer Models: A Multi-Domain Empirical Benchmark for Enterprise NLP Deployment

Rumo ao Diagnóstico Diferencial Automatizado de Doenças de Pele Usando Deep Learning e Estratégias Conscientes de Imbalance

Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach

Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations

HarmoniAD: Harmonizing Local Structures and Global Semantics for Anomaly Detection

Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion

BHaRNet: Reliability-Aware Body-Hand Modality Expertized Networks for Fine-grained Skeleton Action Recognition

Geometry of Reason: Spectral Signatures of Valid Mathematical Reasoning

From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning

NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Intelligent Traffic Surveillance for Real-Time Vehicle Detection, License Plate Recognition, and Speed Estimation

FaithSCAN: Detecção de Alucinações em Uma Única Passagem Baseada em Modelos para Respostas Visuais de Perguntas Fiéis

Application Research of a Deep Learning Model Integrating CycleGAN and YOLO in PCB Infrared Defect Detection

Aprendizado por Reforço Multiagente para Jogos de Liquidez

CropNeRF: A Neural Radiance Field-Based Framework for Crop Counting

Detecção Adaptativa de Coordenação Causal para Mídias Sociais: Um Framework Guiado por Memória com Aprendizado Semi-Supervisionado

S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding

TimeColor: Flexible Reference Colorization via Temporal Concatenation

O Cavalo de Troia no Vocabulário: Sabotagem Sutil da Composição de LLM

DichroGAN: Towards Restoration of in-air Colours of Seafloor from Satellite Imagery

DA-DPO: Otimização de Preferências Consciente da Dificuldade e Custo-Eficiente para Reduzir Alucinações em MLLMs

SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting

Campos Cerebrais Neurais: Uma Abordagem Inspirada em NeRF para Gerar Eletrodos de EEG Inexistentes

MotionPhysics: Learnable Motion Distillation for Text-Guided Simulation

TotalFM: An Organ-Separated Framework for 3D-CT Vision Foundation Models

TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model

Focal-RegionFace: Generating Fine-Grained Multi-attribute Descriptions for Arbitrarily Selected Face Focal Regions

ActErase: A Training-Free Paradigm for Precise Concept Erasure via Activation Patching

All-in-One Video Restoration under Smoothly Evolving Unknown Weather Degradations

Towards Syn-to-Real IQA: A Novel Perspective on Reshaping Synthetic Data Distributions

ReMA: A Training-Free Plug-and-Play Mixing Augmentation for Video Behavior Recognition

A Spatially Masked Adaptive Gated Network for multimodal post-flood water extent mapping using SAR and incomplete multispectral data

MethConvTransformer: Um Framework de Deep Learning para Detecção de Doença de Alzheimer em Múltiplos Tecidos

SSI-GAN: Redes Geradoras Adversariais Semi-Supervisionadas Inspiradas no Swin para Classificação de Espículas Neurais

Context-Aware Pesticide Recommendation via Few-Shot Pest Recognition for Precision Agriculture

Uma Avaliação Empírica de Abordagens Baseadas em LLM para Detecção de Vulnerabilidades de Código: RAG, SFT e Sistemas de Agentes Duplos

IntraStyler: Exemplar-based Style Synthesis for Cross-modality Domain Adaptation

Avaliação de Detectores de Anomalias para Problemas de Classificação Industrial Altamente Desequilibrados Simulados

It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models

Robust Uncertainty Quantification for Factual Generation of Large Language Models

Detecção Humana em Tempo Real para Sequências de Vídeo Capturadas Aéreas via Modelos Profundos

Boosting Segment Anything Model to Generalize Visually Non-Salient Scenarios

Fluxos de Kernel Orientados a Tarefas: Compressão de Classificação de Rótulos e Filtragem Espectral Laplaciana

IMBWatch -- uma abordagem de Rede Neural Gráfica Espacial-Temporal para detectar Negócios de Massagem Ilícitos

FCMBench: Um Benchmark Multimodal Abrangente de Crédito Financeiro para Aplicações do Mundo Real

Efficient Prediction of Dense Visual Embeddings via Distillation and RGB-D Transformers

Engenharia de Recursos Híbridos Otimizada para Detecção de Arritmias Eficiente em Recursos em Sinais de ECG: Um Framework de Otimização

Atribuição de Conteúdo Gerado por IA Desconhecida e Consciente

CPPO: Contrastive Perception for Vision Language Policy Optimization

Um Estudo Comparativo de Estratégias de Adaptação para Modelos Fundamentais de Séries Temporais na Detecção de Anomalias

Bandidos Contextuais Aditivos Esparsos: Uma Abordagem Não Paramétrica para Tomada de Decisão Online com Covariáveis de Alta Dimensionalidade

Detecção Inteligente de Falhas no Sistema de Energia Elétrica de Nanosatélites

FreeText: Training-Free Text Rendering in Diffusion Transformers via Attention Localization and Spectral Glyph Injection

Robust Assembly Progress Estimation via Deep Metric Learning

A Cascaded Information Interaction Network for Precise Image Segmentation

Attention to Detail: Global-Local Attention for High-Resolution AI-Generated Image Detection

OmniVaT: Single Domain Generalization for Multimodal Visual-Tactile Learning

Trajectory Guard -- Um Modelo Leve e Consciente de Sequência para Detecção de Anomalias em Tempo Real em AI Agente

A Comprehensive Dataset for Human vs. AI Generated Image Detection

Depth-Synergized Mamba Meets Memory Experts for All-Day Image Reflection Separation

Produção de Entropia em Machine Learning Sob Fluxo de Probabilidade de Fokker-Planck

GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Detecção de Confundidores Não Observados: Uma Abordagem de Regressão Kernelizada

Estimativa de densidade espectral de séries temporais funcionais em grandes domínios usando deep learning