Multimodal

Veja os artigos deste label, com traduções para PT-BR.

Artigos

🎨Multimodal • 100 artigo(s) encontrados

Multimodal • Score 85

KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models

arXiv:2601.01366v1 Announce Type: new Abstract: With the rapid adoption of multimodal large language models (MLMs) in autonomous agents, cross-platform task execution capabilities in educational settings have garnered significant attention. However, existing benchmark frameworks still exhibit notable deficiencies in supporting cross-platform tasks in educational contexts, especially when dealing with school-specific software (such as XiaoYa Intelligent Assistant, HuaShi XiaZi, etc.), where the efficiency of agents often significantly decreases due to a lack of understanding of the structural specifics of these private-domain software. Additionally, current evaluation methods heavily rely on coarse-grained metrics like goal orientation or trajectory matching, making it challenging to capture the detailed execution and efficiency of agents in complex tasks. To address these issues, we propose KGCE (Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models), a novel benchmarking platform that integrates knowledge base enhancement and a dual-graph evaluation framework. We first constructed a dataset comprising 104 education-related tasks, covering Windows, Android, and cross-platform collaborative tasks. KGCE introduces a dual-graph evaluation framework that decomposes tasks into multiple sub-goals and verifies their completion status, providing fine-grained evaluation metrics. To overcome the execution bottlenecks of existing agents in private-domain tasks, we developed an enhanced agent system incorporating a knowledge base specific to school-specific software. The code can be found at https://github.com/Kinginlife/KGCE.

Fonte: arXiv cs.AI

Artigos

KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models

OmniNeuro: Um Framework HCI Multimodal para Feedback Explicável de BCI via IA Generativa e Sonificação

Yuan3.0 Flash: An Open Multimodal Large Language Model for Enterprise Applications

MMP-A*: Multimodal Perception Enhanced Incremental Heuristic Search on Path Planning

Um modelo unificado de compreensão e geração multimodal para pesquisa científica interdisciplinar

Alinhamento Semântico de Grafos de Conhecimento Multilíngues via Projeções Vetoriais Contextualizadas

OpenSocInt: A Multi-modal Training Environment for Human-Aware Social Navigation

Learning Speech Representations with Variational Predictive Coding

Comparative Efficiency Analysis of Lightweight Transformer Models: A Multi-Domain Empirical Benchmark for Enterprise NLP Deployment

Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach

Ajuste Fino de Modelos de Linguagem de Grande Escala para Triagem Automatizada de Depressão em Pidgin Nigeriano: Estudo Piloto GENSCORE

Controles de Abstenção Explícita para Confiabilidade Previsível em Respostas a Perguntas em Vídeo

FreeText: Training-Free Text Rendering in Diffusion Transformers via Attention Localization and Spectral Glyph Injection

FCMBench: Um Benchmark Multimodal Abrangente de Crédito Financeiro para Aplicações do Mundo Real

OmniVaT: Single Domain Generalization for Multimodal Visual-Tactile Learning

A Comprehensive Dataset for Human vs. AI Generated Image Detection

GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval

From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning

NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

FaithSCAN: Detecção de Alucinações em Uma Única Passagem Baseada em Modelos para Respostas Visuais de Perguntas Fiéis

S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding

TimeColor: Flexible Reference Colorization via Temporal Concatenation

DA-DPO: Otimização de Preferências Consciente da Dificuldade e Custo-Eficiente para Reduzir Alucinações em MLLMs

SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting

TotalFM: An Organ-Separated Framework for 3D-CT Vision Foundation Models

Focal-RegionFace: Generating Fine-Grained Multi-attribute Descriptions for Arbitrarily Selected Face Focal Regions

AEGIS: Exploring the Limit of World Knowledge Capabilities for Unified Mulitmodal Models

ActErase: A Training-Free Paradigm for Precise Concept Erasure via Activation Patching

A Spatially Masked Adaptive Gated Network for multimodal post-flood water extent mapping using SAR and incomplete multispectral data

TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model

All-in-One Video Restoration under Smoothly Evolving Unknown Weather Degradations

MotionPhysics: Learnable Motion Distillation for Text-Guided Simulation

ReMA: A Training-Free Plug-and-Play Mixing Augmentation for Video Behavior Recognition

Bandidos Contextuais Aditivos Esparsos: Uma Abordagem Não Paramétrica para Tomada de Decisão Online com Covariáveis de Alta Dimensionalidade

Um Modelo de Aprendizado Profundo com Atenção Esparsa Integrando Recursos Multimodais Heterogêneos para o Perfil de Gravidade da Doença de Parkinson

It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models

Detecção Humana em Tempo Real para Sequências de Vídeo Capturadas Aéreas via Modelos Profundos

Avatar Forcing: Geração Interativa de Avatares de Cabeça em Tempo Real para Conversação Natural

CPPO: Contrastive Perception for Vision Language Policy Optimization

uGMM-NN: Rede Neural de Modelo de Mistura Gaussiana Univariada

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Correspondência de Fluxo Latente para Síntese de Voz Cantante Expressiva

DepFlow: Disentangled Speech Generation to Mitigate Semantic Bias in Depression Detection

Benchmarking de Métodos de Pré-processamento e Integração em Genômica de Células Únicas

Statistical laws and linguistics inform meaning in naturalistic and fictional conversation

Aprendizado por Reforço Estável e Eficiente com Um Único Rollout para Raciocínio Multimodal

Rumo ao Desaprendizado que Preserva o Raciocínio em Modelos de Linguagem Grande Multimodal

Supplementary Resources and Analysis for Automatic Speech Recognition Systems Trained on the Loquacious Dataset

ChronoDreamer: Modelo de Mundo Condicionado por Ação como um Simulador Online para Planejamento Robótico

GeoSense-AI: Fast Location Inference from Crisis Microblogs

ESearch-R1: Aprendendo Agentes MLLM Conscientes de Custo para Busca Embodida Interativa via Aprendizado por Reforço

Rede Bayesiana Multimodal para Avaliação Robusta de Vítimas em Triagem Autônoma

FC-MIR: Um Framework de Consciência de Tela Móvel para Recomendação Consciente de Intenção Baseada em Raciocínio Multimodal de Trajetória Comprimida por Frame

LLM-CAS: Perturbação Dinâmica de Neurônios para Correção de Alucinações em Tempo Real

Data-driven particle dynamics: Structure-preserving coarse-graining for emergent behavior in non-equilibrium systems

HARBOR: Modelo Holístico e Adaptativo de Avaliação de Risco para Cuidados de Saúde Comportamental

Amostragem de distribuições multimodais com pontos de partida aquecidos: Limites não assintóticos para o Reweighted Annealed Leap-Point Sampler

Treinamento de Modelos de Raciocínio Multimodal Grandes Necessita de Melhores Ideias: Um Framework de Três Estágios para Síntese e Seleção de Longas Cadeias de Pensamento

Comparação Social sem Inferência Explícita dos Valores de Recompensa dos Outros: Uma Abordagem Construtiva Usando um Modelo Generativo Probabilístico

Aprendizado por Transferência Baseado em Clustering para Algoritmo Evolutivo Multimodal Multiobjetivo Dinâmico

Mecanismos de Memória Dependentes de Modalidade em Computação Neuromórfica Cross-Modal

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Auxiliary Descriptive Knowledge for Few-Shot Adaptation of Vision-Language Model

CheXPO-v2: Preference Optimization for Chest X-ray VLMs with Knowledge Graph Consistency

DAVE: A VLM Vision Encoder for Document Understanding and Web Agents

Mapping the Podcast Ecosystem with the Structured Podcast Research Corpus

RadImageNet-VQA: A Large-Scale CT and MRI Dataset for Radiologic Visual Question Answering

Strategic Planning and Rationalizing on Trees Make LLMs Better Debaters

Generating Completions for Broca's Aphasic Sentences Using Large Language Models

Investigando a Inteligência Geral Científica de LLMs com Fluxos de Trabalho Alinhados a Cientistas

Are Vision Language Models Cross-Cultural Theory of Mind Reasoners?

Peeking Into The Future For Contextual Biasing

EMMA: Concept Erasure Benchmark with Comprehensive Semantic Metrics and Diverse Categories

V-Agent: Um Sistema de Busca de Vídeo Interativo Usando Modelos de Visão-Linguagem

Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

MMRAG-RFT: Ajuste Fino de Reforço em Duas Etapas para Geração Aumentada por Recuperação Multi-modal Explicável

Endo-SemiS: Rumo à Segmentação de Imagem Semi-Supervisionada Robusta para Vídeo Endoscópico

A Benchmark for Ultra-High-Resolution Remote Sensing MLLMs

Imagens Sintéticas Podem Servir como Protótipos de Classe Eficazes e Eficientes?