Topic

§ Multimodal

Every story tagged with this topic, ordered by date.

[AINews] Black Forest Labs FLUX 3 - Multimodal Flow Models that beat Seedance 2.0, Gemini Omni and Grok Imagine, and FLUX-mimic video-action robotics model

Black Forest Labs releases FLUX 3 multimodal model with reported improvements over Gemini 2.0, Grok Imagine, and includes video-action robotics variant.

Latent Space·2 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

3D-Aware VLMs with Implicit and Explicit Geometries

VLM-IE3D framework enhances vision-language models with implicit and explicit 3D geometry tokens from RGB video for improved spatial reasoning.

Wenhao Li·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

GraphVid: Interactive Graph-Controllable Video Generation

GraphVid enables precise multi-object video generation control via graph-structured representations instead of trajectory or text constraints.

Vedant Shah·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MIRROR: Learning from the Other View for Multi-Modal Reasoning

MIRROR framework exploits complementary reasoning paths across text, diagram, and combined modalities to improve vision-language model reasoning on geometry problems.

Wen Ye·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

X$^3$-OPD: Distilling Reasoning into Large Audio-Language Models via On-Policy Alignment

X³-OPD cross-modal distillation framework transfers reasoning from text LLM teacher to audio-language student via on-policy alignment and acoustic perception.

Dongjie Fu·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

ElasticTTT: Prior-Preserving Test-Time Tuning for Video Editing

ElasticTTT framework prevents prior collapse in test-time tuning of diffusion models for video editing by preserving distribution-mapping during optimization.

Yueyi Liu·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Toward Generalizable Cognitive Impairment Detection with Speech-Based Multimodal Large Language Models

Speech-based multimodal LLMs detect cognitive impairment across diverse speakers and devices by leveraging linguistic and acoustic biomarkers with improved generalization.

Yingchao Huang·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Thinkink: 2D Spatial Ink-native Interaction with LLMs

Thinkink: 2D spatial interface integrating handwritten/sketch prompts with LLM responses via semantic tree interpretation.

Mohammad Hasan Payandeh·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

An Evaluation Framework for Structured Audio Captions Validated by Controlled Perturbations

Multi-axis evaluation framework for structured audio captions on AudioCards dataset validates five orthogonal dimensions beyond flat text metrics.

Liang-Yuan Wu·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MSBraM: A Multi-scale Self-supervised Brain Foundation Model for Hierarchical EEG Dynamics Learning

MSBraM: self-supervised foundation model for EEG capturing multi-scale temporal brain dynamics across downstream tasks.

Tao Zhou·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

When Are Reasoning-Based Guardrails Not Efficient? ResponseGuard: A Fast Vision-Language Guard for Real-Time Moderation

ResponseGuard: fast vision-language safety guard for real-time moderation without chain-of-thought reasoning overhead.

Dongbin Na·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Multimodal Pretraining for Generalizable EEG Representation Learning

Multimodal foundation model for EEG combines Mamba raw-signal encoder and ViT for time-frequency data to improve generalization.

Targol Bakhtiarvand·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

DINOde: Continuous Vision-Text Alignment for Open-Vocabulary Semantic Segmentation

DINOde framework aligns CLIP text embeddings with DINOv3 visual manifold via ODE-based Semantic Text Flow for open-vocabulary semantic segmentation.

Sung-Hoon Yoon·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

M$^3$-Gen: Interpretable Multimodal Generation of Gene Expression Profiles Using Clinical and Imaging Data

M³-Gen uses GANs to generate gene expression profiles from histopathology images and clinical data, addressing biomedical data scarcity.

Francesca Pia Panaccione·3 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

PC-Edit: Prompt-Contrastive Region Discovery and Region-Guided Editing

PC-Edit applies prompt-contrastive learning for precise region discovery in image editing, handling category/shape replacement with source removal.

Jian Zhang·3 days ago

OpenAI· FRONTIER

Launching Health in ChatGPT

OpenAI launches Health feature in ChatGPT enabling U.S. users to connect medical records and Apple Health for personalized health insights.

OpenAI·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Test-Time Training for Modality Order Consistency in Vision-Language Models

Vision-language models show consistent performance gaps based on image-vs-question modality order; test-time training method closes gap across benchmarks.

Aditi Gupta·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Toward Reliable RGB-D Semantic Segmentation: Handling Missing Modalities via Condition Dropout

Condition Dropout (ConD) mitigates RGB-D semantic segmentation degradation when one sensor modality fails via continued training with dropout simulation.

Xuchen Zhu·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Multi-modal transformer for signal classification in nanopore blockade experiments

Multi-modal transformer jointly processes time-series, wavelet, and spectral representations for nanopore blockade signal classification in single-molecule sensing.

Sandro Kuppel·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Self-supervision drives representational convergence in medical foundation models more than clinical supervision

18 medical image encoders on 650k radiographs show self-supervision drives representational convergence more than clinical labels.

Soroosh Tayebi Arasteh·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

On the Systematic Challenges of Culturally Loaded Machine Translation: Dream of the Red Chamber as the Cultural Lens

Evaluates LLM-based machine translation on culturally loaded expressions using Dream of the Red Chamber Chinese-Japanese dataset; identifies systematic gaps.

Yiming Wang·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Audio-Zero: Label-Free Self-Evolution for Fine-Grained Audio Reasoning

Audio-Zero: label-free self-play framework for large audio language models improving fine-grained event and duration reasoning.

Siqian Tong·4 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Appearance Pointers -- Multimodal Region Control of Diffusion Transformers

Appearance Pointers enable spatial region control in Diffusion Transformers via compact tokens, improving controllable image generation.

Rahul Sajnani·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

PathAgentBench: Benchmarking Evidence-Seeking Vision-Language Models on Whole-Slide Pathology Image

PathAgentBench: benchmark for vision-language agents on gigapixel whole-slide pathology images evaluating multi-scale evidence-seeking.

Dankai Liao·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MeetingToM: Evaluating Multimodal LLMs on Theory-of-Mind Reasoning in Multi-Party Meetings

MeetingToM benchmark evaluates multimodal LLMs on theory-of-mind reasoning in multi-party meeting scenarios.

Ziyi Wang·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

One Model, Many Graphs: Learning over Attributed Graphs across Heterogeneous Modalities with Vision-Language Models

Vision-language models as unified backbone for attributed graphs with heterogeneous modalities (text, visual, mixed).

Jiayi Yang·5 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

The Many Senses of Visual Similarity: A Text-Prompted Image Perceptual Metric

Dataset of human image similarity judgments across semantic aspects; benchmarks vision-language models on context-dependent perceptual metrics.

Sheng-Yu Wang·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Simple Domain Generalization for Strong Pixel-Level Image Tampering Detection in Modern VLMs

Domain-generalized pixel-level tampering detection robust across VLM-generated manipulations from ChatGPT, Gemini, Qwen-Image.

Yi Tang·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

GigaPath-Flash and GigaTIME-Flash: Efficient Pathology Foundation Models for Whole-Slide and Tumor Microenvironment Analysis

GigaPath-Flash and GigaTIME-Flash: computationally efficient pathology foundation models for whole-slide image and tumor analysis.

Naoto Usuyama·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Do Language Models Dream of Binding Molecules? Benchmarking LLMs under Spatial Constraints

Benchmark evaluating LLMs' ability to reason about 3D spatial constraints in structure-based drug design vs. diffusion models.

Thomas MacDougall·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Sparse Evidence Can Suffice: Agentic Evidence Seeking for Multimodal Video Misinformation Detection

Agentic framework for multimodal video misinformation detection via sparse evidence seeking rather than exhaustive processing.

Haochen Zhao·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Anticipate Before Acting: Future-State-Conditioned Vision-Language Navigation

Future-state-conditioned vision-language navigation trains policies to predict future visual outcomes beyond next-action supervision.

Lingfeng Zhang·6 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

An Exam for Active Observers

ActiveVision benchmark measures whether MLLMs perform active observation via 17 tasks requiring repeated visual perception.

Jiarui Zhang·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

ToolSciVer: Multimodal Scientific Claim Verification with Visual Tool Augmented Reinforcement Learning

ToolSciVer framework uses visual tools and RL to improve multimodal scientific claim verification from figures, tables, and charts.

Binglin Zhou·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

HCIG: A Hierarchical Cross-Modal Incongruity Graph Network for Multimodal Sarcasm and Cyberbullying Detection

HCIG framework uses hierarchical cross-modal graph networks to detect sarcasm and cyberbullying via text-visual incongruity.

Bhavana Verma·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

DELUGE: Towards Continental-Scale Daily Pluvial Flood Damage Prediction via Interpretable Conditioning on Foundation Model Embeddings

DELUGE: multimodal deep learning system for continental-scale daily pluvial flood damage prediction at 1km resolution using foundation model embeddings.

Yuya Kawakami·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

SciForge: An AI-Native, Multimodal Workbench for Scientific Discovery

SciForge: AI-native multimodal workbench for scientific discovery with agent-accessible services for code, datasets, workflow execution, and paper management.

SciForge Team·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

More with Less: a Large Scale Remote Sensing VLM with a Simple Recipe

Vision-language model achieves SOTA remote sensing benchmarks via simple scaling recipe without task-specific architectural changes.

Stefan Maria Ailuro·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Knowledge-Guided Cross-Modal Fusion for Adult-to-Pediatric ECG Transfer via Label-Conditioned Contrastive Alignment

PEACE framework transfers adult ECG models to pediatric populations via cross-modal alignment; addresses label scarcity.

Xinran Liu·9 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

SceneBind: Binding What and Where Across Vision, Audio and Language

SceneBind combines semantic and 3D spatial understanding across vision, audio, language with object-centric slots and uncertainty modeling.

Mingfei Chen·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Beyond the Leaderboard: Design Lessons for Trustworthy Multimodal VQA

MediaEval Medico 2025 analysis: parameter-efficient VQA achieves leaderboard gains but structured reasoning better ensures clinical interpretability.

Sushant Gautam·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

TikStance: A Multimodal and Hierarchical Dataset for Multi-target Stance Analysis in TikTok Political Conversations

TikStance: 13,876-comment multimodal dataset for stance detection across Trump, Biden, Harris in 2024 U.S. election TikTok discourse.

Yazhi Zhang·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Symbal: Detecting Systematic Misalignments in Model-Generated Captions

Symbal detects systematic misalignments in MLLM-generated image captions by identifying recurring errors tied to specific visual features.

Maya Varma·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Expanding the Lexicon of Ge'ez Based African Languages: A Comparative Study of Amharic and Tigrinya

VEXMLM extends XLM-R with language-specific tokenizers for Ge'ez-script languages (Amharic, Tigrinya) to reduce OOV rates in low-resource African NLP.

Hailay Kidu Teklehaymanot·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

MM-IssueLoc: A Controlled Benchmark for Evaluating Visual Evidence in Multimodal Repository-Level Issue Localization

MM-IssueLoc benchmark isolates visual evidence impact in multimodal software repository issue localization across 23 languages and 652 instances.

Shaoxiong Zhan·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Benchmarking Multimodal Large Language Models for Scientific Visualization Literacy

Benchmark evaluates six MLLMs on scientific visualization literacy using 49 standardized assessment items across 8 visualization techniques.

Patrick Phuoc Do·10 days ago

Google AI (Gemma)· FRONTIER

Create, edit and star in videos with two Google Vids updates

Google Vids adds Gemini Omni support and personal avatar features for video generation and editing.

{"$":{"xmlns:author":"http://www.w3.org/2005/Atom"},"name":["Justin Luk"],"title":["Product Manager"],"department":[""],"company":[""]}·10 days ago

Simon Willison· ANALYST

Inkling: Our open-weights model

Thinking Machines Lab releases Inkling, a 975B-parameter open-weights MoE multimodal model trained on 45T tokens.

Simon Willison·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

AlphaWiSE: Adaptive Weight Interpolation for Continual Multimodal Representation Learning

AlphaWiSE: post-hoc weight interpolation maintains cross-modal alignment in CLIP during continual multimodal learning via per-tensor scalar coefficients.

Sarthak Jain·10 days ago

arXiv (cs.AI/CL/LG)· ACADEMIA

Towards Hierarchical Structure Understanding of Newspaper Images

Bottom-up pipeline (YOLO + LayoutReader) and Tiramisu model for hierarchical structure understanding in dense newspaper images.

William Mocaër·10 days ago

← Front Page50 stories