Joochan Kim

Research

I'm interested in Embodied AI, Multimodal AI, and data-centric AI. Most of my research is about developing embodied AI from internet AI. Some papers with highlight are papers with main contributions.

The Losing Winner: An LLM Agent that Predicts the Market but Loses Money

Youwon Jang*, Joochan Kim*, Byoung-Tak Zhang

NeurIPS Workshop on Generative AI in Finance, 2025

Paper Poster

Fine-tuning an LLM for Bitcoin market state prediction improves accuracy but paradoxically worsens trading returns, exposing the dangers of proxy objectives and reward hacking in financial AI.

Continual Vision-and-Language Navigation

Seongjun Jeong, Gi-Cheon Kang, Seongho Choi, Joochan Kim, Byoung-Tak Zhang

BMVC, 2025

Paper

We propose Continual Vision-and-Language Navigation (CVLN) paradigm along with two methods for CVLN: Perplexity Replay (PerpR) and Episodic Self-Replay (ESR).

Exploring Ordinal Bias in Action Recognition for Instructional Videos

Joochan Kim, Minjoon Jung, Byoung-Tak Zhang

ICLR Workshop on Spurious Correlation and Shortcut Learning, 2025

arXiv Poster

Ordinal bias leads action recognition models to over-rely on dominant action pairs, inflating performance and lacking true video comprehension even when challenged by action masking and sequence shuffling.

Background-aware Moment Detection for Video Moment Retrieval

Minjoon Jung, Youwon Jang, Seongho Choi, Joochan Kim, Jin-Hwa Kim, Byoung-Tak Zhang

WACV, 2025

arXiv Code

We propose Background-aware Moment Detection TRansformer (BM-DETR), which carefully adopts a contrastive approach for robust prediction. BM-DETR achieves state-of-the-art performance on various benchmarks while being highly efficient.

Zero-Shot Vision-and-Language Navigation with Collision Mitigation in Continuous Environment

Seongjun Jeong, Gi-Cheon Kang, Joochan Kim, Byoung-Tak Zhang

CVPR Workshop on Embodied AI, 2025

arXiv

We propose the zero-shot Vision-and-Language Navigation with Collision Mitigation (VLN-CM), which takes low-level actions as an output while considering possible collisions.

Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval

Minjoon Jung, Seongho Choi, Joochan Kim, Jin-Hwa Kim, Byoung-Tak Zhang

EMNLP, 2022

arXiv

We propose a self-supervised learning framework: Modal-specific Pseudo Query Generation Network (MPGN). First, MPGN selects candidate temporal moments via subtitle-based moment sampling. Then, it generates pseudo queries exploiting both visual and textual information from the selected temporal moments.

Miscellanea

Academic Service

Reviewer, NeurIPS 2025–2026
Reviewer, CVPR 2026
Reviewer, ECCV 2026
Reviewer, IEEE Internet of Things Journal

Teaching

Teaching Assistant, M1522.000300 Spring 2023