Natural Language Processing

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

30 December 2024·2075 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tencent AI Lab

대규모 언어 모델의 과도한 연산 문제 해결: 효율적인 추론을 위한 새로운 지표 및 자기 학습 전략 제시

OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

28 December 2024·304 words·2 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Information Extraction 🏢 Zhejiang University

OneKE: 도커 기반, 다중 에이전트 LLM 지식 추출 시스템으로 웹, PDF에서 다양한 도메인 지식 추출 가능

Xmodel-2 Technical Report

27 December 2024·2136 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Xiaoduo AI Lab

Xmodel-2: 12억 매개변수의 추론 전문 대규모 언어 모델로, 효율적인 설계와 훈련 전략을 통해 최첨단 성능 달성!

Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

27 December 2024·177 words·1 min· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Intel Labs

미세 조정으로 안전성이 저하된 LLM의 성능을 향상시키는 동시에 안전성을 유지하는 간편하고 효과적인 모델 결합 방법 제시!

Token-Budget-Aware LLM Reasoning

24 December 2024·2417 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Nanjing University

토큰 예산 인식 LLM 추론 프레임워크(TALE)를 통해 LLM 추론의 토큰 비용을 크게 줄이면서 성능 저하를 최소화했습니다!

How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

24 December 2024·1013 words·5 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Machine Translation 🏢 Fondazione Bruno Kessler

실시간 동시 통역 시스템의 현실적인 한계를 규명하고, 표준화된 용어와 체계를 제시하여 연구 발전을 촉진하는 논문.

CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era

24 December 2024·2988 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Question Answering 🏢 Megagon Labs

본 연구는 대규모 현대 지식 그래프에서 LLM을 이용한 정확한 정보 검색을 위한 새로운 벤치마크인 CypherBench를 제시합니다. 기존의 RDF 기반 지식 그래프는 과도하게 큰 스키마와 리소스 식별자 사용으로 LLM에 비효율적이라는 문제점을 분석합니다. 특히, Wikidata와 같은 현대 지식 그래프는 LLM의 문맥 창 크기를 초과하는 경우가 많습니…

YuLan-Mini: An Open Data-efficient Language Model

23 December 2024·3531 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Renmin University of China

YuLan-Mini: 24억 개 매개변수를 가진 데이터 효율적인 개방형 LLM

WavePulse: Real-time Content Analytics of Radio Livestreams

23 December 2024·2678 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Information Extraction 🏢 New York University

WavePulse: 실시간 라디오 방송 콘텐츠 분석 프레임워크가 정치적 담론, 미디어 유통, 여론 동향을 실시간 분석하여 정치 과학 및 미디어 연구에 새로운 가능성을 열었습니다.

SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

23 December 2024·2234 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Question Answering 🏢 Kyoto University

SBS Figures: 100만 개의 합성 이미지와 QA 쌍으로 사전 학습된, 효율적인 Figure QA 모델!

ResearchTown: Simulator of Human Research Community

23 December 2024·16894 words·80 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Illinois Urbana-Champaign

RESEARCHTOWN: LLM 기반 인간 연구 공동체 시뮬레이터로, 다양한 연구 활동을 현실적으로 모방하며 학제 간 연구 아이디어 생성 가능

In Case You Missed It: ARC 'Challenge' Is Not That Challenging

23 December 2024·2275 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Snowflake AI Research

기존 다중 선택 문제 평가 방식의 오류를 지적하고, 모든 옵션을 함께 고려하는 새로운 평가 방식을 제안하여 모델 성능 평가의 정확성을 높였습니다.

Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

23 December 2024·1812 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Dialogue Systems 🏢 Peking University

Friends-MMC: 방대한 비디오 데이터와 주석을 포함한 새로운 다중 모달 다중 참여 대화 데이터셋을 통해 실제 세계의 대화 이해를 위한 새로운 가능성을 제시합니다!

Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization

23 December 2024·1717 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

FoPE: 주파수 영역 특징 개선으로 긴 문맥 길이 일반화 달성!

DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

23 December 2024·366 words·2 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Machine Translation 🏢 Tencent AI Lab

DRT-01 모델은 장문의 사고 과정을 활용하여 문학 번역의 정확도와 유창성을 크게 향상시켰습니다.

Diving into Self-Evolving Training for Multimodal Reasoning

23 December 2024·2584 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Hong Kong University of Science and Technology

M-STAR: 다모달 추론을 위한 자기 진화 훈련의 새로운 프레임워크를 제시!

Deliberation in Latent Space via Differentiable Cache Augmentation

23 December 2024·2751 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Google DeepMind

대규모 언어 모델의 추론 성능을 향상시키는 새로운 방법인 ‘차별 가능한 캐시 증강’ 기법 제시!

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

23 December 2024·1797 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Hong Kong University of Science and Technology

B-STAR: 자기 학습 추론자에서 탐색과 활용의 균형을 모니터링하고 조정하여 성능을 향상시키는 새로운 프레임워크

Revisiting In-Context Learning with Long Context Language Models

22 December 2024·3818 words·18 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Google DeepMind

장문 컨텍스트 언어 모델에서 정교한 샘플 선택 전략보다 무작위 샘플링이 ICL 성능 향상에 더 효과적이며, 데이터 증강을 통해 저자원 작업 성능을 5% 향상시켰다는 놀라운 연구 결과를 발표!

OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

22 December 2024·1880 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Beijing Jiaotong University

OpenRFT는 제한된 도메인 특정 데이터를 사용하여 일반적인 추론 모델을 미세 조정하는 새로운 방법을 제시합니다.