Natural Language Processing
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
·2075 words·10 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Tencent AI Lab
대규모 언어 모델의 과도한 연산 문제 해결: 효율적인 추론을 위한 새로운 지표 및 자기 학습 전략 제시
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System
·304 words·2 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Information Extraction
🏢 Zhejiang University
OneKE: 도커 기반, 다중 에이전트 LLM 지식 추출 시스템으로 웹, PDF에서 다양한 도메인 지식 추출 가능
Xmodel-2 Technical Report
·2136 words·11 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Xiaoduo AI Lab
Xmodel-2: 12억 매개변수의 추론 전문 대규모 언어 모델로, 효율적인 설계와 훈련 전략을 통해 최첨단 성능 달성!
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
·177 words·1 min·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Intel Labs
미세 조정으로 안전성이 저하된 LLM의 성능을 향상시키는 동시에 안전성을 유지하는 간편하고 효과적인 모델 결합 방법 제시!
Token-Budget-Aware LLM Reasoning
·2417 words·12 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Nanjing University
토큰 예산 인식 LLM 추론 프레임워크(TALE)를 통해 LLM 추론의 토큰 비용을 크게 줄이면서 성능 저하를 최소화했습니다!
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?
·1013 words·5 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Machine Translation
🏢 Fondazione Bruno Kessler
실시간 동시 통역 시스템의 현실적인 한계를 규명하고, 표준화된 용어와 체계를 제시하여 연구 발전을 촉진하는 논문.
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
·2988 words·15 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Question Answering
🏢 Megagon Labs
본 연구는 대규모 현대 지식 그래프에서 LLM을 이용한 정확한 정보 검색을 위한 새로운 벤치마크인 CypherBench를 제시합니다. 기존의 RDF 기반 지식 그래프는 과도하게 큰 스키마와 리소스 식별자 사용으로 LLM에 비효율적이라는 문제점을 분석합니다. 특히, Wikidata와 같은 현대 지식 그래프는 LLM의 문맥 창 크기를 초과하는 경우가 많습니…
YuLan-Mini: An Open Data-efficient Language Model
·3531 words·17 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Renmin University of China
YuLan-Mini: 24억 개 매개변수를 가진 데이터 효율적인 개방형 LLM
WavePulse: Real-time Content Analytics of Radio Livestreams
·2678 words·13 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Information Extraction
🏢 New York University
WavePulse: 실시간 라디오 방송 콘텐츠 분석 프레임워크가 정치적 담론, 미디어 유통, 여론 동향을 실시간 분석하여 정치 과학 및 미디어 연구에 새로운 가능성을 열었습니다.
SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images
·2234 words·11 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Question Answering
🏢 Kyoto University
SBS Figures: 100만 개의 합성 이미지와 QA 쌍으로 사전 학습된, 효율적인 Figure QA 모델!
ResearchTown: Simulator of Human Research Community
·16894 words·80 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 University of Illinois Urbana-Champaign
RESEARCHTOWN: LLM 기반 인간 연구 공동체 시뮬레이터로, 다양한 연구 활동을 현실적으로 모방하며 학제 간 연구 아이디어 생성 가능
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
·2275 words·11 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Snowflake AI Research
기존 다중 선택 문제 평가 방식의 오류를 지적하고, 모든 옵션을 함께 고려하는 새로운 평가 방식을 제안하여 모델 성능 평가의 정확성을 높였습니다.
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding
·1812 words·9 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Dialogue Systems
🏢 Peking University
Friends-MMC: 방대한 비디오 데이터와 주석을 포함한 새로운 다중 모달 다중 참여 대화 데이터셋을 통해 실제 세계의 대화 이해를 위한 새로운 가능성을 제시합니다!
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
·1717 words·9 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Tsinghua University
FoPE: 주파수 영역 특징 개선으로 긴 문맥 길이 일반화 달성!
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
·366 words·2 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Machine Translation
🏢 Tencent AI Lab
DRT-01 모델은 장문의 사고 과정을 활용하여 문학 번역의 정확도와 유창성을 크게 향상시켰습니다.
Diving into Self-Evolving Training for Multimodal Reasoning
·2584 words·13 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Hong Kong University of Science and Technology
M-STAR: 다모달 추론을 위한 자기 진화 훈련의 새로운 프레임워크를 제시!
Deliberation in Latent Space via Differentiable Cache Augmentation
·2751 words·13 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Google DeepMind
대규모 언어 모델의 추론 성능을 향상시키는 새로운 방법인 ‘차별 가능한 캐시 증강’ 기법 제시!
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
·1797 words·9 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Hong Kong University of Science and Technology
B-STAR: 자기 학습 추론자에서 탐색과 활용의 균형을 모니터링하고 조정하여 성능을 향상시키는 새로운 프레임워크
Revisiting In-Context Learning with Long Context Language Models
·3818 words·18 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Google DeepMind
장문 컨텍스트 언어 모델에서 정교한 샘플 선택 전략보다 무작위 샘플링이 ICL 성능 향상에 더 효과적이며, 데이터 증강을 통해 저자원 작업 성능을 5% 향상시켰다는 놀라운 연구 결과를 발표!
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
·1880 words·9 mins·
loading
·
loading
AI Generated
🤗 Daily Papers
Natural Language Processing
Large Language Models
🏢 Beijing Jiaotong University
OpenRFT는 제한된 도메인 특정 데이터를 사용하여 일반적인 추론 모델을 미세 조정하는 새로운 방법을 제시합니다.