LLMLingua-2-Bert-base-Multilingual-Cased-MeetingBank

Property	Value
Parameter Count	177M
License	Apache-2.0
Paper	LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression
Tensor Type	F32

What is llmlingua-2-bert-base-multilingual-cased-meetingbank?

This is a specialized BERT multilingual model designed for efficient prompt compression across multiple languages. Developed by Microsoft, it represents a significant advancement in task-agnostic prompt compression technology, trained specifically on the MeetingBank dataset. The model employs a token classification approach where each token is assigned a preservation probability, enabling intelligent text compression while maintaining semantic meaning.

Implementation Details

The model implements a sophisticated token classification system built on the BERT multilingual base architecture. It utilizes preservation probabilities (p_preserve) for each token to determine compression decisions, allowing for flexible compression rates while maintaining crucial context and meaning.

Built on BERT multilingual base architecture with 177M parameters
Trained on extractive text compression dataset derived from MeetingBank
Implements task-agnostic compression methodology
Supports multiple languages through multilingual BERT foundation

Core Capabilities

Efficient prompt compression across multiple languages
Customizable compression rates with preservation of key tokens
Support for force-keeping specific tokens (punctuation, line breaks)
Intelligent handling of consecutive token dropping
Returns detailed compression analytics and token-level annotations

Frequently Asked Questions

Q: What makes this model unique?

This model stands out for its task-agnostic approach to prompt compression across multiple languages, making it particularly valuable for international applications. Its integration with the LLMLingua-2 framework allows for efficient compression while maintaining semantic fidelity.

Q: What are the recommended use cases?

The model is ideal for applications requiring efficient prompt compression in multilingual contexts, such as meeting summarization, chat log compression, and general text optimization for LLM inputs. It's particularly useful when working with limited context windows in language models while preserving crucial information.