面向语义的数据质量评价方法
面向语义的数据质量评价方法(2025.02.19之后)
对齐度
重叠度
Deduplicating Training Data Makes Language Models Better
n-gram
- 一个n-gram就是
Jaccard系数
MinHash
困惑度
多样性
Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data
摘要
- 提出了一种让数据的variability形式化的度量方法 —— Diversity Coefficient
- 经过大量数据分析,论文证明了当数据集中概念标签增加时,Diversity Coefficient也增加。可以正确反映与我们直观感受上多样性变化
- 经过试验验证,Diversity Coefficient可以描述下游模型评估性能的有用方面
Method: the Diversity Coefficient for Natural Language
知识点补充
-
Task2Vec
:
1. Computing Task2Vec Embeddings For Text
- Task2Vec嵌入向量;
2.
3.
Enjoy Reading This Article?
Here are some more articles you might like to read next: