面向语义的数据质量评价方法

面向语义的数据质量评价方法(2025.02.19之后)

对齐度

重叠度

Deduplicating Training Data Makes Language Models Better

n-gram

  • 一个n-gram就是

Jaccard系数

MinHash

困惑度

多样性

Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data

摘要

  • 提出了一种让数据的variability形式化的度量方法 —— Diversity Coefficient
  • 经过大量数据分析,论文证明了当数据集中概念标签增加时,Diversity Coefficient也增加。可以正确反映与我们直观感受上多样性变化
  • 经过试验验证,Diversity Coefficient可以描述下游模型评估性能的有用方面

Method: the Diversity Coefficient for Natural Language

知识点补充

  • Task2Vec:

1. Computing Task2Vec Embeddings For Text

  • Task2Vec嵌入向量;

2.

3.




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • Google Gemini updates: Flash 1.5, Gemma 2 and Project Astra
  • Displaying External Posts on Your al-folio Blog
  • 强化学习导论
  • 企业项目实训
  • 面试总结