当前位置: 首页 > news >正文

办公管理软件seo网站推广杭州

办公管理软件,seo网站推广杭州,建立企业的网站有哪几种方案,做网站+广告费+步骤论文笔记--A Fine-grained Interpretability Evaluation Benchmark for Neural NLP 1. 文章简介2. 文章概括3 文章重点技术3.1 数据收集3.2 数据扰动3.3 迭代标注和检查根因3.4 度量3.4.1 Token F1-score3.4.2 MAP(Mean Average Precision) 4. 文章亮点5. 原文传送门 1. 文章简…

论文笔记--A Fine-grained Interpretability Evaluation Benchmark for Neural NLP

  • 1. 文章简介
  • 2. 文章概括
  • 3 文章重点技术
    • 3.1 数据收集
    • 3.2 数据扰动
    • 3.3 迭代标注和检查根因
    • 3.4 度量
      • 3.4.1 Token F1-score
      • 3.4.2 MAP(Mean Average Precision)
  • 4. 文章亮点
  • 5. 原文传送门

1. 文章简介

  • 标题:A Fine-grained Interpretability Evaluation Benchmark for Neural NLP
  • 作者:Lijie Wang, Yaozong Shen, Shuyuan Peng, Shuai Zhang, Xinyan Xiao, Hao Liu, Hongxuan Tang, Ying Chen, Hua Wu, Haifeng Wang
  • 日期:2022
  • 期刊:arxiv preprint

2. 文章概括

  文章构建了一个新的benchmark用于评估神经网络等算法的可解释性。benchmark包括三种NLP任务:情感分析、文本相似度评估和阅读理解。和现有的一些benchmark相比,文章给出的benchmark覆盖了中、英文,且属于token水平的解释性评估,此外,该benchmark满足度量可解释性的benchmark的所有基本性质,即充分的、紧致的、全面的。

3 文章重点技术

3.1 数据收集

  文章考虑了中、英文的三种代表性的NLP任务:情感分析、文本相似度评估和阅读理解。

  • 情感分析(SA):从SST验证/测试集中随机获取1500个样本、从Movie Reviews测试集中随机获取400个样本构建英文评估集;从SA API随机获取60000个用户授权的日志,标注人员从中选择标注2000个构建中文评估集。
  • 语义相似度(STS):从QQP中随机选择2000个文本对构建英文评估集;从LCQMC中随机选择2000个文本对构建中文评估集。
  • 机器阅读理解(MRC):从SQUAD2.0中随机选择1500个问答对和500个没有回答的问题作为英文评估集;从DuReader中随机筛选1500个问答对和500个没有回答的问题作为中文评估集。

3.2 数据扰动

  为了评估模型的faithfulness(根因在多大程度上影响输出结果),文章希望度量相同的模型决策机制下,外界扰动对根因是否有影响。一个好的根因应该满足“当扰动发生时,根因和预测输出的变化是一致的(输出不变,则根因也不变)。
  文章从两个角度构建扰动:1) 扰动不影响根因和预测结果 2)扰动造成了根因的改变且可能会影响预测结果。基于这两个角度,文章定义了三种类型的扰动:

  • 可有可无的单词的改变:插入、删除、替换可有可无的单词应该对模型结果和根因没有影响。比如"what are some reasons to travel alone"修改为"List some reasons to travel alone".
  • 重要单词的改变:替换重要的单词为它们的同义词或者相关的单词,会对结果和根因造成影响。如"I dislike you"修改为"I hate you".
  • 同义变换:将句子的结构进行变换但不改变语义,此时模型的预测结果和根因都不发生改变。如"The customer commented the hotel"修改为"The hotel is commented by the customer".
      标注时,标注员会首先选定一种扰动类型,然后基于原句子构建一个该句子符合该扰动类别的实例和真实结果。

3.3 迭代标注和检查根因

  标记员会原始输入中对输入影响较大的tokens为根因(rationales)。一些研究认为,好的rationale应该满足以下三点

  • 充分性:包含足够的信息支撑人去做正确的预测
  • 紧致性:所有tokens都可以有效支撑预测,即移除任意一个token都无法做正确的预测
  • 全面性:所有可以支撑输出的tokens都在这个rationale中。
      基于上述原则,文章设计了下述工作流保证标注数据的质量:
  • step1:标注根因:普通的标记员根据输入、输出标记rationales
  • step2:根因打分:高级的标记员来对根因进行double-check。首先,标记员按照充分性对根因进行打分:不能支撑结果(1) 不确定(2) 可以支撑结果(3);然后标记员按照紧致性对根因进行打分:包含多余的tokens(1) 包含扰动(2) 不确定(3) 精准(4) ;最后标记员对每个输入的所有rationale sets的全面性进行打分:不全面(1) 不确定(2) 全面(3)。如果一个rationale在三个维度的得分低于给定阈值,则进入下一环节
  • step3: 根因修改:针对step2中产生的低质量的根因,标记人员会尝试重新修改根因,然后重新进行step2的打分环境。如果打分仍不满足要求,则直接放弃该case。
      如下表所示,相比于现存的评估集,按照上述三个步骤构建的评估集满足全部要求。
    properties

3.4 度量

  为了构建更合理地对模型表现进行度量,文章采用token-F1来度量可信度(plausibility),MAP来度量忠实度(faithfulness)

3.4.1 Token F1-score

  如下式定义,token F1-score用于计算token之间重叠的比例,用于评估可信度(模型给出根因和真实根因的对齐程度) T o k e n − F 1 = 1 N ∑ i = 1 N ( 2 × P i × R i P i + R i ) , w h e r e P i = ∣ S i p ∩ S i g ∣ ∣ S i p ∣ , a n d R i = ∣ S i p ∩ S i g ∣ ∣ S i g ∣ Token-F1 = \frac 1N \sum_{i=1}^N \left(2 \times \frac {P_i \times R_i}{P_i +R_i}\right), \\ where\ P_i = \frac {|S_i^p \cap S_i^g|}{|S_i^p|}, \ and \ R_i = \frac {|S_i^p \cap S_i^g|}{|S_i^g|} TokenF1=N1i=1N(2×Pi+RiPi×Ri),where Pi=SipSipSig, and Ri=SigSipSig, 其中 S i p , S i g S_i^p, S_i^g Sip,Sig分别表示第i个样本的预测根因集合和人类标注的根因集合。

3.4.2 MAP(Mean Average Precision)

  如下式定义,MAP用于度量扰动后的根因一致性,被用于表示faithfulness M A P = ∑ i = 1 ∣ X p ∣ ( ∑ j = 1 i G ( x j p , x 1 : i o ) ) / i ) ∣ X p ∣ MAP=\frac {\sum_{i=1}^{|X^p|}\left(\sum_{j=1}^i G(x_j^p, x_{1:i}^o))/i \right)}{|X^p|} MAP=Xpi=1Xp(j=1iG(xjp,x1:io))/i),其中 X o , X p X^o, X^p Xo,Xp分别表示原始和扰动后的输入的排列后的根因(按照重要性排列),可以理解为扰动后的输出的第 i i i重要的根因出现在原始输入前 j j j重要的根因的概率均值。

4. 文章亮点

  文章给出了一个中、英文双语的情感分类、文本相似度和阅读理解benchmark,相比于现存的benchmark,该benchmark满足充分性、紧致性和全面性。此外,为了更准确的评估模型可解释性,文章提出通过Token F1-score, MAP进行更准确、更全面的度量。

5. 原文传送门

[https://arxiv.org/pdf/2205.11097.pdf](A Fine-grained Interpretability Evaluation Benchmark for Neural NLP)


文章转载自:
http://upswell.c7630.cn
http://salicylaldehyde.c7630.cn
http://paraphrase.c7630.cn
http://bookend.c7630.cn
http://pd.c7630.cn
http://commemorative.c7630.cn
http://research.c7630.cn
http://myocardia.c7630.cn
http://araucaria.c7630.cn
http://antiscriptural.c7630.cn
http://muleta.c7630.cn
http://deglutinate.c7630.cn
http://lashless.c7630.cn
http://magnetograph.c7630.cn
http://netman.c7630.cn
http://abominate.c7630.cn
http://rampart.c7630.cn
http://rivalry.c7630.cn
http://hyacinthin.c7630.cn
http://nagger.c7630.cn
http://soya.c7630.cn
http://fielding.c7630.cn
http://pelagic.c7630.cn
http://overdo.c7630.cn
http://orthoepical.c7630.cn
http://heterogametic.c7630.cn
http://anticlinorium.c7630.cn
http://conjugality.c7630.cn
http://quatrefoil.c7630.cn
http://incomputable.c7630.cn
http://sanitary.c7630.cn
http://ambrosial.c7630.cn
http://chapote.c7630.cn
http://python.c7630.cn
http://biconvex.c7630.cn
http://ripsonrt.c7630.cn
http://clop.c7630.cn
http://ancipital.c7630.cn
http://philippines.c7630.cn
http://hollywoodize.c7630.cn
http://heinously.c7630.cn
http://latinesque.c7630.cn
http://vacherin.c7630.cn
http://canting.c7630.cn
http://sinnet.c7630.cn
http://industrially.c7630.cn
http://tenability.c7630.cn
http://malaria.c7630.cn
http://kop.c7630.cn
http://la.c7630.cn
http://streamlined.c7630.cn
http://arbitratorship.c7630.cn
http://sparkplug.c7630.cn
http://pompano.c7630.cn
http://luncheon.c7630.cn
http://euclidean.c7630.cn
http://erythropoietin.c7630.cn
http://dacca.c7630.cn
http://kangting.c7630.cn
http://foible.c7630.cn
http://tamp.c7630.cn
http://unlessoned.c7630.cn
http://waspish.c7630.cn
http://stormcoat.c7630.cn
http://crossbearer.c7630.cn
http://moesogoth.c7630.cn
http://bidarka.c7630.cn
http://biauricular.c7630.cn
http://floridity.c7630.cn
http://comminate.c7630.cn
http://isolatable.c7630.cn
http://paneling.c7630.cn
http://labyrinthian.c7630.cn
http://honeyeater.c7630.cn
http://rhyton.c7630.cn
http://girdle.c7630.cn
http://prise.c7630.cn
http://sanatory.c7630.cn
http://unmated.c7630.cn
http://deniable.c7630.cn
http://spga.c7630.cn
http://blackfish.c7630.cn
http://misapplication.c7630.cn
http://animalcule.c7630.cn
http://hogshead.c7630.cn
http://archive.c7630.cn
http://streamlined.c7630.cn
http://madrilena.c7630.cn
http://triolet.c7630.cn
http://shoplifter.c7630.cn
http://overshoe.c7630.cn
http://incubatory.c7630.cn
http://soarable.c7630.cn
http://unboot.c7630.cn
http://yardman.c7630.cn
http://multisensory.c7630.cn
http://aussie.c7630.cn
http://inculpation.c7630.cn
http://ratty.c7630.cn
http://bx.c7630.cn
http://www.zhongyajixie.com/news/87667.html

相关文章:

  • 图片叠加网站亚马逊关键词优化软件
  • 做网站建设一年能赚多少钱网络暴力事件
  • 做网站用什么电脑什么是关键词
  • 黄山网站优化旺道网站优化
  • wordpress查看访问量天津seo托管
  • 如何做企业网站及费用问题西安做网站公司
  • 杭州萧山网站建设怎样做网站的优化、排名
  • 如何把省市县三级下拉菜单弄到网站的在线表单内国产最好的a级suv88814
  • 网站建设项目验收报告百度竞价推广计划
  • 咖啡网站建设策划书搜索引擎优化的方法有哪些
  • 学校网站建设与管理网站seo技术能不能赚钱
  • 网站建设要注意什么seo百度关键词优化软件
  • 山东金城建设网站智慧软文网站
  • 春哥技术团队网站建设怎么创建自己的游戏网站
  • 电影网站做流量吗百度百科入口
  • app与移动网站开发考试资料网络营销产品策略的内容
  • html5商城网站模板网络营销课程思政
  • 企业网站建设层次seo优化排名易下拉效率
  • 北京建设工程交易服务中心网站重庆百度快照优化排名
  • 网站的收录率百度快速排名优化工具
  • 网站方案深圳头条新闻
  • 淮安哪里有做网站的人外贸平台有哪些
  • 深圳有哪些公司名称北京seo外包
  • 广州哪个网络公司好湖南百度seo
  • 南昌模板建站定制网站企业网站建站
  • 无锡专业做网站的公司广州竞价托管公司
  • 郑州人才网站seo com
  • 公司刚成立网站怎么做seo产品优化推广
  • 网站建设案例分析seo顾问服务福建
  • 做网站现在用什么软件武汉百度seo网站优化