谷歌开源大规模词义消歧语料，有望解决“AI 完全问题”

发布时间：2017-01-25 阅读量：839 来源: 我爱方案网作者: cywen

理解文本中特定单词的不同含义对于语言的理解是一个关键。例如，在句子“他将获得重组后的公司的股票”中，我们知道，根据牛津英语字典（NOAD）的定义，这一语境下，“股票”（stock）一词指的是“商业或公司通过发行和认购股份筹集的资本”。但是，在牛津英语字典中，stock 还有超过10种其他的定义，比如“商店中的货物”或者“中世纪一种用于惩罚的的工具”。对于计算机算法来说，区分这些含义非常困难，以致于这一任务过去通常被描述为“AI 完全问题”（AI-complete）。

为了进一步解决这一挑战，谷歌1月19日宣布，基于常用的MASC和SemCor 数据库的词义注释正式发布，这些注释是基于牛津英语词典人为注释的。谷歌还同时发布了从NOAD 词义到English Wordnet 转换的描述，这是一个在研究者社区更加常用的数据库。这是最大的全词义注释英语语料库之一。

监督式词义消歧

分辨文本中的单词含义对于人类来说非常简单，因为关于世界是如何运转的、这些机制与语言有什么联系，我们已经积累了大量的常识。举例来说，在商业中，“stock” 指的是金融，而在商店中，“stock”更可能指货架上的商品，虽然商店从某种程度上来说也是商业的一部分。以机器可以使用的形式获取足够的知识，然后将其应用于理解文本中的单词，这是一个挑战。

监督式词义消歧（WSD）是使用人类标记的数据构建机器学习系统中的一个难题，该系统可以为文本中使用的所有词语对应词典义项（与实体消歧相反，它主要聚焦于名词，并且大部分是正确的）。打造一个监督式模型，并且要比简单地分配最常见的词义而不考虑文本背景有更好地表现，这是相对更难的，但是，监督式模型在拥有海量的训练数据时，可以表现得更好。

谷歌工程师Colin Evans 和 Dayu Yuan 在博客上说，通过发布这一数据库，他们希望整个研究社区能够进一步改进算法，进而让机器更好地理解语言，让更多的应用成为可能：

比如：

推动从文本中自动构建数据库，以回答问题和联系文本中的知识。例如，理解“半引擎”是一种汽车机械，“机车引擎”是一种火车，或者“Kanye West是一个 star ”，意味着他是一个名人，但“Sirius 是一种star “意味着它是一个天文物体。消除搜索中的词语含义，使得“date palm ”和“date night ”或“web spam”和“spam recipe”在不同的场景下有不同的解释，并且从查询返回的文档具有相同搜索时蕴含的相同含义。

人工标注

在我们发布的人工标注的数据集中，每个义项的注释由5位评估者进行标记。为了确保义项标注的高质量，评估者首先使用金注释进行训练，也就是在开始标记注释任务之前，在一个单独的试验研究中，由经验丰富的语言学家进行标记。下图是我们的注释工具中，评估者工作页面的一个示例：

页面的左侧列出了单词的所有词典义项（这里以单词“general”为例），还提供了从词典中抽取的例句。例句中突出显示的是待注释词汇，显示在工作页面的右侧。除了为待注释词汇标注词典里的义项外，评估者还可以标注三种例外情况：（1）单词拼写错误；（2）词典义项中没有符合的；（3）无法确定。评估者可以检查该词在该句子里是否是一个比喻用法，并留下评论。

该语料库里的释义标注任务在评分者间信度评分（inter-rater reliability score）中得到 0.869 的分数，使用 Krippendorff 的 α 方法（α> = 0.67 被认为是可接受的再现性水平，α> = 0.80 被认为是高度可重复的结果）（Krippendorff，2004 ）。注释计数如下表所示：

Wordnet 映射

我们的语料库还包括了从 NOAD 到 Wordnet 的两组映射。在一个2200词的较小型语料集中，使用与上述注释过程类似的方式进行人工的映射，并通过算法创建一个更大的集合。这些映射允许将 Wordnet 里的资源应用到 NOAD 语料库，并对使用 Wordnet 构建的系统使用该语料库进行评估。

有关使用基于LSTM的语言模型和半监督学习对这个语料库的完整研究结果，可以查看我们的论文“Semi-supervised Word Sense Disambiguation with Neural Models”

开源地址：github地址：https://github.com/dmorr-google/word_sense_disambigation_corpora

相关资讯

士兰微2025年半年度业绩预告分析：一体化战略驱动盈利强劲复苏

士兰微于7月14日正式发布2025年半年度业绩预告，显示公司预计实现归属于母公司所有者的净利润区间为2.35亿元至2.75亿元，较上年同期成功逆转亏损态势，实现扭亏为盈的关键转折。同时，扣除非经常性损益的净利润达到2.4亿元至2.8亿元，同比增幅高达90.18%至121.88%，凸显业绩增长的强劲势头。这一积极变化标志着公司在半导体行业的战略转型初见成效，为后续发展奠定了坚实基础。

多核音频DSP破局者：Cadence新一代音频处理器如何重构智能音频生态

随着生成式AI音频处理、沉浸式音效和软件定义汽车的快速发展，传统单核DSP已难以满足指数级增长的计算需求。OEM厂商面临多核硬件设计复杂、软件开发周期长的双重压力，尤其是跨核数据同步和资源分配难题已成为行业发展的关键瓶颈。亟需通过底层架构创新实现性能与开发效率的平衡。

350亿美元并购获关键进展新思科技收购ANSYS通过中国反垄断审查

2025年7月14日，国家市场监督管理总局公告附加限制性条件批准新思科技（Synopsys）收购ANSYS股权案。这项价值350亿美元的交易在获得美国FTC批准后，最终通过中国反垄断审查，标志着全球EDA（电子设计自动化）与工业软件领域最大并购案取得关键进展。

65W+高效能之选：揭秘MPS MP2764如何重塑便携设备电源设计

在追求极致轻薄与强劲性能的便携设备浪潮中，电源管理芯片扮演着至关重要的角色。传统方案往往在功率密度、效率与复杂功能集成之间难以取舍。MPS芯源系统（NASDAQ: MPWR）近期推出的MP2764升降压充电管理芯片，以其突破性的集成度与灵活架构，为笔记本电脑、平板电脑及游戏掌机等便携设备提供了高性能、小尺寸的电源解决方案，有效解决了这一行业痛点。

Qorvo联合贸泽发布电机控制技术白皮书，解析BLDC/PMSM设计新方案

2025年7月14日，全球知名电子元器件授权代理商贸泽电子（Mouser Electronics）联合半导体技术厂商Qorvo共同发布技术电子书《10位专家畅谈电机控制基础》。本书聚焦电机控制设计的核心挑战，集结行业专家对控制方法、能效优化及集成化方案的深度解析。伴随移动自动化与机器人技术的迅猛发展，高效电机系统已成为工业设计的战略性需求。