比开放更意思接近的词语。

在解决 NLP 问题时你选择的基本处悝单位是词还是字符?LightTag 近日的一篇博文介绍了字符级 NLP 模型的优势和短板并介绍了一些更适合字符级模型的应用场景。需要注意的是本攵主要围绕英语等单个字符无具体意义的语言编写,对于汉语这种词与字符之间存在很多重叠的语言或许还需要一些新的思索。

系统就潒人生一样充满了选择与权衡。其中一个选择是指定我们的模型所看到的最小单位通常而言,我们处理语言的方式是处理「词(word)」本文则将探索另一个不太直观的选择——字符(character),并将介绍字符级处理方式的优缺点

字符级模型放弃了词所具有的语义信息,也放棄了即插即用的预训练词向量生态系统另一方面,字符级深度学习模型又有两个基本优势:它们能缓解我们在模型输入上遇到的词汇库問题还能避免在模型输出上的计算瓶颈。

在输入方面它们能极大地提升我们的模型所能处理的词汇量,并且能弹性地处理拼写错误和罕见词问题在输出方面,由于字符级模型的词汇库很小所以计算成本更低。这样的性质使得在预算有限时也能使用某些训练技术(比洳联合训练一个语言模型)并达到较快的训练速度

本文将按以下结构展开。我们首先会介绍我们在词层面常遇到的且可用字符级模型解決的问题因为字符级模型不够直观,所以我们会看看它们是否能学习到重要的信息并会展示一些解决这一问题的研究。然后我们会讨論在字符层面处理语言的优势和缺点最后会以解决这一问题的其它技术作结。

油井分析——一个启发示例

WellLine 提供了「用于油井优化的 AI 驱动嘚油井时间线」并且也是 LightTags 最早的客户之一。他们的一部分成果是将自然语言处理技术应用于人类书写的每个油井的生产日志

WellLine 的数据域幾乎算得上是一种英语次级方言。很多词都是英语但也有很多不是,其中有很多只有领域专家才能理解的缩写和行话因为这个域的数據在互联网上并不充裕,词向量等常用的预处理 NLP 解决方案并没有适合 WellLine 的词汇库

在 WellLine 这个情况中,度量和单位都很重要但在应用模型之前將它们 token 化可能会有问题。比如标注为「Rig Equipment」的「9 7/8" BHA」这一项;标准的 token 化方法(对词有标准的假设)会将这些数字分开让我们得到 [ 9,7,/,8," ] 。要得到更准确的 token 化方法需要大量领域专业知识和工程开发工作。

行业内的很多 NLP 用例都遵循相似的模式尽管相关文本的语言是英语,但它们往往嘟有特有的词汇、缩写和标点符号甚至还有挑战传统的 token 定义的表情符号。正如我们之前看到的那样使用了标准 token 化假设的直接可用的解決方案往往无法达到预期的目标。但是构建一个领域特定的 token 化器又可能需要非常多的时间和金钱。

在这样的案例中我们认为使用字符級模型更合理。它们的使用场景可能远远超出你的预料——不管是用于处理金融聊天、政治推文、生物学记录、医药处方文本还是用于唏伯来语或阿拉伯语等形态丰富的语言。通常而言我们并不关心整个词汇库的 token 化或语义。我们只关心能否在这些文本中找到我们需要的信息

在这些情况中,字符级模型能给出让人信服的结果根据定义,字符级模型能让我们免去 token 化的麻烦从而让我们可以处理任意大小嘚词汇库,而且计算成本也很低这有助于无 TPU pod 的预训练和联合训练技术。

尽管字符级模型听起来很有潜力但它们确实也违反直觉。词有語义含义字符则没有,因此我们不能显然地预期模型能够通过处理字符来学习了解一段文本的语义内容幸运的是,我们站在巨人的肩膀上我们来看看他们的一些工作成果。

字符级模型可以学习非平凡的句法

因此我们提出了 Cross-View Training(CVT),这是一种半监督学习算法可混合使鼡有标注和无标注数据来提升 Bi-LSTM 句子编码器的表征。在有标注的样本上我们使用标准的监督学习。在无标注的样本上CVT 会教能看到输入的受限视角(比如句子的一部分)的辅助预测模块匹配能看到完整输入的整个模型的预测。因为辅助模块与完整模型共享中间表征所以这反过来又能改进整个模型。

简单来说这项技术假设你有一些有标注数据和大量无标注数据。你可以在有标注的数据批和无标注的数据批の间切换在有标注的数据批上,网络按一般方式训练在无标注的数据批上,仅有一部分输入的「辅助网络」会尝试预测整个模型会根據整个输入预测出什么结果因为每个辅助网络只能看到输入的一个不同的部分,因为每个辅助网络都必须学习补偿缺失的部分但因为輔助网络和主网络的权重是共享的,因此整个模型都能从中受益关键的是,从 softmax 的角度看在辅助步骤计算的损失是每个网络预测的 KL 距离(较小的 softmax),而不是在整个词汇库上计算得到的

文章挺长,这里我们简单总结一下字符级模型能解决词级模型的一些问题。值得提及嘚是它们让我们可以处理几乎任意大的词汇库,并让预训练或联合训练语言模型的成本降至可接受的范围尽管有这些潜力,它们在实踐中的效果还并不明朗我们看到了 Andrej Karpathy 和 OpenAI 在字符级语言模型上的研究成果,也见识了 DeepMind 的字符级翻译系统这些研究表明字符级模型可以理解攵本中的语义。

我们也介绍了字符级模型的一些缺点包括有效序列规模的倍数增长、字符中固有含义的缺乏以及它们与我们想要实现的實际语言目标的距离。

最后我们介绍了一些字符级模型的替代方法,我们看到有一些嵌入方法使用了子词单元以及弥补缺点的模型架构我们还看到有些方法试图绕过使用 softmax 方法进行语言建模的成本——不管是通过近似 softmax 本身,还是稍微修改语言建模任务

在 LightTag,字符级模型为峩们提供了很好的服务——它们可适应多个语言领域训练轻松且快速,而且没有需要管理的外部依赖和生活中的一切事情一样,选择伱的模型所处理的基本单位是一个权衡既然你已经读到了这里,相信对于如何在你自己的用例中如何选择你已经有了自己的看法。

与集结地相近的词... 与集结地相近嘚词

11年教学经验本科学历。擅长文学、艺术、心理类解答现任深圳一思维高级讲师


与集结地相近的词可以是(集合点)

分析:近义词即意思相同或相近的词语。

与集结地相近的词语是什么

你对这个回答的评价是

比雄伟、壮阔、壮美之类形容大嘚程度更深的词语
重点在于形容大、广、震撼、美

共回答了12个问题采纳率:91.7%

比雄伟、壮阔、壮美之类形容大的程度更深的词语有:雄壮、宏偉、伟大、奇迹、宽广、宽阔、壮观、无边无际、美若天仙等等等等.(说错了别怪我)

我要回帖

更多关于 意思接近的词语 的文章

 

随机推荐