[开源] 我是如何使用自然语言处理背单词的。(转)

本主题由 纵云 创建于 2020-10-4 10:14:22

说起英语,特别是背单词,对于我来说一直是个头疼的问题。尝试了 N 次,失败了 N 次。

前几个月迫于需要看英文文献,再次感觉到被英语拖累的感觉。便决定第 N+1 次尝试背单词。

个人对背单词的一些要求为:

背单词不能只针对独立的单词,需要放到语境中学习。
单词需要自己完整的拼写出来,不能是只进行选择题。
单词记忆时要关注时态、语态。
学习的内容不能重复,也就是每次学习的上下文要发生改变,不能是固定的句子。
要根据记忆曲线自动重复出现,以巩固学习。
查找了一圈没有符合以上需求的软件,便决定自己撸一个(其实有一个软件很接近楼主需求了,可惜不能自定义词库,且每次出现的内容重复)。

一个英文词典用于提供单词解释,首先想到的是使用柯林斯官方的 API。但是申请了好多次一直没有回信。最后不得已解析 stardict 格式的词典,并导入数据库。
其次需要大量的有中英文对照的语料,用于翻译的 TMX 语料库正好能满足需求。
有了基础数据接下来的问题就简单了。

对语料库的内容进行分词、词性分析、词性还原等操作。扣去需要记忆的单词生成填空题。
对于题目根据柯林斯词汇星级,对句子进行评分,尽量让句子出现高频词。
对于已看过的句子,进行降权。不要让学习过程重复,同时可以让出现的句子逐步变难。

项目地址:

https://github.com/senghoo/wordai

https://www.v2ex.com/t/623165

放心注册,GeeKaa不会虚耗你半点时间,你只会发现更多乐趣。 立即注册