也许很多人对什么是语义网的技术还不是很了解。不过也许你可以从OpenCalais的应用中找到一些线索。
OpenCalais能够分析网页中的文本,并对其进行语义标注。语义标注的过程将利用RDF描述的数据,去识别文本中的一些词汇。下图是我选取的一段文本被标注以后的结果:

Calais
标注之后的结果是文本中的人名、地名、组织和一些专有名词都被识别并打上了不同的标签。要做到这一些需要比较全的数据文件,加上NLP的技术来进行一定的模糊匹配。我的感觉是做得相当的不错。
改功能支持Web Service,可以广泛的被其他网站使用。不过目前的版本并不支持中文。
我们可以教会大猩猩手语吗?这听起来是一个不错的注意,也许我们像教一个先天聋哑的人类小孩一样去教一个大猩猩手语,我们会发现原来大猩猩也是能够使用语言的吗?
在wiki上的Great ape language词条页面内我找到了这样的描述:
It is now generally accepted that Apes can learn to sign and are able to communicate with humans. However, they are not able to form syntax to manipulate such signs, a trait which appears to be limited to human language use.
从这里我们可以看出对于类人猿而言即使在人类的训练环境下也只能掌握有限的语言能力。
科学家的研究发现人类的语言能力很大程度上已经成为了一种本能。人在婴儿时期有着更强的语言学习能力,在这一阶段大脑的突触和神经元数量都是人的一生中的最高水平,即使婴儿由于一些原因使得大脑受损,其修复能力也远远强于成人。一种解释说如果婴儿能够在较短的时间内掌握语言,那么他们将能够更多的得到来至成人的指导,从而获得更大的成活率。
对于一直被认为和人类的出于进化史上最近的亲戚的猿类们显然缺乏我们在进化过程中形成的这种语言处理能力。
相比于教大猩猩学习手语,我对人类的语言本能的内在机制更感兴趣。语言学家也做过很多的实验来试图发现人脑在理解语言时的蛛丝马迹。其中一个有意思的结论是人类在理解句子的含义的时候实际上是遵循深度优先的策略,直接选取概率最大的路径进行解释,如果最后发现无法正确的理解才会回过头来从新扫描。在wiki上的David Swinney词条上我们还可以找到很多有意思的实验及其结论。
如果我们能够正确理解大脑的语言功能,我们能够用计算机来进行模拟这一机制呢?目前NLP的研究中大量使用了概率的手段,但是现有的手段仅仅只是停留在Shallow的层次上,仅仅只是在试图获取语言某一方面的局部信息,离语言的理解差得很远。
那天在图书馆中无意中看到了《语言的本能》一书,便拿借回来读了一下。看了下豆瓣上的评价,结合自己的读书经验,得出的结论是这本书的中文版实在是很烂。
比如下面的英文:
Aphasia, the loss of language follwing brain injury, is devastating, and in severe cases family members may feel that the whole person is lost forever.
在书中被翻译成了:
很多家庭对于因脑伤而导致严重失语症的病人,根本是把他们当作死去、不存在般看待,因为他已‘消音’无声了”
而网友给出的参考翻译是:
“由脑伤引起的失语症是极具破坏性的,病情严重时,对家属而言,就好像永远失去了那个人一样。”
除去这些表意上有严重缺陷的地方外,还有很多明显的文法错误,而这些错误应该连小学生都能够看出来的。本书是台湾人翻译的,大陆这边估计直接照抄过来了,连校对都没做,一些词汇和大陆翻译得不一样,也造成读者的阅读困难。
这本书的封面上贴了很多国外对英文原版的赞美之词,读过此书之后感觉也挺有意思。最近在关注NLP的许多问题,本书中的一些观点很有启发意义。下了一本英文的电子版,还是原版读起来比较舒服呀。