上篇博文发出来后感觉效果不是很好,遂写篇文章来解释解释。本文可以认为是上篇文章 JavaScript词法()的扫盲说明:)
但凡语言,不论是自然语言还是程序语言,都大致可以区分词法和语法。所谓词,就是语言中有意义的最小单元。
常常听到一个笑话,说“我英语学的可好啦,26个字母全认识!”。大家都知道,一切英文都是由26个字母组成的,为啥26个字母全认识,还不能说会英文呢?
答案就是字母不是词,单独的字母是没有意义的,只有字母组成了词,才会有表达意义的能力。所以学英语的时候,最重要的是"背单词"。
别人问你,h是什么意思啊?——h没有任何意思,只有它出现在help,hello这样的词里面,h才有意义。
对计算机语言来说,同样的道理,每个Unicode或者ASCII字符都是没有意义的,只有它们形成了"词",才有意义。
所以对任何一门计算机语言来说,最基本的规则就是词法,JavaScript里面,所谓的"词",实际上大家早已非常熟悉了,比如:
if while else for function之类的关键字
Cat Dog play等用户定义的变量名,正式的叫法是标识符
"abc" 13.5 /abc/g true false等表示变量值的直接量
圆括号 方括号 花括号 加号 等符号
回车等换行符
空格、Tab等空白符
注释
经过很多年的发展,计算机语言的词法定义基本形成了一个通用的套路。一般来讲,一切合法的“词”,被统称作“输入元素(InputElement)”。
输入元素中,一切有意义的词被称作"token"(这个词到目前为止没有被广泛接受的翻译方法,所以保留),在一般的认识中,token以外的InputElement被扫描出来之后就可以直接丢弃了(当然实际情况是对大部分语言来说都是不行的,JavaScript也不行。)所以词法分析程序,大部分叫做lexer,也有人喜欢叫做tokenizer。
除了真正有意义的token之外,其它InputElement都是起到修饰或者增加源代码可读性的作用。在JS中,就只有以下三种:
WhiteSpace:空白符
LineTerminator:行终结符
Comments:注释
这三种都很好理解,是大家平时非常常用的东西。
大部分编程语言的词法区别都体现在token上,JS的token其实也只有八种:
英文名 | 名称 | 简述 | 示例 |
---|---|---|---|
Token | 词法标记 | 一切JS中有实际意义的词法标记 | |
┣IdentifierName | 标识名称 | 以字母或_或$开始的一个单词,可以用于属性名 | abc |
┃┣Identifier | 标识符 | 非保留字的IdentifierName,可以用于变量名或者属性名 | abc |
┃┣Keyword | 关键字 | 有特殊语法意义的IdentifierName | while |
┃┣NullLiteral | Null直接量 | 表示一个Null类型的值 | null |
┃┗BooleanLiteral | 布尔直接量 | 表示一个Boolean类型的值 | true |
┣Punctuator | 标点符号 | 表示特殊意义的标点符号 | * |
┣NumericLiteral | 数字直接量 | 表示一个Number类型的值 | .12e-10 |
┣StringLiteral | 字符串直接量 | 表示一个String类型的值 | "Hello world!" |
┗RegularExpressionLiteral | 正则表达式直接量 | 表示一个RegularExpression类的对象 | /[a-z]+$$/g |
这些token基本就是全部词法了,由它们之间的组合,可以组成表达式、语句、函数定义等语法结构,最终形成有强大表达能力的程序。