faster: Snapshot a big grammar I'm playing with

2024-04-17 11:07:56 -07:00 · 2024-04-17 11:07:56 -07:00 · 7147557e2b
commit 7147557e2b
parent d0be3ea267
1 changed files with 418 additions and 0 deletions
--- a/grammar.py
+++ b/grammar.py
@ -0,0 +1,418 @@
 import parser_faster
 import sys
 import typing
 from parser_faster import Assoc
 class Token:
    value: str
    def __init__(self, value):
        self.value = sys.intern(value)
 Symbol = Token | str
 def desugar(
    grammar: dict[str, list[list[Symbol]]],
    precedence: list[typing.Tuple[Assoc, list[Symbol]]],
 ):
    nonterminal_refs = set()
    nonterminals = set()
    terminals = set()
    result: list[typing.Tuple[str, list[str]]] = []
    for (k, v) in grammar.items():
        nonterminals.add(k)
        for rule in v:
            assert isinstance(rule, list)
            result_rule: list[str] = []
            for symbol in rule:
                if isinstance(symbol, Token):
                    result_rule.append(symbol.value)
                    terminals.add(symbol.value)
                else:
                    result_rule.append(symbol)
                    nonterminal_refs.add(symbol)
            result.append((k, result_rule))
    unknown_rules = nonterminal_refs - nonterminals
    if len(unknown_rules) > 0:
        undefined = "\n  ".join(unknown_rules)
        raise Exception(f"The following rules are not defined:\n  {undefined}")
    overlap_rules = nonterminals & terminals
    if len(overlap_rules) > 0:
        overlap = "\n  ".join(overlap_rules)
        raise Exception(f"The following symbols are both tokens and rules:\n  {overlap}")
    result_precedence = {
        (symbol.value if isinstance(symbol, Token) else symbol):(associativity, precedence + 1)
        for precedence, (associativity, symbols) in enumerate(precedence)
        for symbol in symbols
    }
    return result, result_precedence
 def dump_yacc(grammar):
    tokens = set()
    for rules in grammar.values():
        for rule in rules:
            for symbol in rule:
                if symbol.startswith("token:"):
                    symbol = symbol[6:].upper()
                    tokens.add(symbol)
    for token in sorted(tokens):
        print(f"%token {token}")
    print()
    print("%%")
    for name, rules in grammar.items():
        print(f"{name} : ", end='');
        for i,rule in enumerate(rules):
            if i != 0:
                print(f"{' ' * len(name)} | ", end='')
            parts = []
            for symbol in rule:
                if symbol.startswith("token:"):
                    symbol = symbol[6:].upper()
                parts.append(symbol)
            print(' '.join(parts))
        print()
    print("%%")
 ARROW = Token("Arrow")
 AS = Token("As")
 BAR = Token("Bar")
 CLASS = Token("Class")
 COLON = Token("Colon")
 ELSE = Token("Else")
 FOR = Token("For")
 FUN = Token("Fun")
 IDENTIFIER = Token("Identifier")
 IF = Token("If")
 IMPORT = Token("Import")
 IN = Token("In")
 LCURLY = Token("LeftBrace")
 LET = Token("Let")
 RCURLY = Token("RightBrace")
 RETURN = Token("Return")
 SEMICOLON = Token("Semicolon")
 STRING = Token("String")
 WHILE = Token("While")
 EQUAL = Token("Equal")
 LPAREN = Token("LeftParen")
 RPAREN = Token("RightParen")
 COMMA = Token("Comma")
 SELF = Token("Selff")
 OR = Token("Or")
 IS = Token("Is")
 AND = Token("And")
 EQUALEQUAL = Token("EqualEqual")
 BANGEQUAL = Token("BangEqual")
 LESS = Token("Less")
 GREATER = Token("Greater")
 LESSEQUAL = Token("LessEqual")
 GREATEREQUAL = Token("GreaterEqual")
 PLUS = Token("Plus")
 MINUS = Token("Minus")
 STAR = Token("Star")
 SLASH = Token("Slash")
 NUMBER = Token("Number")
 TRUE = Token("True")
 FALSE = Token("False")
 BANG = Token("Bang")
 DOT = Token("Dot")
 MATCH = Token("Match")
 EXPORT = Token("Export")
 UNDERSCORE = Token("Underscore")
 NEW = Token("New")
 # fmt: off
 precedence = [
    (Assoc.RIGHT, [EQUAL]),
    (Assoc.LEFT, [OR]),
    (Assoc.LEFT, [IS]),
    (Assoc.LEFT, [AND]),
    (Assoc.LEFT, [EQUALEQUAL, BANGEQUAL]),
    (Assoc.LEFT, [LESS, GREATER, GREATEREQUAL, LESSEQUAL]),
    (Assoc.LEFT, [PLUS, MINUS]),
    (Assoc.LEFT, [STAR, SLASH]),
    (Assoc.LEFT, [LPAREN]),
    (Assoc.LEFT, [DOT]),
    # If there's a confusion about whether to make an IF statement or an
    # expression, prefer the statement.
    (Assoc.NONE, ["IfStatement"]),
 ]
 grammar = {
    "File": [
        ["FileStatementList"],
    ],
    "FileStatementList": [
        ["FileStatement"],
        ["FileStatement", "FileStatementList"],
    ],
    "FileStatement": [
        ["ImportStatement"],
        ["ClassDeclaration"],
        ["ExportStatement"],
        ["Statement"],
    ],
    "ImportStatement": [
        [IMPORT, STRING, AS, IDENTIFIER, SEMICOLON],
    ],
    # Classes
    "ClassDeclaration": [
        [CLASS, IDENTIFIER, "ClassBody"],
    ],
    "ClassBody": [
        [LCURLY, RCURLY],
        [LCURLY, "ClassMembers", RCURLY],
    ],
    "ClassMembers": [
        ["ClassMember"],
        ["ClassMembers", "ClassMember"],
    ],
    "ClassMember": [
        ["FieldDeclaration"],
        ["FunctionDeclaration"],
    ],
    "FieldDeclaration": [
        [IDENTIFIER, COLON, "TypeExpression", SEMICOLON],
    ],
    # Types
    "TypeExpression": [
        ["AlternateType"],
        ["TypeIdentifier"],
    ],
    "AlternateType": [
        ["TypeExpression", BAR, "TypeIdentifier"],
    ],
    "TypeIdentifier": [
        [IDENTIFIER],
    ],
    "ExportStatement": [
        [EXPORT, "ClassDeclaration"],
        [EXPORT, "FunctionDeclaration"],
        # [EXPORT, "LetStatement"],
        [EXPORT, "ExportList", SEMICOLON],
    ],
    "ExportList": [
        [],
        [IDENTIFIER],
        [IDENTIFIER, COMMA, "ExportList"],
    ],
    # Functions
    "FunctionDeclaration": [
        [FUN, IDENTIFIER, "FunctionParameters", "Block"],
        [FUN, IDENTIFIER, "FunctionParameters", ARROW, "TypeExpression", "Block"],
    ],
    "FunctionParameters": [
        [LPAREN, RPAREN],
        [LPAREN, "FirstParameter", RPAREN],
        [LPAREN, "FirstParameter", COMMA, "ParameterList", RPAREN],
    ],
    "FirstParameter": [
        [SELF],
        ["Parameter"],
    ],
    "ParameterList": [
        [],
        ["Parameter"],
        ["Parameter", COMMA, "ParameterList"],
    ],
    "Parameter": [
        [IDENTIFIER, COLON, "TypeExpression"],
    ],
    # Block
    "Block": [
        [LCURLY, RCURLY],
        [LCURLY, "StatementList", RCURLY],
        [LCURLY, "StatementList", "Expression", RCURLY],
    ],
    "StatementList": [
        ["Statement"],
        ["StatementList", "Statement"],
    ],
    "Statement": [
        ["FunctionDeclaration"],
        ["LetStatement"],
        # ["ReturnStatement"],
        # ["ForStatement"],
        ["IfStatement"],
        # ["WhileStatement"],
        # ["ExpressionStatement"],
    ],
    "LetStatement": [
        [LET, IDENTIFIER, EQUAL, "Expression", SEMICOLON],
    ],
    # "ReturnStatement": [
    #     [RETURN, "Expression", SEMICOLON],
    # ],
    # "ForStatement": [
    #     [FOR, "IteratorVariable", IN, "Expression", "Block"],
    # ],
    # "IteratorVariable": [[IDENTIFIER]],
    "IfStatement": [["ConditionalExpression"]],
    # "WhileStatement": [
    #     [WHILE, "Expression", "Block"],
    # ],
    # "ExpressionStatement": [
    #     ["Expression", SEMICOLON],
    # ],
    # Expressions
    "Expression": [["AssignmentExpression"]],
    "AssignmentExpression": [
        ["OrExpression", EQUAL, "AssignmentExpression"],
        ["OrExpression"],
    ],
    "OrExpression": [
        ["OrExpression", OR, "IsExpression"],
        ["IsExpression"],
    ],
    "IsExpression": [
        # ["IsExpression", IS, "Pattern"],
        ["AndExpression"],
    ],
    "AndExpression": [
        ["AndExpression", AND, "EqualityExpression"],
        ["EqualityExpression"],
    ],
    "EqualityExpression": [
        ["EqualityExpression", EQUALEQUAL, "RelationExpression"],
        ["EqualityExpression", BANGEQUAL, "RelationExpression"],
        ["RelationExpression"],
    ],
    "RelationExpression": [
        ["RelationExpression", LESS, "AdditiveExpression"],
        ["RelationExpression", LESSEQUAL, "AdditiveExpression"],
        ["RelationExpression", GREATER, "AdditiveExpression"],
        ["RelationExpression", GREATEREQUAL, "AdditiveExpression"],
        ["AdditiveExpression"],
    ],
    "AdditiveExpression": [
        ["AdditiveExpression", PLUS, "MultiplicationExpression"],
        ["AdditiveExpression", MINUS, "MultiplicationExpression"],
        ["MultiplicationExpression"],
    ],
    "MultiplicationExpression": [
        ["MultiplicationExpression", STAR, "PrimaryExpression"],
        ["MultiplicationExpression", SLASH, "PrimaryExpression"],
        ["PrimaryExpression"],
    ],
    "PrimaryExpression": [
        [IDENTIFIER],
        [SELF],
        [NUMBER],
        [STRING],
        [TRUE],
        [FALSE],
        [BANG, "PrimaryExpression"],
        [MINUS, "PrimaryExpression"],
        ["Block"],
        ["ConditionalExpression"],
    #     ["ListConstructorExpression"],
    #     ["ObjectConstructorExpression"],
    #     ["MatchExpression"],
    #     ["PrimaryExpression", LPAREN, "ExpressionList", RPAREN],
    #     ["PrimaryExpression", DOT, IDENTIFIER],
        [LPAREN, "Expression", RPAREN],
    ],
    "ConditionalExpression": [
        [IF, "Expression", "Block"],
        [IF, "Expression", "Block", ELSE, "ConditionalExpression"],
        [IF, "Expression", "Block", ELSE, "Block"],
    ],
    # "ListConstructorExpression": [
    #     [LCURLY, "ExpressionList", RCURLY],
    # ],
    # "ExpressionList": [
    #     [],
    #     ["Expression"],
    #     ["Expression", COMMA, "ExpressionList"],
    # ],
    # # Match Expression
    # "MatchExpression": [
    #     [MATCH, "MatchBody"],
    # ],
    # "MatchBody": [
    #     [LCURLY, "MatchArms", RCURLY],
    # ],
    # "MatchArms": [
    #     [],
    #     ["MatchArm"],
    #     ["MatchArm", COMMA, "MatchArms"],
    # ],
    # "MatchArm": [
    #     ["Pattern", ARROW, "Expression"],
    # ],
    # # Pattern
    # "Pattern": [
    #     ["VariableBinding", "PatternCore", AND, "AndExpression"],
    #     ["VariableBinding", "PatternCore"],
    #     ["PatternCore", AND, "AndExpression"],
    #     ["PatternCore"],
    # ],
    # "PatternCore": [
    #     ["TypeExpression"],
    #     ["WildcardPattern"],
    # ],
    # "WildcardPattern": [[UNDERSCORE]],
    # "VariableBinding": [[IDENTIFIER, COLON]],
    # # Object Constructor
    # "ObjectConstructorExpression": [
    #     [NEW, "TypeIdentifier", "FieldList"],
    # ],
    # "FieldList": [
    #     [LCURLY, "FieldValues", RCURLY],
    # ],
    # "FieldValues": [
    #     [],
    #     ["FieldValue"],
    #     ["FieldValue", COMMA, "FieldValues"],
    # ],
    # "FieldValue": [
    #     [IDENTIFIER],
    #     [IDENTIFIER, COLON, "Expression"],
    # ],
 }
 # fmt: on
 # dump_yacc(grammar)
 grammar, precedence = desugar(grammar, precedence)
 gen = parser_faster.GenerateLR1("File", grammar, precedence=precedence)
 table = gen.gen_table()
 print(parser_faster.format_table(gen, table))
 print()
 # tree = parse(table, ["id", "+", "(", "id", "[", "id", "]", ")"])