Terminal 'value' is 'name', compile_lexer is method

2024-08-29 08:22:23 -07:00 · 2024-08-29 08:22:23 -07:00 · f8b62bf4a4
commit f8b62bf4a4
parent 344dde51be
3 changed files with 275 additions and 273 deletions
--- a/parser/parser.py
+++ b/parser/parser.py
@ -1607,13 +1607,13 @@ class Rule:
 class Terminal(Rule):
    """A token, or terminal symbol in the grammar."""

-    value: str | None
+    name: str | None
    pattern: "str | Re"
    meta: dict[str, typing.Any]
    regex: bool

    def __init__(self, pattern: "str|Re", *, name: str | None = None, **kwargs):
-        self.value = name
+        self.name = name
        self.pattern = pattern
        self.meta = kwargs
        self.regex = isinstance(pattern, Re)
@ -1623,7 +1623,7 @@ class Terminal(Rule):
        yield [self]

    def __repr__(self) -> str:
-        return self.value or "???"
+        return self.name or "???"


 class NonTerminal(Rule):
@ -1782,219 +1782,6 @@ def rule(
    return wrapper


-PrecedenceList = list[typing.Tuple[Assoc, list[Rule]]]
-
-
-class Grammar:
-    """The base class for defining a grammar.
-
-    Inherit from this, and and define members for your nonterminals, and then
-    use the `build_tables` method to construct the parse tables.
-
-
-    Here's an example of a simple grammar:
-
-        class SimpleGrammar(Grammar):
-            @rule
-            def expression(self):
-                return seq(self.expression, self.PLUS, self.term) | self.term
-
-            @rule
-            def term(self):
-                return seq(self.LPAREN, self.expression, self.RPAREN) | self.ID
-
-            PLUS = Terminal('+')
-            LPAREN = Terminal('(')
-            RPAREN = Terminal(')')
-            ID = Terminal('id')
-
-
-    Not very exciting, perhaps, but it's something.
-    """
-
-    _precedence: dict[str, typing.Tuple[Assoc, int]]
-    _generator: type[GenerateLR0]
-    _terminals: list[Terminal]
-    _trivia: list[Terminal]
-
-    def __init__(
-        self,
-        start: str | None = None,
-        precedence: PrecedenceList | None = None,
-        generator: type[GenerateLR0] | None = None,
-        trivia: list[str | Terminal] | None = None,
-        name: str | None = None,
-    ):
-        if start is None:
-            start = getattr(self, "start", None)
-        if start is None:
-            raise ValueError(
-                "The default start rule must either be specified in the constructor or as an "
-                "attribute in the class."
-            )
-
-        if precedence is None:
-            precedence = getattr(self, "precedence", [])
-        assert precedence is not None
-
-        if generator is None:
-            generator = getattr(self, "generator", GenerateLALR)
-        assert generator is not None
-
-        if trivia is None:
-            trivia = getattr(self, "trivia", [])
-        assert trivia is not None
-
-        # Fixup terminal names with the name of the member that declared it.
-        terminals = {}
-        for n, t in inspect.getmembers(self, lambda x: isinstance(x, Terminal)):
-            if t.value is None:
-                t.value = n
-
-            if n in terminals:
-                raise ValueError(f"More than one terminal has the name '{n}'")
-            terminals[n] = t
-
-        # Resolve the trivia declarations correctly.
-        resolved_trivia: list[Terminal] = []
-        for t in trivia:
-            if isinstance(t, str):
-                resolved = terminals.get(t)
-                if resolved is None:
-                    raise ValueError(f"The trivia '{t}' is not a terminal name")
-                resolved_trivia.append(resolved)
-            else:
-                resolved_trivia.append(t)
-
-        # Fix up the precedence table.
-        precedence_table = {}
-        for prec, (associativity, symbols) in enumerate(precedence):
-            for symbol in symbols:
-                if isinstance(symbol, Terminal):
-                    key = symbol.value
-                elif isinstance(symbol, NonTerminal):
-                    key = symbol.name
-                else:
-                    raise ValueError(f"{symbol} must be either a Token or a NonTerminal")
-
-                precedence_table[key] = (associativity, prec + 1)
-
-        if name is None:
-            name = getattr(self, "name", None)
-        if name is None:
-            name = self.__class__.__name__.removesuffix("Grammar").lower()
-
-        self._precedence = precedence_table
-        self.start = start
-        self._generator = generator
-        self._terminals = list(terminals.values())
-        self._trivia = resolved_trivia
-        self.name = name
-
-    @property
-    def terminals(self) -> list[Terminal]:
-        return self._terminals
-
-    @property
-    def resolved_trivia(self) -> list[Terminal]:
-        return self._trivia
-
-    def rules(self) -> list[Rule]:
-        return list(inspect.getmembers(self, lambda x: isinstance(x, Rule)))
-
-    def generate_nonterminal_dict(
-        self, start: str | None = None
-    ) -> typing.Tuple[dict[str, list[list[str | Terminal]]], set[str]]:
-        """Convert the rules into a dictionary of productions.
-
-        Our table generators work on a very flat set of productions. This is the
-        first step in flattening the productions from the members: walk the rules
-        starting from the given start rule and flatten them, one by one, into a
-        dictionary that maps nonterminal rule name to its associated list of
-        productions.
-        """
-        if start is None:
-            start = self.start
-
-        rules = inspect.getmembers(self, lambda x: isinstance(x, NonTerminal))
-        nonterminals = {rule.name: rule for _, rule in rules}
-        transparents = {rule.name for _, rule in rules if rule.transparent}
-
-        grammar = {}
-
-        rule = nonterminals.get(start)
-        if rule is None:
-            raise ValueError(f"Cannot find a rule named '{start}'")
-        queue = [rule]
-        while len(queue) > 0:
-            rule = queue.pop()
-            if rule.name in grammar:
-                continue
-
-            body = rule.generate_body(self)
-            for clause in body:
-                for symbol in clause:
-                    if not isinstance(symbol, Terminal):
-                        assert isinstance(symbol, str)
-                        nonterminal = nonterminals.get(symbol)
-                        if nonterminal is None:
-                            raise ValueError(f"While processing {rule.name}: cannot find {symbol}")
-                        queue.append(nonterminal)
-
-            grammar[rule.name] = body
-
-        return (grammar, transparents)
-
-    def desugar(
-        self, start: str | None = None
-    ) -> typing.Tuple[list[typing.Tuple[str, list[str]]], set[str]]:
-        """Convert the rules into a flat list of productions.
-
-        Our table generators work from a very flat set of productions. The form
-        produced by this function is one level flatter than the one produced by
-        generate_nonterminal_dict- less useful to people, probably, but it is
-        the input form needed by the Generator.
-        """
-        temp_grammar, transparents = self.generate_nonterminal_dict(start)
-
-        grammar = []
-        for rule_name, clauses in temp_grammar.items():
-            for clause in clauses:
-                new_clause = []
-                for symbol in clause:
-                    if isinstance(symbol, Terminal):
-                        if symbol.value in temp_grammar:
-                            raise ValueError(
-                                f"'{symbol.value}' is the name of both a Terminal and a NonTerminal rule. This will cause problems."
-                            )
-                        new_clause.append(symbol.value)
-                    else:
-                        new_clause.append(symbol)
-
-                grammar.append((rule_name, new_clause))
-
-        return grammar, transparents
-
-    def build_table(self, start: str | None = None, generator=None) -> ParseTable:
-        """Construct a parse table for this grammar, starting at the named
-        nonterminal rule.
-        """
-        if start is None:
-            start = self.start
-        desugared, transparents = self.desugar(start)
-
-        if generator is None:
-            generator = self._generator
-        gen = generator(start, desugared, precedence=self._precedence, transparents=transparents)
-        table = gen.gen_table()
-
-        for t in self._trivia:
-            assert t.value is not None
-            table.trivia.add(t.value)
-
-        return table
-
-
 ###############################################################################
 # Lexer support
 ###############################################################################
@ -2213,7 +2000,7 @@ class NFAState:
                    continue
                visited.add(state)

-                label = state.accept.value if state.accept is not None else ""
+                label = state.accept.name if state.accept is not None else ""
                f.write(f'  {id(state)} [label="{label}"];\n')
                for target in state.epsilons:
                    stack.append(target)
@ -2497,69 +2284,24 @@ class NFASuperState:

            if accept is None:
                accept = st.accept
-            elif accept.value != st.accept.value:
+            elif accept.name != st.accept.name:
                if accept.regex and not st.accept.regex:
                    accept = st.accept
                elif st.accept.regex and not accept.regex:
                    pass
                else:
                    raise ValueError(
-                        f"Lexer is ambiguous: cannot distinguish between {accept.value} ('{accept.pattern}') and {st.accept.value} ('{st.accept.pattern}')"
+                        f"Lexer is ambiguous: cannot distinguish between {accept.name} ('{accept.pattern}') and {st.accept.name} ('{st.accept.pattern}')"
                    )

        return accept


-def compile_lexer(grammar: Grammar) -> LexerTable:
-    # Parse the terminals all together into a big NFA rooted at `NFA`.
-    NFA = NFAState()
-    for terminal in grammar.terminals:
-        pattern = terminal.pattern
-        if isinstance(pattern, Re):
-            start, ends = pattern.to_nfa()
-            for end in ends:
-                end.accept = terminal
-            NFA.epsilons.append(start)
-
-        else:
-            start = end = NFAState()
-            for c in pattern:
-                end = end.add_edge(Span.from_str(c), NFAState())
-            end.accept = terminal
-            NFA.epsilons.append(start)
-
-    NFA.dump_graph()
-
-    # Convert the NFA into a DFA in the most straightforward way (by tracking
-    # sets of state closures, called SuperStates.)
-    DFA: dict[NFASuperState, tuple[int, list[tuple[Span, NFASuperState]]]] = {}
-
-    stack = [NFASuperState([NFA])]
-    while len(stack) > 0:
-        ss = stack.pop()
-        if ss in DFA:
-            continue
-
-        edges = ss.edges()
-
-        DFA[ss] = (len(DFA), edges)
-        for _, target in edges:
-            stack.append(target)
-
-    return [
-        (
-            ss.accept_terminal(),
-            [(k, DFA[v][0]) for k, v in edges],
-        )
-        for ss, (_, edges) in DFA.items()
-    ]
-
-
 def dump_lexer_table(table: LexerTable, name: str = "lexer.dot"):
    with open(name, "w", encoding="utf-8") as f:
        f.write("digraph G {\n")
        for index, (accept, edges) in enumerate(table):
-            label = accept.value if accept is not None else ""
+            label = accept.name if accept is not None else ""
            f.write(f'  {index} [label="{label}"];\n')
            for span, target in edges:
                label = str(span).replace('"', '\\"')
@ -2663,3 +2405,264 @@ class Highlight(SyntaxMeta):
    class Variable(SyntaxMeta):
        class Language(SyntaxMeta):
            pass
+
+
+###############################################################################
+# Finally, the base class for grammars
+###############################################################################
+
+PrecedenceList = list[typing.Tuple[Assoc, list[Rule]]]
+
+
+class Grammar:
+    """The base class for defining a grammar.
+
+    Inherit from this, and and define members for your nonterminals, and then
+    use the `build_tables` method to construct the parse tables.
+
+
+    Here's an example of a simple grammar:
+
+        class SimpleGrammar(Grammar):
+            @rule
+            def expression(self):
+                return seq(self.expression, self.PLUS, self.term) | self.term
+
+            @rule
+            def term(self):
+                return seq(self.LPAREN, self.expression, self.RPAREN) | self.ID
+
+            PLUS = Terminal('+')
+            LPAREN = Terminal('(')
+            RPAREN = Terminal(')')
+            ID = Terminal('id')
+
+
+    Not very exciting, perhaps, but it's something.
+    """
+
+    _precedence: dict[str, typing.Tuple[Assoc, int]]
+    _generator: type[GenerateLR0]
+    _terminals: list[Terminal]
+    _trivia: list[Terminal]
+
+    def __init__(
+        self,
+        start: str | None = None,
+        precedence: PrecedenceList | None = None,
+        generator: type[GenerateLR0] | None = None,
+        trivia: list[str | Terminal] | None = None,
+        name: str | None = None,
+    ):
+        if start is None:
+            start = getattr(self, "start", None)
+        if start is None:
+            raise ValueError(
+                "The default start rule must either be specified in the constructor or as an "
+                "attribute in the class."
+            )
+
+        if precedence is None:
+            precedence = getattr(self, "precedence", [])
+        assert precedence is not None
+
+        if generator is None:
+            generator = getattr(self, "generator", GenerateLALR)
+        assert generator is not None
+
+        if trivia is None:
+            trivia = getattr(self, "trivia", [])
+        assert trivia is not None
+
+        # Fixup terminal names with the name of the member that declared it.
+        terminals = {}
+        for n, t in inspect.getmembers(self, lambda x: isinstance(x, Terminal)):
+            if t.name is None:
+                t.name = n
+
+            if n in terminals:
+                raise ValueError(f"More than one terminal has the name '{n}'")
+            terminals[n] = t
+
+        # Resolve the trivia declarations correctly.
+        resolved_trivia: list[Terminal] = []
+        for t in trivia:
+            if isinstance(t, str):
+                resolved = terminals.get(t)
+                if resolved is None:
+                    raise ValueError(f"The trivia '{t}' is not a terminal name")
+                resolved_trivia.append(resolved)
+            else:
+                resolved_trivia.append(t)
+
+        # Fix up the precedence table.
+        precedence_table = {}
+        for prec, (associativity, symbols) in enumerate(precedence):
+            for symbol in symbols:
+                if isinstance(symbol, Terminal):
+                    key = symbol.name
+                elif isinstance(symbol, NonTerminal):
+                    key = symbol.name
+                else:
+                    raise ValueError(f"{symbol} must be either a Token or a NonTerminal")
+
+                precedence_table[key] = (associativity, prec + 1)
+
+        if name is None:
+            name = getattr(self, "name", None)
+        if name is None:
+            name = self.__class__.__name__.removesuffix("Grammar").lower()
+
+        self._precedence = precedence_table
+        self.start = start
+        self._generator = generator
+        self._terminals = list(terminals.values())
+        self._trivia = resolved_trivia
+        self.name = name
+
+    def terminals(self) -> list[Terminal]:
+        return self._terminals
+
+    @property
+    def resolved_trivia(self) -> list[Terminal]:
+        return self._trivia
+
+    def non_terminals(self) -> list[NonTerminal]:
+        return [nt for _, nt in inspect.getmembers(self, lambda x: isinstance(x, NonTerminal))]
+
+    def generate_nonterminal_dict(
+        self, start: str | None = None
+    ) -> typing.Tuple[dict[str, list[list[str | Terminal]]], set[str]]:
+        """Convert the rules into a dictionary of productions.
+
+        Our table generators work on a very flat set of productions. This is the
+        first step in flattening the productions from the members: walk the rules
+        starting from the given start rule and flatten them, one by one, into a
+        dictionary that maps nonterminal rule name to its associated list of
+        productions.
+        """
+        if start is None:
+            start = self.start
+
+        rules = inspect.getmembers(self, lambda x: isinstance(x, NonTerminal))
+        nonterminals = {rule.name: rule for _, rule in rules}
+        transparents = {rule.name for _, rule in rules if rule.transparent}
+
+        grammar = {}
+
+        rule = nonterminals.get(start)
+        if rule is None:
+            raise ValueError(f"Cannot find a rule named '{start}'")
+        queue = [rule]
+        while len(queue) > 0:
+            rule = queue.pop()
+            if rule.name in grammar:
+                continue
+
+            body = rule.generate_body(self)
+            for clause in body:
+                for symbol in clause:
+                    if not isinstance(symbol, Terminal):
+                        assert isinstance(symbol, str)
+                        nonterminal = nonterminals.get(symbol)
+                        if nonterminal is None:
+                            raise ValueError(f"While processing {rule.name}: cannot find {symbol}")
+                        queue.append(nonterminal)
+
+            grammar[rule.name] = body
+
+        return (grammar, transparents)
+
+    def desugar(
+        self, start: str | None = None
+    ) -> typing.Tuple[list[typing.Tuple[str, list[str]]], set[str]]:
+        """Convert the rules into a flat list of productions.
+
+        Our table generators work from a very flat set of productions. The form
+        produced by this function is one level flatter than the one produced by
+        generate_nonterminal_dict- less useful to people, probably, but it is
+        the input form needed by the Generator.
+        """
+        temp_grammar, transparents = self.generate_nonterminal_dict(start)
+
+        grammar = []
+        for rule_name, clauses in temp_grammar.items():
+            for clause in clauses:
+                new_clause = []
+                for symbol in clause:
+                    if isinstance(symbol, Terminal):
+                        if symbol.name in temp_grammar:
+                            raise ValueError(
+                                f"'{symbol.name}' is the name of both a Terminal and a NonTerminal rule. This will cause problems."
+                            )
+                        new_clause.append(symbol.name)
+                    else:
+                        new_clause.append(symbol)
+
+                grammar.append((rule_name, new_clause))
+
+        return grammar, transparents
+
+    def build_table(self, start: str | None = None, generator=None) -> ParseTable:
+        """Construct a parse table for this grammar, starting at the named
+        nonterminal rule.
+        """
+        if start is None:
+            start = self.start
+        desugared, transparents = self.desugar(start)
+
+        if generator is None:
+            generator = self._generator
+        gen = generator(start, desugared, precedence=self._precedence, transparents=transparents)
+        table = gen.gen_table()
+
+        for t in self._trivia:
+            assert t.name is not None
+            table.trivia.add(t.name)
+
+        return table
+
+    def compile_lexer(self) -> LexerTable:
+        """Construct a lexer table for this grammar."""
+        # Parse the terminals all together into a big NFA rooted at `NFA`.
+        NFA = NFAState()
+        for terminal in self.terminals():
+            pattern = terminal.pattern
+            if isinstance(pattern, Re):
+                start, ends = pattern.to_nfa()
+                for end in ends:
+                    end.accept = terminal
+                NFA.epsilons.append(start)
+
+            else:
+                start = end = NFAState()
+                for c in pattern:
+                    end = end.add_edge(Span.from_str(c), NFAState())
+                end.accept = terminal
+                NFA.epsilons.append(start)
+
+        # NFA.dump_graph()
+
+        # Convert the NFA into a DFA in the most straightforward way (by tracking
+        # sets of state closures, called SuperStates.)
+        DFA: dict[NFASuperState, tuple[int, list[tuple[Span, NFASuperState]]]] = {}
+
+        stack = [NFASuperState([NFA])]
+        while len(stack) > 0:
+            ss = stack.pop()
+            if ss in DFA:
+                continue
+
+            edges = ss.edges()
+
+            DFA[ss] = (len(DFA), edges)
+            for _, target in edges:
+                stack.append(target)
+
+        return [
+            (
+                ss.accept_terminal(),
+                [(k, DFA[v][0]) for k, v in edges],
+            )
+            for ss, (_, edges) in DFA.items()
+        ]
--- a/parser/runtime.py
+++ b/parser/runtime.py
@ -292,9 +292,9 @@ class Parser:
        #       accessible in the tree.
        input_tokens = tokens.tokens()
        input: list[TokenValue] = [
-            TokenValue(kind=kind.value, start=start, end=start + length)
+            TokenValue(kind=kind.name, start=start, end=start + length)
            for (kind, start, length) in input_tokens
-            if kind.value is not None and kind.value not in self.table.trivia
+            if kind.name is not None and kind.name not in self.table.trivia
        ]

        eof = 0 if len(input) == 0 else input[-1].end
@ -514,9 +514,9 @@ class GenericTokenStream:
            end = len(self._tokens)

        max_terminal_name = max(
-            len(terminal.value)
+            len(terminal.name)
            for terminal, _ in self.lexer
-            if terminal is not None and terminal.value is not None
+            if terminal is not None and terminal.name is not None
        )
        max_offset_len = len(str(len(self.src)))

@ -539,6 +539,6 @@ class GenericTokenStream:
            else:
                line_part = "   |"

-            line = f"{start:{max_offset_len}} {line_part} {column_index:3} {kind.value:{max_terminal_name}} {repr(value)}"
+            line = f"{start:{max_offset_len}} {line_part} {column_index:3} {kind.name:{max_terminal_name}} {repr(value)}"
            lines.append(line)
        return lines
--- a/tests/test_lexer.py
+++ b/tests/test_lexer.py
@ -11,7 +11,6 @@ from parser import (
    Grammar,
    rule,
    Terminal,
-    compile_lexer,
    dump_lexer_table,
    Re,
 )
@ -372,7 +371,7 @@ def test_lexer_compile():
        )
        BLANKS = Terminal(Re.set("\r", "\n", "\t", " ").plus())

-    lexer = compile_lexer(LexTest())
+    lexer = LexTest().compile_lexer()
    dump_lexer_table(lexer)
    tokens = list(generic_tokenize("xy is ass", lexer))
    assert tokens == [
@ -410,7 +409,7 @@ def test_lexer_numbers(n: float):
            )
        )

-    lexer = compile_lexer(LexTest())
+    lexer = LexTest().compile_lexer()
    dump_lexer_table(lexer)

    number_string = str(n)