architectures.transformer¶

Functions

onehot_tokens(inp, d_vocab)

Classes

`Attention`(d_k[, n_heads, label, eps, dtype])
`Decoder`(d_vocab, n_heads, d_model, d_k, d_v, ...)
`DecoderLayer`(n_heads, d_model, d_k, d_v, ...)
`Embedding`(d_vocab, d_model[, dtype])
`Encoder`(d_vocab, n_heads, d_model, d_k, d_v, ...)
`EncoderLayer`(n_heads, d_model, d_k, d_v, ...)
`MultiHeadAttention`(n_heads, d_n, d_k, d_v, ...)
`Transformer`(enc_tokenizer, dec_tokenizer[, ...])

pygrad