対話型AIを使う上で意識したい「GPTのトークン長」とは何か?

何も考えずに優れた回答をしてくれる対話型AIですが、実は「GPTのトークン長」が回答の精度に大きく影響します。GPTのトークン長とは何か?使う上で意識したいポイントを解説します。

公開日: 2023.4.20

GPTトークンとは?

GPTトークンとは、GPT言語モデルが入出力を表現するために使用するテキストの単位です。

GPT言語モデルはトークンを使って単語やフレーズ間の統計的な関係を学習し、学習済みのテキストに類似した新しいテキストを生成します。

Chat GPTなどの対話型AIでは、AIの性能によってトークン長(GPTが文脈を意識できる過去の単語数)が異なります。

GPTトークンの種類

GPTがトークン化する際に使われるのは主に下記の3種類です。

  1. スペース区切りのトークン化
  2. 句読点や記号のトークン化
  3. 文字単位でのトークン化

それぞれの違いは以下の通りになります。

トークン化の種類|説明|長所|短所 |:---|:---|:---| スペースデリミタによるトークン化|トークンはスペースで区切られる。シンプルで実装しやすい。 特に長い単語を持つ言語では、過剰なセグメンテーションになる可能性がある。 句読点と記号によるトークン化|トークンは句読点と記号で区切られる。スペース区切りのトークン化よりも正確だが単語が分割されてしまうなど、課題も多い。 文字単位でのトークン化|各文字がトークンになる。時間や計算が非常にかかる。

GPTの「トークン長」とは?

トークン長は、GPTが回答を生成する際に参照するトークンの長さ、数です。

GPTが回答をする際には、適切な回答を生成するために過去の会話を参照しますが、回答を生成する際に設定されたトークン長を超える過去の単語は参照しないことがあります。

そのため、長い会話の場合は、直前の数回の会話だけが参照されることがあります。

つまり、同じ質問、会話であれば、GPTのトークン長が長いほど、過去の会話を十分に理解した上で回答を生成するため、回答の精度が高くなります。

GPTトークン長にカウントされるもの

GPTトークンは一般的に単語ですが、GPTがトークン長をカウントする際には、句読点、数字、その他のシンボルを基準にすることもあります。

対話型AIで人気のChat GPTでは英語でも1単語で1トークンとしてトークン長をカウントさし、カンマやピリオド、クエスチョンなどの記号も1トークンとしてカウントされます。

一方で、日本語の場合は、ひらがなは1トークン、漢字は2、3トークンにカウントされます。

GPTトークン長がなぜ重要性なのか?

単にトークン長を大きくするだけがモデルの性能向上につながるわけではありませんが、トークン長はモデルの性能に影響を与える重要な要素の一つです。

トークン長が増えることで、文脈を考慮した生成が可能になるため、より自然な文の生成が可能になります。

例えば、Chat GPTではGPT-3.5ではトークン長が4097なのに対して、GPT-4は3万2768と8倍近く増えており、より自然でよりユーザーの意図を汲み取った回答をするようになっています。

対話型AIを使う上でのGPTトークン長の意識の仕方

では、実際に対話型AIを使う上でトークン長をどう意識すべきかというと、「AIが入力内容をどこまで遡って生成しているのか?」という判断材料になるということです。

GPTモデルは過去のトークンを参照して次のトークンを生成します。その際に、過去のトークンの重要性に応じて、適切な長さの文脈を考慮しますが、入力の一部が切り捨てられたり、過去の履歴が参照できなくなることで、回答が不適切になる可能性はあります。

一方で、トークン長が短い(命令が短い)場合は、GPTモデルが適切な回答を判断する材料が少なく、逆に望んだ回答を得られなくなる可能性も出てきます。

また、「GPTが、これまでの会話のどこまで参照するのか?」というのも重要なポイントです。例えば、一度間違った内容を入力した際、GPTは新規の入力だけで過去の入力を考慮した上で回答をしてしまうため、新規の入力とは関係のない回答をする場合があります。

この場合は、新規の会話を作成して命令し直すなど、一度過去の内容を参照しないように命令をするなどの工夫が必要です。

このように、対話型AIが「どれくらいの長さの文章であれば理解できるのか?」という判断をする上で、GPTトークン長を意識して命令を入力すると、対話型AIより活用することが出来ます。

新着記事