概要
[ファイル一覧]で編集対象を選択し、チャンクを編集して申請する迄の手順を記載します。
チャンクの改善方法に悩んだ場合は、以下のページを参照ください。
編集対象を選択
ファイル名を選択する方法とページ単位で選択する方法を記載します。
ファイル名:編集画面で 1 ページ目のチャンクを選択し、編集対象とします。
ページ単位:編集画面で該当ページのチャンクを選択し、編集対象とします。
チャンクを編集後は以下の手順に従って RAG の情報を更新してください
ファイル名を選択
編集したいファイルの[ファイル ID]を選択します。
ページ単位の選択
- ファイル毎に+のアイコンがあるため、クリックして展開します。
- 展開されたリストから編集したい[ページ番号]をクリックします。
チャンク編集画面の操作説明
ページ送り
編集対象のページを[<]、[>]、[直接入力]で変更できます。
チャンクを追加
チャンクを追加する方法が 2 種類あります。
作成したチャンクは、作成した順番にチャンク ID が振られます。
チャンクは${PDFファイル名}_${チャンク ID}の命名規則で登録されます。
1 ページの最大チャンク数は 10 個です。
10 個になると[チャンクを追加]ボタンが消え、チャンクのページ移動(※1)もできません。
※1)1 ページ目に 10 チャンクある状態で 2 ページ目のチャンクを 1 ページ目に移動する場合、移動先に 10 チャンクあるので移動できません
- [+チャンクを追加]をクリックする方法
- [右クリック]で追加する方法
チャンクを編集
- 画面右のタブから、編集したい[チャンク]をクリックします。その後、クリックしたチャンクの内容が、テキストエリアに表示されます。
PDF の文字が見づらい場合は、以下の方法で拡大・縮小ができます。
- ctrl キーを押しながら マウスホイール
- トラックパッド上でピンチイン・アウト
- テキストエリアの内容を修正し「save」アイコンをクリックします。
クロスサイトスクリプティング対策として不正なスクリプトの無害化処理を実施しています。
そのため、記号文字「<」、「>」などは通常の文字コードとして表示されます。
エディタ右上の目のアイコン(プレビューモード)をクリックすることで、入力内容は確認可能です。
チャンクを削除
削除したいチャンクを選択して[右クリック]し、[削除]をクリック
削除機能を使用した場合、残ったチャンク群のIDは新規で採番されます。
すべてのチャンクを表示
今までの一連の流れを[ページ単位]ではなく[すべてのページ]を表示して作業することもできます。
- [すべてのページ]モードにすると時は、下記をクリック
- [ページ単位]に戻すときは下記をクリック
コメント
- コメントを記載する時は下記をクリック
- 手順は以下の URL をご確認ください。
PDF の選択範囲をチャンクに挿入
PDF の文字列をドラッグ > 右クリック > 「選択範囲をエディタに反映」より、選択範囲をそのままテキストエディタに挿入することができます。
選択した範囲のトークン数は[Selected Tokens]に反映されます。
トークン数の確認
作成したチャンクのトークン数を画面上で確認することが可能です。画面赤枠の箇所に、テキストエディタに入力されている文字のトークン数をカウントすることができます。
Q. トークン数が見えると何がいいの?
A. LLM に入力できる文書量は、トークンという単位で上限が決められています。チャンクを LLM の入力可能なトークン数以下で作成することで、LLM 利用の際の以下の問題を回避することができます。
- 意図しない場所で文章が途切れてしまい LLM が正しく文章を理解できない
- 大量のトークンを入力してしまい想定外に料金がかかってしまう
申請
[申請]状態にすることで、作業を確定し、他のユーザに作業内容の確認依頼を出すことができます。
申請の詳細については、こちらをご参照ください。
ファイルとページのステータスに関しては、以下のページを参照ください。
ページ単位
ページ単位で申請します。
申請後、ページに含まれる全てのチャンクが RAG に自動で連携されます。RAG 連携が進んでいる場合、以下のメッセージが表示さます
すべてのページ
[ページ単位]の操作を[すべてのページ]に対して有効にする方法があります。 次の手順で[すべてのチャンク]モードにして実施してください。
申請後、ファイルに含まれる全てのチャンクが RAG に自動で連携されます。RAG 連携が進んでいる場合、以下のメッセージが表示さます
検品
[検品 OK]にすることで、他のユーザの作業内容を承認することができます。
[差戻し]にすることで、他のユーザに作業内容を否認することができます。
検品の詳細については、こちらをご参照ください。
ページ単位
ページ単位で[検品 OK]にする方法
ページ単位で[差戻し]する方法
すべてのページ
[ページ単位]の操作を[すべてのページ]に対して有効にする方法があります。 次の手順で[すべてのチャンク]モードにして実施してください。
チャンク編集画面での精度検証
チャンク編集画面で、精度検証の実行、QAの新規登録・編集・自動生成などを行うことが可能です。
詳細はこちらをご覧ください。