=====Oracle Text 12c CTXRULE Indexe - Mit Abfrageregeln Dokumente klassifizieren ====
**Verfügbar ab Oracle 9.0.1 - getestet mit Oracle 12c R1**

Einführung in Oracle Text => [[dba:oracle_text|Oracle Text - Volltext Suche über Text Dokumente]]

Der CTXRULE Index wird verwendet um in Systemen, die aufgrund von Regeln Dokumente verteilen sollen, das entsprechende Regelwerk aufzubauen. Auf Basis einer Volltext Suche wird dabei das Dokument entsprechenden Klassen zugeordnet.

{{ :dba:oracle_text:oracle_text_ctxrule_index_v01.png |Der Oracle Text CTXRULE Index}}


Der Vorteil liegt darin, dass nicht das eigentliche Dokument zuvor indiziert werden muss, sondern "on the fly" eine Basis von Regel auf dem Dokument angewendet werden.

Allerdings muss der Inhalt des Dokuments dazu schon als Text (VARCHAR2 oder CLOB) vorliegen, dem [[https://docs.oracle.com/database/121/CCAPP/GUID-E330ED1C-CEEF-4433-B0A2-7ACB39763053.htm#CCAPP9143|"Match"]] Operator des CTXRULE Index wird dieser Text übergeben und über ein Regelwerk auf Basis der Regeln in einer Tabelle überprüft.


Übersicht:

  * Verfügbar ab der Version 9.0.1
  * Klassifizierungsregeln auf der Grundlage von Oracle Text Queries
  * Indiziert werden die in einer Tabelle gespeicherten Queries
  * Klassifiziert Dokumente nach dem Inhalt (anhand der Query), z.B. nach Ressorts wie Sport, Politik, Wirtschaft, etc.
  * MATCHES Operator überprüft die Dokumente anhand der definierten Regeln zu, gilt nur beim CTXRULE Index
    * Ist der Score > 0 trifft die Regel zu
  * Das zu prüfende Dokument:
      * Ist selber nicht notwendiger Weise bereits indiziert
      * Wird geparsed, wenn MATCHES aufgerufen wird
      * Muss nicht in der DB gespeichert werden, muss aber als VACHAR2 oder CLOB übergeben werden können

Ablauf:

  * Anlegen einer Tabelle, in der die Regeln für die Dokumenten-Klassifizierung gespeichert werden
  * Erstellen der Regeln
    * Eigendefinierte Regel über SQL Inserts oder [[https://docs.oracle.com/database/121/CCREF/cclspkg.htm#CCREF2097|CTX_CLS.TRAIN]]
    * Alternativ - Bekannte Dokumente als eine Art Vorlage für ein Regelwerk verwenden
      * Siehe  dazu auch in der 12c Dokumentation [[https://docs.oracle.com/database/121/CCREF/cclspkg.htm#CCREF2097|Supervised Classification]]
  * Anlegen des CXTRULE-Indexes
  * Verwendung des MATCHES-Operators, um die Dokumente zu klassifizieren


----

==== CTXRULE Index Anlegen ====

Regel Tabelle anlegen:

<code sql>
CREATE TABLE DOCUMENT_RULES (
	  id           NUMBER(9) PRIMARY KEY
	 ,category     VARCHAR2(30)
	 ,query        VARCHAR2(2000)
)
/ 
</code>


Regeln in der Tabelle hinterlegen, dafür können die folgenden Operatoren verwandt werden: ABOUT, AND, EQUIVALENCE, NEAR, NOT, OR, PHRASE, STEM, WITHIN

Beispiel:
<code sql>
INSERT INTO DOCUMENT_RULES VALUES(1, 'Big data'   , 'nosql and database');
INSERT INTO DOCUMENT_RULES VALUES(2, 'Java'       , 'ABOUT(Java)');
INSERT INTO DOCUMENT_RULES VALUES(3, 'Python'     , 'ABOUT(Phyton)');
commit;
</code>

Alternativ kann auch über bestehende, bereits qualifizierte Dokumente mit [[https://docs.oracle.com/database/121/CCREF/cclspkg.htm#CCREF2097|CTX_CLS.TRAIN]] ein Regelwerk aufgebaut werden.


Index auf die Regel Tabelle erstellen:

<code sql>
CREATE INDEX idx_ctx_doc_rules  ON DOCUMENT_RULES(query) 
     INDEXTYPE IS ctxsys.CTXRULE;
</code>

Mit dem Match Operator einen Text abfragen und die entsprechende Regel erkennen:
<code sql>
select category
 from DOCUMENT_RULES
where MATCHES(query, 'This text is about nosql and database')>0 
/

CATEGORY
--------
Big data

</code>


----

====Dokumente damit klassifizieren====

Wie gesagt können nur Dokumente überprüft werden die auch als Text im Format VARCHAR2 oder CLOB vorliegen.

In unseren Fall liegen die Dokumente aber noch auf Disk und werden über eine BFILE Pointer Datentyp referenziert.

Die Dokumententabelle sieht prinzipiell daher so aus:

<code sql>
-- 
 CREATE TABLE DOCUMENTS( id NUMBER(11)
..
                        , FILEPOINTER BFILE
                      );
</code>

Um die erhaltenen Informationen aus den angewandten Regeln speichern zu können legen wir eine Tabelle für die Klassen der Dokumente an:
<code sql>
CREATE TABLE document_classes ( id NUMBER(11)
                        , doc_id number(11)
                        , category VARCHAR2(2000)
                      )
/                      
-- sequence for the pk
create sequence document_classes_seq
/
</code>

Über die in der Regel Tabelle „document_rules“ hinterlegten Abfragen werden die Dokumente dann klassifiziert.

=== BFILE Dokumente für die Verarbeitung vorbereiten===

Hier ein Beispiel für das Auslesen BFILES als BLOB und wandeln mit Oracle Text nach CLOB, erst dann kann die entsprechende Klassifizierung erfolgen:
<code sql>

-- Oracle Text Policy für das Filtern on the fly anlegen
begin

  ctx_ddl.create_preference(preference_name => 'fast_filter'
                          , object_name  => 'AUTO_FILTER');
  
  ctx_ddl.set_attribute(preference_name  => 'fast_filter'
                      , attribute_name   => 'OUTPUT_FORMATTING'
                      , attribute_value  => 'FALSE');
  
  ctx_ddl.create_policy(policy_name      => 'GPI_FAST_POLICY' 
                      , filter           => 'fast_filter');
end;
/
 
-- read the data and classify

declare
 -- The id of the test document
  v_doc_id number:=5541;
  v_doc_text clob;
  v_file_doc bfile;
  v_blob_doc blob;
  v_amount   integer := 32767;
  v_position integer := 1;
  v_buffer raw(32767);
begin
  -- read the bfile from the database
  select filepointer
  into v_file_doc
  from documents
  where id = v_doc_id;
  
  -- create a temporary CLOB to hold the document text
  dbms_lob.createtemporary(v_blob_doc, true, dbms_lob.session);
  
  -- read the bfile to the blob
  dbms_lob.open(v_file_doc, dbms_lob.lob_readonly);
  loop
    begin
      dbms_lob.read(v_file_doc, v_amount, v_position, v_buffer);
    exception
    when no_data_found then
      exit;
    end;
    dbms_lob.writeappend(v_blob_doc, v_amount, v_buffer);
    v_position := v_position + v_amount;
  end loop;
  dbms_lob.close(v_file_doc);
  
  -- call ctx_doc.policy_filter to filter the BLOB to CLOB data
  ctx_doc.policy_filter('GPI_FAST_POLICY', v_blob_doc, v_doc_text, false);
  
  -- now do the matches query using the CLOB version
  for rec in
  (select * from document_rules where matches(query, v_doc_text)>0
  )
  loop
    -- add results to the document class table
    dbms_output.put_line('-- Info : found ::'||rec.category);
    insert into document_classes
      (id,doc_id,category
      ) 
      values
      (document_classes_seq.nextval,v_doc_id,rec.category
      );
  end loop;
  dbms_lob.freetemporary(v_blob_doc);
end;
/
</code>

Je nach Anforderung in der Software kann nun diese Logik in einen Trigger auf der eigentlichen Dokumenten Tabelle oder über einen Job (zum Beispiel beim Laden der Dokumente) implementiert werden.

----

==== Quellen ====

Oracle Dokumentation:

  * https://docs.oracle.com/database/121/CCAPP/GUID-D694A98B-3B18-48B2-B10E-FB884B436FAF.htm#CCAPP0600

Oracle HowTo:

  * http://www.oracle.com/webfolder/technetwork/tutorials/obe/db/12c/r1/appdev/text/CreateIndexes/CreatingTextIndexes.html


Bfile und Match
  * https://docs.oracle.com/database/121/CCAPP/GUID-13DDFE35-13E6-4885-B175-EA4A7207A540.htm
  * http://stackoverflow.com/questions/12263816/function-in-pl-sql-for-reading-bfile-into-blob-dont-show-the-result